F21 Regressionsanalys, diagnostik och modellval

Storlek: px
Starta visningen från sidan:

Download "F21 Regressionsanalys, diagnostik och modellval"

Transkript

1 F Regressionsanalys, diagnostik och modellval Kap Modelldiagnostik, forts Residualanalys Vanliga residaler: e i =y i ŷ i =y i ˆβ +ˆβ i Residualanalys: Residualerna skattar ju slumptermerna varpå modellantagandena vilar. Hur kan vi verifiera att antagandena är uppfyllda? Outlieranalys: Etrema observationer som antingen uppvisar etremt stora residualer eller har ett starkt inflytande på skattningarna, eller både och. Kollinearitet: Hur samvarierar prediktorvariablerna? Är detta ett problem? Standardiserade residualer: Studentiserade residualer: r i = Jackknife residualer: z i = e i S e e i z = i S e hi hi r ( i) = e i S ( i) hi Sakkunskap: Vad är det jag analyserar? Hur har data samlats in? Vad är troliga värden? Observera! Olika namn på samma saker: Kleinbaum et al residuals standardized studentized jackknife Minitab residuals (finns ej, får man skapa själv) standardized studentized eller deleted t residuals Plottas ofta mot de anpassade värdena ŷ i men även mot varje prediktorvariabel för sig. e e Indikationer på om modellantagandena håller eller inte får vi framförallt genom att studera plottar över residualerna. Uppfyller villkoren? e X Mönster ska inte finnas! Kvadratiskt term verkar här! e X X tid Ej lika varians för alla X! Tidsberoende! (Minitab: Residuals v. Order)

2 Histogram över residualerna: Den empiriska fördelningsfunktionen med en normalfördelning. Är avvikelsen stor? Empirical CDF of Residuals Normal Mean,8 StDev,8 N 8 Normalfördelat? Normalfördelat? Percent 6 Plottar och histogram kan vara svåra att bedöma, medför ett subjektivt element e Alternativ är kvantitativa mått och test. Probability plot. Är avvikelsen stor? Korvar den sig runt linjen? Probability Plot of Residuals Normal Percent Mean,8 StDev,8 N AD,76 P-Value, e Normalfördelningstest Tre tillgängliga i Mintab. - Anderson-Darling - baserat på den empiriska fördelningsfunktionen. -Smirnov-Kolmogorov-baseratpåχ -test. - Ryan-Joiner(Shapiro-Wilks)- baserat på korellationer. TestenharsomnollhypotesH attobservationernaär normalfördelade. FörkastaH vidlågap-värden. Notera dock att de kan vara väldigt känsliga för outliers, särskilt vid små stickprov. Test för tidsberoende Runs-test, ett icke-parametriskt test, inga modelantaganden görs(se Hogg&Tanis sid 8-87) Låte i betecknaresidualernaidenordningdeärarrangerade efter(e tid). BetecknamedAome i >ochuome i <ochskriv ned sekvensen av alla A och u. Räkna sedan antalet runs dvsgrupperavarespu: uuuu A uu AAAAA runs här. Ser inte slumpmässigt ut! Fler negativa residualer(u) i början av serien. AuAuAuAuAuAu runshär. Serdetmerslumpmässigtut? För att det ska fungera i Minitab (som använder en normalapproimering) rekommenderas ett minimum av avvarderaaochb.mintab-kommando: RUNSC.

3 Autokorrelation, studera sambandet mellan närliggande residualer i termer av korrelation. Kan testas med Durbin-Watson test(finns i Minitab, Regression > Options) Test för lika varians(homoskedasticitet) Finns några (se sid 7). Förutsätter (ibland) flera observationer per observerat -värde. y C C e e e e. e. e n e n e n e n iminitab: LAGCC CORRCC Enkelt alternativ: studera rangkorrelationen mellan e i och i dvs Spearmans rangkorrelationstest från grundkursen. Omdennaärstörreänettkritisktvärde(frånentabell) förkastas nollhypotesen att rangkorrelationen är, vilket motsvarar idén att storleken på en residual inte beror på. Detta kommer att användas i större omfattning på momentet Tidsserieanalys. Eempel) Vi får följande: Residuals vs X Residuals vs X 6 Residual - Residual och plottar vi sedan rangerna för residualerna mot rangerna förx fårvi Rank e Rank e vs Rank X Outlieranalys Outlier = etrem observation som ligger långt utanför det område där de flesta övriga observationerna befinner sig. Rank X Residualer, e - Rangkorrelationen blir i detta fall.6; detta är större än det kritiska värdet.77 (α = %,n=8); alltså finns det samband mellan storleken på e i och storlekenpå i,dvsdetärintehomoskedastiskt. - - Anpassade värden, y-hat Stor residual? Stort inflytande? Outlier; antingen i prediktorrummet eller som stor residualellerbådeoch. Närärdettillräckligtlångtbortresp för stort, när ska man reagera? Man vill mäta leverage och inflytande(influence) Tremått(iKleinbaumetal.) -Leveragemått h i -Cooksavståndsmått d i -Jackkniferesidualer r ( i)

4 Leveragemåtteth i är ett avståndsmått i prediktorrummet, mäter hur långt bort den i:te prediktorpunkten befinner sig från centrum, dvs avståndet mellan ( i, i,..., ik ) och (,,..., k ) jämförmedfigurovan. Typisktberäknash i mhadator, kräver matrisalgebra. Vid enkel linjär regression(med en prediktor) kan det visas att h i = n + ( i ) (n )s Egenskaper allmänt med k prediktorer: n h i (ommanharettinterceptimodellen) k+ hi =k+ h= n Omh i liggernäraettinnebärdettaattdeni:teobservationen har tvingat in modellen nästan genom punkten ( i,y i ). Approimativt ska ett histogram över h i na påminnaomenχ -fördelning. Tumregel: se upp för observationer där Cook savståndd i h i > (k+) n är ett inflytandemått. Hur mycket påverkas skattningen av regressionskoefficienterna om den i:te observationen tas med/tas bort? Om prediktorerna har medelvärde =, samma varians ochärokorreleradegällerattd i ärproportionellmot k j= (ˆβj ˆβ j( i) ) därˆβ j ärskattningenmedallaobservationerochˆβ j( i) är skattningen med den i:te borttagen. Allmänt gäller att e d i = i h i (k+)s e ( h i) = r i h i (k+)( h i ) > dvsd i ärpositivtmenejbegränsatuppåt. d i kanalltså vara stor pga att observationen är etrem i prediktorrummet eller för att den får en stor studentiserad redsidual. Approimativt är d i F(k,n k ) Tumregel (möjligen otillförlitlig): se upp för observationerdärd i >.(sesid). Tabell A- i Kleinbaum et al ger kritiska värden för den största av samtliga observerade d i, dvs mad i, förnobservationerochkprediktorer(egentligend i antalet frihetsgrader). Om man observerar mad i som är större än tabellvärdet = reagera! Jackkniferesidualer e i : resdual,avståndmellanobserveratochpredicerat s ( i) : jackknife-skattningavσ ε h i : leverage,måttpåavståndetmellandeni:teprediktorpunkten och centrum Jackknife-residualen sammanför dessa tre mått: r ( i) = e i s ( i) hi Testaomr ( i) ärsignifikantskiltfrånnoll,t-fördelat medn p frihetsgrader. Obs!Vikantestanstyckenh i,d i ochr ( i),mendetta kräver justering av signifikansnivån, se sidorna 9- och s.k. Bonferroni-korrektion.

5 Residualanalys och olika inflytande mått är indikatorer på besvärliga/konstiga observationer. I Minitab: Som en övning kan ni, via Storage-knappen väljaattsparadeolikamåttengenomattklickairesp bo. Vi kommer alltid att observera en största residual, leverage och Cook s mått osv. Attblintförlitasigpåkvantitativamåttärinteatt rekommendera. Vi kan alltid indentifiera outliers och eventuellt ta bort dessa från analysen, men med största försiktighet! Vadmanskafrågasigärvarförengivenobservation är etrem. Föreligger det mätfel? Datainsamlingsproblem? Är de observerade värdena omöjliga, otroliga eller bara lagom etrema? Sedankanniundersökadessagenomteattskapahistogram, DESC-kommandot, osv. Ienkellinjärregressionkannisenågotintressantomni plotttarh i motprediktorvariabelnx.vadberormönstret på? Manmåstevetanågotombakgrundenochförutsättningarna för analysen! Multikollinearitet SambandmellanprediktorernaX,X,...,X k Ett eempel med två prediktorer, Y i =β +β X i +β X i +ε i Det kan visas att skattningarna kan skrivas som ( ) ˆβ j =c j r, j=, därc j ärenkonstantsomberorpådataochr är korrelationenmellanx ochx. Antag att i = i. Då är r = och om vi skattar regressionsmodellen får vi ( ) ˆβ j =c j =? Koefficienternaˆβ,ˆβ ochˆβ kanejbestämmasentydigt! Dessutomärvariansskattningarnaför ˆβ j proportionella mot inflationsfaktorn / ( r ) och osäkerheten i skattningarna ökar! Det uppstår problem om en prediktor kan skrivas som en linjärkombination av de övriga, te X =γ +γ X +...+γ k X k Att kvantifiera och bedöma kollinearitet rör endast prediktorerna, ej responsvariabeln Y. Antag att man har k stycken prediktorer i modellen. Skatta alla k modeller som kan formuleras med den j:te prediktorn som responsvariabel och de övriga k som prediktorer: : X =α +α X +...+α k X k : X =α +α X +α X...+α k X k. k : X k =α k +α k X +...+α k(k ) X k För varje sådan modell får vi ett R -värde,betecknat Rj avseendeprediktorj. VadmäterR j? Variation Inflation Factor (VIF) VIF j = R, j=,,...,k j

6 Om R j så gäller att VIF j. Alternativt definieras toleransen VIF j = R j Tumregel: seuppomvif j >. I Minitab: via Options-knappen, klicka för boen Variance inflation factors och studera sedan utskriften. (LäsävendiskussionenomVIF,dvsförinterceptet, sid -, men skippa fortsättningen sid -.) Problem med multikollinearitet kan ofta uppstå i samband med Polynomregression(kap) och modeller med Samspelstermer(kap ). Eempel med polynomregression på sidorna 9-. Modellen µ Y X =β +β X+β X kangeproblemomx ochx ärstarktlinjärtkorrelerade i data. Centrera istället enligt ovan och skatta modellen µ Y X = β +β W +β W ( X X = β +β ) +β ( ) X X Eempel med samspelstermer, se datorövning -. Skippa sidorna 6- dock ej avsnitt -9. En metod som kan reducera multikollinearitet är att centrera observationerna runt respektive medelvärde, dvsförvarjeprediktor(j =,...,k)ochobservation (i=,...,n)beräknas W ij =X ij X j som får ersätta de ursprungliga observerade värdena. Kap6AttVäljaBästaModell. Definiera en maimal modell allatänkbaraprediktorer: X,X,... potenseravprediktorer: X,X,... ev. transformationer: lnx, /X,... samspelstermer: X X,X X,... kontrollvariabler och deras ev potenser, transformationer, samspelstermer... Problem med överanpassning (overfitting), dvs att ta medsådantominteingåriden sanna modellenmedför inte bias. Däremot ev. problem med multikollinearitet. Även möjliga problem med antalet frihetsgrader(df = n q ). Omdf =såblirr =ävenomdeti populationenärsåattr =. Tumregel i boken: minst observationer per prediktor (även potenser, samspelstermer etc). Även tolkningsproblem med alltför stora modeller(kom ihåg Occam s razor).. Definiera kriterium för val av modell Modellvalskriterium som kan beräknas för varje modell vianalyserar/skattardvsettindeattjämföramodeller med varandra. Fyrabehandlasiboken: R p,f p,mse p ochc p Utgå ifrån en jämförelse mellan två modeller, en full (maimal) och en mindre(reducerad): β +β X +..+β p X p +β }{{} p+ X p+ +..+β k X k reducerad modell, p pred }{{} maimal modell, k st prediktorer

7 R k jämförtmedr p,andelförklaradvariation tenderarattöverskattasantr flerprediktorer högrer R k alltidstörreänr p alternativ: R adj F p dvs F-kvoten från multipelt partiellt F-test (ekv. (6.)) F p = [SSE(reducerad) SSE(full)]/(k p) SSE(full)/(n k ) MSE p dvsskattningen ˆσ Y X =ˆσ ε =SSE(reducerad) n p Vi vill ha en modell med liten slumptermsvarians. Hur ska man jämföra modeller? Mallow sc p definieras(ekv. (6.6)) C p = SSE(reducerad) MSE(full) (n (p+)) OmMSE(reducerad) MSE(full)såblir C p p+ OmC p >p+såfinnsdetförmodligenutrymme förflerprediktorer,omc p <p+harniförmodligen överanpassat modellen. Kriterier baserade på informationsteori, te Akaike Information Criterium AIC=nlogMSE+p Schwartz Bayesian Criterium SBC=BIC=nlogMSE+plogn straffar för stora modeller och belönar stora minskningar i osäkerhet(residualvarianser) närmanjämförvärdenärdetbättremeddet mindre. Definiera en strategi för val av variabler Jämför alla möjliga modeller Många prediktorer ännu fler modeller E) p prediktorer ger(med bara huvudeffekter) ( p) ( p) ( p) ( p) = p p olika modeller att skatta och analysera! Byggauppfråntommodell. Skatta tom modell. Givet modellen, vilken enskild prediktor bör läggas till? Kriterium: F-test.. Läggtilldenna. Skattautökadmodell,gåtill. Reducera en full modell. Skatta full modell. Vilkenprediktorkantasbortutanattdetförsvinner en stor andel förklarad variation? Kriterium: F-test.. Tabortdenna. Skatta reducerad modell, gå till. Stegvis regression(minitab: Stepwise) variant av de två oföregående, välj själva om ni vill börja uppifrån eller nerifrån i varje steg analyseras om en prediktor man tidigare slängde bort borde tas med igen alternativtensomtidigaretogsmednubörslängas bort iminitabangeskriterierförattlägga tillresp ta bort

8 Minitab dialogfönster för kriterier (Methods-knappen) med stegvis regression:. Validering, bedömning av modellens tillförlitlighet Om modellen lyckas predicera nya observationer bra så är det en tillförlitlig(reliable) modell. Hur ska man bedöma detta innan man får nya observationer? Split-sample metoden: Delauppmaterialetitvå(ellerflera)grupper. Genomför analysen Identifiera modellen och skatta den genom att använda en grupp Närmanvälharbestämtsigförenmodellskaenmer fullständig analys genomföras (residualanalys, outlieranalys enligt tidigare) Predicera nya Y-värden, dvs Y, med prediktorvärdena från den andra gruppen. BeräknaprediktionsfeletdvsY Ŷ ochdessvarians Kom ihåg, arbetsgången är ofta en iterativ process:. Postulera en modell inkl antaganden Parameterskattning, använd data Verifiering av modellen test, diagnostik Modellen accepterad använd modellen Ny eller modifierad modell Modellen håller inte, förkastas

9 y y F Regressionsanalys forts och Logistisk regression Antag att man börjar med enkel linjär regression. Kap Polynomregression Emellanåt upptäcker man samband som är kvadratiska, kubiska osv. Allmänt: polynom av k:te ordningen Y =β +β X+β X +...+β k X k +ε där(som tidigare) ε iid N (,σ ) ε tillsammans med övriga antaganden(vilka är dessa?). Ett antagande måste dock ändras. Vilket? Typisk indikation på att man gjort fel ska man se i mönstret som uppstår i residualplotten: Residual,,,, -, -, Modellen uttryckt i termer av betingat väntevärde -, µ Y X =β +β X+β X +...+β k X k Alltså anpassa istället en kvadratisk modell till data! MK-skattningen går till precis som förut, vi minimerar nu Q= ( yi β +β i +β ) i Vi vill alltså minimera summan av de kvadrerade avståndentilllinjensomnuärenkvadratisklinje. 6 Residualer: e = y - ^ ^ ^ ^ y = y - b - b - b Resultatet blir som vanligt en ANOVA-tablå: Analysis of Variance Y =, -,7 X +,9 X Predictor Coef StDev T P Constant,,69 6,9, X -,78,6 -,78, X,9,6 7,76, S =,7 R-Sq = 9,7% R-Sq(adj) = 9,9% Betrakta somenetraprediktorvariabelprecissom vanligt i multipel linjär regression. IMinitab:sägattY liggericochx ic. Analysis of Variance Source DF SS MS F Regression 9,7 9,6, Residual Error,,6 Total,678 Analysis of Variance Source DF Seq SS X 9,8 X 9,7 Kommando: MTB> LET C=C** Anger sedan C och C som prediktorer i dialogrutan.

10 Y Y Inferensen går till precis som förut:. MSR/MSE F(,n ), overalltestför modellen som helhet. SSR(X) / MSE(X) F(,n ), test för enbart X (först in, enkel linjär modell) LackofFittest Beskrivspåsid9-9. Oftaisambandmedjustpolynomregression. I Minitab: i Regressionsfönstret, klicka på Options-knappen ochunder LackofFitTests väljantingen PureError omniharreplikatdvsfleraobservationerperxvärde eller Data subsetting om ni inte har det... SSR(X X) MSE(X,X F(,n ), partielltf-testför ) X givetx SSR(X,X Z)/ MSE(Z,X,X F(,n ), multipeltpartielltf-testförx ochx ) givetnågotz. E) Anpassning till en linjär modell verkar inte vara rätt här: Fitted Line Plot Y =,6 +,7 X S,79 R-Sq 6,9% R-Sq(adj),% X. och motsvarande ekvivalenta t-test...(sist-in-test) Resultatet i Minitab: Possible curvature in variable X(P-Value=,) Possible lack of fit at outer X-values(P-Value=,) OveralllackoffittestissignificantatP=, Anpassning till en kvadratisk modell verkar bättre Fitted Line Plot Y = -,7 +, X -, X** S,68 R-Sq 96,9% R-Sq(adj) 96,7% E)AntagattfemvärdenpåXobserverasenligtnedan. Insättning av en kvadratisk term i modellen ger X..... X Corr ( X,X ) =.989 VIF =.989 =.7 X IMinitab: Noevidenceoflackoffit(P>=,). X Vadmanskatänkapåärattdetkanbliproblemmed multikollinearitet! Hurskamanlösadetta? X Boken ger en lång beskrivning av sk ortogonala polynom som kan användas för att skapa nya prediktorer med en mängd trevliga egenskaper men det är alldeles förmycketfördenhärkursen!

11 Enklare metod som fungerar alldeles utmärkt med kvadratiska samband är centrering runt medelvärdet, dvs skapa följande nya prediktorer, X =( X X ) och X =( X X ) Effekten av denna enkla transformering kan illustreras med eempelt ovan: X..... X =( X X )..... X =( X X )..... Corr(X,X )= VIF = = Ny plott X*,,8,6 AnvändX ochx iskattningenavmodellenochvi får Ŷ =ˆβ +ˆβ ( X X ) +ˆβ ( X X ) vilket kan skrivas om enligt Ŷ = (ˆβ ˆβ X+ˆβ X ) + }{{} =ˆβ + ˆβ }{{} X =ˆβ (ˆβ ˆβ X ) X }{{} =ˆβ dvs de skattningar man skulle få utan att centrera! Dettaärettenkeltsättattbliavmedett självförvållat problem! Svårare däremot att bli av med multikollinearitetsproblem vid polynomregression av högre ordning, särskilt med udda potenser (X,X ), se sid 99.,,, -, -,, X*,, Kap Dummyvariabler E)X=kön Hittills har vi haft kontinuerliga prediktorer X. Ofta har man kategoriska prediktorer (nominal- el ordinalskala). Alt. : Modellen skrivs X= { man kvinna E) X=manellerkvinna X=sockerpillerelMedicinAelMedicinB X = kallt, ljummet, varmt X=Saab,Audi,Volvo,Toyota,... För att hantera detta används dummyvariabler! Annat namn: indikatorvariabler. Y =β +β X+ε vilket är ekvivalent med { β +ε man Y = β +β +ε kvinna Tolkningen är β ärväntevärdetiy förmän β ärförväntadeskillnadenmellankvinnor och män En dummyvariabel antar typiskt värdena eller och konstrueras så att man kan identifiera vilken kategori detärfråganom.

12 Alt. : Modellen skrivs X= { man kvinna Y =β +β X+ε vilket är ekvivalent med { β β Y = +ε man β +β +ε kvinna Tolkningen är β ärhalvaförväntadeskillnadeniy mellan kvinnor och män β ärväntevärdetiy förbådatillsammansförutsattattmänochkvinnoräreaktlikamånga Om man har en kategorisk prediktor X med k olika kategorier behövs(k ) st dummyvariabler. Det fungerar inte att utöka med ytterligare en nivå för dummyvariablen, te socker X= medicina medicinb En ökning i X från till blir meningslös! Vi vet välinteomskillnadenmellansockerochmed.bärtvå gånger skillnaden mellan socker och med.a? Ej ekvidistans! Kanske inte ens en ökning! Inför ytterligare en dummyvariabel: X = { ejmedicina medicina X = { ejmedicinb medicinb Tre möjligheter (, ) socker (X,X )= (,) medicina (,) medicinb Vi kan identifiera vilken behandling det är frågan om. Modellen Y =β +β X +β X +ε ger β +ε socker Y = β +β +ε medicina β +β +ε medicinb Tolkning av koefficienter: β :väntevärdetiy efterbehandlingmedsocker β :förväntadskillnadiy mellanmedicinaochsocker β :förväntadskillnadiy mellanmedicinbochsocker Bakgrunden ovan är ett kontrollerat eperiment där manfårettavtremöjligapreparat. Om man kan kombinera preparat, dvs om både medicin A och B kan ges samtidigt, kan det finnas anledning till att ta med samspelseffekter: Y =β +β X +β X +β (X X )+ε ger β +ε socker β Y = +β +ε medicina β +β +ε medicinb β +β +β +β +ε medicina&b

13 AntagattviharenprediktorXmedtvånivåer,X=A ellerb.viskattarmodellen,dvsparametrarnaβ och β. Inferens: H :β = mot H :β Testvariabeln är som tidigare T = ˆβ Sˆβ t(n p ) Detta test är ekvivalent med testet att tjämföra väntevärden i två populationer H :µ A =µ A mot H :µ A µ B med antagande om lika varians. Två pop.modell Regr.modell Y A N ( µ A,σ ) Y A =β +ε Y B N ( µ B,σ ) Y B =β +β +ε där ε N (,σ ).Ekvivalensenäruppenbargenom attinseatt Man kan givetvis utöka modellen och ta med vanliga kontinuerliga prediktorer. Vadsomärintressantärfrågoravtypen: Är det samma lutning på regressionslinjen i de olika grupperna? Är det samma intercept? y y Kom ihåg att använda en multiplikativ samspelsterm! y y µ A =β resp µ B =β +β MetodI(sid7avsnitt-8) Två separata modellskattningar för olika grupper(sid avsnitt -7): Y A = β A +β A X+ε Y B = β B +β B X+ε dvs gör två regressionsanalyser, en för varje grupp och jämför resultaten mellan grupperna/modellerna. Kräver en del ytterligare beräkningar, te poolade variansskattningar (se sid ) eftersom ett av antagandena är att slumptermsvariansen är lika mellan grupperna. Krångligare kan man tycka men ibland har man inte tillgång till rådata, endast färdiga resultat som publicerats. E)EnundersökningiSpanienfinnsredovisadienartikel och man upprepar undersökningen i Sverige. Finns det skillnader? Vilka? Metod II En modellskattning med allt-i-ett (sid 7 avsnitt - 8): Y =β +β X+β Z+β XZ+ε där Z är en dummyvariabel som anger grupptillhörighet. Detta ger A : Y =β +β X+ε B : Y =(β +β )+(β +β )X+ε För att avgöra vilken av de fyra situationerna som gäller körmanpåmeddenvanligainferensen,dvstesta resp H :β = mot H :β H :β = mot H :β Detta alternativ verkar enklare och vettigare än alternativ I, peta in allt och gör en stor allt-i-ett analys. Mensomsagt...

14 Boken redogör för varje tänkbart test som kan göras förrespektivemetodiochii. test för lika intercept testförlikalutning test för att regressionslinjerna sammanfaller Kap + KD s häfte, Logistisk regression Eempel på icke-linjär regressionsmodell. ()BörjamedenkellinjärregressiondärY ärenkontinuerlig variabel. Obetingat Y Distr ( µ Y, σ Y ) : E(Y)=µ Y, Var(Y)=σ Y Detserutsommycketattlärain... Testen är precis som förut, inget principiellt nytt jämfört med multipel linjär regression! Rekommendation: Läs igenom avsnitt utan att uppehålla er för länge, skippa avsnitt där Distr står för någon fördelning med ändligt väntevärde och ändlig positiv varians. Betingat(modell): Y X N ( β +β X, σ ε : E(Y X)=β +β X : Var(Y X)=σ ε<σ Y Det betingade väntevärdet bestäms av X och dessutom kan vi förklara/predicera Y mycket bättre. ) () Tänk om Y ej är kontinuerlig utan en dikotom variabel,dvskanantavärdenael. Allmänt är det betingade väntevärden för Y givet X som modelleras. Obetingat Y Bernoulli(p Y ) : E(Y)=p Y : Var(Y)=p Y ( p Y ) därp Y ärsannolikhetenförattobserveray =. Kanmanförklaraattmanivissalägentycksobservera etta oftare än nolla? Dvs att sannolikheten för lyckat utfall kanske kan förklaras med någon prediktor? Hur ska modellen i så fall formuleras? Medenkellinjärregressioni()ovanharman f() = β +β = µ Y X= ochdetinsesatt < µ Y X <. Problemi()tyväntevärdetärjuensannolikhet såvibehöverenfunktionf()=µ Y X =p Y X sådan att < p Y X < En linjär funktion uppfyller inte detta krav! Däremotkanjuiprincipvårprediktortillåtasanta vilka värden som helst. Önskemål: hitta enfunktion f() med obegränsad definitionsmängd < < men begränsad värdemängd < f() <

15 Ett av de vanligaste valen är den logistiska funktionen som definieras f() = ep(α+β) +ep(α+β) = p Y X IKleinbaumetalskrivsdettasom(sid67) f() = men uttrycken är identiska. Omβ>sågälleratt +ep( α β) f() f() ochomβ<sågällerdetomvända. Enintressantpunktsommankanseirapporteringär detvärdepåx närsannolikhetenföry =ärprecis.. Denna punkt kallas LD vilket står för lethal dosage % och inträffar alltid när Forts() Betingat Y X Bernoulli ( p Y X ) : E(Y) = p Y X : Var(Y) = p Y X ( py X ) dvsdetbetingadeväntevärdetföry givetx tolkas/ definieras som en sannolikhet p Y X = P(Y = X=) Denandramöjligahändelsen,Y =,harenbetingad sannolikhet P(Y = X =) = P(Y = X=) = ep(α+β) +ep(α+β) = +ep(α+β) = α/β Odds, Logodds och Oddskvoter Linjär anpassning till binär repsonsvariabel Y,,9,8,7,6,,,,,, X Oddset för en händelse definieras som kvoten mellan sannolikheten för händelsen och sannolikheten för komplementet: Odds(A)= P(A) P(A ) = P(A) P(A) Med logistisk regression får man det betingade oddset förhändelseny =givetx Y-Data,,9,8,7,6,, Logistisk regressionsmodell ep(α+β) P(Y = X) Odds(Y = X) = P(Y = X) = +ep(α+β) +ep(α+β) = ep(α+β),,,, X-Data Oddset för händelsen Y = givet X blir på samma sätt P(Y = X) Odds(Y = X) = P(Y = X) = ep(α+β) = (ep(α+β)) = ep( α β)

16 Logoddset för en händelse är helt enkelt den naturliga logaritm av oddset: LogOdds(Y = X) = ln(odds(y = X)) = ln(ep(α+β)) = α+β Nu kan vi tolka regressionskoefficienter: αärlogoddset föry =dåx = omändrasmedenhetsåförändraslogoddset föry =medβ KomihågattresponsvariabelnY nuärnågotannatän vad vi har haft tidigare. I () betraktas Y som en observerbar företeelse som kan mätas och sedan jämföras med den skattade Ŷ direkt. I princip skulle vi kunna observera y i =Ŷ e i = Debetingadeväntevärdenaˆµ Y X= liggeriutfallsrummetföry. I () och den logistiska modellen är Y förvisso också observerbar menkan bara anta värdena eller. De skattadeŷ skanukanskehellrebetecknasmedˆp Y X= och tolkas som betingade sannolikheter (för Y = ). Vi kommer aldrig att observera något fall där Y = ˆp Y= X= tybetingadesannolikheternaˆp Y X= antartypisktvärdensomliggermellanoch. En residual måste sålunda tolkas annorlunda: y i = e i = y i ˆp Y= X=i = ˆp Y= X=i = ˆp Y= X=i dvssannolikhetenföry =givetx=. y i = e i = y i ˆp Y= X=i = ˆp Y= X=i = ˆp Y= X=i dvsminussannolikhetenföry =givetx=. Ytterligare en tolkning av regressionskoefficienten β Oddskvoter beskrivs kanske enklast med ett eempel från boken(sid 69 66). Anta en logistisk modell med tre prediktorer Man får X = röker/rökerej X = ålder X = vit/svart LogOdds=α+β +β +β och vill sedan jämföra rökare/icke-rökare bland -åriga svarta. Oddsvkot = OR Odds(Y = år,svart,rökare) = Odds(Y = år,svart,icke-rökare) = ep(α+β +β +β ) ep(α+β +β +β ) = ep(β )

17 AlltsåomviökarX medenhet(alltannatkonstant) så är den relativa förändringen i oddset, för händelsen Y =,likamedep(β ). Oddskvoter används typiskt för jämförelser mellan olika grupper med avseende på risker för te sjukdomar. E)Hurmycketstörreärriskenfören-årigvitrökare jämfört med en -årig svart icke-rökare? OR = ep(α+β +β +β ) ep(α+β +β +β ) = ep(β +β β ) Odds kanvarasvåraatttolka ibörjan. Menvetman sannolikheten för en händelse så vet man också oddset: Odds(A)= P(A) P(A) Och vet man oddset så vet man också sannolikheten P(A)= Odds(A) +Odds(A) Odds här är inte samma sak som odds i spel som definieras av hur mycket pengar man kommer att få om man satsar rätt. Eller ( A ) SpelOdds(A) = Odds(A) +=P P(A) + därp(a)ärandelenipengarsomharsatsatspåatt A vinner, vilket kan tolkas som en sorts sannolikhet. Inget sagt ännu om skattning av en logistisk regressionsmodell. Typiskt maimeras en likelihoodfunktion, se te eq. (.)sid67ocheq. (.7)sid676. Detta kräver numeriska metoder dvs inget vi frivilligt gör för hand! Använd ett färdigt datorprogram!..

F7 Polynomregression och Dummyvariabler

F7 Polynomregression och Dummyvariabler F7 Polnomregression och Dummvariabler Antag att man börjar med enkel linjär regression. Kap Polnomregression Emellanåt upptäcker man samband som är kvadratiska, kubiska osv. Allmänt: polnom av k:te ordningen

Läs mer

Skrivning i ekonometri torsdagen den 8 februari 2007

Skrivning i ekonometri torsdagen den 8 februari 2007 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA2:3 Skrivning i ekonometri torsdagen den 8 februari 27. Vi vill undersöka hur variationen i lön för 2 belgiska löntagare = WAGE (timlön i euro)

Läs mer

F23 forts Logistisk regression + Envägs-ANOVA

F23 forts Logistisk regression + Envägs-ANOVA F23 forts Logistisk regression + Envägs-ANOVA Repetition Detta går inteattbeskriva på någotrimligtsättmed en linjär funktion PY Xx) β 0 +β x Den skattade linjen går utanför intervallet0, ): Y ärenbinärvariabel0-,dikotom)manvillmodellera,

Läs mer

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F4 Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1

Läs mer

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F7 Regressions- och Tidsserieanalys - F7 Tidsserieregression, kap 6.1-6.4 Linda Wänström Linköpings universitet November 25 Wänström (Linköpings universitet) F7 November 25 1 / 28 Tidsserieregressionsanalys

Läs mer

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet 732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris

Läs mer

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 Exempel, enkel linjär regressionsanalys Ett företag vill veta

Läs mer

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression Enkel linjär regression Exempel.7 i boken (sida 31). Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben och höjder på sockeln. De halvledare

Läs mer

Metod och teori. Statistik för naturvetare Umeå universitet

Metod och teori. Statistik för naturvetare Umeå universitet Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån

Läs mer

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1! LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA1:3 Skrivning i ekonometri tisdagen den 1 juni 4 1. Vi vill undersöka hur variationen i brottsligheten i USA:s delstater år 196 = R (i antal

Läs mer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då

Läs mer

10.1 Enkel linjär regression

10.1 Enkel linjär regression Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet May 4, 2015 Wänström (Linköpings universitet) F1 May 4, 2015 1 / 25 Regressions- och tidsserieanalys,

Läs mer

Skrivning i ekonometri lördagen den 29 mars 2008

Skrivning i ekonometri lördagen den 29 mars 2008 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB, Ekonometri Skrivning i ekonometri lördagen den 9 mars 8.Vi vill undersöka hur variationen i antal arbetande timmar för gifta kvinnor i Michigan

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet November 4, 2013 Wänström (Linköpings universitet) F1 November 4, 2013 1 / 25 Statistik B, 8 hp

Läs mer

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3 Regressions- och Tidsserieanalys - F3 Multipel regressionsanalys kap 4.8-4.10 Linda Wänström Linköpings universitet 7 maj Wänström (Linköpings universitet) F3 7 maj 1 / 26 Lite som vi inte hann med när

Läs mer

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng. STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson Skriftlig hemtentamen i Fortsättningskurs i statistik, moment 1, Statistisk Teori, poäng. Deltentamen 2: Regressionsanalys Måndagen den

Läs mer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data Stat. teori gk, ht 006, JW F16 MULTIPEL LINJÄR REGRESSION (NCT 13.1-13.3, 13.9) Anpassning av linjär funktion till givna data Data med en beroende variabel (y) och K stycken (potentiellt) förklarande variabler

Läs mer

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 732G71 Statistik B Föreläsning 7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 Detaljhandelns försäljning (fasta priser, kalenderkorrigerat) Bertil Wegmann

Läs mer

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3 Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest

Läs mer

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB2 Skrivning i ekonometri onsdagen den 1 juni 211 1. Vi vill undersöka hur variationen i försäljningspriset för ett hus (i en liten stad i USA

Läs mer

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Instruktioner till Inlämningsuppgift 1 och Datorövning 1 STOCKHOLMS UNIVERSITET HT 2005 Statistiska institutionen 2005-10-14 MC Instruktioner till Inlämningsuppgift 1 och Datorövning 1 Kurs i Ekonometri, 5 poäng. Uppgiften ingår i examinationen för kursen och

Läs mer

Skrivning i ekonometri lördagen den 15 januari 2005

Skrivning i ekonometri lördagen den 15 januari 2005 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA102:3 Skrivning i ekonometri lördagen den 15 januari 5 1. Vi vill undersöka hur variationen i försäljningspris = price för hus i en liten stad

Läs mer

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 44 poäng.

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 44 poäng. STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson Skriftlig hemtentamen i Fortsättningskurs i statistik, moment, Statistisk Teori, poäng. Deltentamen 2: Regressionsanalys Torsdagen den 7

Läs mer

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng. STOCKHOLMS UNIVERSITET HT 2005 Statistiska institutionen 2005-10-12 MC Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4 Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10

Läs mer

Tentamen i matematisk statistik

Tentamen i matematisk statistik Sid 1 (7) i matematisk statistik Statistik och kvalitetsteknik 7,5 hp Tillåtna hjälpmedel: Miniräknare. Studenterna får behålla tentamensuppgifterna. Skrivtid: 9.00-12.00 ger maximalt 24 poäng. Betygsgränser:

Läs mer

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistik B Regressions- och tidsserieanalys Föreläsning 1 Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs

Läs mer

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels 7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan

Läs mer

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser: 1 Uppgiftsbeskrivning Syftet med denna laboration var att utifrån uppmätt data avgöra: (i) Om något samband finnes mellan kroppstemperatur och hjärtfrekvens. (ii) Om någon signifikant skillnad i sockerhalt

Läs mer

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29 UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN

Läs mer

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt Introduktion Vi har fått ta del av 13 mätningar av kroppstemperatur och hjärtfrekvens, varav på hälften män, hälften kvinnor, samt en studie på 77 olika flingsorters hyllplaceringar och sockerhalter. Vi

Läs mer

Följande resultat erhålls (enhet: 1000psi):

Följande resultat erhålls (enhet: 1000psi): Variansanalys Exempel Aluminiumstavar utsätts för uppvärmningsbehandlingar enligt fyra olika standardmetoder. Efter behandlingen uppmäts dragstyrkan hos varje stav. Fem upprepningar görs för varje behandling.

Läs mer

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3 Regressions- och Tidsserieanalys - F3 Multipel regressionsanalys kap 4.8-4.10 Linda Wänström Linköpings universitet November 6, 2013 Wänström (Linköpings universitet) F3 November 6, 2013 1 / 22 Interaktion

Läs mer

Examinationsuppgifter del 2

Examinationsuppgifter del 2 UMEÅ UNIVERSITET Institutionen för Matematik och Matematisk statistisk Statistik för ingenjörer, poäng, Anders Lundquist 7-- Examinationsuppgifter del Redovisas muntligt den / (Ö-vik) samt / (Lycksele).

Läs mer

Multipel Regressionsmodellen

Multipel Regressionsmodellen Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b

Läs mer

TENTAMEN I MATEMATISK STATISTIK

TENTAMEN I MATEMATISK STATISTIK UMEÅ UNIVERSITET Institutionen för matematisk statistik Regressions- och variansanalys, 5 poäng MSTA35 Leif Nilsson TENTAMEN 2003-01-10 TENTAMEN I MATEMATISK STATISTIK Regressions- och variansanalys, 5

Läs mer

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.

Läs mer

Skrivning i ekonometri lördagen den 25 augusti 2007

Skrivning i ekonometri lördagen den 25 augusti 2007 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA10:3 Skrivning i ekonometri lördagen den 5 augusti 007 1. Vi vill undersöka hur variationen i ölförsäljningen i ett bryggeri i en stad i USA

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-23 Faktum är att vi i praktiken nästan alltid har en blandning

Läs mer

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Sid (7) Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Uppgift Nedanstående beräkningar från Minitab är gjorda för en Poissonfördelning med väntevärde λ = 4.

Läs mer

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval Martin Singull Matematisk statistik Matematiska institutionen Innehåll Repetition (t-test för H 0 : β i = 0) Residualanalys Modellval Framåtvalsprincipen

Läs mer

Föreläsning 4. Kap 5,1-5,3

Föreläsning 4. Kap 5,1-5,3 Föreläsning 4 Kap 5,1-5,3 Multikolinjäritetsproblem De förklarande variablerna kan vara oberoende (korrelerade) av varann men det är inte så vanligt. Ofta är de korrelerade, och det är helt ok men beroendet

Läs mer

Laboration 2 multipel linjär regression

Laboration 2 multipel linjär regression Laboration 2 multipel linjär regression I denna datorövning skall ni 1. analysera data enligt en multipel regressionsmodell, dvs. inkludera flera förklarande variabler i en regressionsmodell 2. studera

Läs mer

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Till ampad statistik (A5) Förläsning 13: Logistisk regression Till ampad statistik (A5) Förläsning 13: Logistisk regression Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2016-03-08 Exempel 1: NTU2015 Exempel 2: En jobbannons Exempel 3 1 1 Klofstad, C.

Läs mer

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3 Regressions- och Tidsserieanalys - F3 Multipel regressionsanalys kap 4.8-4.10 Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F3 1 / 21 Interaktion Ibland ser sambandet mellan en

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Tobias Abenius February 21, 2012 Envägs variansanalys (ANOVA) I envägs variansanalys utnyttjas att

Läs mer

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka. y Uppgift 1 (18p) I syfte för att se om antalet månader som man ägt en viss träningsutrustning påverkar träningsintensiteten har tio personer som har köpt träningsutrustningen fått ange hur många månader

Läs mer

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p. Tentamen Linköpings Universitet, Institutionen för datavetenskap, Statistik Kurskod och namn: Datum och tid: Jourhavande lärare: Tillåtna hjälpmedel: Betygsgränser: 732G21 Sambandsmodeller 2009-01-14,

Läs mer

Föreläsning 12: Linjär regression

Föreläsning 12: Linjär regression Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017 Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera

Läs mer

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet 732G71 Statistik B Föreläsning 3 Bertil Wegmann IDA, Linköpings universitet November 4, 2015 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 4, 2015 1 / 22 Kap. 4.8, interaktionsvariabler Ibland

Läs mer

F13 Regression och problemlösning

F13 Regression och problemlösning 1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell

Läs mer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat

Läs mer

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 1 Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 Dessa instuderingsfrågor är främst tänkta att stämma överens med innehållet i föreläsningarna,

Läs mer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer Datorövning 2 Regressions- och tidsserieanalys Syfte 1. Lära sig skapa en korrelationsmatris 2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna mot varandra 3. Lära sig beräkna

Läs mer

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet 2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys.

Läs mer

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan och att en inblandning mellan 10% och 40% är bra. För att

Läs mer

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F19, (Multipel linjär regression forts) och F20, Chi-två test. Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med

Läs mer

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar: Flerfaktorförsök Blockförsök, randomiserade block Modell: yij i bj eij i 1,,, a j 1,,, b y ij vara en observation för den i:te behandlingen och det j:e blocket gemensamma medelvärdet ( grand mean ) effekt

Läs mer

Matematisk statistik, Föreläsning 5

Matematisk statistik, Föreläsning 5 Matematisk statistik, Föreläsning 5 Ove Edlund LTU 2011-12-09 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 1 / 25 Laboration 4 Jobba i grupper med storlek 2 Ove Edlund (LTU) Matematisk

Läs mer

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren Prediktera Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/28 Statistik för modellval

Läs mer

Tentamen i matematisk statistik

Tentamen i matematisk statistik Sid (7) i matematisk statistik Statistik och kvalitetsteknik 7,5 hp Tillåtna hjälpmedel: Miniräknare. Studenterna får behålla tentamensuppgifterna. Skrivtid: 4.00-7.00 ger maximalt 24 poäng. Betygsgränser:

Läs mer

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1 Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1. Multipel regression 1.1. Variabler I det aktuella exemplet ingår följande variabler: (1) life.sat, anger i vilket utsträckning man är nöjd med livet;

Läs mer

Statistik för teknologer, 5 poäng Skrivtid:

Statistik för teknologer, 5 poäng Skrivtid: UMEÅ UNIVERSITET Institutionen för matematisk statistik Statistik för teknologer, MSTA33, p Statistik för kemister, MSTA19, p TENTAMEN 2004-06-03 TENTAMEN I MATEMATISK STATISTIK Statistik för teknologer,

Läs mer

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15

732G71 Statistik B. Föreläsning 6. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15 732G71 Statistik B Föreläsning 6 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 15 Efterfrågeanalys Metoder för att studera sambandet mellan efterfrågan på

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x

Läs mer

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Sid 1 (10) Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Uppgift 1 Betrakta nedanstående täthetsfunktion för en normalfördelad slumpvariabel X med väntevärde

Läs mer

Tentamen i matematisk statistik

Tentamen i matematisk statistik Sid 1 (7) i matematisk statistik Statistik och kvalitetsteknik 7,5 hp Tillåtna hjälpmedel: Miniräknare. Studenterna får behålla tentamensuppgifterna. Skrivtid: 9.00-12.00 ger maximalt 24 poäng. Betygsgränser:

Läs mer

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts. Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:

Läs mer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

TENTAMEN I STATISTIK B,

TENTAMEN I STATISTIK B, 732G7 Tentamen. hp TENTAMEN I STATISTIK B, 24-2- Skrivtid: kl: -2 Tillåtna hjälpmedel: Ett A4-blad med egna handskrivna anteckningar samt räknedosa Jourhavande lärare: Lotta Hallberg Betygsgränser: Tentamen

Läs mer

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Sid 1 (9) Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Uppgift 1 a) Nämn en kontinuerlig och en diskret fördelning. Exempelvis normalfördelningen respektive

Läs mer

Regressionsanalys av lägenhetspriser i Spånga

Regressionsanalys av lägenhetspriser i Spånga Regressionsanalys av lägenhetspriser i Spånga Mahamed Saeid Ali Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2016:11 Matematisk statistik Juni 2016

Läs mer

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning

Läs mer

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistik-programmet

Läs mer

Tentamen Tillämpad statistik A5 (15hp)

Tentamen Tillämpad statistik A5 (15hp) Uppsala universitet Statistiska institutionen A5 2015-01-13 Tentamen Tillämpad statistik A5 (15hp) 2015-01-13 UPPLYSNINGAR A. Tillåtna hjälpmedel: Miniräknare Formelsamlingar: A4/A8 Tabell- och formelsamling

Läs mer

Matematisk statistik för D, I, Π och Fysiker

Matematisk statistik för D, I, Π och Fysiker Matematisk statistik för D, I, Π och Fysiker Föreläsning 15 Johan Lindström 4 december 218 Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 1/28 Repetition Linjär regression Modell Parameterskattningar

Läs mer

MVE051/MSG Föreläsning 14

MVE051/MSG Föreläsning 14 MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska

Läs mer

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa. Tentamen Linköpings universitet, Institutionen för datavetenskap, Statistik Kurskod och namn: Datum och tid: Jourhavande lärare: Tillåtna hjälpmedel: 732G71 Statistik B 2017-12-08, 8-12 Bertil Wegmann

Läs mer

Formler och tabeller till kursen MSG830

Formler och tabeller till kursen MSG830 Formler och tabeller till kursen MSG830 Deskriptiva mått För ett datamängd x 1,, x n denieras medelvärde standardavvikelse standardfelet (SEM) Sannolikheter x = 1 n n i=1 = x 1 + + x n n s = 1 n (x i x)

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 22 augusti STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng. 1 Att tänka på (obligatorisk läsning) A. Redovisa Dina lösningar i en form som gör det lätt att följa Din tankegång. (Rättaren förutsätter att det dunkelt skrivna är dunkelt tänkt.). Motivera alla väsentliga

Läs mer

Tentamen i matematisk statistik

Tentamen i matematisk statistik Sid 1 (9) i matematisk statistik Statistik och kvalitetsteknik 7,5 hp Tillåtna hjälpmedel: Miniräknare. Studenterna får behålla tentamensuppgifterna. Skrivtid: 9.00-12.00 ger maximalt 24 poäng. Betygsgränser:

Läs mer

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9. Statistisk försöksplanering och kvalitetsstyrning Provmoment: Ladokkod: Tentamen ges för: TentamensKod: Tentamen 4I2B KINAF4, KINAR4, KINLO4, KMASK4 7,5 högskolepoäng Tentamensdatum: 28 oktober 206 Tid:

Läs mer

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Lösningar till tentamensskrivning för kursen Linjära statistiska modeller 14 januari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se

Läs mer

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister Matematisk statistik för B, K, N, BME och Kemister Föreläsning 9 Joakim Lübeck (Johan Lindström 25 september 217 Johan Lindström - johanl@maths.lth.se FMSF7/MASB2 F9 1/23 Repetition Inferens för diskret

Läs mer

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström Omtentamen i Regressionsanalys 2009-01-08 Skrivtid: 9.00-14.00 Godkända hjälpmedel: Miniräknare utan lagrade formler. Tentamen består

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

Bayesiansk statistik, 732g43, 7.5 hp

Bayesiansk statistik, 732g43, 7.5 hp Bayesiansk statistik, 732g43, 7.5 hp Moment 2 - Linjär regressionsanalys Bertil Wegmann STIMA, IDA, Linköpings universitet Bertil Wegmann (STIMA, LiU) Bayesiansk statistik 1 / 29 Översikt moment 2: linjär

Läs mer

Exempel 1 på multipelregression

Exempel 1 på multipelregression Exempel på multipelregression Hastighet = högsta hastighet som uppnåtts fram till givna år (årtal) Årtal Hastighet 83 3 (tåg) 9 3 (tåg) 93 (flyg) 97 7 (flyg) 9 (flyg) 99 (raket) Fitted Line Plot Hastighet

Läs mer

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS STOCKHOLMS UNIVERSITET Statistiska institutionen Marcus Berg VT2014 TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS Fredag 23 maj 2014 kl. 12-17 Skrivtid: 5 timmar Godkända hjälpmedel: Kalkylator utan

Läs mer

Enkel och multipel linjär regression

Enkel och multipel linjär regression TNG006 F3 25-05-206 Enkel och multipel linjär regression 3.. Enkel linjär regression I det här avsnittet kommer vi att anpassa en rät linje till mätdata. Betrakta följande värden från ett försök x 4.0

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Analys av korstabeller 2 Innehåll 1 Analys av korstabeller 2 Korstabeller Vi har tidigare under kursen redan bekantat oss med korstabeller. I en korstabell redovisar man fördelningen på två

Läs mer

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2015-01-16 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 09.00 14.00 Lärare: A. Jonsson, M. Shykula,

Läs mer

Räkneövning 3 Variansanalys

Räkneövning 3 Variansanalys Räkneövning 3 Variansanalys Uppgift 1 Fyra sorter av majshybrider har utvecklats för att bli resistenta mot en svampinfektion. Nu vill man också studera deras produktionsegenskaper. Varje hybrid planteras

Läs mer

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab. Räkneövning 5 Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari 016 1 Om uppgifterna För Uppgift kan man med fördel ta hjälp av Minitab. I de fall en figur för tidsserien efterfrågas

Läs mer