Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Storlek: px
Starta visningen från sidan:

Download "Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT"

Transkript

1 Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT Regressionsanalys handlar om att estimera hur medelvärdet för en variabel (y) varierar med en eller flera oberoende variabler (x). Exempel: Hur varierar genomsnittlig lön med utbildning? Hur varierar genomsnittlig livslängd med inkomst och kön? Hur varierar genomsnittlig avkastning på en aktie beroende på veckodagen? I alla de här exemplen är utfallsvariabeln kvantitativ (lön, livslängd, avkastning). Men det finns heller inget som hindrar oss från att köra en regression då utfallsvariabeln är binär, dvs. då utfallsvariabeln bara antar två värden (0 och 1). Exempel: Vi samlar in data för ett tusental amerikaner och mäter om dessa stödjer Trump (=1) eller Hillary (=0). Vi samlar in data för ett hundratal låntagare och studerar om dessa lyckades betala tillbaka i tid (=1) eller inte (=0). Notera här att medelvärdet för en binär variabel är en andel. Exempel: Vi har samlat in data för 100 låntagare varav 70 betalade tillbaka i tid. Medelvärdet för den här variabeln blir då 0,7 vilket är andelen som betalade tillbaka i tid, eller sannolikheten att en person betalade tillbaka i tid. Med en binär utfallsvariabel så tittar vi alltså på andelar eller sannolikheter: Hur stor andel av låntagare betalar tillbaka i tid och hur varierar detta beroende på kön, ålder och utbildning? Eller med andra ord: Hur varierar sannolikheten att betala tillbaka i tid beroende på kön, ålder och utbildning? Vi kan tänka oss att modellera den här sannolikheten på lite olika sätt. Om vi estimerar sannolikheten att betala tillbaka i tid som en linjär funktion av x-variablerna så kallas detta för en linjär sannolikhetsmodell. Vi kan då använda OLS på traditionellt sätt. I nästa avsnitt ska vi se ett exempel på vad det här kan betyda. I avsnitt 18.2 och 18.3 ska vi se på två alternativa metoder, logit och probit, som också används för att estimera sannolikheter. I avsnitt 18.4 diskuterar vi maximum likelihood som är den estimator som används vid logit och probit.

2 18.1 DEN LINJÄRA SANNOLIKHETSMODELLEN Exempel: Nedan ser du ett utdrag av data för de personer som steg ombord på Titanic år Vi vill beskriva hur sannolikheten att överleva varierar som en funktion av biljettpriset. Utfallsvariabeln överlevde är nu binär; den antar värdet 1 för de som överlevde och annars värdet 0. Namn biljettpris överlevde Allen, Miss. Elisabeth Walton 211, Allison, Master. Hudson Trevor 151,55 1 Allison, Miss. Helen Loraine 151,55 0 Allison, Mr. Hudson Joshua Creighton 151,55 0 Allison, Mrs. Hudson J C (Bessie Waldo 151,55 0 Daniels) Anderson, Mr. Harry 26,55 1 Andrews, Miss. Kornelia Theodosia 77, Andrews, Mr. Thomas Jr 0 0 Appleton, Mrs. Edward Dale (Charlotte 51, Lamson) Zimmerman, Mr. Leo 7,875 0 Nedan har vi kört en vanlig regression (OLS) med överleva som utfall och biljettpriset som oberoende variabel. Inom parentes ges det robusta standardfelet 1 : överleva = 0,31 + 0,0023pris (0,00026) För en person som betalat 100 pund för biljetten så blir prediktionen 0,54: överleva = 0,31 + 0,0023 pris 100 = 0,54 1 Den linjära sannolikhetsmodellen är per konstruktion heteroskedastisk, därför använder vi robusta standardfel. Vi kan se att modellen är heteroskedastisk på följande sätt: Variansen för en binär variabel ges av p(1-p). I detta exempel är p andelen överlevare (eller sannolikheten för att överleva). För de som betalat ett tillräckligt högt biljettpris så är denna sannolikhet hög och för de som betalat ett lågt biljettpris är sannolikheten lägre. Låt oss jämföra en person som har en överlevnadssannolikhet på 0,9 med en som har en sannolikhet på 0,5. I det första fallet bli överlevnadsvariansen 0,9(1-0,9) = 0,09 och i det andra fallet 0,5(1-0,5) = 0,25. Överlevnadsvariansen skiljer sig alltså mellan olika biljettpriser.

3 En sådan person predikteras alltså ha en 54-procentig sannolikhet att överleva. Och för varje extra pund som man spenderar på biljetten så ökar denna sannolikhet med 0,0023 eller 0,23 procentenheter. Den här effekten är signifikant (t = 0,0023/0,00026 = 8,85; p-värdet 0,000). I det här fallet passar det data bättre att mäta biljettpriset på en logaritmerad skala: överleva = 0,07 + 0,16 ln (pris) (0,013) Då biljettpriset ökar med 1 procent så ökar sannolikheten att överleva med 0,0016 eller 0,16 procentenheter. Vi kan också inkludera flera oberoende variabler i den här regressionen. Här har vi dessutom kontrollerat för kön och ålder: överleva = 0,02 + 0,11 ln(pris) + 0,49 kvinna 0,0024 ålder Då biljettpriset ökar med 1 procent så ökar sannolikheten att överleva med 0,0011 eller 0,11 procentenheter, kontrollerat för kön och ålder. Vi ser också att sannolikheten att överleva är 49 procentenheter högre för kvinnor än för män, och att chansen att överleva minskar med åldern; för varje extra år minskar denna sannolikhet med 0,24 procentenheter. Det går alltså bra att använda OLS även om utfallsvariabeln är binär. Men i praktiken är det ändå vanligare att använda alternativa metoder. I nästa avsnitt ska vi diskutera den populäraste av dessa: logistisk regression (logit). Men för att se varför logit är populärare än OLS, så ska vi börja med att diskutera kritiken mot den linjära sannolikhetsmodellen. Kritik mot linjära sannolikhetsmodeller Linjära sannolikhetsmodeller kritiseras eftersom de kan ge orimliga prediktioner, sannolikheter som ligger under 0 eller över 1. Exempel forts. Vi estimerade sannolikheten att överleva som en funktion av biljettpriset, kön och ålder: överleva = 0,02 + 0,11 ln(pris) + 0,49kvinna 0,0024ålder

4 Hur ser prediktionerna ut för olika personer i data? Jo, för de allra flesta ligger sannolikheten att överleva någonstans mellan 0 och 1 (precis som man skulle förvänta sig). Men det finns också en passagerare med en sannolikhet på 107 procent: Miss. Anna Ward var en 35-årig kvinna som betalade 512 pund för sin biljett: överlevde = 0,02 + 0,11 ln (pris ) + 0,49 kvinna 0,0024 ålder ,07 Vi vet att den här prediktionen är felaktig, men då vi använder en linjär modell så finns det inget som ser till att prediktionerna faktiskt hamnar mellan 0 och 1. Eftersom överlevnadssannolikheten ökar linjärt med biljettpriset (mätt på en loggad skala) så kan vi alltid få en överlevnadssannolikhet som hamnar över 100 procent bara vi sätter biljettpriset tillräckligt högt. Den linjära modellen kan alltså inte vara korrekt. Den kan ge bra approximationer för begränsade värden på x, men den kan inte vara fullständigt korrekt. Vi ska nu se på en annan modell logit som är konstruerad så att de predikterade sannolikheterna alltid hamnar där de ska. 1

5 18.2 LOGISTISK REGRESSION (LOGIT) Exempel forts. Låt oss utgå från regressionen: överleva = 0,31 + 0,0023pris Här beskriver vi sannolikheten för att överleva som en linjär funktion av biljettpriset. När vi däremot estimerar en logistisk regression så beskriver vi oddset för att överleva som en multiplikativ modell av biljettpriset. I det här fallet ges den funktionen av: oddset för att överleva = 0,41 1,01 pris Låt oss fundera på vad den här regressionen säger. Precis som tidigare så kan vi använda den här regressionen för att göra prediktioner. För en passagerare som betalat 0 pund för biljetten så blir oddset för att överleva 0,41: oddset för att överleva = 0,41 1,01 pris = 0,41 1,01 0 = 0,41 1 = 0,41 För en passagerare som betalat 1 pund blir oddset 0,414: oddset för att överleva = 0,41 1,01 pris = 0,41 1,01 1 = 0,41 1,01 0,414 För en som betalat 2 pund blir oddset 0,422: oddset för att överleva = 0,41 1,01 pris = 0,41 1,01 2 = 0,41 1,01 1,01 0,422 Och för en passagerare som betalat 3 pund blir oddset 0,41 1,01 3 = 0,41 1,01 1,01 1,01. Om vi multiplicerar med 1,01 ännu en fjärde gång så får vi oddset för en som betalat 4 pund. Oddset för överleva ökar alltså med en faktor på 1,01 för varje extra pund man betalat för biljetten. Eller med andra ord: Oddset för att överleva ökar med 1 procent för varje extra pund man betalat för biljetten. Låt oss repetera: oddset för att överleva = 0,41 1,01 pris

6 0,41 är oddset för att överleva då priset sätts lika med 0. Då priset ökar med 1 pund så ökar oddset för att överleva med en faktor på 1,01, dvs. 1 procent. Vi kallar detta estimat (1,01) för en oddskvot 2. Anta att vi istället hade fått följande resultat: oddset för att överleva = 0,25 2,0 pris 0,25 är oddset att överleva för en person som betalade 0 pund för sin biljett. Och då priset ökar med 1 pund så ökar oddset för att överleva med en faktor på 2 vilket är en ökning med 100 procent. Eller anta att vi istället hade fått följande resultat: oddset för att överleva = 0,25 3,0 pris Då priset ökar med 1 pund så ökar oddset för att överleva med en faktor på 3 vilket är en ökning med 200 procent. Eller anta att vi istället hade fått följande resultat: oddset för att överleva = 0,25 0,9 pris Då priset ökar med 1 pund så minskar oddset för att överleva med 10 procent. I exemplet ovan så tänkte vi oss att oddset för att överleva var 0,25, givet att man betalat 0 pund för biljetten. Men vad betyder då ett odds på 0,25? Jo, detta betyder att det går 0,25 överlevare på varje person som dog. Eller med andra ord: Det går då 25 överlevare per 100 döda. Ett odds på 0,25 motsvaras alltså av en sannolikhet på 20 procent: I en grupp på 125 personer så är det 100 som dör och 25 som överlever: 25/125 = 0,2. Vi kan göra om ett odds till en sannolikhet genom följande formel: sannolikhet = odds odds + 1 När vi predikterat oddset för att överleva för olika personer i data så kan vi alltså skriva om dessa odds till sannolikheter. I figuren nedan har vi ritat ut sannolikheten för att överleva mot 2 1,01 är kvoten mellan två odds: Oddset att överleva då man betalat k+1 pund, genom oddset för att överleva då man betalat k pund.

7 Sannolikhet biljettpriset. (Här har vi använt oss av regressionen som bygger på riktiga data: oddset för att överleva = 0,41 1,01 pris.) Sannolikheten för att överleva Titanic biljettpris Vi ser alltså att sannolikheten att överleva är en icke-linjär funktion av biljettpriset: Sannolikheten ökar brant i början men den här positiva effekten avtar då biljettpriset blir tillräckligt högt. Och när biljettpriset nått 500 pund så är överlevnadssannolikheten praktiskt taget 1. Men den kommer aldrig att bli större än 1 (oavsett biljettpris). Och på motsvarande sätt kan vi aldrig få negativa sannolikheter. Logiten Exempel forts. Vi beskrev oddset för att överleva genom uttrycket: oddset för att överleva = 0,41 1,01 pris Om vi tar den naturliga logaritmen på båda sidor får vi följande uttryck: ln (oddset för att överleva) = ln(0,41) + pris ln(1,01) = 0, , 01 pris Den här ekvationen säger precis samma sak som tidigare: För varje extra pund du betalar för biljetten så ökar oddset för att överleva med 1 procent. Notera att det här är motsvarande tolkning som i alla regressioner med loggat utfall!

8 Sannolikhet När vi på det här sättet tar den naturliga logaritmen av ett odds så kallas detta för en logit. Exempel: För en passagerare som betalat 0 pund för biljetten så är den naturliga logaritmen av oddset 0,89. Eller så kan vi kortare säga att logiten är -0,89. Exempel forts. Här har vi istället beskrivit oddset för att överleva som en funktion av biljettpriset mätt på en loggad skala: oddset Logiten för att överleva ges då av: ln (oddset) ln (pris) = 0,08 1,97 = 2,49 + 0,68 ln (pris) När biljettpriset ökar med 1 procent så ökar oddset för att överleva med 0,68 procent. I figuren nedan har vi illustrerat det här sambandet grafiskt; men här tittar vi på hur sannolikheten för att överleva varierar med biljettpriset: Sannolikheten för att överleva Titanic Biljettpris Exempel forts. Här har vi även kontrollerat för ålder och kön: oddset ln (oddset) = 0,06 1,86 ln(pris) 0,99 ålder 10 kvinna = 2,8 + 0,6 ln(pris) 0,01ålder + 2,3kvinna Det spelar ingen roll vilken av dessa funktioner vi använder när vi tolkar resultatet. Båda beskriver exakt samma sak, bara uttryckt på olika sätt. Låt oss utgå från den färgglada logitvarianten: Då priset ökar med 1 procent så ökar oddset för att

9 överleva med 0,6 procent (kontrollerat för kön och ålder). Då åldern ökar med ett år så minskar oddset för att överleva med 1 procent (kontrollerat för biljettpris och kön). Oddset för att överleva är 900 procent högre bland kvinnor än bland män (kontrollerat för biljettpris och ålder). Notera: Koefficienten för kvinna är 2,3 vilket motsvarar en effekt på 900 procent. Det motsvarar alltså inte en effekt på 230 procent. Den här tolkningen skulle vara korrekt om koefficienten varit närmare 0. Exempel: Om koefficienten för kvinna hade varit 0,08 så hade vi sagt att oddset för att överleva är 8 procent högre bland kvinnor än bland män. Men den här regeln är approximativ och funkar bara bra för små procentuella effekter (+/- 10 procent). För att få den exakta procenten så tar vi istället 100*[exp(koefficienten)-1]. I detta exempel: 100 [exp(2,3) 1] 900 % Låt oss ännu se på hur resultatet kan se ut i ett statistiskt programpaket (STATA). När du kör en logistisk regression så kan du beställa resultatet i de två olika format som vi sett på här: (1) Beskriver oddset som en multiplikativ modell av de oberoende variablerna: oddset = 0,06 1,86 ln(pris) 10 kvinna 0,99 ålder (2) Beskriver logiten som en linjär funktion av de oberoende variablerna: ln (oddset) = 2,78 + 0,62 ln(pris) + 2,3kvinna 0,01ålder Du ser båda dessa utskrifter på nästa sida.

10 Låt oss ännu se på några andra nyckelsiffror ur dessa regressionsutskrifter. Vi ser att regressionsmodellen har signifikant förklaringsstyrka: LR chi2 = 368,24; p-värdet 0,0000. LR chi2-värdet är alltså motsvarigheten till ett F-värde då vi använder OLS. Vi ser också att biljettpriset har en signifikant effekt på oddset att överleva: z = 7,28; p-värdet 0,000. Z-värdet är alltså motsvarigheten till ett t-värde då vi använder OLS. 3 3 Se den första utskriften ovan (1): Om vi här tar den första oddskvoten (1,86) genom standardfelet (0,159) så får vi ett värde på ~11,7 och inte 7,28 som är z-värdet. Jämför detta med den andra utskriften (2): Om vi här tar den första koefficienten (0,62) genom standardfelet (0,085) så får vi z-värdet (7,28). Vad är det som pågår här? Jo, samplingfördelningen för en oddskvot följer en lognormalfördelning, medan samplingfördelningen för en loggad oddskvot följer en normalfördelning. I utskrift (2) har vi just loggade oddskvoter och då kan vi testa om resultatet är signifikant genom att dela dessa med sina standardfel.

11 Marginaleffekter Exempel forts. Vi hade regressionen: oddset ln (oddset) = 0,06 1,86 ln(pris) 10 kvinna 0,99 ålder = 2,8 + 0,6 ln(pris) 0,01ålder + 2,3kvinna Här ser vi till exempel att då åldern ökar med ett år så minskar oddset för att överleva med 1 procent, kontrollerat för biljettpris och kön. Men vad betyder det? Hur mycket minskar då sannolikheten för att överleva? Det finns inget enkelt svar på den frågan; hur mycket sannolikheten minskar beror också på din ålder i utgångsläget, vad du betalat för biljetten och ditt kön. Effekten av att åldern ökar med ett år kommer alltså att skilja sig mellan olika personer i data (beroende på deras värden på x- variablerna). Om vi räknar ut denna effekt skilt för varje person i data och sedan tar medelvärdet av alla dessa effekter, så får vi det som kallas för den genomsnittliga marginaleffekten. 4 Med hjälp av STATA kan vi räkna ut genomsnittliga marginaleffekter automatiskt: När biljettpriset ökar med 1 procent så ökar sannolikheten för att överleva i snitt med ~0,001 eller ~0,1 procentenheter, kontrollerat för kön och ålder. Sannolikheten för att överleva är i snitt ~37 procentenheter högre bland kvinnor än bland män 4 Rent tekniskt så får vi en marginaleffekt genom att ta fram ett uttryck som beskriver sannolikheten för att överleva som en funktion av x- variablerna. Vi deriverar denna sannolikhet med avseende på x- variabeln av intresse. Detta ger oss följande uttryck: b*p*(1-p) där b är koefficienten av intresse och p är den estimerade sannolikheten för ett gynnsamt utfall (där p skiljer sig mellan olika personer). Vi räknar därefter ut marginaleffekten skilt för varje person i data. Medelvärdet av dessa är den genomsnittliga marginaleffekten.

12 (kontrollerat för biljettpriset och ålder). Och när åldern ökar med ett år så minskar sannolikheten för att överleva i snitt med ~0,2 procentenheter (kontrollerat för biljettpris och kön). Att presentera resultatet Man kan presentera resultatet från en logistisk regression på olika sätt. Det vanligaste är att antingen visa de genomsnittliga marginaleffekterna, oddskvoterna eller bägge (vilket jag gjort i tabellen nedan). Här är GME en är förkortning för genomsnittlig marginaleffekt. (1) (2) VARIABLER GME Oddskvoter Ln(biljettpris) 0.100*** 1.860*** (0.0128) (0.159) Kvinna 0.374*** 10.11*** (0.0134) (1.590) Ålder ** 0.986** ( ) ( ) Konstant *** (0.0180) Observationer 1,037 1,037 Standardfel inom parenteser *** p<0.01, ** p<0.05, * p<0.1

13 18.3 PROBIT Precis som logit så är probit också en modell där vi beskriver sannolikheten för ett gynnsamt utfall som en icke-linjär funktion av x-variablerna. Men tolkningen av resultatet skiljer sig från logit. Exempel forts. Nedan har vi använt Titanic-data och estimerat hur sannolikheten att överleva varierar som en funktion av biljettpriset, mätt på en loggad skala. Vi har här estimerat en probit: Vi kan använda den här modellen för att prediktera sannolikheten för att överleva, och hur denna sannolikhet varierar med biljettpriset. För en probit ges denna sannolikhet av: Pr(överleva) = Pr(Z 1,54 + 0,417 ln(priset)) där Z är en standardiserad normalfördelad variabel. Exempel: För en person som betalat 100 pund för biljetten så blir den sannolikheten 65 procent: Pr(överleva) = Pr (Z 1,54 + 0,417 ln (priset)) = Pr(Z 0,38) 0,65 100

14 För övrigt är det svårt att tolka koefficienterna från en probit. En positiv koefficient betyder att sannolikheten för att överleva ökar med den x-variabeln; en negativ koefficient betyder att sannolikheten för att överleva minskar med den x-variabeln. I det här exemplet är koefficienten för ln(biljettpriset) 0,417. Sannolikheten att överleva ökar alltså med biljettpriset. Men är 0,417 en stor eller liten positiv effekt? Detta är inte särskilt lätt att bedöma. 5 Men precis som vid logit kan vi också här uttrycka effekten som en genomsnittlig marginaleffekt: Då biljettpriset ökar med 1 procent så ökar sannolikheten för att överleva i snitt med 0,0015 eller 0,15 procentenheter. Logit kontra probit: Vilket är bättre? I praktiken har det liten betydelse om man väljer logit eller probit. Figuren nedan illustrerar detta. Här har vi använt Titanicdata och predikterat sannolikheten för att överleva som en funktion av biljettpriset (mätt på en loggad skala), kön och ålder. På x-axeln visas de predikterade sannolikheterna från en logit; på y-axeln visas motsvarande sannolikheter från en probit. 5 Vi förflyttar oss då 0,417 steg högerut på z-skalan. Det här har ganska stor betydelse om vi innan befann oss vid z = 0, men marginell betydelse om vi innan befann oss vid z = -3 eller z = 3.

15 Korrelationen är 0,9999; modellerna gör här mer eller mindre identiska prediktioner. De genomsnittliga marginaleffekterna är också praktiskt taget lika stora oavsett modell, vilket tabellen nedan visar. Tabell: Sannolikheten för att överleva Titanic (GME) (1) (2) VARIABLER LOGIT PROBIT Ln(biljettpris) 0.100*** 0.102*** (0.0128) (0.0130) Kvinna 0.374*** 0.392*** (0.0134) (0.0158) Ålder ** ** ( ) ( ) Observationer 1,037 1,037 Standardfel inom parenteser *** p<0.01, ** p<0.05, * p<0.1 Det spelar med andra ord egentligen ingen roll vilket vi väljer (logit eller probit). Detta är i första hand en fråga om vad man själv föredrar. De flesta väljer då logit, eftersom man då kan tolka resultatet i termer av oddskvoter. En notering här på slutet: Den linjära sannolikhetsmodellen (OLS) är inte heller särskilt dum, även om den kanske har lite skamfilat rykte. I tabellen nedan ser du en jämförelse mellan LOGIT, PROBIT och OLS. Alla estimat är genomsnittliga

16 marginaleffekter. 6 Skillnaden mellan OLS och de andra modellerna är för det mesta rätt liten. Tabell: Sannolikheten för att överleva Titanic (GME) (1) (2) (3) VARIABLER LOGIT PROBIT OLS Ln(biljettpris) 0.100*** 0.102*** 0.106*** (0.0128) (0.0130) (0.0137) Kvinna 0.374*** 0.392*** 0.491*** (0.0134) (0.0158) (0.0292) Ålder ** ** ** ( ) ( ) ( ) Observationer 1,037 1,037 1,037 Standardfel inom parenteser. OLS: Robusta standardfel. *** p<0.01, ** p<0.05, * p<0.1 6 Vid OLS så är regressionskoefficienterna samtidigt de genomsnittliga marginaleffekterna.

17 18.4 MAXIMUM LIKELIHOOD När du kör en logit eller probit så får du fram estimaten genom en metod som kallas för maximum likelihood. Vi kan också se detta i regressionsutskriften; programmet gör så kallade itereringar och beräknar varje gång fram något som kallas för en log-likelihood (se utskriften nedan). I det här fallet blev loglikelihooden -827,01596 i den sista itereringen. Den här siffran säger något om hur bra vår modell presterar. Ju närmare 0 vi kommer i den sista itereringen, desto bättre är biljettpriset på att prediktera vem som överlever och vem som dör. För att förstå vad detta handlar om så ska vi lära oss vad maximum likelihood-metoden går ut på. Vi ser detta bäst genom ett exempel: Säg att du jobbar på en bank och vill estimera sannolikheten för att en kund lyckas betala tillbaka ett lån i tid. För enkelhetens skull ska vi tänka oss att data bara täcker 4 personer varav 3 betalade tillbaka i tid: 1, 1, 1, 0 När vi använder maximum likelihood-estimatorn väljer vi det estimat för får parameter (p) som maximerar sannolikheten för att få det sampel som vi faktiskt fått. Låter det krångligt? Låt mig ta ett exempel. Anta att p = 0,5: Sannolikheten för att en kund betalar tillbaka i tid är 50 procent. Hur stor är då sannolikheten för att få det sampel som vi faktiskt har fått, dvs. först tre personer som betalade tillbaka i tid och sedan en som inte gjorde det? Jo, den sannolikheten är 6,25 procent: Pr(data p = 0,5) = 0,5 0,5 0,5 (1 0,5) = 0,0625

18 Eller anta att p = 0,6: Sannolikheten för att en kund betalar tillbaka i tid är 60 procent. Hur stor är då sannolikheten för att få det sampel som vi faktiskt har fått? Jo, den sannolikheten är 8,64 procent: Pr(data p = 0,6) = 0,6 0,6 0,6 (1 0,6) = 0,0864 Och om sannolikheten för att en kund betalar tillbaka i tid är p så blir sannolikheten: Pr(data p) = p p p (1 p) = p 3 (1 p) Frågan vi ställer oss: För vilket värde på p blir denna sannolikhet som allra störst? Jo, detta händer då p = 0,75. Vi kan se detta genom att derivera uttrycket ovan, sätta derivatan lika med 0 och lösa ut p. Men här är ett litet trick: Ibland är det lättare att först logaritmera ett uttryck innan man deriverar: ln(pr(data p)) = 3 ln(p) + ln(1 p) Man bryter inte mot några regler på det här sättet: Det värde på p som maximerar sannolikheten för data, är också det värde som maximerar den sannolikheten men mätt på en loggad skala. När vi kör en logit eller probit så är principen exakt densamma, bara att p i uttrycket ovan då är en funktion av våra oberoende variabler. Anta att vi vill estimera en logit där vi beskriver sannolikheten för att överleva Titanic (p) som en funktion av biljettpriset. Den logaritmerade sannolikheten för att få det datamaterial vi faktiskt har fått blir då: ln(pr(data p)) = [ln(p i ) över i + ln (1 p i )(1 över i )] där över är en binär variabel som antar värdet 1 för de som överlevde och annars värdet 0, och där: eβ 0+β 1 pris p i = 1 + e β 0+β 1 pris Vi ska alltså bestämma värdena för β 0 och β 1 så att den loggade sannolikheten blir så hög som möjligt, eller så att log-likelihoodfunktionen får ett så stort värde som möjligt. Det här är inget enkelt problem att lösa, inte ens för en dator. De facto måste datorn pröva sig fram på motsvarande sätt som vi prövade oss fram i bankexemplet genom att först sätta p = 0,5 och därefter p = 0,6. Datorn löser alltså problemet genom att använda en iterativ

19 metod och i varje iterering så kommer log-likelihooden lite närmare 0. I det här exemplet stannade vi slutligen på - 827,01596.

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER När vi mäter en effekt i data så vill vi ofta se om denna skiljer sig mellan olika delgrupper. Vi kanske testar effekten av ett

Läs mer

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population

Läs mer

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information

Läs mer

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två

Läs mer

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013 Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas

Läs mer

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk) Poissonregression En lämplig utgångspunkt om vi har en beroende variabel som är en count variable, en variabel som antar icke-negativa heltalsvärden med ganska liten variation E(y x1, x2,.xn) = exp( 0

Läs mer

Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA

Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA Statistiska tester bygger alltid på vissa antaganden. Är feltermen homoskedastisk? Är den normalfördelad? Dessa antaganden är faktiskt aldrig uppfyllda i praktiken,

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

InStat Exempel 4 Korrelation och Regression

InStat Exempel 4 Korrelation och Regression InStat Exempel 4 Korrelation och Regression Vi ska analysera ett datamaterial som innehåller information om kön, längd och vikt för 2000 personer. Materialet är jämnt fördelat mellan könen (1000 män och

Läs mer

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Till ampad statistik (A5) Förläsning 13: Logistisk regression Till ampad statistik (A5) Förläsning 13: Logistisk regression Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2016-03-08 Exempel 1: NTU2015 Exempel 2: En jobbannons Exempel 3 1 1 Klofstad, C.

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 13

ÖVNINGSUPPGIFTER KAPITEL 13 ÖVNINGSUPPGIFTER KAPITEL 13 KORSTABELLER 1. Nedan visas tre korstabeller utifrån tre olika dataset (A, B och C). Korstabellerna beskriver sambandet mellan kön och vilken hand man skriver med (vänster,

Läs mer

Statistiska metoder för säkerhetsanalys

Statistiska metoder för säkerhetsanalys F10: Intensiteter och Poissonmodeller Frågeställningar Konstant V.v.=Var Cyklister Poissonmodeller för frekvensdata Vi gör oberoende observationer av de (absoluta) frekvenserna n 1, n 2,..., n k från den

Läs mer

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar ICKE-LINJÄRA MODELLER Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Y i = 1 + 2 X 2i + u i Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar cov(x i,u i )

Läs mer

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER 1. Regressionen nedan visar hur kvinnors arbetsmarknadsdeltagande varierar beroende på om de har småbarn eller inte. Datamaterialet gäller 753 amerikanska kvinnor

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 7

ÖVNINGSUPPGIFTER KAPITEL 7 ÖVNINGSUPPGIFTER KAPITEL 7 TIDSSERIEDIAGRAM OCH UTJÄMNING 1. En omdebatterad utveckling under 90-talet gäller den snabba ökningen i VDlöner. Tabellen nedan visar genomsnittlig kompensation för direktörer

Läs mer

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER 1. Regressionen nedan visar hur kvinnors arbetsmarknadsdeltagande varierar beroende på om de har småbarn eller inte. Datamaterialet gäller 753 amerikanska kvinnor

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 1 Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 Dessa instuderingsfrågor är främst tänkta att stämma överens med innehållet i föreläsningarna,

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 3

ÖVNINGSUPPGIFTER KAPITEL 3 ÖVNINGSUPPGIFTER KAPITEL 3 SAMBAND 1. Nedan ges beskrivningar av tre olika datamaterial. a. I kyrkbänkarna har snittåldern stigit betänkligt under de senaste decennierna, men är unga människor verkligen

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 6

ÖVNINGSUPPGIFTER KAPITEL 6 ÖVNINGSUPPGIFTER KAPITEL 6 ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER 1. Regressionen nedan visar hur kvinnors arbetsmarknadsdeltagande varierar beroende på om de har småbarn eller inte. Datamaterialet

Läs mer

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1 Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1. Multipel regression 1.1. Variabler I det aktuella exemplet ingår följande variabler: (1) life.sat, anger i vilket utsträckning man är nöjd med livet;

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 8

ÖVNINGSUPPGIFTER KAPITEL 8 ÖVNINGSUPPGIFTER KAPITEL 8 SAMPEL KONTRA POPULATION 1. Nedan beskrivs fyra frågeställningar. Ange om populationen är ändlig eller oändlig i respektive fall. Om ändlig, beskriv också vem eller vad som ingår

Läs mer

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström Omtentamen i Regressionsanalys 2009-01-08 Skrivtid: 9.00-14.00 Godkända hjälpmedel: Miniräknare utan lagrade formler. Tentamen består

Läs mer

Resursfördelningsmodellen

Resursfördelningsmodellen PCA/MIH Johan Löfgren Rapport 25-6-26 (6) Resursfördelningsmodellen Växjös skolor våren 25 Inledning Underlag för analyserna utgörs av ett register som innehåller elever som gått ut årskurs nio 2 24. Registret

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 12

ÖVNINGSUPPGIFTER KAPITEL 12 ÖVNINGSUPPGIFTER KAPITEL 12 ANOVA I EN MULTIPEL REGRESSION 1. I en amerikansk studie samlade man in data för 601 gifta personer, och mätte hur många utomäktenskapliga affärer de haft under det senaste

Läs mer

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; () Mixed effect models; (3)

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 4

ÖVNINGSUPPGIFTER KAPITEL 4 ÖVNINGSUPPGIFTER KAPITEL 4 REGRESSIONSLINJEN: NIVÅ OCH LUTNING 1. En av regressionslinjerna nedan beskrivs av ekvationen y = 20 + 2x; en annan av ekvationen y = 80 x; en tredje av ekvationen y = 20 + 3x

Läs mer

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet 2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys.

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 6

ÖVNINGSUPPGIFTER KAPITEL 6 ÖVNINGSUPPGIFTER KAPITEL 6 ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER 1. Regressionen nedan visar hur kvinnors arbetsmarknadsdeltagande varierar beroende på om de har småbarn eller inte. Datamaterialet

Läs mer

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år). Matematikcentrum Matematisk statistik MASB11: BIOSTATISTISK GRUNDKURS DATORLABORATION 4, 21 MAJ 2018 REGRESSION OCH FORTSÄTTNING PÅ MINIPROJEKT II Syfte Syftet med dagens laboration är att du ska bekanta

Läs mer

F11. Kvantitativa prognostekniker

F11. Kvantitativa prognostekniker F11 Kvantitativa prognostekniker samt repetition av kursen Kvantitativa prognostekniker Vi har gjort flera prognoser under kursen Prognoser baseras på antagandet att historien upprepar sig Trenden följer

Läs mer

MVE051/MSG Föreläsning 14

MVE051/MSG Föreläsning 14 MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 2

ÖVNINGSUPPGIFTER KAPITEL 2 ÖVNINGSUPPGIFTER KAPITEL 2 DATAMATRISEN 1. Datamatrisen nedan visar ett utdrag av ett datamaterial för USA:s 50 stater. Stat Befolkningsmängd Inkomst Marijuana Procent män (miljoner) per person lagligt?

Läs mer

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys) Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10 Laboration Regressionsanalys (Sambandsanalys) Grupp A: 2010-11-24, 13.15 15.00 Grupp B: 2010-11-24, 15.15 17.00 Grupp C: 2010-11-25,

Läs mer

Linjär regressionsanalys. Wieland Wermke

Linjär regressionsanalys. Wieland Wermke + Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån

Läs mer

Repetitionsföreläsning

Repetitionsföreläsning Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning

Läs mer

F13 Regression och problemlösning

F13 Regression och problemlösning 1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell

Läs mer

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.

Läs mer

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset. Statistiska institutionen Nicklas Pettersson Skriftlig tentamen i Finansiell Statistik Grundnivå 7.5hp, VT2014 2014-05-26 Skrivtid: 9.00-14.00 Hjälpmedel: Godkänd miniräknare utan lagrade formler eller

Läs mer

HYPOTESPRÖVNING sysselsättning

HYPOTESPRÖVNING sysselsättning 0 självmord 20 40 60 HYPOTESPRÖVNING 4. Se spridningsdiagrammen nedan (A, B och C). Alla tre samband har samma korrelation och samma regressionslinje (r = 0,10, b = 0,15). Vi vill testa om sambandet mellan

Läs mer

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts. Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:

Läs mer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat

Läs mer

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)

Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL) Innehåll: 1. Risk & Odds 1.1 Risk Ratio 1.2 Odds Ratio 2. Logistisk Regression 2.1 Ln Odds 2.2 SPSS Output 2.3 Estimering (ML) 2.4 Multipel 3. Survival Analys 3.1 vs. Logistisk 3.2 Censurerade data 3.3

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik och kvantitativa undersökningar, A 15 Hp Vårterminen 2017 Laboration 2 Omprovsuppgift Regressionsanalys, baserat på Sveriges kommuner

Läs mer

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder Föreläsning 3 Statistiska metoder 1 Dagens föreläsning o Samband mellan två kvantitativa variabler Matematiska samband Statistiska samband o Korrelation Svaga och starka samband När beräkna korrelation?

Läs mer

Föreläsning 10, del 1: Icke-linjära samband och outliers

Föreläsning 10, del 1: Icke-linjära samband och outliers Föreläsning 10, del 1: och outliers Pär Nyman par.nyman@statsvet.uu.se 19 september 2014-1 - Sammanfattning av tidigare kursvärderingar: - 2 - Sammanfattning av tidigare kursvärderingar: Kursen är för

Läs mer

Statistisk analys av komplexa data

Statistisk analys av komplexa data Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 12, 2013 Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall

Läs mer

Weibullanalys. Maximum-likelihoodskattning

Weibullanalys. Maximum-likelihoodskattning 1 Weibullanalys Jan Enger Matematisk statistik KTH Weibull-fördelningen är en mycket viktig fördelning inom tillförlitlighetsanalysen. Den används ofta för att modellera mekaniska komponenters livslängder.

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F19, (Multipel linjär regression forts) och F20, Chi-två test. Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med

Läs mer

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng) 1 F1 ordinalskala F2 kvotskala F65A nominalskala F65B kvotskala F81 nominalskala (motivering krävs för full poäng) b) Variabler som används är F2 och F65b. Eftersom det är kvotskala på båda kan vi använda

Läs mer

Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller.

Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller. Multinominella modeller Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller. Möjligt att, genom olika modellformuleringar, beakta att vissa regressorer varierar mellan

Läs mer

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet 2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Korrelation och regression Innehåll 1 Korrelation och regression Spridningsdiagram Då ett datamaterial består av två (eller era) variabler är man ofta intresserad av att veta om det nns ett

Läs mer

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 9 e juni Ten 1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 9 e juni Ten 1, 9 hp MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Tentamen på Statistik och kvantitativa undersökningar STA101, 15 hp Fredagen den 9 e juni 2017 Ten 1, 9 hp Tillåtna hjälpmedel:

Läs mer

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9, Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9, 8-5-4 EXEMPEL: Hur mycket kunder förlorar vi om vi höjer biljettpriset?

Läs mer

Höftledsdysplasi hos dansk-svensk gårdshund

Höftledsdysplasi hos dansk-svensk gårdshund Höftledsdysplasi hos dansk-svensk gårdshund Sjö A Sjö B Förekomst av parasitdrabbad öring i olika sjöar Sjö C Jämföra medelvärden hos kopplade stickprov Tio elitlöpare springer samma sträcka i en för dem

Läs mer

Regressionsanalys av lägenhetspriser i Spånga

Regressionsanalys av lägenhetspriser i Spånga Regressionsanalys av lägenhetspriser i Spånga Mahamed Saeid Ali Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2016:11 Matematisk statistik Juni 2016

Läs mer

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 Exempel, enkel linjär regressionsanalys Ett företag vill veta

Läs mer

Dekomponering av löneskillnader

Dekomponering av löneskillnader Lönebildningsrapporten 2013 133 FÖRDJUPNING Dekomponering av löneskillnader Den här fördjupningen ger en detaljerad beskrivning av dekomponeringen av skillnader i genomsnittlig lön. Först beskrivs metoden

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 9

ÖVNINGSUPPGIFTER KAPITEL 9 ÖVNINGSUPPGIFTER KAPITEL 9 STOKASTISKA VARIABLER 1. Ange om följande stokastiska variabler är diskreta eller kontinuerliga: a. X = En slumpmässigt utvald person ur populationen är arbetslös, där x antar

Läs mer

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Läs mer

0 om x < 0, F X (x) = c x. 1 om x 2.

0 om x < 0, F X (x) = c x. 1 om x 2. Avd. Matematisk statistik TENTAMEN I SF193 SANNOLIKHETSLÄRA OCH STATISTIK FÖR 3-ÅRIG Media TIMEH MÅNDAGEN DEN 16 AUGUSTI 1 KL 8. 13.. Examinator: Gunnar Englund, tel. 7974 16. Tillåtna hjälpmedel: Läroboken.

Läs mer

Exempel på tentamensuppgifter

Exempel på tentamensuppgifter STOCKHOLMS UNIVERSITET 4 mars 2010 Matematiska institutionen Avd. för matematisk statistik Mikael Andersson Exempel på tentamensuppgifter Uppgift 1 Betrakta en allmän I J-tabell enligt 1 2 3 J Σ 1 n 11

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

Statistisk analys av komplexa data

Statistisk analys av komplexa data Statistisk analys av komplexa data Trunkerade data och Tobitregression Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 10, 2015 Bertil Wegmann (statistik, LiU) Trunkerade data

Läs mer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

Medicinsk statistik II

Medicinsk statistik II Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning

Läs mer

Sänkningen av parasitnivåerna i blodet

Sänkningen av parasitnivåerna i blodet 4.1 Oberoende (x-axeln) Kön Kön Längd Ålder Dos Dos C max Parasitnivå i blodet Beroende (y-axeln) Längd Vikt Vikt Vikt C max Sänkningen av parasitnivåerna i blodet Sänkningen av parasitnivåerna i blodet

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 2

ÖVNINGSUPPGIFTER KAPITEL 2 ÖVNINGSUPPGIFTER KAPITEL 2 DATAMATRISEN 1. Datamatrisen nedan visar ett utdrag av ett datamaterial för USA:s 50 stater. Stat Befolkningsmängd Inkomst Marijuana Procent män (miljoner) per person lagligt?

Läs mer

Blandade problem från elektro- och datateknik

Blandade problem från elektro- och datateknik Blandade problem från elektro- och datateknik Sannolikhetsteori (Kapitel 1-10) E1. En viss typ av elektroniska komponenter anses ha exponentialfördelade livslängder. Efter 3000 timmar brukar 90 % av komponenterna

Läs mer

Statistisk analys av komplexa data

Statistisk analys av komplexa data Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 28, 2012 Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012

Läs mer

Laboration 4 R-versionen

Laboration 4 R-versionen Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 VT13, lp3 Laboration 4 R-versionen Regressionsanalys 2013-03-07 Syftet med laborationen är att vi skall bekanta oss med lite av de funktioner

Läs mer

Att välja statistisk metod

Att välja statistisk metod Att välja statistisk metod en översikt anpassad till kursen: Statistik och kvantitativa undersökningar 15 HP Vårterminen 2018 Lars Bohlin Innehåll Val av statistisk metod.... 2 1. Undersökning av en variabel...

Läs mer

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning

Läs mer

Verksamhetsutvärdering av Mattecentrum

Verksamhetsutvärdering av Mattecentrum Verksamhetsutvärdering av Mattecentrum April 2016 www.numbersanalytics.se info@numbersanalytics.se Presskontakt: Oskar Eriksson, 0732 096657 oskar@numbersanalytics.se INNEHÅLLSFÖRTECKNING Inledning...

Läs mer

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?

MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial? MULTIPEL IMPUTATION Ett sätt att fylla i hålen i ditt datamaterial? Pär Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par Ola.Bendahl@med.lu.se Översikt 1. Introduktion till problemet 2.

Läs mer

LABORATION 3 - Regressionsanalys

LABORATION 3 - Regressionsanalys Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistik-programmet

Läs mer

Makar som delar på kakan en ESO-rapport om jämställda pensioner

Makar som delar på kakan en ESO-rapport om jämställda pensioner Online appendix till: Makar som delar på kakan en ESO-rapport om jämställda pensioner Jenny Säve-Söderbergh, Docent, Institutet för Social Forskning (SOFI), Stockholms universitet Mail address: jenny.save-soderbergh@sofi.su.se.

Läs mer

Tentamen Metod C vid Uppsala universitet, , kl

Tentamen Metod C vid Uppsala universitet, , kl Tentamen Metod C vid Uppsala universitet, 170503, kl. 08.00-12.00 Anvisningar Av rättningspraktiska skäl skall var och en av de tre huvudfrågorna besvaras på separata pappersark. Börja alltså på ett nytt

Läs mer

Facit till Extra övningsuppgifter

Facit till Extra övningsuppgifter LINKÖPINGS UNIVERSITET Institutionen för datavetenskap Statistik, ANd 732G71 STATISTIK B, 8hp Civilekonomprogrammet, t3, Ht 09 Extra övningsuppgifter Facit till Extra övningsuppgifter 1. Modellen är en

Läs mer

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS STOCKHOLMS UNIVERSITET Statistiska institutionen Marcus Berg VT2014 TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS Fredag 23 maj 2014 kl. 12-17 Skrivtid: 5 timmar Godkända hjälpmedel: Kalkylator utan

Läs mer

Statistiska samband: regression och korrelation

Statistiska samband: regression och korrelation Statistiska samband: regression och korrelation Vi ska nu gå igenom något som kallas regressionsanalys och som innebär att man identifierar sambandet mellan en beroende variabel (x) och en oberoende variabel

Läs mer

Avd. Matematisk statistik

Avd. Matematisk statistik Avd. Matematisk statistik TENTAMEN I 5B508 MATEMATISK STATISTIK FÖR S TISDAGEN DEN 20 DECEMBER 2005 KL 08.00 3.00. Examinator: Gunnar Englund, tel. 790 746. Tillåtna hjälpmedel: Formel- och tabellsamling

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 10

ÖVNINGSUPPGIFTER KAPITEL 10 ÖVNINGSUPPGIFTER KAPITEL 10 För vissa uppgifter behöver du en tabell över den standardiserade normalfördelningen. Se här. SAMPLING 1. Nedan ges beskrivningar av fyra sampel. Ange i respektive fall om detta

Läs mer

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data Pär-Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par-Ola.Bendahl@med.lu.se Översikt Introduktion till problemet Enkla

Läs mer

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1(6) PCA/MIH Johan Löfgren 2016-11-10 Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1 Inledning Sveriges kommuner och landsting (SKL) presenterar varje år statistik över elevprestationer

Läs mer

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD 6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller

Läs mer

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

INNEHÅLL DEL II: STATISTISK INFERENS SLUMPMÄSSIGA SAMPEL

INNEHÅLL DEL II: STATISTISK INFERENS SLUMPMÄSSIGA SAMPEL INNEHÅLL 1. Vad är statistik? DEL I: ATT BESKRIVA DATA 2. Att beskriva en variabels fördelning 3. Sambandet mellan två variabler: Korrelationer 4. Sambandet mellan två variabler: Regressionslinjen 5. Statistiska

Läs mer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistik B Regressions- och tidsserieanalys Föreläsning 1 Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs

Läs mer

Statistisk analys av komplexa data

Statistisk analys av komplexa data Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 18, 2016 Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 10

ÖVNINGSUPPGIFTER KAPITEL 10 ÖVNINGSUPPGIFTER KAPITEL 10 För vissa uppgifter behöver du en tabell över den standardiserade normalfördelningen. Se här. SAMPLING 1. Nedan ges beskrivningar av fyra sampel. Ange i respektive fall om detta

Läs mer

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; (2) Mixed effect models; (3)

Läs mer