Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Save this PDF as:
 WORD  PNG  TXT  JPG

Storlek: px
Starta visningen från sidan:

Download "Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT"

Transkript

1 Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT Regressionsanalys handlar om att estimera hur medelvärdet för en variabel (y) varierar med en eller flera oberoende variabler (x). Exempel: Hur varierar genomsnittlig lön med utbildning? Hur varierar genomsnittlig livslängd med inkomst och kön? Hur varierar genomsnittlig avkastning på en aktie beroende på veckodagen? I alla de här exemplen är utfallsvariabeln kvantitativ (lön, livslängd, avkastning). Men det finns heller inget som hindrar oss från att köra en regression då utfallsvariabeln är binär, dvs. då utfallsvariabeln bara antar två värden (0 och 1). Exempel: Vi samlar in data för ett tusental amerikaner och mäter om dessa stödjer Trump (=1) eller Hillary (=0). Vi samlar in data för ett hundratal låntagare och studerar om dessa lyckades betala tillbaka i tid (=1) eller inte (=0). Notera här att medelvärdet för en binär variabel är en andel. Exempel: Vi har samlat in data för 100 låntagare varav 70 betalade tillbaka i tid. Medelvärdet för den här variabeln blir då 0,7 vilket är andelen som betalade tillbaka i tid, eller sannolikheten att en person betalade tillbaka i tid. Med en binär utfallsvariabel så tittar vi alltså på andelar eller sannolikheter: Hur stor andel av låntagare betalar tillbaka i tid och hur varierar detta beroende på kön, ålder och utbildning? Eller med andra ord: Hur varierar sannolikheten att betala tillbaka i tid beroende på kön, ålder och utbildning? Vi kan tänka oss att modellera den här sannolikheten på lite olika sätt. Om vi estimerar sannolikheten att betala tillbaka i tid som en linjär funktion av x-variablerna så kallas detta för en linjär sannolikhetsmodell. Vi kan då använda OLS på traditionellt sätt. I nästa avsnitt ska vi se ett exempel på vad det här kan betyda. I avsnitt 18.2 och 18.3 ska vi se på två alternativa metoder, logit och probit, som också används för att estimera sannolikheter. I avsnitt 18.4 diskuterar vi maximum likelihood som är den estimator som används vid logit och probit.

2 18.1 DEN LINJÄRA SANNOLIKHETSMODELLEN Exempel: Nedan ser du ett utdrag av data för de personer som steg ombord på Titanic år Vi vill beskriva hur sannolikheten att överleva varierar som en funktion av biljettpriset. Utfallsvariabeln överlevde är nu binär; den antar värdet 1 för de som överlevde och annars värdet 0. Namn biljettpris överlevde Allen, Miss. Elisabeth Walton 211, Allison, Master. Hudson Trevor 151,55 1 Allison, Miss. Helen Loraine 151,55 0 Allison, Mr. Hudson Joshua Creighton 151,55 0 Allison, Mrs. Hudson J C (Bessie Waldo 151,55 0 Daniels) Anderson, Mr. Harry 26,55 1 Andrews, Miss. Kornelia Theodosia 77, Andrews, Mr. Thomas Jr 0 0 Appleton, Mrs. Edward Dale (Charlotte 51, Lamson) Zimmerman, Mr. Leo 7,875 0 Nedan har vi kört en vanlig regression (OLS) med överleva som utfall och biljettpriset som oberoende variabel. Inom parentes ges det robusta standardfelet 1 : överleva = 0,31 + 0,0023pris (0,00026) För en person som betalat 100 pund för biljetten så blir prediktionen 0,54: överleva = 0,31 + 0,0023 pris 100 = 0,54 1 Den linjära sannolikhetsmodellen är per konstruktion heteroskedastisk, därför använder vi robusta standardfel. Vi kan se att modellen är heteroskedastisk på följande sätt: Variansen för en binär variabel ges av p(1-p). I detta exempel är p andelen överlevare (eller sannolikheten för att överleva). För de som betalat ett tillräckligt högt biljettpris så är denna sannolikhet hög och för de som betalat ett lågt biljettpris är sannolikheten lägre. Låt oss jämföra en person som har en överlevnadssannolikhet på 0,9 med en som har en sannolikhet på 0,5. I det första fallet bli överlevnadsvariansen 0,9(1-0,9) = 0,09 och i det andra fallet 0,5(1-0,5) = 0,25. Överlevnadsvariansen skiljer sig alltså mellan olika biljettpriser.

3 En sådan person predikteras alltså ha en 54-procentig sannolikhet att överleva. Och för varje extra pund som man spenderar på biljetten så ökar denna sannolikhet med 0,0023 eller 0,23 procentenheter. Den här effekten är signifikant (t = 0,0023/0,00026 = 8,85; p-värdet 0,000). I det här fallet passar det data bättre att mäta biljettpriset på en logaritmerad skala: överleva = 0,07 + 0,16 ln (pris) (0,013) Då biljettpriset ökar med 1 procent så ökar sannolikheten att överleva med 0,0016 eller 0,16 procentenheter. Vi kan också inkludera flera oberoende variabler i den här regressionen. Här har vi dessutom kontrollerat för kön och ålder: överleva = 0,02 + 0,11 ln(pris) + 0,49 kvinna 0,0024 ålder Då biljettpriset ökar med 1 procent så ökar sannolikheten att överleva med 0,0011 eller 0,11 procentenheter, kontrollerat för kön och ålder. Vi ser också att sannolikheten att överleva är 49 procentenheter högre för kvinnor än för män, och att chansen att överleva minskar med åldern; för varje extra år minskar denna sannolikhet med 0,24 procentenheter. Det går alltså bra att använda OLS även om utfallsvariabeln är binär. Men i praktiken är det ändå vanligare att använda alternativa metoder. I nästa avsnitt ska vi diskutera den populäraste av dessa: logistisk regression (logit). Men för att se varför logit är populärare än OLS, så ska vi börja med att diskutera kritiken mot den linjära sannolikhetsmodellen. Kritik mot linjära sannolikhetsmodeller Linjära sannolikhetsmodeller kritiseras eftersom de kan ge orimliga prediktioner, sannolikheter som ligger under 0 eller över 1. Exempel forts. Vi estimerade sannolikheten att överleva som en funktion av biljettpriset, kön och ålder: överleva = 0,02 + 0,11 ln(pris) + 0,49kvinna 0,0024ålder

4 Hur ser prediktionerna ut för olika personer i data? Jo, för de allra flesta ligger sannolikheten att överleva någonstans mellan 0 och 1 (precis som man skulle förvänta sig). Men det finns också en passagerare med en sannolikhet på 107 procent: Miss. Anna Ward var en 35-årig kvinna som betalade 512 pund för sin biljett: överlevde = 0,02 + 0,11 ln (pris ) + 0,49 kvinna 0,0024 ålder ,07 Vi vet att den här prediktionen är felaktig, men då vi använder en linjär modell så finns det inget som ser till att prediktionerna faktiskt hamnar mellan 0 och 1. Eftersom överlevnadssannolikheten ökar linjärt med biljettpriset (mätt på en loggad skala) så kan vi alltid få en överlevnadssannolikhet som hamnar över 100 procent bara vi sätter biljettpriset tillräckligt högt. Den linjära modellen kan alltså inte vara korrekt. Den kan ge bra approximationer för begränsade värden på x, men den kan inte vara fullständigt korrekt. Vi ska nu se på en annan modell logit som är konstruerad så att de predikterade sannolikheterna alltid hamnar där de ska. 1

5 18.2 LOGISTISK REGRESSION (LOGIT) Exempel forts. Låt oss utgå från regressionen: överleva = 0,31 + 0,0023pris Här beskriver vi sannolikheten för att överleva som en linjär funktion av biljettpriset. När vi däremot estimerar en logistisk regression så beskriver vi oddset för att överleva som en multiplikativ modell av biljettpriset. I det här fallet ges den funktionen av: oddset för att överleva = 0,41 1,01 pris Låt oss fundera på vad den här regressionen säger. Precis som tidigare så kan vi använda den här regressionen för att göra prediktioner. För en passagerare som betalat 0 pund för biljetten så blir oddset för att överleva 0,41: oddset för att överleva = 0,41 1,01 pris = 0,41 1,01 0 = 0,41 1 = 0,41 För en passagerare som betalat 1 pund blir oddset 0,414: oddset för att överleva = 0,41 1,01 pris = 0,41 1,01 1 = 0,41 1,01 0,414 För en som betalat 2 pund blir oddset 0,422: oddset för att överleva = 0,41 1,01 pris = 0,41 1,01 2 = 0,41 1,01 1,01 0,422 Och för en passagerare som betalat 3 pund blir oddset 0,41 1,01 3 = 0,41 1,01 1,01 1,01. Om vi multiplicerar med 1,01 ännu en fjärde gång så får vi oddset för en som betalat 4 pund. Oddset för överleva ökar alltså med en faktor på 1,01 för varje extra pund man betalat för biljetten. Eller med andra ord: Oddset för att överleva ökar med 1 procent för varje extra pund man betalat för biljetten. Låt oss repetera: oddset för att överleva = 0,41 1,01 pris

6 0,41 är oddset för att överleva då priset sätts lika med 0. Då priset ökar med 1 pund så ökar oddset för att överleva med en faktor på 1,01, dvs. 1 procent. Vi kallar detta estimat (1,01) för en oddskvot 2. Anta att vi istället hade fått följande resultat: oddset för att överleva = 0,25 2,0 pris 0,25 är oddset att överleva för en person som betalade 0 pund för sin biljett. Och då priset ökar med 1 pund så ökar oddset för att överleva med en faktor på 2 vilket är en ökning med 100 procent. Eller anta att vi istället hade fått följande resultat: oddset för att överleva = 0,25 3,0 pris Då priset ökar med 1 pund så ökar oddset för att överleva med en faktor på 3 vilket är en ökning med 200 procent. Eller anta att vi istället hade fått följande resultat: oddset för att överleva = 0,25 0,9 pris Då priset ökar med 1 pund så minskar oddset för att överleva med 10 procent. I exemplet ovan så tänkte vi oss att oddset för att överleva var 0,25, givet att man betalat 0 pund för biljetten. Men vad betyder då ett odds på 0,25? Jo, detta betyder att det går 0,25 överlevare på varje person som dog. Eller med andra ord: Det går då 25 överlevare per 100 döda. Ett odds på 0,25 motsvaras alltså av en sannolikhet på 20 procent: I en grupp på 125 personer så är det 100 som dör och 25 som överlever: 25/125 = 0,2. Vi kan göra om ett odds till en sannolikhet genom följande formel: sannolikhet = odds odds + 1 När vi predikterat oddset för att överleva för olika personer i data så kan vi alltså skriva om dessa odds till sannolikheter. I figuren nedan har vi ritat ut sannolikheten för att överleva mot 2 1,01 är kvoten mellan två odds: Oddset att överleva då man betalat k+1 pund, genom oddset för att överleva då man betalat k pund.

7 Sannolikhet biljettpriset. (Här har vi använt oss av regressionen som bygger på riktiga data: oddset för att överleva = 0,41 1,01 pris.) Sannolikheten för att överleva Titanic biljettpris Vi ser alltså att sannolikheten att överleva är en icke-linjär funktion av biljettpriset: Sannolikheten ökar brant i början men den här positiva effekten avtar då biljettpriset blir tillräckligt högt. Och när biljettpriset nått 500 pund så är överlevnadssannolikheten praktiskt taget 1. Men den kommer aldrig att bli större än 1 (oavsett biljettpris). Och på motsvarande sätt kan vi aldrig få negativa sannolikheter. Logiten Exempel forts. Vi beskrev oddset för att överleva genom uttrycket: oddset för att överleva = 0,41 1,01 pris Om vi tar den naturliga logaritmen på båda sidor får vi följande uttryck: ln (oddset för att överleva) = ln(0,41) + pris ln(1,01) = 0, , 01 pris Den här ekvationen säger precis samma sak som tidigare: För varje extra pund du betalar för biljetten så ökar oddset för att överleva med 1 procent. Notera att det här är motsvarande tolkning som i alla regressioner med loggat utfall!

8 Sannolikhet När vi på det här sättet tar den naturliga logaritmen av ett odds så kallas detta för en logit. Exempel: För en passagerare som betalat 0 pund för biljetten så är den naturliga logaritmen av oddset 0,89. Eller så kan vi kortare säga att logiten är -0,89. Exempel forts. Här har vi istället beskrivit oddset för att överleva som en funktion av biljettpriset mätt på en loggad skala: oddset Logiten för att överleva ges då av: ln (oddset) ln (pris) = 0,08 1,97 = 2,49 + 0,68 ln (pris) När biljettpriset ökar med 1 procent så ökar oddset för att överleva med 0,68 procent. I figuren nedan har vi illustrerat det här sambandet grafiskt; men här tittar vi på hur sannolikheten för att överleva varierar med biljettpriset: Sannolikheten för att överleva Titanic Biljettpris Exempel forts. Här har vi även kontrollerat för ålder och kön: oddset ln (oddset) = 0,06 1,86 ln(pris) 0,99 ålder 10 kvinna = 2,8 + 0,6 ln(pris) 0,01ålder + 2,3kvinna Det spelar ingen roll vilken av dessa funktioner vi använder när vi tolkar resultatet. Båda beskriver exakt samma sak, bara uttryckt på olika sätt. Låt oss utgå från den färgglada logitvarianten: Då priset ökar med 1 procent så ökar oddset för att

9 överleva med 0,6 procent (kontrollerat för kön och ålder). Då åldern ökar med ett år så minskar oddset för att överleva med 1 procent (kontrollerat för biljettpris och kön). Oddset för att överleva är 900 procent högre bland kvinnor än bland män (kontrollerat för biljettpris och ålder). Notera: Koefficienten för kvinna är 2,3 vilket motsvarar en effekt på 900 procent. Det motsvarar alltså inte en effekt på 230 procent. Den här tolkningen skulle vara korrekt om koefficienten varit närmare 0. Exempel: Om koefficienten för kvinna hade varit 0,08 så hade vi sagt att oddset för att överleva är 8 procent högre bland kvinnor än bland män. Men den här regeln är approximativ och funkar bara bra för små procentuella effekter (+/- 10 procent). För att få den exakta procenten så tar vi istället 100*[exp(koefficienten)-1]. I detta exempel: 100 [exp(2,3) 1] 900 % Låt oss ännu se på hur resultatet kan se ut i ett statistiskt programpaket (STATA). När du kör en logistisk regression så kan du beställa resultatet i de två olika format som vi sett på här: (1) Beskriver oddset som en multiplikativ modell av de oberoende variablerna: oddset = 0,06 1,86 ln(pris) 10 kvinna 0,99 ålder (2) Beskriver logiten som en linjär funktion av de oberoende variablerna: ln (oddset) = 2,78 + 0,62 ln(pris) + 2,3kvinna 0,01ålder Du ser båda dessa utskrifter på nästa sida.

10 Låt oss ännu se på några andra nyckelsiffror ur dessa regressionsutskrifter. Vi ser att regressionsmodellen har signifikant förklaringsstyrka: LR chi2 = 368,24; p-värdet 0,0000. LR chi2-värdet är alltså motsvarigheten till ett F-värde då vi använder OLS. Vi ser också att biljettpriset har en signifikant effekt på oddset att överleva: z = 7,28; p-värdet 0,000. Z-värdet är alltså motsvarigheten till ett t-värde då vi använder OLS. 3 3 Se den första utskriften ovan (1): Om vi här tar den första oddskvoten (1,86) genom standardfelet (0,159) så får vi ett värde på ~11,7 och inte 7,28 som är z-värdet. Jämför detta med den andra utskriften (2): Om vi här tar den första koefficienten (0,62) genom standardfelet (0,085) så får vi z-värdet (7,28). Vad är det som pågår här? Jo, samplingfördelningen för en oddskvot följer en lognormalfördelning, medan samplingfördelningen för en loggad oddskvot följer en normalfördelning. I utskrift (2) har vi just loggade oddskvoter och då kan vi testa om resultatet är signifikant genom att dela dessa med sina standardfel.

11 Marginaleffekter Exempel forts. Vi hade regressionen: oddset ln (oddset) = 0,06 1,86 ln(pris) 10 kvinna 0,99 ålder = 2,8 + 0,6 ln(pris) 0,01ålder + 2,3kvinna Här ser vi till exempel att då åldern ökar med ett år så minskar oddset för att överleva med 1 procent, kontrollerat för biljettpris och kön. Men vad betyder det? Hur mycket minskar då sannolikheten för att överleva? Det finns inget enkelt svar på den frågan; hur mycket sannolikheten minskar beror också på din ålder i utgångsläget, vad du betalat för biljetten och ditt kön. Effekten av att åldern ökar med ett år kommer alltså att skilja sig mellan olika personer i data (beroende på deras värden på x- variablerna). Om vi räknar ut denna effekt skilt för varje person i data och sedan tar medelvärdet av alla dessa effekter, så får vi det som kallas för den genomsnittliga marginaleffekten. 4 Med hjälp av STATA kan vi räkna ut genomsnittliga marginaleffekter automatiskt: När biljettpriset ökar med 1 procent så ökar sannolikheten för att överleva i snitt med ~0,001 eller ~0,1 procentenheter, kontrollerat för kön och ålder. Sannolikheten för att överleva är i snitt ~37 procentenheter högre bland kvinnor än bland män 4 Rent tekniskt så får vi en marginaleffekt genom att ta fram ett uttryck som beskriver sannolikheten för att överleva som en funktion av x- variablerna. Vi deriverar denna sannolikhet med avseende på x- variabeln av intresse. Detta ger oss följande uttryck: b*p*(1-p) där b är koefficienten av intresse och p är den estimerade sannolikheten för ett gynnsamt utfall (där p skiljer sig mellan olika personer). Vi räknar därefter ut marginaleffekten skilt för varje person i data. Medelvärdet av dessa är den genomsnittliga marginaleffekten.

12 (kontrollerat för biljettpriset och ålder). Och när åldern ökar med ett år så minskar sannolikheten för att överleva i snitt med ~0,2 procentenheter (kontrollerat för biljettpris och kön). Att presentera resultatet Man kan presentera resultatet från en logistisk regression på olika sätt. Det vanligaste är att antingen visa de genomsnittliga marginaleffekterna, oddskvoterna eller bägge (vilket jag gjort i tabellen nedan). Här är GME en är förkortning för genomsnittlig marginaleffekt. (1) (2) VARIABLER GME Oddskvoter Ln(biljettpris) 0.100*** 1.860*** (0.0128) (0.159) Kvinna 0.374*** 10.11*** (0.0134) (1.590) Ålder ** 0.986** ( ) ( ) Konstant *** (0.0180) Observationer 1,037 1,037 Standardfel inom parenteser *** p<0.01, ** p<0.05, * p<0.1

13 18.3 PROBIT Precis som logit så är probit också en modell där vi beskriver sannolikheten för ett gynnsamt utfall som en icke-linjär funktion av x-variablerna. Men tolkningen av resultatet skiljer sig från logit. Exempel forts. Nedan har vi använt Titanic-data och estimerat hur sannolikheten att överleva varierar som en funktion av biljettpriset, mätt på en loggad skala. Vi har här estimerat en probit: Vi kan använda den här modellen för att prediktera sannolikheten för att överleva, och hur denna sannolikhet varierar med biljettpriset. För en probit ges denna sannolikhet av: Pr(överleva) = Pr(Z 1,54 + 0,417 ln(priset)) där Z är en standardiserad normalfördelad variabel. Exempel: För en person som betalat 100 pund för biljetten så blir den sannolikheten 65 procent: Pr(överleva) = Pr (Z 1,54 + 0,417 ln (priset)) = Pr(Z 0,38) 0,65 100

14 För övrigt är det svårt att tolka koefficienterna från en probit. En positiv koefficient betyder att sannolikheten för att överleva ökar med den x-variabeln; en negativ koefficient betyder att sannolikheten för att överleva minskar med den x-variabeln. I det här exemplet är koefficienten för ln(biljettpriset) 0,417. Sannolikheten att överleva ökar alltså med biljettpriset. Men är 0,417 en stor eller liten positiv effekt? Detta är inte särskilt lätt att bedöma. 5 Men precis som vid logit kan vi också här uttrycka effekten som en genomsnittlig marginaleffekt: Då biljettpriset ökar med 1 procent så ökar sannolikheten för att överleva i snitt med 0,0015 eller 0,15 procentenheter. Logit kontra probit: Vilket är bättre? I praktiken har det liten betydelse om man väljer logit eller probit. Figuren nedan illustrerar detta. Här har vi använt Titanicdata och predikterat sannolikheten för att överleva som en funktion av biljettpriset (mätt på en loggad skala), kön och ålder. På x-axeln visas de predikterade sannolikheterna från en logit; på y-axeln visas motsvarande sannolikheter från en probit. 5 Vi förflyttar oss då 0,417 steg högerut på z-skalan. Det här har ganska stor betydelse om vi innan befann oss vid z = 0, men marginell betydelse om vi innan befann oss vid z = -3 eller z = 3.

15 Korrelationen är 0,9999; modellerna gör här mer eller mindre identiska prediktioner. De genomsnittliga marginaleffekterna är också praktiskt taget lika stora oavsett modell, vilket tabellen nedan visar. Tabell: Sannolikheten för att överleva Titanic (GME) (1) (2) VARIABLER LOGIT PROBIT Ln(biljettpris) 0.100*** 0.102*** (0.0128) (0.0130) Kvinna 0.374*** 0.392*** (0.0134) (0.0158) Ålder ** ** ( ) ( ) Observationer 1,037 1,037 Standardfel inom parenteser *** p<0.01, ** p<0.05, * p<0.1 Det spelar med andra ord egentligen ingen roll vilket vi väljer (logit eller probit). Detta är i första hand en fråga om vad man själv föredrar. De flesta väljer då logit, eftersom man då kan tolka resultatet i termer av oddskvoter. En notering här på slutet: Den linjära sannolikhetsmodellen (OLS) är inte heller särskilt dum, även om den kanske har lite skamfilat rykte. I tabellen nedan ser du en jämförelse mellan LOGIT, PROBIT och OLS. Alla estimat är genomsnittliga

16 marginaleffekter. 6 Skillnaden mellan OLS och de andra modellerna är för det mesta rätt liten. Tabell: Sannolikheten för att överleva Titanic (GME) (1) (2) (3) VARIABLER LOGIT PROBIT OLS Ln(biljettpris) 0.100*** 0.102*** 0.106*** (0.0128) (0.0130) (0.0137) Kvinna 0.374*** 0.392*** 0.491*** (0.0134) (0.0158) (0.0292) Ålder ** ** ** ( ) ( ) ( ) Observationer 1,037 1,037 1,037 Standardfel inom parenteser. OLS: Robusta standardfel. *** p<0.01, ** p<0.05, * p<0.1 6 Vid OLS så är regressionskoefficienterna samtidigt de genomsnittliga marginaleffekterna.

17 18.4 MAXIMUM LIKELIHOOD När du kör en logit eller probit så får du fram estimaten genom en metod som kallas för maximum likelihood. Vi kan också se detta i regressionsutskriften; programmet gör så kallade itereringar och beräknar varje gång fram något som kallas för en log-likelihood (se utskriften nedan). I det här fallet blev loglikelihooden -827,01596 i den sista itereringen. Den här siffran säger något om hur bra vår modell presterar. Ju närmare 0 vi kommer i den sista itereringen, desto bättre är biljettpriset på att prediktera vem som överlever och vem som dör. För att förstå vad detta handlar om så ska vi lära oss vad maximum likelihood-metoden går ut på. Vi ser detta bäst genom ett exempel: Säg att du jobbar på en bank och vill estimera sannolikheten för att en kund lyckas betala tillbaka ett lån i tid. För enkelhetens skull ska vi tänka oss att data bara täcker 4 personer varav 3 betalade tillbaka i tid: 1, 1, 1, 0 När vi använder maximum likelihood-estimatorn väljer vi det estimat för får parameter (p) som maximerar sannolikheten för att få det sampel som vi faktiskt fått. Låter det krångligt? Låt mig ta ett exempel. Anta att p = 0,5: Sannolikheten för att en kund betalar tillbaka i tid är 50 procent. Hur stor är då sannolikheten för att få det sampel som vi faktiskt har fått, dvs. först tre personer som betalade tillbaka i tid och sedan en som inte gjorde det? Jo, den sannolikheten är 6,25 procent: Pr(data p = 0,5) = 0,5 0,5 0,5 (1 0,5) = 0,0625

18 Eller anta att p = 0,6: Sannolikheten för att en kund betalar tillbaka i tid är 60 procent. Hur stor är då sannolikheten för att få det sampel som vi faktiskt har fått? Jo, den sannolikheten är 8,64 procent: Pr(data p = 0,6) = 0,6 0,6 0,6 (1 0,6) = 0,0864 Och om sannolikheten för att en kund betalar tillbaka i tid är p så blir sannolikheten: Pr(data p) = p p p (1 p) = p 3 (1 p) Frågan vi ställer oss: För vilket värde på p blir denna sannolikhet som allra störst? Jo, detta händer då p = 0,75. Vi kan se detta genom att derivera uttrycket ovan, sätta derivatan lika med 0 och lösa ut p. Men här är ett litet trick: Ibland är det lättare att först logaritmera ett uttryck innan man deriverar: ln(pr(data p)) = 3 ln(p) + ln(1 p) Man bryter inte mot några regler på det här sättet: Det värde på p som maximerar sannolikheten för data, är också det värde som maximerar den sannolikheten men mätt på en loggad skala. När vi kör en logit eller probit så är principen exakt densamma, bara att p i uttrycket ovan då är en funktion av våra oberoende variabler. Anta att vi vill estimera en logit där vi beskriver sannolikheten för att överleva Titanic (p) som en funktion av biljettpriset. Den logaritmerade sannolikheten för att få det datamaterial vi faktiskt har fått blir då: ln(pr(data p)) = [ln(p i ) över i + ln (1 p i )(1 över i )] där över är en binär variabel som antar värdet 1 för de som överlevde och annars värdet 0, och där: eβ 0+β 1 pris p i = 1 + e β 0+β 1 pris Vi ska alltså bestämma värdena för β 0 och β 1 så att den loggade sannolikheten blir så hög som möjligt, eller så att log-likelihoodfunktionen får ett så stort värde som möjligt. Det här är inget enkelt problem att lösa, inte ens för en dator. De facto måste datorn pröva sig fram på motsvarande sätt som vi prövade oss fram i bankexemplet genom att först sätta p = 0,5 och därefter p = 0,6. Datorn löser alltså problemet genom att använda en iterativ

19 metod och i varje iterering så kommer log-likelihooden lite närmare 0. I det här exemplet stannade vi slutligen på - 827,01596.

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 8

ÖVNINGSUPPGIFTER KAPITEL 8 ÖVNINGSUPPGIFTER KAPITEL 8 SAMPEL KONTRA POPULATION 1. Nedan beskrivs fyra frågeställningar. Ange om populationen är ändlig eller oändlig i respektive fall. Om ändlig, beskriv också vem eller vad som ingår

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 2

ÖVNINGSUPPGIFTER KAPITEL 2 ÖVNINGSUPPGIFTER KAPITEL 2 DATAMATRISEN 1. Datamatrisen nedan visar ett utdrag av ett datamaterial för USA:s 50 stater. Stat Befolkningsmängd Inkomst Marijuana Procent män (miljoner) per person lagligt?

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 4

ÖVNINGSUPPGIFTER KAPITEL 4 ÖVNINGSUPPGIFTER KAPITEL 4 REGRESSIONSLINJEN: NIVÅ OCH LUTNING 1. En av regressionslinjerna nedan beskrivs av ekvationen y = 20 + 2x; en annan av ekvationen y = 80 x; en tredje av ekvationen y = 20 + 3x

Läs mer

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset. Statistiska institutionen Nicklas Pettersson Skriftlig tentamen i Finansiell Statistik Grundnivå 7.5hp, VT2014 2014-05-26 Skrivtid: 9.00-14.00 Hjälpmedel: Godkänd miniräknare utan lagrade formler eller

Läs mer

Dekomponering av löneskillnader

Dekomponering av löneskillnader Lönebildningsrapporten 2013 133 FÖRDJUPNING Dekomponering av löneskillnader Den här fördjupningen ger en detaljerad beskrivning av dekomponeringen av skillnader i genomsnittlig lön. Först beskrivs metoden

Läs mer

Algebra & Ekvationer. Svar: Sammanfattning Matematik 2

Algebra & Ekvationer. Svar: Sammanfattning Matematik 2 Algebra & Ekvationer Algebra & Ekvationer Parenteser En parentes När man multiplicerar en term med en parentes måste man multiplicera båda talen i parentesen. Förenkla uttrycket 42 9. 42 9 4 2 4 9 8 36

Läs mer

Linjär regressionsanalys. Wieland Wermke

Linjär regressionsanalys. Wieland Wermke + Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 2

ÖVNINGSUPPGIFTER KAPITEL 2 ÖVNINGSUPPGIFTER KAPITEL 2 DATAMATRISEN 1. Datamatrisen nedan visar ett utdrag av ett datamaterial för USA:s 50 stater. Stat Befolkningsmängd Inkomst Marijuana Procent män (miljoner) per person lagligt?

Läs mer

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F19, (Multipel linjär regression forts) och F20, Chi-två test. Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med

Läs mer

Statistisk analys av komplexa data

Statistisk analys av komplexa data Statistisk analys av komplexa data Trunkerade data och Tobitregression Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 10, 2015 Bertil Wegmann (statistik, LiU) Trunkerade data

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Korrelation och regression Innehåll 1 Korrelation och regression Spridningsdiagram Då ett datamaterial består av två (eller era) variabler är man ofta intresserad av att veta om det nns ett

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Läsanvisningar - Medicinsk statistik - Läkarprogrammet T10

Läsanvisningar - Medicinsk statistik - Läkarprogrammet T10 Läsanvisningar - Medicinsk statistik - Läkarprogrammet T10 Läsanvisningarna baseras på boken Björk J. Praktisk statistik för medicin och hälsa, Liber Förlag (2011), som är gemensam kursbok för statistikavsnitten

Läs mer

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data

MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data Pär-Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par-Ola.Bendahl@med.lu.se Översikt Introduktion till problemet Enkla

Läs mer

Blandade problem från elektro- och datateknik

Blandade problem från elektro- och datateknik Blandade problem från elektro- och datateknik Sannolikhetsteori (Kapitel 1-10) E1. En viss typ av elektroniska komponenter anses ha exponentialfördelade livslängder. Efter 3000 timmar brukar 90 % av komponenterna

Läs mer

Restid och resebeteende

Restid och resebeteende Lunds universitet Ht 2010 Nationalekonomiska institutionen Handledare: Jerker Holm Restid och resebeteende - Hur en minskning av tågets restid kan få flygresenärer att övergå till tåget. Författare: Max

Läs mer

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD 6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller

Läs mer

Datorövning 5 Exponentiella modeller och elasticitetssamband

Datorövning 5 Exponentiella modeller och elasticitetssamband Datorövning 5 Exponentiella modeller och elasticitetssamband Datorövningen utförs i grupper om två personer. I denna datorövning skall ni använda Minitab för att 1. anpassa och tolka analysen av en exponentiell

Läs mer

Föreläsning 7 och 8: Regressionsanalys

Föreläsning 7 och 8: Regressionsanalys Föreläsning 7 och 8: Pär Nyman par.nyman@statsvet.uu.se 12 september 2014-1 - Vårt viktigaste verktyg för kvantitativa studier. Kan användas till det mesta, men svarar oftast på frågor om kausala samband.

Läs mer

Hur länge ska fisken vara i dammen?

Hur länge ska fisken vara i dammen? Hur länge ska fisken vara i dammen? Frågeställning Uppgift 10 fiskodling Uppgiften går ut på att ta reda på hur länge ett stim fisk ska växa upp i en fiskodling för att få den maximala vikten tillsammans.

Läs mer

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Övningshäfte till kursen Regressionsanalys och tidsserieanalys Övningshäfte till kursen Regressionsanalys och tidsserieanalys Linda Wänström October 31, 2010 1 Enkel linjär regressionsanalys (baserad på uppgift 2.3 i Andersson, Jorner, Ågren (2009)) Antag att följande

Läs mer

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade) 5:1 Studien ifråga, High School and beyond, går ut på att hitta ett samband mellan vilken typ av program generellt, praktiskt eller akademiskt som studenter väljer baserat på olika faktorer kön, ras, socioekonomisk

Läs mer

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:.. TENTAMEN Tentamensdatum 8-3-7 Statistik för ekonomer, Statistik A, Statistik A (Moment ) : (7.5 hp) Namn:.. Personnr:.. Tentakod: A3 Var noga med att fylla i din kod samt uppgiftsnummer på alla lösningsblad

Läs mer

Stockholm den 3 september 2009

Stockholm den 3 september 2009 Stockholm den 3 september 2009 Författare till rapporten är Medlingsinstitutets John Ekberg och Linda Holmlund. Lena Nekby, Stockholms Universitet har medverkat med text till avsnittet om den könssegregerade

Läs mer

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II G. Gripenberg Aalto-universitetet 13 februari 2015 G. Gripenberg (Aalto-universitetet) MS-A0509 Grundkurs i sannolikhetskalkyl och

Läs mer

Att beräkna t i l l v ä x t takter i Excel

Att beräkna t i l l v ä x t takter i Excel Att beräkna t i l l v ä x t takter i Excel Detta kapitel är en liten matematisk vägledning om att beräkna tillväxttakten i Excel. Här visas exempel på potenser och logaritmer och hur dessa funktioner beräknas

Läs mer

Tentamen STA A10 och STA A13, 9 poäng 19 januari 2006, kl. 8.15-13.15

Tentamen STA A10 och STA A13, 9 poäng 19 januari 2006, kl. 8.15-13.15 Tentamen STA A10 och STA A13, 9 poäng 19 januari 2006, kl. 8.15-13.15 Tillåtna hjälpmedel: Ansvarig lärare: Räknedosa, bifogade formel- och tabellsamlingar, vilka skall returneras. Christian Tallberg Telnr:

Läs mer

Bilaga 2. Metod logistisk regression

Bilaga 2. Metod logistisk regression 45 Bilaga 2 Metod logistisk regression Till analyserna i avsnitten Vad styr barnlöshet? och Vad styr antal barn? har vi med hjälp av logistiska regressionsmodeller försökt att förklara dels vad det är

Läs mer

Statistik och epidemiologi T5

Statistik och epidemiologi T5 Statistik och epidemiologi T5 Anna Axmon Biostatistiker Yrkes- och miljömedicin Biostatistik kursmål Dra slutsatser utifrån basala statistiska begrepp och analyser och själva kunna använda sådana metoder.

Läs mer

FÅ FRAM INDATA. När inga data finns!? Beslutsfattarens dilemma är att det är svårt att spå! Särskilt om framtiden!

FÅ FRAM INDATA. När inga data finns!? Beslutsfattarens dilemma är att det är svårt att spå! Särskilt om framtiden! FÅ FRAM INDATA När inga data finns!? Beslutsfattarens dilemma är att det är svårt att spå! Särskilt om framtiden! (Falstaff Fakir) Svårigheter att få fram bra information - en liten konversation Ge mig

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1 Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1 Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-19 Motivering Vi motiverade enkel linjär regression som ett

Läs mer

JMG. En introduktion till logistisk regressionsanalys. Arbetsrapport nr 62. Johannes Bjerling Jonas Ohlsson

JMG. En introduktion till logistisk regressionsanalys. Arbetsrapport nr 62. Johannes Bjerling Jonas Ohlsson Arbetsrapport nr 62 En introduktion till logistisk regressionsanalys Johannes Bjerling Jonas Ohlsson JMG Institutionen för journalistik, medier och kommunikation Arbetsrapport nr. 62 En introduktion till

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08 Laboration 5: Regressionsanalys Syftet med den här laborationen är att du skall

Läs mer

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland Upprepade mätningar och tidsberoende analyser Stefan Franzén Statistiker Registercentrum Västra Götaland Innehåll Stort område Simpsons paradox En mätning per individ Flera mätningar per individ Flera

Läs mer

Bilaga 1. Kvantitativ analys

Bilaga 1. Kvantitativ analys bilaga till granskningsrapport dnr: 31-2013-0200 rir 2014:11 Bilaga 1. Kvantitativ analys Att tillvarata och utveckla nyanländas kompetens rätt insats i rätt tid? (RiR 2014:11) Bilaga 1 Kvantitativ analys

Läs mer

Pensionssparande. Vilka faktorer påverkar sparandet? Cecilia Mistander Filip Saundersson. Nationalekonomi Kandidatuppsats

Pensionssparande. Vilka faktorer påverkar sparandet? Cecilia Mistander Filip Saundersson. Nationalekonomi Kandidatuppsats Cecilia Mistander Filip Saundersson Pensionssparande Vilka faktorer påverkar sparandet? Nationalekonomi Kandidatuppsats Termin: HT 2013 Handledare: Niklas Jakobsson I Förord Vi vill rikta ett stort tack

Läs mer

Den svenska arbetslöshetsförsäkringen

Den svenska arbetslöshetsförsäkringen Statistiska Institutionen Handledare: Rolf Larsson Kandidatuppsats VT 2013 Den svenska arbetslöshetsförsäkringen En undersökning av skillnaden i genomsnittligt antal ersättningsdagar som kvinnor respektive

Läs mer

Appendix A (till kapitel 2) Köp av verksamhet från privata företag som andel av netto kostnader, samtliga landsting, 2001 2012. Se följande uppslag.

Appendix A (till kapitel 2) Köp av verksamhet från privata företag som andel av netto kostnader, samtliga landsting, 2001 2012. Se följande uppslag. Appendix A (till kapitel 2) Köp av verksamhet från privata företag som andel av netto kostnader, samtliga landsting, 1 12. Se följande uppslag. 233 Blekinge Dalarna 1 6 12 1 6 12 Gävleborg Halland 1 6

Läs mer

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler UPPSALA UNIVESITET Matematiska institutionen Jesper ydén Matematisk statistik 1MS026 vt 2014 DATOÖVNING MED : EGESSION I den här datorövningen studeras följande moment: Enkel linjär regression: skattning,

Läs mer

Sammanfattningar Matematikboken Z

Sammanfattningar Matematikboken Z Sammanfattningar Matematikboken Z KAPitel procent och statistik Procent Ordet procent betyder hundradel och anger hur stor del av det hela som något är. Procentform och 45 % = 0,45 6,5 % = 0,065 decimalform

Läs mer

EXAMINATION KVANTITATIV METOD vt-11 (110204)

EXAMINATION KVANTITATIV METOD vt-11 (110204) ÖREBRO UNIVERSITET Hälsoakademin Idrott B Vetenskaplig metod EXAMINATION KVANTITATIV METOD vt-11 (110204) Examinationen består av 11 frågor, flera med tillhörande följdfrågor. Besvara alla frågor i direkt

Läs mer

Regressionsmodellering inom sjukförsäkring

Regressionsmodellering inom sjukförsäkring Matematisk Statistik, KTH / SHB Capital Markets Aktuarieföreningen 4 februari 2014 Problembeskrivning Vi utgår från Försäkringsförbundets sjuklighetsundersökning och betraktar en portfölj av sjukförsäkringskontrakt.

Läs mer

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 (2015-04-29) OCH INFÖR ÖVNING 8 (2015-05-04)

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 (2015-04-29) OCH INFÖR ÖVNING 8 (2015-05-04) LUNDS UNIVERSITET, MATEMATIKCENTRUM, MATEMATISK STATISTIK BIOSTATISTISK GRUNDKURS, MASB ÖVNING 7 (25-4-29) OCH INFÖR ÖVNING 8 (25-5-4) Aktuella avsnitt i boken: 6.6 6.8. Lektionens mål: Du ska kunna sätta

Läs mer

Sammanfattningar Matematikboken Y

Sammanfattningar Matematikboken Y Sammanfattningar Matematikboken Y KAPitel 1 TAL OCH RÄKNING Numeriska uttryck När man beräknar ett numeriskt uttryck utförs multiplikation och division före addition och subtraktion. Om uttrycket innehåller

Läs mer

Påverkar Dag 0 express däckförsäljningen?

Påverkar Dag 0 express däckförsäljningen? Påverkar Dag 0 express däckförsäljningen? Utvärdering av hierarkiska klustringsmetoder med försäljningsdata & Enkätundersökning om efterfrågan på expressleverans Nadia Mena & Yun-ji Agnes Lee C-uppsats

Läs mer

Övningsuppgifter för sf1627, matematik för ekonomer. 1. Förenkla följande uttryck så långt det går: 6. 7. 8. 9. 10. 2. Derivator 1. 2. 3. 4. 5. 6.

Övningsuppgifter för sf1627, matematik för ekonomer. 1. Förenkla följande uttryck så långt det går: 6. 7. 8. 9. 10. 2. Derivator 1. 2. 3. 4. 5. 6. KTH matematik Övningsuppgifter för sf1627, matematik för ekonomer Harald Lang 1. Förenkla följande uttryck så långt det går: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. Svar: 1. 2. 5 3. 1 4. 5 5. 1 6. 6 7. 1 8. 0 9.

Läs mer

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK

VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK VANLIGA TERMER OCH BEGREPP INOM MEDICINSK VETENSKAP OCH STATISTIK TERM Analytisk statistik Bias Confounder (förväxlingsfaktor)) Deskriptiv statistik Epidemiologi Fall-kontrollstudie (case-control study)

Läs mer

Linjär algebra med tillämpningar, lab 1

Linjär algebra med tillämpningar, lab 1 Linjär algebra med tillämpningar, lab 1 Innehåll Per Jönsson Fakulteten för Teknik och Samhälle, 2013 Uppgifterna i denna laboration täcker kapitel 1-3 i läroboken. Läs igenom motsvarande kapitel. Sitt

Läs mer

Modellutveckling 2015: Regressionsmodellen för inrikes inflyttning

Modellutveckling 2015: Regressionsmodellen för inrikes inflyttning Demografisk rapport 215:6 Modellutveckling 215: Regressionsmodellen för inrikes inflyttning Befolkningsprognos 215 224/5 2(38) 3(38) Regressionsmodellen för inrikes inflyttning i befolkningsprognosen Inledning

Läs mer

Kapitel Ekvationsräkning

Kapitel Ekvationsräkning Kapitel Ekvationsräkning Din grafiska räknare kan lösa följande tre typer av beräkningar: Linjära ekvationer med två till sex okända variabler Högregradsekvationer (kvadratiska, tredjegrads) Lösningsräkning

Läs mer

Lön, kön och härkomst. Wage, gender and origin A study about earnings differences and earnings discrimination between women based on origin.

Lön, kön och härkomst. Wage, gender and origin A study about earnings differences and earnings discrimination between women based on origin. Lön, kön och härkomst En studie om löneskillnader och lönediskriminering mellan kvinnor beroende på härkomst. Wage, gender and origin A study about earnings differences and earnings discrimination between

Läs mer

Läs noggrant informationen nedan innan du börjar skriva tentamen

Läs noggrant informationen nedan innan du börjar skriva tentamen Tentamen i Statistik 1: Undersökningsmetodik Ämneskod S0006M Totala antalet uppgifter: Totala antalet poäng Lärare: 5 25 Mykola Shykula, Inge Söderkvist, Ove Edlund, Niklas Grip Tentamensdatum 2014-03-26

Läs mer

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.''

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.'' Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.'' Hjälpmedel:'Valfri'räknare,'egenhändigt'handskriven'formelsamling'(4''A4Esidor'på'2'blad)' och'till'skrivningen'medhörande'tabeller.''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''

Läs mer

Anders Logg. Människor och matematik läsebok för nyfikna 95

Anders Logg. Människor och matematik läsebok för nyfikna 95 Anders Logg Slutsatsen är att vi visserligen inte kan beräkna lösningen till en differentialekvation exakt, men att detta inte spelar någon roll eftersom vi kan beräkna lösningen med precis den noggrannhet

Läs mer

Del A: Begrepp och grundläggande förståelse

Del A: Begrepp och grundläggande förståelse STOCKHOLMS UNIVERSITET FYSIKUM K.H./C.F./C.W. Tentamensskrivning i Experimentella metoder, 1p, för kandidatprogrammet i fysik, 18/6 013, 9-14. Införda beteckningar skall förklaras och uppställda ekvationer

Läs mer

Linjära ekvationssystem. Avsnitt 1. Vi ska lära oss en metod som på ett systematiskt sätt löser alla linjära ekvationssystem. Linjära ekvationssystem

Linjära ekvationssystem. Avsnitt 1. Vi ska lära oss en metod som på ett systematiskt sätt löser alla linjära ekvationssystem. Linjära ekvationssystem Avsnitt Linjära ekvationssystem Elementära radoperationer Gausseliminering Exempel Räkneschema Exempel med exakt en lösning Exempel med parameterlösning Exempel utan lösning Slutschema Avläsa lösningen

Läs mer

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING LTH: Fastighetsekonomi 23-24 sep 2008 Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING Hypotesprövning (statistisk inferensteori) Statistisk hypotesprövning innebär att man med hjälp av slumpmässiga

Läs mer

Uppgift 1. Deskripitiv statistik. Lön

Uppgift 1. Deskripitiv statistik. Lön Uppgift 1 Deskripitiv statistik Lön Variabeln Lön är en kvotvariabel, även om vi knappast kommer att uppleva några negativa värden. Det är sannolikt vår intressantaste variabel i undersökningen, och mot

Läs mer

Tentamen: Miljö och Matematisk Modellering (MVE345) för TM Åk 3, VÖ13 klockan 14.00 den 2:e juni.

Tentamen: Miljö och Matematisk Modellering (MVE345) för TM Åk 3, VÖ13 klockan 14.00 den 2:e juni. Tentamen: Miljö och Matematisk Modellering (MVE345) för TM Åk 3, VÖ3 klockan 4.00 den 2:e juni. Skriv ned dina svar och lösningar (ej programkod), lägg till eventuella grafer eller illustrationer och spara

Läs mer

Datorlaboration 3. 1 Inledning. 2 Grunderna. 1.1 Förberedelse. Matematikcentrum VT 2007

Datorlaboration 3. 1 Inledning. 2 Grunderna. 1.1 Förberedelse. Matematikcentrum VT 2007 Lunds universitet Kemometri Lunds Tekniska Högskola FMS 210, 5p / MAS 234, 5p Matematikcentrum VT 2007 Matematisk statistik version 7 februari Datorlaboration 3 1 Inledning I denna laboration behandlas

Läs mer

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska Innehåll I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Hypotesprövnig Statistiska analyser Parametriska analyser Icke-parametriska analyser Univariata analyser Univariata analyser

Läs mer

Statistikens grunder (an, 7,5 hsp) Tatjana Nahtman Statistiska institutionen, SU

Statistikens grunder (an, 7,5 hsp) Tatjana Nahtman Statistiska institutionen, SU Statistikens grunder (an, 7,5 hsp) Tatjana Nahtman Statistiska institutionen, SU KURSENS INNEHÅLL Statistiken ger en empirisk grund för ekonomin. I denna kurs betonas statistikens idémässiga bakgrund och

Läs mer

Statistik och epidemiologi T5

Statistik och epidemiologi T5 Statistik och epidemiologi T5 Anna Axmon Biostatistiker Yrkes- och miljömedicin Dagens föreläsning Fördjupning av hypotesprövning Repetition av p-värde och konfidensintervall Tester för ytterligare situationer

Läs mer

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p)

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p) Avd. Matematisk statistik TENTAMEN I SF1901 SANNOLIKHETSLÄRA OCH STATISTIK MÅNDAGEN DEN 17 AUGUSTI 2009 KL 08.00 13.00. Examinator: Gunnar Englund, tel. 790 74 16. Tillåtna hjälpmedel: Formel- och tabellsamling

Läs mer

Lika utbildning, lika lön?

Lika utbildning, lika lön? NATIONALEKONOMISKA INSTITUTIONEN Uppsala universitet Examensarbete C Författare: Joel Degols Nilsson & Victor Sowa Handledare: Magnus Gustavsson Höstterminen 2011 Lika utbildning, lika lön? En empirisk

Läs mer

En ekonomisk analys av orsaker till individers preventiva tandvårdsbeteende

En ekonomisk analys av orsaker till individers preventiva tandvårdsbeteende NATIONALEKONOMISKA INSTITUTIONEN Uppsala universitet Uppsats fortsättningskurs C Författare: Janna Bergman Linnea Stern Petersson Handledare: Erik Grönqvist VT 2006 En ekonomisk analys av orsaker till

Läs mer

varandra. Vi börjar med att behandla en linjes ekvation med hjälp av figur 7 och dess bildtext.

varandra. Vi börjar med att behandla en linjes ekvation med hjälp av figur 7 och dess bildtext. PASS 8 EKVATIONSSYSTEM OCH EN LINJES EKVATION 8 En linjes ekvation En linjes ekvation kan framställas i koordinatsystemet Koordinatsystemet består av x-axeln och yaxeln X-axeln är vågrät och y-axeln lodrät

Läs mer

Riskbedömning och abonnemangstandvård

Riskbedömning och abonnemangstandvård Anders Jonsson Riskbedömning och abonnemangstandvård Risk assessment and contract dental care Statistik C-uppsats Datum/Termin: Juni 008/VT 08 Handledare: Christian Tallberg Examinator: Abdullah Almasri

Läs mer

Föreläsning 7 och 8: Regressionsanalys

Föreläsning 7 och 8: Regressionsanalys Föreläsning 7 och 8: Regressionsanalys Pär Nyman 12 september 2014 Det här är anteckningar till föreläsning 7 och 8. Båda föreläsningarna handlar om regressionsanalys, så jag slog ihop dem till ett gemensamt

Läs mer

Läs noggrant informationen nedan innan du börjar skriva tentamen

Läs noggrant informationen nedan innan du börjar skriva tentamen Tentamen i Statistik 1: Undersökningsmetodik Ämneskod S0006M Totala antalet uppgifter: Totala antalet poäng Lärare: 5 25 Mykola Shykula, Inge Söderkvist, Ove Edlund, Niklas Grip Tentamensdatum 2013-03-27

Läs mer

Föreläsning 7 och 8: Regressionsanalys

Föreläsning 7 och 8: Regressionsanalys Föreläsning 7 och 8: Regressionsanalys Pär Nyman 3 februari 2014 Det här är anteckningar till föreläsning 7 och 8. Båda föreläsningarna handlar om regressionsanalys, så jag slog ihop dem till ett gemensamt

Läs mer

2 Dataanalys och beskrivande statistik

2 Dataanalys och beskrivande statistik 2 Dataanalys och beskrivande statistik Vad är data, och vad är statistik? Data är en samling fakta ur vilken man kan erhålla information. Statistik är vetenskapen (vissa skulle kalla det konst) om att

Läs mer

Prognos av framtida inkomster hos CSN:s låntagare

Prognos av framtida inkomster hos CSN:s låntagare Prognos av framtida inkomster hos CSN:s låntagare En jämförande regressionsanalys mellan flera regressionsmetoder vid vänstertrunkerad data Qun Wang Ali-Reza Rezaie Student VT-2011 Examensarbete, 15 hp

Läs mer

Fria matteboken: Matematik 2b och 2c

Fria matteboken: Matematik 2b och 2c Fria matteboken: Matematik 2b och 2c Det här dokumentet innehåller sammanfattning av teorin i matematik 2b och 2c, för gymnasiet. Dokumentet är fritt att använda, modifiera och sprida enligt Creative Commons

Läs mer

Resultatet läggs in i ladok senast 13 juni 2014.

Resultatet läggs in i ladok senast 13 juni 2014. Matematisk statistik Tentamen: 214 6 2 kl 14 19 FMS 35 Matematisk statistik AK för M, 7.5 hp Till Del A skall endast svar lämnas. Samtliga svar skall skrivas på ett och samma papper. Övriga uppgifter fordrar

Läs mer

Föreläsningen ger en introduktion till differentialekvationer och behandlar stoff från delkapitel 18.1, 18.3 och 7.9 i Adams. 18.

Föreläsningen ger en introduktion till differentialekvationer och behandlar stoff från delkapitel 18.1, 18.3 och 7.9 i Adams. 18. Föreläsningen ger en introduktion till differentialekvationer och behandlar stoff från delkapitel 18.1, 18.3 och 7.9 i Adams. 18.1 Delkapitlet introducerar en del terminologi och beteckningar som används.

Läs mer

1 Förberedelseuppgifter

1 Förberedelseuppgifter LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK LABORATION 2 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMS086 & MASB02 Syfte: Syftet med dagens laborationen är att du skall: bli

Läs mer

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta? Tentamen i Matematisk statistik, S0001M, del 1, 2008-01-18 1. Ett företag som köper enheter från en underleverantör vet av erfarenhet att en viss andel av enheterna kommer att vara felaktiga. Sannolikheten

Läs mer

Frånvaromönster - annorlunda under mästerskap?

Frånvaromönster - annorlunda under mästerskap? AM 110 SM 1503 Frånvaromönster - annorlunda under mästerskap? Patterns of absenteeism different during major sporting events? I korta drag Temarapporten för andra kvartalet 2015 beskriver frånvaro från

Läs mer

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng. 1 Att tänka på (obligatorisk läsning) A. Redovisa Dina lösningar i en form som gör det lätt att följa Din tankegång. (Rättaren förutsätter att det dunkelt skrivna är dunkelt tänkt.). Motivera alla väsentliga

Läs mer

TENTAMEN I MATEMATISK STATISTIK

TENTAMEN I MATEMATISK STATISTIK UMEÅ UNIVERSITET Institutionen för matematisk statistik Statistik för Teknologer, 5 poäng MSTA33 Ingrid Svensson TENTAMEN 2004-01-13 TENTAMEN I MATEMATISK STATISTIK Statistik för Teknologer, 5 poäng Tillåtna

Läs mer

Datorlaboration 2 Konfidensintervall & hypotesprövning

Datorlaboration 2 Konfidensintervall & hypotesprövning Statistik, 2p PROTOKOLL Namn:...... Grupp:... Datum:... Datorlaboration 2 Konfidensintervall & hypotesprövning Syftet med denna laboration är att ni med hjälp av MS Excel ska fortsätta den statistiska

Läs mer

Tal Räknelagar Prioriteringsregler

Tal Räknelagar Prioriteringsregler Tal Räknelagar Prioriteringsregler Uttryck med flera räknesätt beräknas i följande ordning: 1. Parenteser 2. Exponenter. Multiplikation och division. Addition och subtraktion Exempel: Beräkna 10 5 7. 1.

Läs mer

3.6 Generella statistiska samband och en modell med för sockerskörden begränsande variabler

3.6 Generella statistiska samband och en modell med för sockerskörden begränsande variabler 3.6 Generella statistiska samband och en modell med för sockerskörden begränsande variabler Hans Larsson, SLU och Olof Hellgren, SLU Inledning En uppgift för projektet var att identifiera ett antal påverkbara

Läs mer

Introduktion. Exempel Övningar Lösningar 1 Lösningar 2 Översikt

Introduktion. Exempel Övningar Lösningar 1 Lösningar 2 Översikt KTHs Sommarmatematik 2003 Exempel Övningar Lösningar 1 Lösningar 2 Översikt 5.1 Introduktion Introduktion Exponentialfunktionen e x och logaritmfunktionen ln x är bland de viktigaste och vanligast förekommande

Läs mer

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression Christian Aguirre Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2015:17 Matematisk

Läs mer

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter. Laboration 5 Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter. Deluppgift 1: Enkel linjär regression Övning Under denna uppgift ska enkel

Läs mer

Återanställningar bland arbetslösa på den svenska arbetsmarknaden

Återanställningar bland arbetslösa på den svenska arbetsmarknaden Ura 2000:3 ISSN 1401-0844 Återanställningar bland arbetslösa på den svenska arbetsmarknaden AMS Utredningsenhet Forskning- och utvärderingssektionen Abukar Omarsson Arbetsmarknad och arbetsmarknadspolitik

Läs mer

G VG MVG Programspecifika mål och kriterier

G VG MVG Programspecifika mål och kriterier Betygskriterier Matematik C MA10 100p Respektive programmål gäller över kurskriterierna MA10 är en nationell kurs oc skolverkets kurs- oc betygskriterier finns på ttp://www.skolverket.se/ Detta är vår

Läs mer

Upplägg Dag 1 Tid till händelse Censurering Livslängdstabeller Överlevnadsfunktionen Kaplan-Meier Parametrisk skattning Jämföra överlevnadskurvor

Upplägg Dag 1 Tid till händelse Censurering Livslängdstabeller Överlevnadsfunktionen Kaplan-Meier Parametrisk skattning Jämföra överlevnadskurvor Survival analysis (Dag 1) Upplägg Dag 1 Tid till händelse Censurering Livslängdstabeller Överlevnadsfunktionen Kaplan-Meier Parametrisk skattning Jämföra överlevnadskurvor Henrik Källberg, 2012 Survival

Läs mer

Prov 1 2. Ellips 12 Numeriska och algebraiska metoder lösningar till övningsproven uppdaterad 20.5.2010. a) i) Nollställen för polynomet 2x 2 3x 1:

Prov 1 2. Ellips 12 Numeriska och algebraiska metoder lösningar till övningsproven uppdaterad 20.5.2010. a) i) Nollställen för polynomet 2x 2 3x 1: Ellips Numeriska och algebraiska metoder lösningar till övningsproven uppdaterad.. Prov a) i) ii) iii) =,, = st 9,876 =,9876,99 = 9,9,66,66 =,7 =,7 Anmärkning. Nollor i början av decimaltal har ingen betydelse

Läs mer

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik. Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik Urvalsstorlek Mätnivå/skaltyp Fördelning av data Studiedesign Frida Eek

Läs mer

TENTAMEN I SF1906 (f d 5B1506) MATEMATISK STATISTIK GRUNDKURS,

TENTAMEN I SF1906 (f d 5B1506) MATEMATISK STATISTIK GRUNDKURS, Avd. Matematisk statistik TENTAMEN I SF1906 (f d 5B1506) MATEMATISK STATISTIK GRUNDKURS, TORSDAGEN DEN 7 JUNI 2012 KL 14.00 19.00 Examinator:Gunnar Englund, 073 3213745 Tillåtna hjälpmedel: Formel- och

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Analys av korstabeller 2 Innehåll 1 Analys av korstabeller 2 Korstabeller Vi har tidigare under kursen redan bekantat oss med korstabeller. I en korstabell redovisar man fördelningen på två

Läs mer

Del A: Begrepp och grundläggande förståelse

Del A: Begrepp och grundläggande förståelse STOCKHOLMS UNIVERSITET FYSIKUM KH/CW/SS Tentamensskrivning i Experimentella metoder, 1p, för kandidatprogrammet i fysik, /5 01, 9-14 Införda beteckningar skall förklaras och uppställda ekvationer motiveras

Läs mer

MATEMATIK GU. LLMA60 MATEMATIK FÖR LÄRARE, GYMNASIET Analys, ht 2014. Block 5, översikt

MATEMATIK GU. LLMA60 MATEMATIK FÖR LÄRARE, GYMNASIET Analys, ht 2014. Block 5, översikt MATEMATIK GU H4 LLMA6 MATEMATIK FÖR LÄRARE, GYMNASIET Analys, ht 24 I block 5 ingår följande avsnitt i Stewart: Kapitel 2, utom avsnitt 2.4 och 2.6; kapitel 4. Block 5, översikt Första delen av block 5

Läs mer

Kausalitet 2012-03-26. Kausalitet. Vad är kausal inferens? Seminariets agenda. P(Y a=1 =1) P(Y a=0 =1) Kausal effekt för en individ i:

Kausalitet 2012-03-26. Kausalitet. Vad är kausal inferens? Seminariets agenda. P(Y a=1 =1) P(Y a=0 =1) Kausal effekt för en individ i: Seminariets agenda Vad är kausal inferens? nna Ekman rbets- och miljömedicin Kausalitet Statistiska samband kontra kausalitet Konfounding DG ett grafiskt stöd Inverse propability weights Kausalitet ounterfactual

Läs mer

Algebra, exponentialekvationer och logaritmer

Algebra, exponentialekvationer och logaritmer Höstlov Uppgift nr 1 Ge en lösning till ekvationen 0 434,2-13x 3 Ange både exakt svar och avrundat till två decimalers noggrannhet. Uppgift nr 2 Huvudräkna lg20 + lg50 Uppgift nr 3 Ge en lösning till ekvationen

Läs mer