Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller.
|
|
- Daniel Engström
- för 8 år sedan
- Visningar:
Transkript
1 Multinominella modeller Modeller för fler än två valmöjligheter. Förekommer både som logit- och som probitmodeller. Möjligt att, genom olika modellformuleringar, beakta att vissa regressorer varierar mellan olika alternativ och att andra regressorer förblir oförändrade mellan olika alternativ men varierar mellan individer; Om valen handlar om att välja transportsätt till arbetet är variabler som tidsåtgång och kostnad exempel på variabler som varierar mellan olika valalternativ medan inkomst och ålder hos individen är exempel på variabler som inte gör det. I praktiken används ett stort antal varianter av multinominella modeller. 1
2 Generellt gäller att; Antag m alternativ där sannolikheten för att alternativ j väljs ges av p j = P[y = j], j = 1, m. m binära variabler, en för varje alternativ; y 1 = 1 om y = 1 = 0 om y 1 (eg = 0 annars) y 2 = 1 om y = 2 = 0 om y 2 osv dvs y 1 = 1 om alternativ 1 är det observerade valet och samtliga kvarvarande y k är då lika med noll, så för varje observation av y kommer exakt ett av värdena y 1, y 2,.y m att vara från noll. 2
3 Den multinominella täthetsfunktionen ges av och m f(y)= p 1 y1... p m ym = p j yj sannolikheten för att individ i, givet x i, väljer alternativ j ges av p ij = P[y i = j] = F j (x i,β), j = 1,.m, i = 1,.N j=1 Funktionsformen för F j ska även här vara sådan att sannolikheterna för olika utfall (val) ligger inom intervallet 0 till 1 och summerar över j till ett. Olika funktionella former för F j hör ihop med olika specifika modeller. 3
4 Tolkning och utvärdering av modeller Ofta svårt att ge direkta tolkningar av regressionsparametrarna. Mer användbart att titta på marginaleffekter för sannolikheter för olika val när en regressor förändras. R 2 fungerar inte heller här som ett bra goodness of fit mått. Modellerna skattas vanligtvis med MLE. För den nestade modellen erbjuder likelihood ratio test möjligheter till utvärdering. För icke-nestade modeller kan varianter av Akaike s informationskriterium användas. Ett användbart pseudo-r 2 mått ges också av MdFadden;s R 2 : R 2 = 1 ln L fit /ln L 0 där ln L fit hämtas från den skattade modellen och L 0 från en modell med ett intercept som enda ingående variabel. 4
5 Multinomial Logit, Conditional Logit, Mixed Logit Egentligen kan samtliga dessa modeller kallas för multinominella logitmodeller, men man gör ändå ibland denna uppdelning. Om man gör en uppdelning är det den enklaste formen av modell som kallas för multinominell modell. Det som vid en uppdelning skiljer modellerna åt är om regressorerna varierar mellan de olika alternativ som kan väljas eller ej. Det är för fallet då regressorer inte varierar mellan de olika alternativen som den multinominella logitmodellen (MNL) används. 5
6 Modellen formuleras; p ij = e x iβj /Σe x iβj j = 1,..m. Eftersom Σp ij = 1 krävs att detta beaktas vid modellformuleringen och en den vanliga restriktionen är då att man sätter β 1 = 0 (beaktar m-1 alternativ). För fallet med regressorer som varierar mellan de olika alternativen (tidsåtgång, priser etc givet att valen avser färdmedel) används den betingade logitmodellen (CL); p ij = e x ij β /Σe x ij β j = 1.m. 6
7 Dessa båda modeller kan i sin tur kombineras till en mixad logitmodell; p ij = e x ijβ + w iγj x ij β + w iγj /Σe j = 1,..m. där x ij varierar över de olika alternativen och w i varierar över individer. Exempel på en modell kan (igen) vara val av färdmedel till jobbet; bil, cykel eller buss. Valet kan bero på inkomst hos individ i men också på egenskaper såsom pris, tillgänglighet och restid för alternativ j. Vissa variabler kan f ö också tillåtas variera mellan både alternativ och individ (man kan ha olika kostnader för resa med bil beroende på vilken bil man har osv ) Notera dock att samtliga modeller är exempel på s k unordered models, modeller där det inte spelar någon roll i vilken ordning alternativen beaktas. 7
8 Tolkning av regressionsparametrar kräver försiktighet. Gäller icke-linjära modeller i allmänhet och multinominella modeller i synnerhet. Det är exempelvis inte alltid så att tecknet framför en parameter och en marginalsannolikhet är detsamma Notera också The red bus blue bus problem 8
9 Nestad Logit Den nestade logitmodellen är en ofta använd generalisering av den mulitinominella logitmodellen, givet då att man kan urskilja val i flera steg. Vanligt exempel i amerikanska läroböcker; College 2 year 4 year private public private public Korrelation mellan slumptermer tillåts mellan varje valmöjlighet inom 2 year och för varje valmöjlighet inom 4 year men inte mellan 2 year och 4 year Den huvudsakliga begränsningen hos den nestade logitmodellen är, kanske inte helt oväntat, att det kan vara svårt att hitta en självklar nestad struktur vad gäller de olika valen. Notera att modellen kan/bör skattas med FIML liksom också att det finns invändningar mot modellens robusthet. Det är också så att olika statistikprogram skattar olika varianter av modellen. Varning alltså! 9
10 Multinominell Probit Den multinominella probitmodellen är en modell för m val där slumptermerna antas vara normalfördelade. Beroende på hur varians/kovariansmatrisen formuleras så antar den multinominella probitmodellen olika former, men även om samtliga slumptermer antas okorrelerade är modellen komplicerad och det är ibland enklare att anta att slumptermerna antar en extremfördelning och istället formulera CL eller MNL modeller. 10
11 Ordered Outcomes Hittills har vi antagit att de olika alternativen, valen, inte haft någon given gradering, ibland naturligt att en sådan finns. Hälsostatus kan vara ett sådant exempel. Ger egentligen inga större modellkomplikationer och MLE fungerar bra även här, men olika antaganden om rangordning ger olika specifikationer av sannolikheterna, p ij. Modellen kan fortfarande skattas och formuleras som en unordered multinominell modell, men vi får ökad precision om graderingen beaktas Vi utgår ifrån en indexmodell med en latent variabel; y * I = x i β + u i där x inte innehåller en interceptterm. I takt med att y * når över ett (okänt) tröskelvärde rör vi oss uppåt på skalan med graderade alternativ. Exempelvis kan gälla att häsostatusen för mycket låga y * är dålig, för y* > α 1 har den ökat till okej och för y* > α 2 är den god osv. 11
12 För den generella modellen med m alternativ gäller då att; y i = j om α j-1 < y * I < α j där α 0 = - and α m = P[y i = j] = P[α j-1 < y * I < α j ] = [α j-1 < x i β + u i < α j ] = P[α j-1 x i β < u i < α j x i β] = F(α j x i β) F(α j-1 x i β ) där F är den kumulativa fördelningsfunktionen för u i. Regressionsparametrarna β och de (m 1) tröskelparametrarna α 1,.α m-1 fås genom maximering av log likelihoodfunktionen med p ij definierad enligt ovan. 12
13 För the ordered logit model gäller att u är logistiskt fördelad och för the ordered probit model gäller att u är standardiserad normalfördelad (dvs precis som tidigare). Om K betecknar antalet regressorer exkl. interceptet kommer en modell med m val (m tillstånd) att ha K + m 1 parametrar medan en MNL modell kommer att ha (m 1)(K + 1) parametrar. Tecknen på parametrarna kan ges en direkt tolkning när det gäller huruvida den latenta variabeln y * ökar eller inte vid en ökning av den aktuella regressorn. Notera att modellen också kan appliceras på s k count data givet att det bara existerar ett fåtal värden. 13
14 Ranked Data Models Hittills har vi antagit att alternativen (valen) varit ömsesidigt uteslutande och att bara ett alternativ har valts. Ibland så att alternativen rankats (ex vid stated preference data) och man kanske känner till både första och andra valet. The rank-ordered logit model är relativt enkel att skatta. Antag en CL modell med fyra alternativa val, där alternativ 2 är det val som görs först och alternativ 3 det val som görs sedan. Alternativ 2 väljs då från samtliga fyra alternativ och sedan väljs alternativ 3 från de resterade alternativen 1,2 och 4. Den samtidiga sannolikhetsfunktionen kan härledas utifrån detta och sedan användas som bas för skattningen. (Är en multiplikation av sannolikhetsfunktionerna för de båda valen). Kan egentligen ses som en friare variant av en nestad modell, inte givet att ett visst val måste föregå ett annat val. 14
15 Multivariata diskreta utfall Här modelleras flera diskreta utfall samtidigt (ex y 1i = 2 om individ i arbetar, y 1i = 1 om inte, och y 2i = 2 om individen har barn, y 2i = 1 om inte). Här kan alltså den samtidiga sannolikheten för två olika alternativ sökas. Vi går inte in på dessa modeller närmare, men möjlighet till denna typ av modellformulering finns alltså. 15
16 Tobit modellen I vissa fall, särskilt vid analys av individer, familjer och företag, kan en optimering av ett beteende ge en hörnlösning för en relativt stor andel av populationen kan, som vi tidigare konstaterat, vara optimalt att ge noll kronor till välgörenhet, att träna noll timmar osv För denna typ av data erbjuder Tobitmodellen en lösning: Modellen kan, statistiskt, formuleras som y i = β 1 + β 2 x i + u i om högra sidan > 0 = 0 annars 16
17 Koppling till en LDV modell ges av att vi kan uttrycka responsen, y, i termer av en bakomliggande latent variabel: y* = β 0 + x β + u, u x ~ N[0, σ 2 ] y = max(0, y*) den observerade variabeln, y, är lika med y* när y* > 0, men = 0 när y* < 0. Det är inte alltid givet att vi skulle kunna observera något specifikt värde på y när y* < 0, även om det i många fall är möjligt. Eftersom y* antas vara normalfördelad har y en kontinuerlig fördelning över strikt positiva värden och fördelningen för y givet x är densamma som fördelningen för y* givet x for positiva värden. 17
18 Numera skattas Tobitmodellen i princip alltid med MLE p g a enkla rutiner för detta finns i de flesta statistikprogram. (Tidigare framhölls ofta Heckmans tvåstegs procedur.) Man kan, lite förenklat troligen, säga att MLE beaktar att det finns ett antal observationer där y = 0, OLS tar med samtliga observationer men utan att beakta att y = 0. 18
19 Betr tolkning av Tobitmodellens β j gäller, eftersom y* = β 0 + x β + u, u x ~ N[0, σ 2 ] y = max(0, y*) att β j är ett mått på den partiella effekten på E(y* x) vid en förändring av x j. E(y y > 0,x) visar, för givna värden på x, det förväntade värdet på y för den sub-population för vilken y antar positiva värden. Ibland har y* en intressant ekonomisk innebörd, ibland inte men den variabel vi egentligen vill förklara är y. En svaghet hos Tobitmodellen är att modellen baseras på ett antagande normalfördelning och på att var(u) är homoskedastisk. Om u är heteroskedastisk och/eller icke-normalfördelad är MLE inkonsistent. Skattning av Tobitmodellen bör föregås av test av dessa antaganden. 19
20 Censurerade och trunkerade modeller Ett alternativ som ofta också behandlas inom ramen för Tobitmodeller är fallet där y har censurerats över (eller under) ett visst tröskelvärde. I vissa fall beroende på undersökningen design, i andra fall beroende på institutionella restriktioner. Det är egentligen här som den korrekta beteckningen just är censurerad regressionsmodell. Problemet ett problem med missing data on y, vi har möjlighet att dra ett slumpmässigt stickprov från en population men i en del fall kan vi bara observera om y > (eller <) ett visst tröskelvärde. 20
21 Den censurerade (och normalfördelade) regressionsmodellen kan formuleras; y i = β 0 + x i β + u i, u i x i, c i ~ N(0,σ 2 ) w i = min (y i,c i ) Här observerar vi bara y om y antar ett lägre värde än a censoring value c i. Exemplet avser fallet med top coding, vi har bara info om värdet på y upp till en viss tröskelnivå. För högre värden än så vet vi bara att värdet är åtminstone så högt som denna nivå. (I vissa undersökningar kan exvis ett hushålls förmögenhet anges på detta sätt). 21
22 En på detta sätt censurerad datamängd ger liknande problem som de som tidigare tagits upp; En OLS skattning baserad bara på de ocensurerade observationerna på y i < c i ger inkonsistenta skattningar av β j, och detta gäller också en OLS skattning av w i på x i, dvs för en skattning där vi använder alla observationerna. Detta är en likhet med Tobitmodellen som vi tidigare presenterat den. Notera dock att i Tobit fallet så beskriver vi med hjälp av vår modell ett ekonomiskt beteende som i många fall kan ge ett utfall lika med noll. För fallet med den censurerade regressionsmodellen har vi ett problem med insamlade data pga att dessa av någon anledning censurerats. Givet de antaganden som gjorts ovan kan vi skatta β (och σ 2 ) med MLE. Vi kan här också tolka β j på samma sätt som vi tolkar den linjära regressionsmodellens β vilket, som tidigare sagts, inte är möjligt för Tobitmodellen applicerad på hörnlösningar och där ju de förväntade värdena av intresse är ickelinjära funktioner av β j ;na. 22
23 Durationsmodeller En durationsvariabel är en variabel som mäter tiden som föregår en viss händelse (tiden innan ett tillfrisknande, tiden innan en individ får ett jobb osv) och även detta ger en form av censurerad regressionsmodell. För vissa individer inträffar händelsen aldrig (eller efter så lång tid att vi måste censurera durationen för att vi ska kunna analysera data) Slutligen, igen: Om antagandena om normalfördelning och homoskedasticitet inte håller för u t ger MLE även är generellt inkonsistenta skattningar. Censurering medför alltså en kostnad eftersom OLS applicerad på ett icke censurerat stickprov varken kräver normalfördelning eller homoskedasticitet för konsistens. Finns dock alternativ till MLE som inte kräver dessa fördelningsantaganden. 23
24 24
För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))
Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt
Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar
ICKE-LINJÄRA MODELLER Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Y i = 1 + 2 X 2i + u i Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar cov(x i,u i )
För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))
Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt
Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)
Poissonregression En lämplig utgångspunkt om vi har en beroende variabel som är en count variable, en variabel som antar icke-negativa heltalsvärden med ganska liten variation E(y x1, x2,.xn) = exp( 0
Paneldata och instrumentvariabler/2sls
Extra anteckningar om paneldata; Paneldata och instrumentvariabler/2sls Oavsett REM, FEM eller poolad OLS så görs antagandet att Corr(x,u) = 0, dvs att vi har svagt exogena regressorer. Om detta inte gäller
Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013
Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas
Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare
MIKROEKONOMETRI Data på individ/hushålls/företags/organisationsnivå Tvärsnittsdata och/eller longitudinella data o paneldata Idag större datamänger än tidigare Tekniska framsteg erbjuder möjligheter till
Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012
Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår
Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.
PANELDATA Poolade data över tiden och över tvärsnittet Alternativ 1: Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. Oberoende stickprov dragna från stora populationer vid olika tidpunkter.
Lektionsanteckningar 11-12: Normalfördelningen
Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet
Statistisk analys av komplexa data
Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 12, 2013 Bertil Wegmann (statistik, LiU) Kategoriska data November 12, 2013
Statistisk analys av komplexa data
Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 28, 2012 Bertil Wegmann (statistik, LiU) Kategoriska data November 28, 2012
Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT
Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT Regressionsanalys handlar om att estimera hur medelvärdet för en variabel (y) varierar med en eller flera oberoende variabler (x). Exempel: Hur
Statistisk analys av komplexa data
Statistisk analys av komplexa data Trunkerade data och Tobitregression Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 10, 2015 Bertil Wegmann (statistik, LiU) Trunkerade data
Föreläsning 7: Punktskattningar
Föreläsning 7: Punktskattningar Matematisk statistik David Bolin Chalmers University of Technology April 7, 2014 Projektuppgift Projektet går ut på att genomföra ett statistiskt försök och analysera resultaten.
Statistisk analys av komplexa data
Statistisk analys av komplexa data Kategoriska data Bertil Wegmann Avdelning statistik, IDA, Linköpings universitet November 18, 2016 Bertil Wegmann (statistik, LiU) Kategoriska data November 18, 2016
Föreläsning 7: Punktskattningar
Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology April 27, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två numeriska
Matematisk statistik KTH. Formelsamling i matematisk statistik
Matematisk statistik KTH Formelsamling i matematisk statistik Vårterminen 2017 1 Kombinatorik ) n n! = k k! n k)!. Tolkning: mängd med n element. ) n = antalet delmängder av storlek k ur en k 2 Stokastiska
LKT325/LMA521: Faktorförsök
Föreläsning 2 Innehåll Referensfördelning Referensintervall Skatta variansen 1 Flera mätningar i varje grupp. 2 Antag att vissa eekter inte existerar 3 Normalfördelningspapper Referensfördelning Hittills
Föreläsning 7: Punktskattningar
Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology September 21, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två
SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.
SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt
Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik
Matematisk statistik KTH Formel- och tabellsamling i matematisk statistik Varterminen 2005 . Kombinatorik n = k n! k!n k!. Tolkning: n k mängd med n element. 2. Stokastiska variabler V X = EX 2 EX 2 =
Innehåll: 3.4 Parametriskt eller ej 3.5 Life Table 3.6 Kaplan Meier 4. Cox Regression 4.1 Hazard Function 4.2 Estimering (PL)
Innehåll: 1. Risk & Odds 1.1 Risk Ratio 1.2 Odds Ratio 2. Logistisk Regression 2.1 Ln Odds 2.2 SPSS Output 2.3 Estimering (ML) 2.4 Multipel 3. Survival Analys 3.1 vs. Logistisk 3.2 Censurerade data 3.3
TMS136. Föreläsning 10
TMS136 Föreläsning 10 Intervallskattningar Vi har sett att vi givet ett stickprov kan göra punktskattningar för fördelnings-/populationsparametrar En punkskattning är som vi minns ett tal som är en (förhoppningsvis
MVE051/MSG Föreläsning 14
MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska
Föreläsning 11. Slumpvandring och Brownsk Rörelse. Patrik Zetterberg. 11 januari 2013
Föreläsning 11 Slumpvandring och Brownsk Rörelse Patrik Zetterberg 11 januari 2013 1 / 1 Stokastiska Processer Vi har tidigare sett exempel på olika stokastiska processer: ARIMA - Kontinuerlig process
Exempel på tentamensuppgifter
STOCKHOLMS UNIVERSITET 4 mars 2010 Matematiska institutionen Avd. för matematisk statistik Mikael Andersson Exempel på tentamensuppgifter Uppgift 1 Betrakta en allmän I J-tabell enligt 1 2 3 J Σ 1 n 11
Statistik 1 för biologer, logopeder och psykologer
Innehåll 1 Hypotesprövning Innehåll Hypotesprövning 1 Hypotesprövning Inledande exempel Hypotesprövning Exempel. Vi är intresserade av en variabel X om vilken vi kan anta att den är (approximativt) normalfördelad
Föreläsning 12: Repetition
Föreläsning 12: Repetition Marina Axelson-Fisk 25 maj, 2016 GRUNDLÄGGANDE SANNOLIKHETSTEORI Grundläggande sannolikhetsteori Utfall = resultatet av ett försök Utfallsrum S = mängden av alla utfall Händelse
F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)
Stat. teori gk, ht 006, JW F5 STOKASTISKA VARIABLER (NCT 5.1-5.3, samt del av 5.4) Ordlista till NCT Random variable Discrete Continuous Probability distribution Probability distribution function Cumulative
Föreläsning 12: Linjär regression
Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017 Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera
Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT
Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT Jointly distributed Joint probability function Marginal probability function Conditional probability function Independence
1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet
1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet 2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys.
F13 Regression och problemlösning
1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell
STATISTISK ANALYS AV KOMPLEXA DATA
STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA Linda Wänström Linköpings universitet 12 December Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 1 / 12 Explorativ Faktoranalys
Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING
Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population
Härledning av Black-Littermans formel mha allmänna linjära modellen
Härledning av Black-Littermans formel mha allmänna linjära modellen Ett sätt att få fram Black-Littermans formel är att formulera problemet att hitta lämpliga justerade avkastningar som ett skattningsproblem
Hur måttsätta osäkerheter?
Geotekniska osäkerheter och deras hantering Hur måttsätta osäkerheter? Lars Olsson Geostatistik AB 11-04-07 Hur måttsätta osäkerheter _LO 1 Sannolikheter Vi måste kunna sätta mått på osäkerheterna för
Statistisk analys av komplexa data
Statistisk analys av komplexa data Kategoriska data, ht 2017 Bertil Wegmann STIMA, IDA, Linköpings universitet Bertil Wegmann (STIMA, IDA, LiU) Kategoriska data 1 / 28 Översikt kategoriska data Kategoriska
Statistik 1 för biologer, logopeder och psykologer
Innehåll 1 Grunderna i sannolikhetslära 2 Innehåll 1 Grunderna i sannolikhetslära 2 Satistik och sannolikhetslära Statistik handlar om att utvinna information från data. I praktiken inhehåller de data
Matematisk statistik TMS064/TMS063 Tentamen
Matematisk statistik TMS64/TMS63 Tentamen 29-8-2 Tid: 4:-8: Tentamensplats: SB Hjälpmedel: Bifogad formelsamling och tabell samt Chalmersgodkänd räknare. Kursansvarig: Olof Elias Telefonvakt/jour: Olof
FÖRELÄSNING 8:
FÖRELÄSNING 8: 016-05-17 LÄRANDEMÅL Konfidensintervall för väntevärdet då variansen är okänd T-fördelningen Goodness of fit-test χ -fördelningen Hypotestest Signifikansgrad Samla in data Sammanställ data
0 om x < 0, F X (x) = c x. 1 om x 2.
Avd. Matematisk statistik TENTAMEN I SF193 SANNOLIKHETSLÄRA OCH STATISTIK FÖR 3-ÅRIG Media TIMEH MÅNDAGEN DEN 16 AUGUSTI 1 KL 8. 13.. Examinator: Gunnar Englund, tel. 7974 16. Tillåtna hjälpmedel: Läroboken.
Metod och teori. Statistik för naturvetare Umeå universitet
Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån
Tentamen MVE302 Sannolikhet och statistik
Tentamen MVE302 Sannolikhet och statistik 2019-06-05 kl. 8:30-12:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Oskar Allerbo, telefon: 031-7725325 Hjälpmedel: Valfri miniräknare.
Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3
Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Kontinuerliga sannolikhetsfördelningar (LLL Kap 7 & 9) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics
Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13
Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare
Statistiska metoder för säkerhetsanalys
F10: Intensiteter och Poissonmodeller Frågeställningar Konstant V.v.=Var Cyklister Poissonmodeller för frekvensdata Vi gör oberoende observationer av de (absoluta) frekvenserna n 1, n 2,..., n k från den
Kap 2. Sannolikhetsteorins grunder
Kap 2. Sannolikhetsteorins grunder Olika händelser och deras mängbetäckningar Sats 2.7 Dragning utan återläggning av k element ur n (utan hänsyn till ordning) kan ske på ( n ) olika sätt k För två händelser
732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20
732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 Exempel, enkel linjär regressionsanalys Ett företag vill veta
Tentamen MVE301 Sannolikhet, statistik och risk
Tentamen MVE301 Sannolikhet, statistik och risk 2017-08-15 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Olof Elias, telefon: 031-7725325 Hjälpmedel: Valfri
Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl
Karlstads universitet Avdelningen för nationalekonomi och statistik Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl 08.15-13.15 Tillåtna hjälpmedel: Bifogad formelsamling, approximationsschema
Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel
Finansiell Statistik (GN, 7,5 hp,, VT 009) Föreläsning Diskreta (LLL Kap 6) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level course, 7,5 ECTS,
SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test
SF1915 Sannolikhetsteori och statistik 6 hp Föreläsning 12 χ 2 -test Jörgen Säve-Söderbergh Anpassningstest test av given fördelning n oberoende försök med r möjliga olika utfall Händelse A 1 A 2... A
Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.
Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:
F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion
Gnuer i skyddade/oskyddade områden, binära utfall och binomialfördelningar Matematik och statistik för biologer, 10 hp Fredrik Jonsson Januari 2012 I vissa områden i Afrika har man observerat att förekomsten
SF1901 Sannolikhetsteori och statistik I
SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 10 27 november 2017 1 / 28 Idag Mer om punktskattningar Minsta-kvadrat-metoden (Kap. 11.6) Intervallskattning (Kap. 12.2) Tillämpning på
Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi
Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad
732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet
732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris
1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet
1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet 2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att
Stokastiska processer med diskret tid
Stokastiska processer med diskret tid Vi tänker oss en följd av stokastiska variabler X 1, X 2, X 3,.... Talen 1, 2, 3,... räknar upp tidpunkter som förflutit från startpunkten 1. De stokastiska variablerna
Repetitionsföreläsning
Slumpförsök Repetitionsföreläsning Föreläsning 15 Sannolikhet och Statistik 5 hp Med händelser A B... avses delmängder av ett utfallsrum. Slumpförsök = utfallsrummet + ett sannolikhetsmått P. Fredrik Jonsson
Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:
Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal
SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018
SF1922/SF1923: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 14-15 PASSNING AV FÖRDELNING: χ 2 -METODER. Tatjana Pavlenko 14 maj 2018 PLAN FÖR DAGENS FÖRELÄSNING Icke-parametriska metoder. (Kap. 13.10) Det
Tentamen MVE302 Sannolikhet och statistik
Tentamen MVE32 Sannolikhet och statistik 219-6-5 kl. 8:3-12:3 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Oskar Allerbo, telefon: 31-7725325 Hjälpmedel: Valfri miniräknare.
Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12
LINKÖPINGS UNIVERSITET MAI Johan Thim Tentamen i matematisk statistik (9MA21/9MA31, STN2) 212-8-2 kl 8-12 Hjälpmedel är: miniräknare med tömda minnen och formelbladet bifogat. Varje uppgift är värd 6 poäng.
Tentamen MVE301 Sannolikhet, statistik och risk
Tentamen MVE301 Sannolikhet, statistik och risk 2018-05-31 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Ivar Simonsson, telefon: 031-7725325 Hjälpmedel: Valfri
Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)
Avd. Matematisk statistik TENTAMEN I SF1901, SF1905, SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 17:E AUGUSTI 2015 KL 8.00 13.00. Kursledare: Tatjana Pavlenko, 08-790 84 66 Tillåtna hjälpmedel: Formel-
Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder
Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga smetoder Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-11 Några övriga smetoder OSU-UÅ (med eller utan stratifiering) förutsätter
TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder
TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder Martin Singull Matematisk statistik Matematiska institutionen Innehåll Fö2 Punktskattningar Egenskaper Väntevärdesriktig Effektiv Konsistent
PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd
Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik
STATISTISK ANALYS AV KOMPLEXA DATA
STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA Linda Wänström Linköpings universitet 9 December Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 9 December 1 / 43 Longitudinella data
SF1901 Sannolikhetsteori och statistik I
SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 4 7 november 2017 1 / 29 Idag Förra gången Viktiga kontinuerliga fördelningar (Kap. 3.6) Fördelningsfunktion (Kap. 3.7) Funktioner av stokastiska
Repetitionsföreläsning
Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning
Några extra övningsuppgifter i Statistisk teori
Statistiska institutionen Några extra övningsuppgifter i Statistisk teori 23 JANUARI 2009 2 Sannolikhetsteorins grunder 1. Tre vanliga symmetriska tärningar kastas. Om inte alla tre tärningarna visar sexa,
Introduktion till statistik för statsvetare
och enkäter "Det finns inget så praktiskt som en bra teori" September 2011 och enkäter Inledning Inledning Om vi vill mäta en egenskap hos en population individer (individer kan vara personer, företag
Föreläsning G60 Statistiska metoder
Föreläsning 4 Statistiska metoder 1 Dagens föreläsning o Sannolikhet Vad är sannolikhet? o Slumpvariabel o Sannolikhetsfördelningar Binomialfördelning Normalfördelning o Stickprov och population o Centrala
Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012
Föreläsning 7 Stokastiska Processer och ARIMA Patrik Zetterberg 19 december 2012 1 / 22 Stokastiska processer Stokastiska processer är ett samlingsnamn för Sannolikhetsmodeller för olika tidsförlopp. Stokastisk=slumpmässig
FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski
FACIT för Förberedelseuppgifter: SF9 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 206 KL 4.00 9.00. Examinator: Timo Koski - - - - - - - - - - - - - - - - - - - - - - - - 0. FACIT Problem
Optimering och simulering: Hur fungerar det och vad är skillnaden?
Optimering och simulering: Hur fungerar det och vad är skillnaden? Anders Peterson, Linköpings universitet Andreas Tapani, VTI med inspel från Sara Gestrelius, RIS-SIS n titt i KAJTs verktygslåda Agenda
(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.
Avd. Matematisk statistik TENTAMEN I SF1901, SANNOLIKHETSLÄRA OCH STATISTIK I, MÅNDAGEN DEN 15 AUGUSTI 2016 KL 08.00 13.00. Examinator: Tatjana Pavlenko, 08 790 84 66. Kursledare: Thomas Önskog, 08 790
TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS
STOCKHOLMS UNIVERSITET Statistiska institutionen Marcus Berg VT2014 TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS Fredag 23 maj 2014 kl. 12-17 Skrivtid: 5 timmar Godkända hjälpmedel: Kalkylator utan
Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.
Tentamen 2014-12-05 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (6 poäng) Ange för
MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?
MULTIPEL IMPUTATION Ett sätt att fylla i hålen i ditt datamaterial? Pär Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par Ola.Bendahl@med.lu.se Översikt 1. Introduktion till problemet 2.
Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland
Upprepade mätningar och tidsberoende analyser Stefan Franzén Statistiker Registercentrum Västra Götaland Innehåll Stort område Simpsons paradox En mätning per individ Flera mätningar per individ Flera
Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2
Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-23 Faktum är att vi i praktiken nästan alltid har en blandning
TMS136. Föreläsning 4
TMS136 Föreläsning 4 Kontinuerliga stokastiska variabler Kontinuerliga stokastiska variabler är stokastiska variabler som tar värden i intervall av den reella axeln Det kan handla om längder, temperaturer,
Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8
1 Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 Dessa instuderingsfrågor är främst tänkta att stämma överens med innehållet i föreläsningarna,
Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin
Kapitel 4 Sannolikhetsfördelningar Sid 79-14 Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin Slumpvariabel En variabel för vilken slumpen bestämmer utfallet. Slantsingling, tärningskast,
Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:
Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen TT091A TGMAS15h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 30 Maj Tid: 9-13 Hjälpmedel: Miniräknare (nollställd) samt allmänspråklig
Formler och tabeller till kursen MSG830
Formler och tabeller till kursen MSG830 Deskriptiva mått För ett datamängd x 1,, x n denieras medelvärde standardavvikelse standardfelet (SEM) Sannolikheter x = 1 n n i=1 = x 1 + + x n n s = 1 n (x i x)
Föreläsning 12: Regression
Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är
(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.
Avd. Matematisk statistik TENTAMEN I SF1901, SF1905 SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 11 JANUARI 2016 KL 14.00 19.00. Kursledare för CINEK2: Thomas Önskog, tel: 08 790 84 55 Kursledare för
1 Föreläsning V; Kontinuerlig förd.
Föreläsning V; Kontinuerlig förd. Ufallsrummet har hittills varit dsikret, den stokastisk variabeln har endast kunnat anta ett antal värden. Ex.vis Poissonfördeln. är antal observationer inom ett tidsintervall
Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1
Standardfel (Standard error, SE) Anta vi har ett stickprov X 1,,X n där varje X i has medel = µ och std.dev = σ. Då är Det sista kalls standardfel (eng:standard error of mean (SEM) eller (SE) och skattas
Föreläsning 8: Konfidensintervall
Föreläsning 8: Konfidensintervall Matematisk statistik Chalmers University of Technology Maj 4, 2015 Projektuppgift Projektet går ut på att studera frisättningen av dopamin hos nervceller och de två huvudsakliga
Föreläsning 4, Matematisk statistik för M
Föreläsning 4, Matematisk statistik för M Erik Lindström 1 april 2015 Erik Lindström - erikl@maths.lth.se FMS012 F4 1/19 Binomialfördelning Beteckning: X Bin(n, p) Förekomst: Ett slumpmässigt försök med
Tentamen MVE301 Sannolikhet, statistik och risk
Tentamen MVE301 Sannolikhet, statistik och risk 2017-06-01 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Ivar Simonsson, telefon: 031-7725325 Hjälpmedel: Valfri
Betingning och LOTS/LOTV
Betingning och LOTS/LOTV Johan Thim (johan.thim@liu.se 4 december 018 Det uppstod lite problem kring ett par uppgifter som hanterade betingning. Jag tror problemen är av lite olika karaktär, men det jag
ÖVNINGSUPPGIFTER KAPITEL 9
ÖVNINGSUPPGIFTER KAPITEL 9 STOKASTISKA VARIABLER 1. Ange om följande stokastiska variabler är diskreta eller kontinuerliga: a. X = En slumpmässigt utvald person ur populationen är arbetslös, där x antar