F23 forts Logistisk regression + Envägs-ANOVA

Relevanta dokument
Till ampad statistik (A5) Förläsning 13: Logistisk regression

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

F7 Polynomregression och Dummyvariabler

F13 Regression och problemlösning

Enkel och multipel linjär regression

Regressions- och Tidsserieanalys - F1

F11. Kvantitativa prognostekniker

Föreläsning 12: Linjär regression

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F1

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Multipel Regressionsmodellen

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

10.1 Enkel linjär regression

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

MVE051/MSG Föreläsning 14

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Regressions- och Tidsserieanalys - F3

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Föreläsning 11: Mer om jämförelser och inferens

Matematisk statistik för D, I, Π och Fysiker

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 43 poäng.

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Metod och teori. Statistik för naturvetare Umeå universitet

Statistisk försöksplanering

7.5 Experiment with a single factor having more than two levels

Statistisk försöksplanering

Grundläggande matematisk statistik

Matematisk statistik för B, K, N, BME och Kemister

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson,

Examinationsuppgifter del 2

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

Bayesiansk statistik, 732g43, 7.5 hp

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

7.5 Experiment with a single factor having more than two levels

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Repetitionsföreläsning

Formler och tabeller till kursen MSG830

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Matematisk statistik KTH. Formelsamling i matematisk statistik

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Exempel på tentamensuppgifter

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

För betyget GODKÄND krävs preliminärt minst 28 poäng. För betyget VÄL GOD- KÄND krävs preliminärt minst 44 poäng.

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Statistik B Regressions- och tidsserieanalys Föreläsning 1

ANOVA Mellangruppsdesign

Parade och oparade test

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Poissonregression. E(y x1, x2,.xn) = exp( 0 + 1x1 +.+ kxk)

Statistiska metoder för säkerhetsanalys

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Föreläsning 4: Konfidensintervall (forts.)

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

AMatematiska institutionen avd matematisk statistik

Avd. Matematisk statistik

Facit till Extra övningsuppgifter

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

F3 Introduktion Stickprov

9. Konfidensintervall vid normalfördelning

Räkneövning 3 Variansanalys

Lösningsförslag till Matematisk statistik LKT325 Tentamen

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Elementa om Variansanalys

TAMS65 - Seminarium 4 Regressionsanalys

F9 Konfidensintervall

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Föreläsning 7: Punktskattningar

Matematisk statistik för B, K, N, BME och Kemister

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Föreläsning 15, FMSF45 Multipel linjär regression

FACIT (korrekta svar i röd fetstil)

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Sannolikheter och kombinatorik

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Höftledsdysplasi hos dansk-svensk gårdshund

10. Konfidensintervall vid två oberoende stickprov

Föreläsning 11, FMSF45 Konfidensintervall

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Lektionsanteckningar 11-12: Normalfördelningen

Transkript:

F23 forts Logistisk regression + Envägs-ANOVA Repetition Detta går inteattbeskriva på någotrimligtsättmed en linjär funktion PY Xx) β 0 +β x Den skattade linjen går utanför intervallet0, ): Y ärenbinärvariabel0-,dikotom)manvillmodellera, dvs föklara, sannolikheten att observera Y med hjälp av förklaringsvariabler X,X 2... som kan varar kontinuerliga, kategoriska, samspelstermer etc... tex Y2,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 Linjär anpassning till binär repsonsvariabel µ Y X p Y X PY X) 0, 0,0 Kom ihåg att det typiskt) handlar om att modellera väntevärden för en Bernoullivariabel. 35 40 X2 45 50 Ex) Antag en förklaringsvariabel X. En plott mellan X Y kanskeserutsom,0 0,9 0,8 0,7 Y binär repsons, X kontinuerlig prediktor Istället väljs en funktionell form så att de skattade sannolikheterna garanterat ligger i0, ), tex den logistiska funktionen: PY X) expα+βx) +expα+βx) Y-Data 0,6 0,5 0,4 0,3 0,2 0, 0,0 0 35 40 X-Data 45 50 Vifårenfunktionsgrafsomserutsom Oddset för en händelse A definieras,0 0,9 Logistisk regressionsmodell OddsA) PA) PA) 0,8 0,7 Y-Data 0,6 0,5 0,4 0,3 0,2 0, 0,0 0 35 40 X-Data SannolikhetenförhändelsenY 0betingatpåXx blir Låt PY 0 X) PY Xx) p Y X PY X) 45 +expα+βx) 50 OddsetförhändelsenY X)blirmeddenlogistiska funktionen OddsY X) p Y X q Y X expα+βx) OddsetförhändelsenY 0 X)blir OddsY 0 X) OddsY X) q Y X p Y X exp α βx) q Y X PY 0 X) p Y X

Logoddset för en händelse A definieras LogOddsA) lnoddsa)) ln ) PA) PA) Logodds för händelsen Y X) blir med den logistiska funktionen LogOddsY X) ln p Y X lnp q Y X lnq Y X Y X ) ) expα+βx) ln ln +expα+βx) +expα+βx) lnexpα+βx) ln+expα+βx)) ln)+ln+expα+βx)) lnexpα+βx) α+βx Obs! Om sannolikheten är logistisk så är logoddset för händelsen linjär. Exempel) Antag att Dåharman PA)2/3 P A ) /3 OddsA) PA) PA ) 2/3 /3 2 dvsdetärtvågångermersannoliktattainträffarän attainteinträffar. Vidareharman Odds A ) P A ) PA) /3 2/3 2 detäralltsåhälftensåsannoliktattainteinträffarän att det inträffar. Antag att Då gäller att OddsA)4 Odds A ) 4 PA) OddsA) +OddsA) 4 5 Oddskvoter används när man vill jämföra oddsen läs sannolikheter)föry ellerföry 0)betingatpå olika värden på prediktorerna. Hur stor är den relativa förändringen i oddset när någon eller några prediktorvärden ändras? Ex) Risken för lungcancer med 3 prediktorer Man får X röker/rökerej X 2 ålder X 3 vit/svart LogOddsα+β x +β 2 x 2 +β 3 x 3 vill sedan jämföra rökare/icke-rökare bland 45-åriga svarta. Oddsvkot OR OddsY 45år,svart,rökare) OddsY 45år,svart,icke-rökare) expα+β +β 2 45+β 3 ) expα+β 0+β 2 45+β 3 ) expβ ) Tolkning av koefficienter OmX0såär LogOddsY X) α Om X ökar med enhet så förändras logoddset medβ,dvs LogOddsY Xx+) LogOddsY Xx) α+βx+) α+βx β OmXökarmedenheterhållsdenrelativaförändringen i oddset genom oddskvoten, dvs ORY X ökarmedett) e β

. Några beräkningsexempel: Antag att vi har modellen PY X,X 2 ) e 2+x +3x 2 +e 2+x +3x 2 d) OddsY X x,x 2 x 2 ) e 2+x +3x 2 / +e 2+x +3x 2 +e 2+x +3x 2 e 2+x +3x 2 a) PY X,X 2 2/3) e 2++2 +e 2++2 e +e 0.73 e) LogOddsY X x,x 2 x 2 ) 2+x +3x 2 b) PY 0 X,X 2 2/3) PY X,X 2 2/3) e +e +e 0.269 c) PA)2/3 OddsA) PA) PA) 2/3 /3 2 Det är två gånger troligare att A inträffar än att det inte inträffar. f) LogOddsY X,X 2 2/3) 2++3 2/3 g) OddskvotY X ökarmed) OddsY X x +,X 2 x 2 ) OddsY X x,x 2 x 2 ) e 2+x +)+3x 2 e 2+x +3x 2 e e 2.78282 vilketärrimligthärtyβ. Genom tolkningen av regressionskoefficienten β via oddskvoten inses att är ekvivalent med H 0 :β0 mot H :β 0 H 0 :OR mot H :OR Ett KI för β som täcker in värdet noll, motsvaras av ettkiförorsomtäckerinvärdet. Jämför med Minitab-utskriften: Coef : ˆβ0.587636 SECoef : sˆβ 0.5599 Z : ˆβ/sˆβ3.768854 95%CI : 0.587636±.96 0.5599 0.282, 0.893) motsvarigheten i oddskvot: OddsRatio : eˆβ e 0.587636.80 95%CI : e 0.282, e 0.893).33, 2.44) Notera att om man inte ser än förändring i sannolikhetenföry närx ökarmed,dvs PY Xx) PY Xx+) så gäller att OddsY Xx) OddsY X x+) ORY X ökarmed) Jämför sedan med sista sidan i häftet från SCB som ni har fått hur de där redovisar olika prediktorers koefficienter konfidensintervallen för dessa, tex Variabel Kategori Estimat KI Utbildning Förgymnasial,00 Gymnasial 0,86 0,84 0,87 Eftergymn,09,09,06 dvs en modell enligt LogOddsY ) β 0 +β D +β 2 D 2 därd D 2 ärtvådummyvariabler.

Kommentar till Hosmer-Lemeshows test: Vihar <bild saknas> därmanhardelatinmaterialetiettantalklasserefter X variabelnstratifiering). Räkna antalet ettor respektive nollor i varje klass j: <bild saknas> FörväntatantalettorrespnollorivarjeklassE j beräknas som summan av resp sannolikheter för vardera observation de blå ringarna.sedan ett vanligt χ 2 -test enligt beskrivningen i KD s häfte. Kap 24 Poissonregressionkursivt) Ytterligare ett exempel på icke-linjär regression är s.k. Poissonregression. Y är räknedata, dvs antal observerade"lyckade utfall" y0,,2,3,... Antagattλ j ärriskensannolikheten)förlyckatutfall igruppj. Iengruppj medn j individerförväntas n j λ j observeras med"lyckat utfall". Låt Y j antallyckadeigruppj DåärY j Bin n j,λ j ) menomnj ärstortλ j är litet approximera Y j Po n j λ j ) E Y j ) nj λ j KanvimodelleraE Y j X )?Låt EY X) µ Y X nλ Y X n expα+βx) ) µ µy X y e Y X PY y X) y! n expα+βx))y e n expα+βx) y! observera att lnλ Y X α+βx därλ Y X ärväntevärdetförenpoissonvariabel. Komihågattom Y Poλ), y0,,2,3,... λ>0 så PY y) λy e λ EY)λ y! Observera också att Kap 7 Intro till Envägs ANOVA, Variansanalys Vi vet hur man jämför två medelvärden av en undersökningsvariabel Y mellan två populationer med hjälp av två oberoende iid stickprov: testfunktion osv. H 0 :µ A µ B mot H :µ A µ B T ȲA Ȳ B tn A +n B 2) S p n + A n B Nuharviflerapopulationersomkandefinierasefteren kategorisk prediktor, tex X Audi Z Placebo Volvo Medicin A Saab Medicin B Toyota.. λ>0 nexpα+βx)>0

Ett sätt att hantera detta har redan diskuterats inför Dummyvariabler! Alternativt men ekvivalent sätt att hantera detta är med Envägs-ANOVA - Prediktorn X är en kategorisk prediktor. - Prediktorn X kallas faktorfactor). - De olika kategorierna kallas nivåerlevels). - Nivåer kan vara fixafixed effects) eller slumpmässiga random effects). Ex) Påverkar faktorn"bilmärke" X) den genomsnittliga bensinförbrukningen? dvsärdetskillnaderiförväntatvärdepåy mellanolika nivåerpåx? Om vi jämför ett slumpmässigt urval av bilmärken talar man om random effects, om vi är intresserade av just"dessafyra"märkenärdetfrågaomfixedeffects. Härefter endast fixed effects... Varje nivå på faktorn ger ett förväntat värde på responsen enligt modellen Y µ+α i +ε där ε N 0,σ 2 ) ε EY Xi) µ i µ+α i där µ är den genomsnittliga responsen i Y över alla nivåer,α i äreffektenavatttillhöranivåijämförtmed µ ε är en slumpterm som tillåter individuella variationer inom en nivå. Man vill test Testfunktion är H 0 : α i 0förallanivåeri H : minstenα i 0 F MST MSE Fv,u) där v u är frihetsgradstalen som vi återkommer till) där MST inte betecknar samma sak som förut! Antagandensid 426-427):. Oberoende stickprov från varje nivågrupp, population, behandling) Varför heter det Variansanalys när vi egentligen vill jämföra medelvärden? Baseras på jämförelser mellan"inom-nivå-variation" "mellan-nivå-variation" 2. Varje individ i stickprovet har ett uppmätt värde på responsvariablen Y inget bortfall) 3. Y är normalfördelat inom varje nivå. 4. Lika inom-varians på varje nivåhomoskedasticitet) 5. Oberoende observationer inom varje nivå mellan) : 2 : n i j yij ȳ i ) 2 variationinomnivåi k ȳ i ȳ) 2 variationmellanknivåer k Vi får alltså k stycken inom-variationer, en för varje nivå, som kombineras till en poolad skattning av inomnivå-variansenσ 2 ε. jämförpooladvariansskattnings p närnijämfördetvå populationer i Hogg&Tanis)

MST variationen mellan nivåer, MSE variationen inom nivåer ANOVA-tablå med k stycken nivåer: Y 25 20 5 Källa df SS MS F Mellan k SST MST F Inom n k SSE MSE Total n TSS 0 5 2 Nivå 3 4 där Ett annat sätt att se det är att konstruera konfidensintervall för varje nivå Individuella 95% KI för medelvärdena ej poolat) MST SST/k ) MSE SSEn k) F MST/MSE 25 Y 20 5 0 5 2 Överlappar dessa tre intervall varandra? Finns det minst ettparsominteöverlappar? Harvigjorträttsåhär? Nivå 3 4 T:et i SST kommer av "treatment", dvs behandla ett antal objekt med något variera behandlingen mellan olika grupper. Vanligt är också förkortningen SSTr SSB för "between levels". Man måste alltid se upp!) Vidare utveckling tillämpning av variansanlys till tex Randomiserade blockdesignerkap 8) F24 Sammanfattning delas ut i samband med undervisningen Tvåvägs-ANOVA med lika cellstorlekarkap 9) Tvåvägs-ANOVA med olika cellstorlekarkap 20) Blandingar av fixed random effectsmixed effects) Multiplikativa samspelseffekter Kombinationer av ovanstående Kompromisser med s.k. romerska kvadrater osvosv...