F19, (Multipel linjär regression forts) och F20, Chi-två test.



Relevanta dokument
F22, Icke-parametriska metoder.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Hur skriver man statistikavsnittet i en ansökan?

Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Matematisk statistik, Föreläsning 5

Föreläsning 5. Kapitel 6, sid Inferens om en population

Regressions- och Tidsserieanalys - F3

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Föreläsning G60 Statistiska metoder

Linjär regressionsanalys. Wieland Wermke

Föreläsning G60 Statistiska metoder

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Matematisk statistik för D, I, Π och Fysiker

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Multipel Regressionsmodellen

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

Regressions- och Tidsserieanalys - F4

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Obligatorisk uppgift, del 1

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

Hur man tolkar statistiska resultat

Statistik 1 för biologer, logopeder och psykologer

F11. Kvantitativa prognostekniker

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Laboration 2 multipel linjär regression

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Statistik 1 för biologer, logopeder och psykologer

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Finansiell statistik

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Regressions- och Tidsserieanalys - F1

2. Test av hypotes rörande medianen i en population.

F13 Regression och problemlösning

Regressions- och Tidsserieanalys - F1

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Föreläsning 8. Kapitel 9 och 10 sid Samband mellan kvalitativa och kvantitativa variabler

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

InStat Exempel 4 Korrelation och Regression

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

TVM-Matematik Adam Jonsson

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

LABORATION 3 - Regressionsanalys

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Matematisk statistik KTH. Formelsamling i matematisk statistik

Avd. Matematisk statistik

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Föreläsning 12: Regression

LABORATION 3 - Regressionsanalys

Skrivning/skriftlig eksamen till statistikdelen av kursen i forskningsmetodik maj 2002

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Statistik och epidemiologi T5

Statistik och epidemiologi T5

OBS! Vi har nya rutiner.


ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Laboration 4: Hypotesprövning och styrkefunktion

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

FACIT (korrekta svar i röd fetstil)

MSG830 Statistisk analys och experimentplanering

10.1 Enkel linjär regression

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

MVE051/MSG Föreläsning 14

Repetitionsföreläsning

Föreläsning G60 Statistiska metoder

Föreläsning 4. Kap 5,1-5,3

Transkript:

Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med i en multipel regressionsmodel, tolkas nollhypotesen som X i förklarar inget av variationen i Y givet att de övriga k 1förklarande variablerna ingår i modellen. Mothypotesen tolkas som X i förklarar en signifikant del av den variation i Y som återstår givet att de övriga k 1förklarande variablerna ingår i modellen. Vi vill testa hypotesen H 0 : β i =0, mot något av alternativen i =1, 2,...,k H 1 : β i 6=0 H 1 : β i < 0 H 1 : β i > 0. Då feltermerna ² i (observationerna Y i )är normalfördelade följer att testvariabeln t = b i β i0 s bi Exempel 1 Körner (sid 352): t (n k 1) då H 0 är sann. Det observerade testvärdet är t obs = 1.27 0 = 0.35 3.64 Nollhypotesen förkastas inte. Ekvivalenta tolkningar: Det kan inte anses statistiskt påvisat att Vi vill testa mot alternativet H 0 : β 1 =0 ålder förklarar en del av den variation i pris som återstår efter att körsträckan fångat upp en del av variationen. H 1 : β 1 6=0 för α = 0.05. Testvariabeln t = b 1 β 10 t (n 2 1) då H 0 är sann. s b1 modellen skall utökas med ålder givet att körsträcka ingår. H 0 förkastas om t obs > 2.57.

På motsvarandesätt kan man testa mot alternativet H 0 : β 2 =0 H 1 : β 2 6=0 för α = 0.05. Testvariabeln t = b 2 β 20 t (n 2 1) då H 0 är sann. s b2 H 0 förkastas om t obs > 2.57. Det observerade testvärdet är t obs = 2.97 0 = 1.41 2.11 Nollhypotesen förkastas inte. Det kan inte anses statistiskt påvisat att körsträckan förklarar en del av den variation i pris som återstår efter att ålder fångat upp en del av variationen. Multikollinearitet R 2 ökar alltid då antaletförklarande variabler ökar. Samtidigt minskar ofta säkerheten i skattningarna av enskilda regressionskoefficienter. Detta gäller särskilt om man har hög korrelation mellan de förklarande variablerna (multikollinearitet). Modellval Antag att vi vill bygga en modell och har 25-30 förklarande variabler att välja bland. Skall vi ta med samtliga variabler i modellen? Om inte, vilka skall vi välja att ingå ivår modell? Det beror lite på vad vi vill ha modellen till. Vill vi ha den till att skatta enskilda förklarande variablers effekt på y variabeln. Ta med väsentligt förklarande variabler i modellen. Har de förklarande variablerna hög kausalitet med underökningsvariabeln? Intressant diskussion (AJÅ sid 92-95). Några (statistiska) kriterier att följa vid val av modell: Så stortradj 2 som möjligt (liten residualspridning s e ) Vill vi enbart ha den till att göra prognoser med. Kausalitet och krav på signifikant förklarande variabler är inte lika viktigt. Det viktiga är att skatta en modell som ger bra prognoser. Man skall inte ösa på med förklarande variabler i modellen enbart för att R 2 ökar. Vi får fler parametrar att skatta och osäkerheten i skattningarna ökar. Simplicitetsprincipen. Försök att skatta en modell med så få förklarande variabler som möjligt. Oftast mindre osäkerhet i parameterskattningarna och oftast bättre prognoser. Undersök om modellen håller som helhet (Ftest) Ta enbart med variabler som är signifikant förklarande, dvs β i 6=0(t-test). Simplicitetsprincipen. Även om en variabel är signifikant förklarande men Radj 2 (R2 )ökar marginellt, kanske man skall överväga att utelämna den varibeln. Gör en residualanalys för att se om modellen håller. Använd t ex menyn Best subset regression i MINITAB.

Prognoser (prediktioner) På liknande sätt som i enkel linjär regression kan man göra prognoser i form av punktskattningar och intervallskattningar dels för linjen (medelvärdet) och dels för enskilda observationer. Punktskattningen ges av ŷ = a + b 1 x 1 + b 2 x 2 +... + b k x k, Den skattade standardavvikelsen för punktskattningen med avseende på E (Y x 1,x 2,..., x k )skrivssom sŷ x1,...,x k, och den skattade standardavvikelsen för punktskattningen med avseende på Y x 1,x 2,...,x k skrivs som s y x1,...,x k = sqrt ³ s 2 ŷ x 1,...,x k + s 2 e. både för medelvärdet E (Y x 1,x 2,...,x k )=µ y x1,...,x k och en enskild observation Y x 1,x 2,...,x k. Exempel 1 Körner (sid 352): Ge punktskattning och konfidensintervall för det genomsnittliga priset och prognosintervall för priset för en enskild bil då x 1 =10år och x 2 = 16 tusen mil. Punktskattningen blir ŷ = a + b 1 x 1 + b 2 x 2 = 97.73 1.27 10 2.97 16 = 37.5, och de skattade standardavvikelserna enl. MINITAButskrift (Körner sid 358) sŷ x1,...,x k = 4.91 s y x1,...,x k = sqrt ³ 4.91 2 +6.337 2 =8.02 Ett 95 %-igt k.i. av för E (Y x 1 =10,x 2 =16) ges ŷ ± t 0.025 (n k 1) sŷ x1,x 2 = 37.5 ± 2.57 4.91 = 37.5 ± 12.6, och ett 95 %-igt k.i. för Y x 1 =10,x 2 =16gesav ŷ ± t 0.025 (n k 1) s y x1,x 2 = 37.5 ± 2.57 8.02 = 37.5 ± 20.6, Med 95 % tillförlitlighet ligger E (Y x 1 =10,x 2 =16) i intervallet (24.9; 50.1) och Y x 1 =10,x 2 =16 i intervallet (16.9; 58.1).

Exempel 1 Körner (sid 352): Dummy-variabel (Indikator-variabel) Hittils har vi använt kvantitativa variabler i regressionsmodellen. Det kan ävenvaraavintresseattha med kvalitativa (går ej att rangordna) förklarande variabler, t.ex kön, säsong, nationalitet, yrkeskategori, m.m. Vi använder oss då av en dummyvariabel som är dikotom och antar värdet 0 eller 1. Den kvalitativa variabeln kan anta hur många värden som helst, men här begränsar vi oss till fallet där den enbart antar två värden. Y = Pris (1000 kr), X 1 = Ålder (år), X 2 =Säljare (med värdena privatperson = 0 och bilfirma = 1). Den skattade regressionekvationen ges fortfarande av som blir ŷ = a + b 1 x 1 + b 2 x 2, ŷ = a + b 1 x 1 om bilen säljs av en privatperson och ŷ =(a + b 2 )+b 1 x 1 om bilen säljs av en bilfirma. Regressionskoefficienten b 2 tolkas alltså som genomsnittliga skillnaden iprisdå bilen säljs privat och då bilen säljs av en bilfirma, givet att bilarna är lika gamla. χ 2 test Exempel 2 Körner (sid 364): Den skattade modellen blir ŷ =97.2 5.79x 1 +6.56x 2. Tolkning b 2 :Enbilär 6560 kr dyrare igenomsnitt om den säljs av en bilfirma, givet samma årsmodell på bilarna. Olika typer av test som ibland kallas fördelningsfria test då fördelningen för testvariabeln inte beror på fördelningen för undersökningsvariablerna. Fördelningstest Vi vill undersöka om frekvenserna följer en viss teoretisk sannolikhetsfördelning.

Exempel: Ett klockföretag skall lansera en ny klocka och vill undersöka om presumtiva konsumenter har specifika preferenser vad gäller färg på armbandet, eller är alla fyra färger lika populära. Dvs följer antalet sålda klockor samma fördelning med avseende på armbandsfärg? Vi vill testa följande hypoteser: H 0 : p 1 = p 2 = p 3 = p 4 = 1 (Konsumenterna väljer 4 slumpm. klocka) H 1 : Alla övriga alternativ på p 1,p 2,p 3,p 4 (Konsumente väljer ej slumpm. klocka), där p 1,p 2,p 3 och p 4 är sannolikheten att konsumenten väljer klocka med färg ett, två, tre eller fyra, respektive. Vi har samlat följande data från 80 slumpm. valda presumtiva konsumenter: Färg Obs antal Förv antal sålda klockor sålda klock (under H 0 ) 1 12 80 14 =20 2 40 80 14 =20 3 8 80 14 =20 4 20 80 14 =20 I testvariabeln jämförs de observerade frekvenserna med de förväntade frekvenserna under nollhypotesen påföljande sätt: χ 2 = X (O E) 2 approx χ 2 (a 1) fördelad E då H 0 är sann, där a är antalet kategorier, O är antalet observerade frekvenser och E är antalet förväntade frekvenser under nollhypotesen. Om skillnaden mellan de observerade frekvenserna och de förväntade frekvenserna blir för stora förkastas nollhypotesen. De förväntade frekvenserna får inte vara alltför små. Följande tumregel gäller: Ingen förväntad frekvens får understiga 1. Högst 20 % av de förväntade frekvenserna får understiga 5. Signifikansnivån α = 0.05, dvs H 0 förkastas om χ 2 obs > 7.81. Det observerade testvärdet är χ 2 obs (12 20)2 = + 20 (40 20)2 + 20 (8 20)2 (20 20)2 + = 3 20 20 Då 30.4 > 7.81 förkastas nollhypotesen. Det kan anses statistiskt påvisat att det föreligger skillnad i andel sålda klockor (i preferens av armbandsfärg). Uppgift 902 (Körner): Man vill undersöka fördelningen för fyra möjliga utfall av två egenskaper. Enligt Mendels lagar är fördelningen för de fyra utfallen 9:3:3:1. I ett genetiskt experiment erhöll man följande data: Utfall Frekvenser U 1 82 U 2 36 U 3 30 U 4 12 Ger data stöd åt Mendels lagar. Låt p i,i=1, 2, 3, 4, vara sannolikheten för U i.

Vi vill då testa följande hypoteser: H 0 : p 1 = 9 16,p 2 = 3 16,p 3 = 3 16,p 4 = 1 16 (Fördeln. för utfallen följer Mendels lagar) H 1 : Alla övriga alternativ på p 1,p 2,p 3,p 4 (Fördeln. för utfallen följer ej Mendels lagar), för signifikansnivån α = 0.05. Utfall Obs antal Förv antal (under H 0 ) U 1 82 160 9 16 =90 U 2 36 160 3 16 =30 U 3 30 160 3 16 =30 U 4 12 160 1 16 =10 Summa 160 160 Testvariabeln är χ 2 = X (O E) 2 approx χ 2 (a 1) fördelad E då H 0 är sann. H 0 förkastas om χ 2 obs > 7.81. testvärdet är χ 2 (82 90)2 obs = + 90 (12 10)2 + 10 = 2.31. (36 30)2 30 Det observerade + (30 30)2 30 Då 2.31 < 7.81 förkastas ej nollhypotesen. Det kan ej anses statistiskt påvisat att fördelningen för utfallen av de två egenskapernaejföljer Mendels lagar.