Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Relevanta dokument
ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

ÖVNINGSUPPGIFTER KAPITEL 6

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

ÖVNINGSUPPGIFTER KAPITEL 6

ÖVNINGSUPPGIFTER KAPITEL 12

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

ÖVNINGSUPPGIFTER KAPITEL 8

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA

HYPOTESPRÖVNING sysselsättning

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Multipel Regressionsmodellen

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

ÖVNINGSUPPGIFTER KAPITEL 13

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

ÖVNINGSUPPGIFTER KAPITEL 4

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Medicinsk statistik II

InStat Exempel 4 Korrelation och Regression

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

, s a. , s b. personer från Alingsås och n b

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Lektionsanteckningar 11-12: Normalfördelningen

Linjär regressionsanalys. Wieland Wermke

Hypotestestning och repetition

ÖVNINGSUPPGIFTER KAPITEL 10

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

ÖVNINGSUPPGIFTER KAPITEL 10

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Föreläsning G60 Statistiska metoder

ÖVNINGSUPPGIFTER KAPITEL 10

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Statistik B Regressions- och tidsserieanalys Föreläsning 1

import totalt, mkr index 85,23 100,00 107,36 103,76

Sänkningen av parasitnivåerna i blodet

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 5. Poäng. Totalt 40. Betygsgränser: G 20 VG 30

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 16 e januari 2015

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

FACIT (korrekta svar i röd fetstil)

Föreläsning G60 Statistiska metoder

F19, (Multipel linjär regression forts) och F20, Chi-två test.

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Elementa om Variansanalys

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

MVE051/MSG Föreläsning 14

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

Fråga nr a b c d 2 D

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Repetitionsföreläsning

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

FÖRELÄSNING 8:

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

MSG830 Statistisk analys och experimentplanering

Att välja statistisk metod

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Statistiska Institutionen Gebrenegus Ghilagaber (docent) Skriftlig tentamen i FINANSIELL STATISTIK, grundnivå, 7,5 hp, HT08. Torsdagen 15 januari 2009

Matematisk statistik, Föreläsning 5

F3 Introduktion Stickprov

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 HP. Ten1 9 HP. 19 e augusti 2015

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 5. Kapitel 6, sid Inferens om en population

Obligatorisk uppgift, del 1

Föreläsning 12: Regression

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Statistik 1 för biologer, logopeder och psykologer

Korrelation och autokorrelation

Metod och teori. Statistik för naturvetare Umeå universitet

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

MSG830 Statistisk analys och experimentplanering

Medicinsk statistik II

Parade och oparade test

Transkript:

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information om 293 amerikanska manliga arbetare. Egenföretagare är en dummy som antar värdet 1 för egenföretagare och värdet 0 för andra arbetare; alder mäter personens ålder och ln(timlön) är timlönen mätt på en loggad skala. id egenföretagare alder ln(timlön) 1 0 32 1,955861 2 1 31 0,357674 3 1 44 3,021887 4 0 64 1,011601 5 0 41 2,957511............ 293 0 35 0,364643 Regressionen nedan visar att egenföretagarna tjänar cirka 4 procent mer än övriga kontrollerat för ålder. Men skillnaden är inte signifikant, t = 0,041/0,100 = 0,41 (standardfel ges inom parentes). Däremot har ålder en signifikant effekt på lönen; för varje ytterligare år så ökar lönen med cirka 1 procent, t = 0,010/0,003 3,33. ln (timlön) = 1,30 + 0,041 egenföretagare + 0,010 alder (0,100) (0,003) Nedan visas resultatet då vi kört regressionen med hjälp av statistikprogrammet STATA:

I rött ges resultatet från t-testerna. Men dessa är inte de enda tester som finns med i regressionsutskriften. Regressionsutskriften innehåller också ett annat test som kallas för F-testet. Inrutat i blått finns det så kallade F-värdet (6,54) med tillhörande p-värde (0,0017). Så vad använder vi detta test till? Jo, här kan vi se om regressionsmodellen som helhet har signifikant förklaringsstyrka. Eftersom p-värdet (0,0017) är mindre än 0,05 så är svaret ja. Vi ska nu se närmare på vad det här betyder. Och vi ska börja med att repetera förklaringsgraden. Förklaringsgraden, R 2 I regressionen ovan så är förklaringsgraden 0,0432. (Du hittar förklaringsgraden under F-testet: R-squared = 0,0432.) Det betyder att 4,32 procent av variationen i loggade löner kan förklaras av x-variablerna (egenföretagare, alder). Förklaringsgraden är alltså en andel och kan därför anta värden mellan 0 och 1. Det kan vara bra att fundera på vad de två extremfallen betyder. Vad skulle det betyda om förklaringsgraden vore 1? Jo, det betyder att 100 procent av variationen i utfallsvariabeln (y) kan förklaras av x-variablerna; residualen är då noll för varje observation i data. Residualen visar skillnaden mellan det verkliga värdet på y och prediktionen. Exempel: Den första personen i data är inte egenföretagare (egenföretagare = 0) och 32 år gammal. Han predikteras då tjäna ~1,62 enheter: ln (timlön) = 1,30+ 0,041 egenföretagare =0 + 0,010 alder =32

= 1,62 Men personen tjänar egentligen ~1,96 enheter, dvs. ungefär 0,34 enheter mer än predikterat. Residualen är alltså ~0,34 enheter. På det här viset kan vi ta fram residualen för varje person i data: id egenföretagare alder ln(timlön) Prediktion Residual 1 0 32 1,955861 1,622449 0,3334121 2 1 31 0,357674 1,653214-1,29554 3 1 44 3,021887 1,785371 1,236516 4 0 64 1,011601 1,947757-0,9361566 5 0 41 2,957511 1,713942 1,243569.................. 293 0 35 0,364643 1,652947-1,288304 Om vi hade en regression där alla residualer vore noll så skulle x- variablerna prediktera utfallsvariabeln perfekt. Förklaringsgraden skulle vara 1. Vad skulle det betyda om förklaringsgraden vore 0? Jo, det betyder att 0 procent av variationen i y förklaras av x- variablerna. Det här skulle innebära att vi hade en regression där alla regressionskoefficienter vore 0: ln (timlön) = 1,69 + 0 egenföretagare + 0 alder Om vi ändå använde den här regressionen för att göra prediktioner så skulle alla personer i data ha en predikterad loggad lön på 1,69 enheter. 1,69 är den genomsnittliga loggade lönen i data. Det här skulle betyda att x-variablerna inte bidrar med någon information alls; om vi ska gissa hur mycket en person tjänar så gör vi bäst i att bara använda medelvärdet. F-värdet Exempel forts. I regressionen ovan så är förklaringsgraden 0,0432: Cirka 4 procent av variationen i löner kan förklaras av x- variablerna (egenföretagare, alder). Men detta är förklaringsgraden i samplet: Är det möjligt att populationens förklaringsgrad egentligen är noll? Det skulle betyda att den sanna effekten av att vara egenföretagare är noll (β egen = 0) och att den sanna effekten av ålder är noll (β alder = 0). Vi kallar denna möjlighet för nollhypotesen.

Den andra möjligheten är att åtminstone en av effekterna (β egen, β alder eller bägge) är olika noll. Eller med andra ord: Den sanna förklaringsgraden är större än noll. Vi kallar denna möjlighet för mothypotesen. Kan vi förkasta nollhypotesen om att populationens förklaringsgrad är noll? För att svara på den frågan så skulle vi vilja veta hur vanligt är det att få en förklaringsgrad på 0,0432 bara av slumpen. Är detta något som händer ofta då den sanna förklaringsgraden är noll, eller är detta något som händer sällan? Det går att räkna ut den sannolikheten: I det här fallet så är sannolikheten för att bara av slumpen få ett sampel där förklaringsgraden blir 0,0432 eller större 0,17 procent: P(R 2 0,0432) = 0,0017 Den uppmätta förklaringsgraden i samplet hör alltså till de 0,17 procent extremaste som man kan få bara av slumpen. Även om förklaringsgraden (0,0432) är liten, så är det alltså mycket osannolikt att få en såhär pass hög förklaringsgrad bara av slumpen. Vi säger då att regressionsmodellen har signifikant förklaringsstyrka: p-värdet är 0,0017 som är mindre än 0,05. Eftersom p-värdet är mindre än 0,01 så har regressionsmodellen också signifikant förklaringsstyrka på 1-procentsnivån. Notera här att p-värdet (0,0017) är samma p-värde som ges i regressionsutskriften, inringat i blått: F-testet används alltså för att ta reda på om regressionsmodellen har signifikant förklaringsstyrka. Men varifrån kommer då F- värdet på 6,54? F-värdet är en transformation av förklaringsgraden (R 2 ):

p F = (1 R 2 ) (n p 1) R 2 där p är antalet oberoende variabler. Vi kan nu räkna ut att F- värdet är 6,54: p 0,0432/2 F = (1 R 2 = ) (n p 1) (1 0,0432)/(293 2 1) 6,54 R 2 Ju större förklaringsgrad, desto större F-värde. Om förklaringsgraden istället hade varit 0,5 så hade vi fått ett F-värde på 145: p 0,5/2 F = (1 R 2 = ) (n p 1) (1 0,5)/(293 2 1) = 145 R 2 När vi vill ta reda på sannolikheten för att, bara av slumpen, få ett sampel där förklaringsgraden blir minst 0,0432 så är det samma sak som att ställa sig frågan: Hur stor är sannolikheten för att, bara av slumpen, få ett F-värde på minst 6,54? Eller med andra ord: P(R 2 0,0432) = P(F 6,54) Vi såg redan att den sannolikheten är 0,0017. Figuren nedan illustrerar detta: Det här är ett exempel på en F-fördelning. Om nollhypotesen är sann (den sanna förklaringsgraden är noll) så får vi ett sampel där F-värdet hamnar någonstans mellan 0 och 3 i 95 procent av fallen. (Ett F-värde någonstans mellan 0 och 3 motsvarar här en förklaringsgrad någonstans mellan 0 och 0,02.) Om vårt F-värde faller inom detta intervall (om R 2 blir mindre än 0,02) så är

resultatet insignifikant; den uppmätta förklaringsgraden i samplet skulle kunna skyllas på slumpen. I 5 procent av fallen får vi ett F-värde som är större än 3. Om vi får ett sampel där F- värdet blir 3,0 så betyder det att samplet hör till de 5 procent mest extrema som man kan få bara av slumpen och p-värdet är då 0,05; vi har då ett bra stöd för att påstå att den sanna förklaringsgraden är större än 0. Men vi fick ett F-värde på 6,54 vilket ger ett p-värde på 0,0017. Regressionsmodellen har med andra ord signifikant förklaringsstyrka också på 1-procentsnivån: p-värdet = 0,0017 < 0,01. I det här exemplet så är 3,0 det kritiska värdet på 5-procentsnivån. Det krävs med andra ord ett F-värde på 3,0 eller större för att resultatet ska vara signifikant på 5-procentsnivån (för att p- värdet ska bli mindre än 0,05). Det kritiska värdet på 1- procentsnivån är 4,7; det krävs ett F-värde på 4,7 eller större för att resultatet ska vara signifikant på 1-procentsnivån (för att p-värdet ska bli mindre än 0,01). Hur stora de kritiska värdena är varierar från fall till fall; sannolikheten för att bara av slumpen få ett sampel där F-värdet blir större än 6,54 beror också på antalet observationer (n) och antalet oberoende variabler (p). Det här betyder att F-fördelningens utseende varierar beroende på n och p. Man säger att F- fördelningen har två parametrar som bestämmer hur den ser ut. Vi kan jämföra detta med normalfördelningen som också har två parametrar (µ och σ) som bestämmer hur normalfördelningen ser ut. F-fördelningens parametrar kallas för frihetsgradsantalet i täljaren och frihetsgradsantalet i nämnaren. Frihetsgradsantalet i täljaren är antalet oberoende variabler (p); frihetsgradsantalet i nämnaren är antalet observationer (n) minus antalet oberoende variabler (p) minus ett (n-p-1): p F = (1 R 2 ) (n p 1) R 2 Säg att vi drar ett sampel och får ett F-värde på 6,54 (precis som tidigare). Precis som tidigare tänker vi oss att vi har 239 observationer, men anta att vi nu har 10 oberoende variabler: p = 10, n p 1 = 228. Figuren nedan visar hur den här F- fördelningen ser ut. Det kritiska värdet på 5-procentsnivån är nu 1,87 och på 1-procentsnivån 2,40. P-värdet är 0,000000007.

T-test kontra F-test Exempel forts. Vi beskrev noll- och mothypoteserna: Nollhypotesen: Den sanna effekten av att vara egenföretagare är noll (β egen = 0) och den sanna effekten av ålder är noll (β alder = 0). Eller med andra ord: Populationens förklaringsgrad är 0. Mothypotesen: Åtminstone en av effekterna är olika noll populationens förklaringsgrad är större än 0. Ett signifikant resultat betyder att vi kan förkasta nollhypotesen. Men behöver vi verkligen ett F-test för att avgöra detta? Vi vet ju redan att ålder har en signifikant effekt på lön: Om ålder har en signifikant effekt på lön så måste väl också F- testet per konstruktion visa att regressionsmodellen har signifikant förklaringsstyrka? Svaret är nej. Anta att nollhypotesen är sann; ingen av x-variablerna har någon effekt på utfallsvariabeln. Ju fler x-variabler vi inkluderar i regressionen, desto högre är sannolikheten för att åtminstone en effekt ändå

blir signifikant. Nedan visas ett exempel på detta. Här har vi en regression med 20 oberoende variabler (x1, x2,..., x20). Ingen av dessa har egentligen någon effekt på utfallsvariabeln; de effekter vi ser i data beror på slumpen. I de flesta fall har vi fått estimat som ligger nära 0 och som är icke-signifikanta. Men det finns ett misstag; t-testet visar att effekten av x4 är signifikant. Ju fler t-tester desto större är chansen för att åtminstone ett sådant här misstag begås. (På samma sätt som chansen för att få en sexa ökar ju fler gånger vi kastar en tärning.) Om, de facto, ingen av x-variablerna har någon effekt på utfallsvariabeln så kan vi ändå förvänta oss att 5 procent av effekterna blir signifikanta: Vi säger ju att en effekt är signifikant om den hör till de 5 procent extremaste som man kan få bara av slumpen i 5 procent av fallen är slumpen framme och ger oss ett signifikant resultat av misstag. I fallet ovan så är populationens sanna förklaringsgrad 0; ingen av de 20 x-variablerna har någon egentlig effekt på utfallsvariabeln. F-testet visar också att regressionsmodellen inte har en signifikant förklaringsstyrka (F = 0,89, p-värdet = 0,6023). På motsvarande sätt kan det också finnas situationer där F-testet blir signifikant trots att ingen av de enskilda t-testerna ger

signifikanta resultat. I vissa regressioner är det tydligt att någon (eller flera) x-variabler har en effekt på utfallsvariabeln, men det är svårt att peka ut vilken eller vilka. Detta inträffar då x- variablerna är starkt korrelerade. Vi kan förstå detta genom följande analogi: Säg att du gått ner tio kilo efter att du börjat träna och ändrat diet. Det kan då vara svårt att avgöra om träningen eller dieten var orsaken (eller om bägge bidrog). Träning och diet är så att säga starkt korrelerade; du började med bägge samtidigt. Men även om det är svårt att påstå att träningen har effekt eller att dieten har effekt så är det lätt att påstå att träningen eller dieten (eller bägge) har effekt, vilket skulle motsvara ett signifikant resultat på F-testet trots att ingen av de enskilda t-testerna är signifikanta. F-test och t-test används generellt sett för att besvara olika frågeställningar. Med ett undantag: Om vi bara har en oberoende variabel så är t-testet och F-testet exakt samma sak. Exempel forts. Nedan visas resultat från en regression med loggad timlön som utfallsvariabel och dummyn egenföretagare som oberoende variabel. Här har vi inte kontrollerat för ålder. Egenföretagarna tjänar i snitt drygt 4 procent mer än övriga arbetare, men skillnaden är inte signifikant (t = 0,42, p-värdet = 0,676). Regressionsmodellen har inte heller signifikant förklaringsstyrka (F = 0,17, p-värdet = 0,6765). Notera här att p- värdena är lika stora. Detta beror på att bägge testar exakt samma sak. När vi bara har en oberoende variabel så kommer vi från t-värdet till F-värdet genom att kvadrera t-värdet: 0,42 2 0,17.

12.2 ANOVA I REGRESSIONER MED FAKTORVARIABLER Om du läser en statistisk rapport där man gjort en multipel regression så är chansen stor att de inte rapporterar resultatet från F-testet. Ofta ligger intresset i att estimera effekten av en x- variabel på utfallsvariabeln, kontrollerat för några andra variabler. Om regressionsmodellen har signifikant förklaringsstyrka eller inte är då irrelevant. Men det finns också fall där F-testet är av huvudsakligt intresse. Detta gäller inte minst då vi har regressioner med faktorvariabler. Vi ska se två exempel på det här. Exempel: Vi ska lansera en ny läskedryck och ska nu besluta oss för vilken färg vi vill använda på förpackningen. Vi utför följande experiment. Tio kvartersbutiker ingår i studien; fem av dessa lottas ut och får röda läskeburkar medan de andra fem får blåa. Efter en vecka mäter vi försäljningen i varje butik (mätt som antalet backar). Tabellen nedan visar data. Butik Färg Röd Försäljning 1 Blå 0 5 2 Blå 0 7 3 Blå 0 5 4 Blå 0 6 5 Blå 0 2 6 Röd 1 9 7 Röd 1 7 8 Röd 1 6 9 Röd 1 7 10 Röd 1 6 I genomsnitt såldes 5 backar av de blåa burkarna och 7 backar av de röda. Det är en genomsnittlig skillnad på 2 backar. Eller uttryckt som en regression: försäljning = 5 + 2 röd. Är skillnaden signifikant? Nästan. Standardfelet för skillnaden är 1 vilket ger ett t-värde på 2 (t = 2/1 =2). Detta motsvarar ett p- värde på 0,081. (I det här exemplet räcker ett t-värde på 2 inte riktigt till för att skillnaden ska bli signifikant på 5- procentsnivån. Detta beror på att samplet är så pass litet, bara tio observationer.) Men anta nu att vi istället hade gjort följande experiment: Vi använder nu 15 butiker varav fem lottas ut för att få röda burkar;

fem får blåa burkar och fem får vita. Ett utdrag av data visas nedan: Butik Färg Röd Blå Försäljning 1 Blå 0 1 5 2 Blå 0 1 7 3 Blå 0 1 5 4 Blå 0 1 6 5 Blå 0 1 2 6 Röd 1 0 9 7 Röd 1 0 7 8 Röd 1 0 6 9 Röd 1 0 7 10 Röd 1 0 6 11 Vit 0 0 4 12 Vit 0 0 4 13 Vit 0 0 4 14 Vit 0 0 1 15 Vit 0 0 2 I genomsnitt såldes 5 backar av de blåa burkarna; 7 backar av de röda och 3 backar av de vita. Uttryckt som en regression så kan vi beskriva dessa skillnader som: försäljning = 3 + 4 röd + 2 blå där referensgruppen är vita burkar. Färg kallas här för en faktor; när vi inkluderar information om burkarnas färg genom en rad dummy-variabler så har vi gjort en regression med en faktorvariabel. Har regressionen signifikant förklaringsstyrka? Svaret är ja: F- värdet är 8,57 och p-värdet är 0,0049: Regressionsmodellen har med andra ord också signifikant förklaringsstyrka på 1-procentsnivån (0,0049 < 0,01). Eller med andra ord: Vi kan förkasta nollhypotesen om att den sanna

förklaringsgraden är noll. Men i det här exemplet så kan vi också formulera nollhypotesen på ett annat mer intuitivt sätt: Nollhypotesen: μ vita = μ röda = μ blå Om den sanna förklaringsgraden är noll så betyder det att försäljningen inte varierar beroende på burkens färg eller med andra ord: Genomsnittlig försäljning är lika stor oavsett färg: μ vita = μ röda = μ blå. Detta är i sin tur samma sak som att säga att det inte finns några verkliga genomsnittliga skillnader mellan röda och vita burkar, eller mellan blåa och vita burkar: β röda = 0, β blå = 0. Mothypotesen: Åtminstone en av grupperna (vita, röda, blåa) skiljer sig från de övriga. I det här fallet kunde vi konstatera att det finns signifikanta skillnader i genomsnittlig försäljning beroende på burkens färg. F-testet säger dock inte vilka färger som skiljer sig signifikant från andra; eller om det finns signifikanta skillnader mellan alla tre färger. När man på det här viset testar om det finns skillnader i medelvärden mellan grupper så kallar man det för en envägsvariansanalys (envägs-anova). Exempel: Hur varierar tentresultat beroende på hur mycket man sovit natten innan tenten? Efter en stor tentamen låter vi studenterna fylla i en enkät där de uppskattar hur många timmar de sov natten innan. De kan välja mellan följande alternativ: 0-2 timmar, 2-4 timmar, 4-6 timmar och 6+ timmar. I tabellen nedan presenteras genomsnittligt resultat för varje sömngrupp (1-4). Sömngrupp Medelvärde # obs. 1 (0-2 timmar) 49,8 11 2 (2-4 timmar) 61,9 8 3 (4-6 timmar) 66,1 31 4 (6+ timmar) 78,0 50 Samma information som presenteras i tabellen ovan kan vi också beskriva genom en regression: resultat = 49,8 + 12,1 sömn2 + 16,3 sömn3 + 28,2 sömn4

där sömn2 en dummy som antar värdet 1 för dem som sov 2-4 timmar och värdet 0 för övriga; sömn3 är en dummy som antar värdet 1 för dem som sov 4-6 timmar och värdet 0 för övriga; sömn4 är en dummy för dem som sov 6+ timmar och värdet 0 för övriga. Referensgruppen är de som sovit 0-2 timmar. Den här regressionen visar exempelvis att de som sov 6+ timmar (sömn4 = 1) i snitt presterade 28,2 procentenheter bättre än de som sov 0-2 timmar. Så finns det signifikanta skillnader i genomsnittligt tentresultat beroende på sömngrupp? Regressionsutskriften nedan visar att svaret är ja (F = 11,84; p-värdet = 0,000). Notera här att det här inte betyder att vi skulle ha visat att det finns skillnader mellan alla fyra grupper; utan bara att åtminstone en sömngrupp skiljer sig från de andra. Exempel forts. Anta att vi nu också frågat studenterna hur många timmar de jobbat med kursen per vecka (variabeln timmar). Ett utdrag av data ges nedan: Id Sömn Sömn2 Sömn3 Sömn4 Timmar Resultat 1 1 0 0 0 8 42 2 3 0 1 0 6 54 3 4 0 0 1 11 93 4 4 0 0 1 6 68 5 2 1 0 0 10 52..................... 100 4 0 0 1 10 75 Vi har då möjlighet att ställa oss följande fråga: Om vi kontrollerar för antalet arbetstimmar, finns det då fortfarande skillnader i resultat beroende på sömngrupp? Vi inkluderar då antalet arbetstimmar (timmar) som en oberoende variabel i regressionen vilket ger resultatet:

Regressionsekvationen: resultat = 19,1 + 2,6 sömn2 + 6,3 sömn3 + 10,6 sömn4 + 4,2 timmar Som du märker så minskar nu skillnaderna mellan sömngrupperna. Exempel: Tidigare såg vi att de som sovit 6+ timmar i snitt skrivit 28,2 procentenheter bättre än de som sovit 0-2 timmar. Men då vi kontrollerar för antalet arbetstimmar så sjunker skillnaden till 10,6 procentenheter. (Det här betyder att personer som sovit 6+ timmar i snitt jobbat mer under kursens lopp, vilket delvis förklarar varför de klarar sig bättre på tenten.) Tidigare såg vi att det fanns signifikanta skillnader i tentamensresultat beroende på sömngrupp. Men frågan blir nu: Finns det fortfarande signifikanta skillnader mellan sömngrupper efter att vi kontrollerat för tentamensresultat? Nollhypotesen: Kontrollerat för antalet arbetstimmar så finns det inga genomsnittliga skillnader i tentamensresultat beroende på sömngrupp. Eller med andra ord: β sömn2 = 0, β sömn3 = 0, β sömn4 = 0 Mothypotesen: Åtminstone en av grupperna skiljer sig från de övriga. Eller med andra ord: Åtminstone en av effekterna (β sömn2, β sömn3, β sömn4 ) är olika noll. Så kan vi förkasta nollhypotesen om inga skillnader? Från regressionsutskriften ovan så ser vi att regressionsmodellen har signifikant förklaringsstyrka (F = 81,21; p = 0,000). Men det här är inte samma sak som att fråga om det finns signifikanta skillnader mellan sömngrupper kontrollerat för antalet

arbetstimmar. Regressionsutskriften ger oss inte svaret på den här frågan, men vi kan beställa detta F-test skilt: F-värdet är 4,87 och p-värdet är 0,0034. Det finns med andra ord fortfarande signifikanta skillnader i tentamensresultat beroende på sömngrupp, även efter att vi kontrollerat för antalet arbetstimmar. F-testet säger alltså inte att det finns skillnader mellan alla fyra sömngrupper (kontrollerat för antalet arbetstimmar) men bara att åtminstone en grupp skiljer sig från de andra. Rent konkret så kan vi räkna ut detta F-värde genom följande formel: F = (R 2 2 med R utan )/(p med p utan ) 2 (1 R med )/(n p med 1) 2 där R med är förklaringsgraden i en regression där vi tagit med alla oberoende variabler; p med är antalet oberoende variabler i 2 den regressionen. R utan är förklaringsgraden i en regression där vi inte tagit med sömngrupperna som dummyvariabler, dvs. en regression med enbart en oberoende variabel: timmar. p utan är antalet oberoende variabler i den regressionen. Regressionsutskriften nedan visar att R med = 0,7737; p med = 2 4.

Regressionsutskriften nedan visar 2 att R utan = 0,7390 och p utan = 1. Vi kan nu räkna ut att F-värdet är 4,87: F = (R 2 2 med R utan )/(p med p utan ) 2 (1 R med )/(n p med 1) = (0,7737 0,7390)/(4 1) (1 0,7737)/(100 4 1) 4,87 I det här fallet följer F-värdet en F-fördelning med (4-1) frihetsgrader i täljaren och (100-4-1) frihetsgrader i nämnaren: De kritiska värdena på 5- och 1-procentsnivån är 2,71 och 4,00. Eftersom 4,87 är större än det kritiska värdet på 1-procentsnivån så är resultatet signifikant på 1-procentsnivån. Tidigare såg vi också att p-värdet var 0,0034.

Det här F-testet är en generaliserad version av de F-tester vi sett på tidigare. Om vi vill testa om regressionsmodellen som helhet har signifikant förklaringsstyrka så vill vi, så att säga, se om en regression som inkluderar alla x-variabler är signifikant bättre på att prediktera utfallsvariabeln än en regression utan några x- variabler (bara ett intercept = medelvärdet för utfallsvariabeln). 2 En regression utan x-variabler har R utan = 0 och p utan = 0 vilket tar oss tillbaka till det gamla F-testet: F = (R 2 2 med R utan )/(p med p utan ) R 2 /p 2 = (1 R med )/(n p med 1) (1 R 2 )/(n p 1) Test gällande en delgrupp koefficienter I exemplet ovan så använde vi F-testet för att se om det finns signifikanta skillnader i tentamensresultat beroende på sömngrupp (kontrollerat för antalet arbetstimmar). Nollhypotesen gällde då en delgrupp av koefficienterna i regressionen: β sömn2 = 0, β sömn3 = 0, β sömn4 = 0 Det finns dock inget som säger att dessa koefficienter (β) måste vara just koefficienter för dummy-variabler skapade utifrån en faktorvariabel (sömngrupp). F-testet kan generaliseras till att testa vilken delgrupp av koefficienter som helst. Exempel: Tabellen på nästa sida är klippt ur artikeln Stature and Status: Health, Ability and Labor Market outcomes. Här har man mätt sambandet mellan längd och lön för ett sampel brittiska män och kvinnor. Man har också kontrollerat för testresultat i ung ålder (Test scores ages 5 and 10) där testresultatet mäter antalet poäng på kognitiva tester. Se samplet för männen, den andra kolumnen. Regressionen: ln(earnings) = a + 0,004 height + b2 test5 + b 3 test10 där test5 är testresultat vid fem års ålder och test10 är testresultat vid 10 års ålder. Den enda regressionskoefficienten som ges i tabellen är den för height. På raden för Test scores ages 5 and 10 får vi istället ett F-test (F = 31,11, p-värdet =

0,000). Så vad visar det här F-testet? Jo, att testresultat i ung ålder har en signifikant effekt på löner i vuxen ålder (kontrollerat för längd). I den här studien är det ointressant att göra en skillnad mellan effekten av testresultat vid 5 och 10 års ålder; istället testar författarna om dessa variabler tillsammans bidrar till att förklara variationen i löner. Och svaret är ja (p-värdet 0).

Antaganden De villkor som gäller för t-testet gäller också för F-testet. Här är bara en kort repetition: 1) Slumpmässigt draget sampel eller ett sampel som stratifierat på en eller flera x-variabler i regressionen. 2) Utfallsvariabeln är normalfördelad för olika värden på x-variablerna, eller så har vi ett relativt stort sampel. 3) Homoskedasticitet: Variansen i utfallsvariabeln är jämnstor för olika värden på x-variablerna.