Tillämpad statistik. Jesper Rydén

Relevanta dokument
Regression med kvalitativa variabler. Jesper Rydén

F13 Regression och problemlösning

Föreläsning 12: Regression

Föreläsning 7. Statistikens grunder.

Lektionsanteckningar 11-12: Normalfördelningen

F10 Problemlösning och mer om konfidensintervall

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

F9 Konfidensintervall

Matematiska Institutionen Silvelyn Zwanzig 13 mar, 2006

Grundläggande matematisk statistik

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

FÖRELÄSNING 8:

Metod och teori. Statistik för naturvetare Umeå universitet

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

TMS136. Föreläsning 11

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

MVE051/MSG Föreläsning 14

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Föreläsning 11: Mer om jämförelser och inferens

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Föreläsning 12: Linjär regression

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F1

Matematisk statistik KTH. Formelsamling i matematisk statistik

Föreläsning 12: Repetition

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Matematisk statistik för B, K, N, BME och Kemister

TMS136. Föreläsning 13

F22, Icke-parametriska metoder.

Statistisk försöksplanering

TMS136. Föreläsning 7

Regressions- och Tidsserieanalys - F1

Repetitionsföreläsning

F3 Introduktion Stickprov

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Mer om konfidensintervall + repetition

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Lufttorkat trä Ugnstorkat trä

8 Inferens om väntevärdet (och variansen) av en fördelning

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Samplingfördelningar 1

Föreläsning 7: Punktskattningar

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Föreläsning 7: Punktskattningar

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

FÖRELÄSNING 7:

Matematisk statistik TMS064/TMS063 Tentamen

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Föreläsning 7: Punktskattningar

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Introduktion till statistik för statsvetare

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

TMS136. Föreläsning 4

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Statistik 1 för biologer, logopeder och psykologer

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

, s a. , s b. personer från Alingsås och n b

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Repetition 2, inför tentamen

Tentamen i Matematisk statistik Kurskod S0001M

9. Konfidensintervall vid normalfördelning

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

10.1 Enkel linjär regression

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Grundläggande matematisk statistik

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson,

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Introduktion till statistik för statsvetare

Matematisk statistik, Föreläsning 5

Regressions- och Tidsserieanalys - F7

SF1901 Sannolikhetsteori och statistik I

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Lycka till!

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Sannolikhetsteori. Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

2. Test av hypotes rörande medianen i en population.

Multipel Regressionsmodellen

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Transkript:

Tillämpad statistik Jesper Rydén

2

Förord Detta kompendium kompletterar kursinnehållet i kursen Tillämpad statistik 1MS026. Uppsala, februari 2014 Jesper Rydén i

ii

Innehåll Förord i 1 Något om konfidensintervall 1 1.1 Konfidensintervall för p i binomialfördelning.......... 1 1.2 Intervall för andel vid noll observerade............. 3 2 Det ordnade stickprovet 5 2.1 Empirisk fördelningsfunktion.................. 5 2.2 QQ-plot............................... 6 3 Regression med indikatorvariabler 7 3.1 Inledning.............................. 7 3.2 Flera indikatorvariabler...................... 8 3.2.1 Införande av indikatorvariabler............. 8 3.2.2 Tolkning av indikatorvariabler............. 9 3.2.3 Variansanalys....................... 12 3.3 Kvantitativa och kvalitativa variabler.............. 13 iii

iv

Kapitel 1 Något om konfidensintervall I detta kapitel presenteras en del stoff som normalt inte återfinns i traditionell grundkurslitteratur. I avsnitt 1 studerar vi olika alternativ att beräkna konfidensintervall för proportioner, i avsnitt 2 några sätt att beräkna ett intervall för proportion vid noll observerade händelser i en binomialfördelning. 1.1 Konfidensintervall för p i binomialfördelning Flera alternativ har föreslagits i litteraturen, vi börjar med det klassiska intervallet av s.k. Waldtyp. Man kan visa att medelfelet för skattningen ˆp är d[ˆp] = ˆp(1 ˆp)/n och ett approximativt (1 α) konfidensintervall kan därmed beräknas: I p = [ˆp λ α/2 ˆp(1 ˆp)/n, ˆp + λα/2 ˆp(1 ˆp)/n ]. (1.1) Intervallet i ekv. (1.1) motiveras av centrala gränsvärdessatsen och en tumregel för att det skall gälla är nˆp(1 ˆp) 10. Detta intervall presenteras ofta i läroböcker men har visat sig ha dåliga egenskaper, i synnerhet för låga eller höga värden på p. I en industriell tillämpning kan man mycket väl tänka sig att p är litet, då det t.ex. kan innebära sannolikheten att en enskild komponent i en viss population inte håller måttet. Flera förbättringar har dock föreslagits i litteraturen, och vi nämner här två. Agresti Coull-intervall. I en tidskriftsartikel 1 från 1998 föreslog statistikerna Agresti och Coull följande intervall. 1 A. Agresti, B.A. Coull (1998). The American Statistician 52, sid. 119 126. 1

1. Något om konfidensintervall Antag att vi observerat x lyckade försök utav n och inför Intervallet ges av följande uttryck. ñ = n + λ 2 α/2, p = x + λ2 α/2 /2 ñ Konfidensintervall för p (Agresti och Coull): I p = [ ] p(1 p) p ± λ α/2 ñ (1.2) Notera att för α = 0.05 gäller, om vi approximerar λ 0.025 2, att ñ = n + 4, p = x + 2 n + 4. I detta fall konstrueras intervallet alltså som det i ekv. (1.1), men till ursprungliga antalet lyckade försök adderas 2 och till det totala antalet adderas 4. Exempel 1.1 I en provproduktion med n = 2000 komponenter fann man 5 felaktiga komponenter. Beräkna ett 95% konfidensintervall för felandelen p. Vi studerar en variabel X = Antal felaktiga enheter av 2000 och antar oberoende enheter emellan; då gäller att X Bin(2000, p). En observation av X är x = 5 och en punktskattning av p ges av ˆp = 5/2000 = 0.0025. För att beräkna I p enligt Agresti & Coull beräknas ñ = 2000 + 4 = 2004 samt p = (5 + 2)/(2000 + 4). = 0.00349. Intervallet ges av I p = [0.00349 ± 1.96 0.00349(1 0.00349)/2004]. = [0.00091, 0.0061]. (Tumregeln för användning av det klassiska Waldintervallet i ekv. (1.1) är här inte uppfylld.) 2

1.2. INTERVALL FÖR ANDEL VID NOLL OBSERVERADE Avslutningsvis nämner vi ytterligare ett alternativ till intervall. Wilson-intervall. Detta föreslogs av E.B. Wilson 2 och beräknas som följer: ˆp + 1 2n λ2 α/2 ± λ α/2 ( ˆp(1 ˆp) + λ2 α/2 n 4n 2 ) 1/2 ( 1 + 1 ) 1 n λ2 α/2 Det är att rekommendera, att ange vilken metod som använts när ett konfidensintervall för proportion/andel presenteras. 1.2 Intervall för andel vid noll observerade Antag återigen att man är intresserad av andelen objekt med en viss egenskap (kanske defekta) i en population, och använder den vanliga punktskattningen ˆp = x/n. Om man nu inte observerat något objekt alls med egenskapen är x = 0 och därmed ˆp = 0. Ett konfidensintervall enligt ekv. (1.1) blir [0, 0] (snarare en punkt!). Intervallet enligt Agresti och Coull i ekv. (1.2) ger dock ett intervall i ordets bemärkelse, och det finns för denna situation även ett alternativt 95% konfidensintervall som går mycket lätt att beräkna: I p = [ 0, 3/n ]. (1.3) En motivering till det senare intervallet ges i slutet av detta avsnitt. Vi studerar först i ett exempel hur pass bra approximationen är gentemot intervallet enligt Agresti och Coull. Exempel 1.2 I tabellen nedan redovisas, för några olika värden på stickprovsstorlek n, övre gränsen för intervallet i ekv. (1.3). Ett ensidigt 95% konfidensintervall enligt Agresti och Coull kan skrivas 3 Tabellen följer: I p = [ 0, 1 2 λ2 α(1 + 2)/(n + λ 2 α) ]. n 10 20 50 100 200 500 1000 5000 3/n 0.3000 0.1500 0.0600 0.0300 0.0150 0.0060 0.0030 0.00060 Agresti Coull 0.2571 0.1438 0.0620 0.0318 0.0161 0.0065 0.0033 0.00065 2 E.B. Wilson (1927). Journal of the American Statistical Association 22, sid. 209 212. 3 F. Tuyl, R. Gerlach, K. Mengersen (2009). International Statistical Review 77, sid. 266-275. 3

1. Något om konfidensintervall Vi noterar att för små eller måttligt stora stickprov är det enklare intervallet i ekv. (1.3) vidare än intervall enligt Agresti och Coull. En tillverkare som är intresserad av att inte underskatta felandelen föredrar i sådant fall det enklare intervallet vilket blir att betrakta som ett mera konservativt intervall. Med ökande stickprovsstorlek blir intervallet enligt Agresti och Coull konservativt. Avslutningsvis ges en motivering till intervallet i ekv. (1.3). Vi utgår från uttrycket (1 p) n = 0.05 (oberoende försök) vilket efter logaritmering kan skrivas som n ln(1 p) = ln 0.05. Logaritmuttrycket i vänster led kan serieutecklas, ln(1 p) p, och ln 0.05 3, vilket leder till n( p) 3. Alltså har vi funnit p 3/n. 4

Kapitel 2 Det ordnade stickprovet För ett stickprov x 1,..., x n menas med det ordnade stickprovet x (1) x (2) x (n). Detta har stor betydelse vid undersökningar av lämpliga fördelningsfamiljer. 2.1 Empirisk fördelningsfunktion Vi utgår från ett stickprov x 1,..., x n. Den empiriska fördelningsfunktionen definieras av ˆF n (x) = Antal element med värde x n = 1 n n 1{x i x}. i=1 Med det ordnade stickprovet x (1) x (2) x (n) följer att ˆF n (x (i) ) = i, i = 1, 2,..., n. n Mellan x (i) och x (i+1) fås samma skattning i/n. Man kan visa att E[ ˆF n ] = F (x), V[ ˆF n (x)] = 1 F (x)(1 F (x)). n 5

KAPITEL 2. DET ORDNADE STICKPROVET Det gäller alltså att ˆF n (x) är en väntevärdesriktig skattning av F (x). Detta följer ur (*) eftersom indikatorfunktionen för fixt x kan uppfattas som en slumpvariabel Y Bin(1, p), där p = F (x). Additionssatsen för binomialfördelade slumpvariabler ger då att 2.2 QQ-plot n ˆF n (x) Bin(nF (x), nf (x)(1 F (x)). QQ-plottar kan användas för att undersöka lika fördelning mellan två stickprov, dels för att utreda för ett stickprov om en tänkt fördelningsfamilj (normal, exponential etc.) kan anses rimlig. I svenska läroböcker definieras ofta kvantilen x α för en slumpvariabel X med fördelningsfunktionen F (x) genom F (x α ) = 1 α. Då exempelvis X N(0, 1) gäller att P(X 1.64) = Φ(1.64) = 0.95, och vi brukar skriva x 0.05 = λ 0.05 = 1.64. Med R beräknas kvantilen med kommandot qnorm(0.95). En s.k. qq-plott för att undersöka normalfördelning kan konstrueras som följer: 1. Finn det ordnade stickprovet x (1)... x (n). 2. Beräkna u i = Φ 1 ( i n+1 ). 3. Rita upp x (i) (observerade värden) mot u i (teoretiskt beräknade, enligt ovan). Ett problem är den diskretisering som (av naturliga skäl) råder för stickprovet. Jämför med problemet att beräkna medianen för ett stickprov med jämnt antal observationer. Traditionellt föresås då att beräkna medelvärdet av de två mellersta observationerna, men är spridningen uppenbart skev är det kanske ett mindre gott mått. Problematiken av detta slag dyker upp även i samband med qq-plot. Statistiker har föreslagit olika lösningar: i 1 n 1, i 1/2, n i 1/3 n + 1/3, i 3/8 n + 1/4, 3i 1 3n + 1. Det första alternativet är default i programmet R. Det näst sista alternativet föreslogs av Lundaprofessorn Gunnar Blom (1958), det sista av den kände amerikanen J.W. Tukey. 6

Kapitel 3 Regression med indikatorvariabler 3.1 Inledning Man skiljer mellan två typer av kvalitativa variabler, ordnade och oordnade. Ordnade kategoriska variabler kallas även ordinaldata; där finns en ordning mellan de olika kategorierna. Kvalitativa variabler har inte numeriskt tolkningsbara värden utan får representeras av koder för olika klasser av observationer. Ett exempel är en variabel som antar värdet 0 för män och 1 för kvinnor. Ett annat exempel är en variabel som antar värdena 1 för småföretag, 2 för mellanstora företag och 3 för stora företag. För att kunna använda kvalitativa variabler i regressionsanalys krävs att de görs om till s k indikatorvariabler eller dummyvariabler. En kvalitativ variabel som bara kan anta något av två värden behöver egentligen inte göras om, men från tolkningssynpunkt är det lämpligt om värdena transformeras till 0 respektive 1. Regressionsmodeller med indikatorvariabler knyter an till hypotestest av väntevärden i normalfördelning, som följande exempel visar. Exempel 1. Endast en indikatorvariabel x, med modellen y i = β 0 + β 1 x i + ɛ i, i = 1,..., n där x i = { 0, i = 1,..., n1 1, i = n 1 + 1,..., n 7

KAPITEL 3. REGRESSION MED INDIKATORVARIABLER Som vanligt gäller antagandet att ɛ i N(0, σ 2 ). Inför beteckningarna µ 1 = β 0, µ 2 = β 0 + β 1. Då kan regressionsmodellen skrivas { µ1 + ɛ y i = i, i = 1,..., n 1 µ 2 + ɛ i, i = n 1 + 1,..., n Men detta känner vi igen som hypotesprövningsproblemet H 0 : µ 1 = µ 2 med mothypotesen µ 1 µ 2. Ett ekvivalent test, i regressionsformulering, lyder H 0 : β 1 = 0 med mothypotesen β 1 0. Från regressionsanalysens grunder vet vi, att test av enskilda parametrar görs med just t-test. Alltså har vi funnit ett samband mellan t-test för test av lika väntevärden och regressionsmodell med indikatorvariabel. Exemplet kan kanske först uppfattas som en kuriositet, men som vi senare ska finna är kopplingen till väntevärden en central aspekt när regressionsmodeller med indikatorvariabler tolkas. 3.2 Flera indikatorvariabler 3.2.1 Införande av indikatorvariabler En kvalitativ variabel med fler än två värden måste göras om till flera indikatorvariabler. Grundregeln är att en variabel med k klasser representeras av k 1 indikatorvariabler, som var och en antar värdena 0 eller 1. En dålig idé är att inte följa grundregeln utan istället ansätta k indikatorvariabler, vilket motiveras via följande exempel. Exempel 2. Modell: 8 y i = β 0 + β 1 x i1 + β 2 x i2 + β 3 x i3 + ɛ i, i = 1,..., n.

3.2. FLERA INDIKATORVARIABLER Antag n = 4 observationer. I modellen på matrisform Y = Xβ har vi då X = 1 x 11 1 0 1 x 21 1 0 1 x 31 0 1 1 x 41 0 1 Notera att första kolumnen är summan av kolumnerna tre och fyra (linjärt beroende). Detta får konsekvenser för matrisen X X som är vital för skattningarna; man finner X X = = 1 1 1 1 x 11 x 21 x 31 x 41 1 1 0 0 0 0 1 1 4 4 i=1 x i1 2 2 1 x 11 1 0 1 x 21 1 0 1 x 31 0 1 1 x 41 0 1 4 i=1 x i1 2 2 4 2 i=1 x2 i1 i=1 x 4 i1 i=3 x i1 2 i=1 x i1 2 0 4 i=3 x i1 0 2 Även i denna matris förekommer linjärt beroende kolumner (finn själv ut vilka). Enligt linjär algebra följer därför att matrisen X X inte är inverterbar, och ingen entydig skattning av β kan erhållas. 3.2.2 Tolkning av indikatorvariabler Vi demonstrerar här grundregeln med ett exempel, vilket också belyser hur de i regressionsmodellen ingående variablerna kan tolkas. Exempel 3. För en viss bilmodell finns tre motoralternativ: Bensin (B), Diesel (D), E85 (E). Responsvariabel är bränsleförbrukningen. Vi bortser från att bilens vikt kanske ändras beroende på motoralternativ. Antag µ B, µ D, µ E. Modell: y = β 0 + β 1 x 1 + β 2 x 2 + ɛ där { 1 bränsle B x 1 = 0 f.ö. { 1 bränsle D, x 2 = 0 f.ö. Observationer kan då kodas enligt nedanstående tablå: 9

KAPITEL 3. REGRESSION MED INDIKATORVARIABLER Bränsletyp x 1 x 2 E85 (E) 0 0 Bensin (B) 1 0 Diesel (D) 0 1 Väntevärde: E[Y ] = β 0 + β 1 x 1 + β 2 x 2 Låt oss undersöka de olika alternativen. E85. I detta fall gäller x 1 = x 2 = 0, och därmed µ E = E[Y ] = β 0 + β 1 0 + β 2 0 = β 0. Bensin. Nu gäller x 1 = 1, x 2 = 0 och man finner µ B = E[Y ] = β 0 + β 1 1 + β 2 0 = β 0 + β 1. Vi fann tidigare β 0 = µ E, och det följer att µ B = µ E + β 1. En tolkning av β 1 i regressionsmodellen är alltså β 1 = µ B µ E. Diesel. På motsvarande sätt finner man med x 1 = 0, x 2 = 1 att µ D = E[Y ] = β 0 + β 2 vilket kan omformuleras som β 2 = µ D µ E. De tre nivåerna hos den kvalitativa variabeln kan beskrivas med de två indikatorvariablerna; en basnivå representeras här av medelnivån för E85 genom interceptet β 0 = β E. I vissa problemställningar kan det vara naturligt att använda basnivå. I följande exempel presenteras frågeställningar om skillnader i förväntade värden, och data finns tillgängligt. Numeriska beräkningar sker i R. Exempel 4. I en koncern undersöks de årliga underhållskostnaderna för ett datorsystem som finns installerat i flera delstater i USA. I var och en av delstaterna Kansas, Kentucky och Texas valdes slumpvis 10 användare ut. 10 (a) Finns det tillräckligt med belägg från dessa data för att den genomsnittliga underhållskostnaden skiljer sig åt mellan delstaterna (α = 0.05)? (b) Beräkna ett 95% konfidensintervall för skillnaden i medelkostnad mellan Texas och Kansas. Tolka intervallet.

3.2. FLERA INDIKATORVARIABLER Vi ställer upp modellen E[Y ] = β 0 + β 1 x 1 + β 2 x 2 (3.1) där { 1 om Kentucky x 1 = 0 f.ö. För parametrarna β 1 och β 2 gäller { 1 om Texas, z 2 = 0 f.ö.. β 1 = µ 2 µ 1 β 2 = µ 3 µ 1 där µ 1, µ 2, µ 3 är förväntade underhållskostnaderna för Kansas, Kentucky och Texas. Att testa hypotesen i (a) kan formuleras som H 0 : β 1 = β 2 = 0 ty om β 1 = µ 2 µ 1 = 0 och β 2 = µ 3 µ 1 = 0 följer att µ 1 = µ 2 = µ 3. Mothypotes: H 1 : Minst en parameter β i 0, i = 1, 2 Skattning av parametrar i modellen (3.1) utförs med R och resulterar i följande tablå (strukturen hos data i objektet kost visas i Appendix): Call: lm(formula = V2 ~ V3 + V4, data = kost) Residuals: Min 1Q Median 3Q Max -299.80-95.83-37.90 153.32 295.20 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 279.60 53.43 5.233 1.63e-05 *** V3 80.30 75.56 1.063 0.2973 V4 198.20 75.56 2.623 0.0141 * --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 168.9 on 27 degrees of freedom Multiple R-squared: 0.205, Adjusted R-squared: 0.1462 F-statistic: 3.482 on 2 and 27 DF, p-value: 0.04515 11

KAPITEL 3. REGRESSION MED INDIKATORVARIABLER Här avläses p-värdet 0.04515 för prövningen av regressionsmodellen i sin helhet (dvs. H 0 ). Alltså förkastas här H 0 på nivån 0.05 och vi drar slutsatsen att minst en av parametrarna β 1 och β 2 är skild från noll. Vidare kan vi göra tolkningen att de förväntade kostnaderna skiljer sig åt mellan delstaterna. För problemet i (b) beräknar vi ett konfidensintervall för β 2, eftersom β 2 = µ 3 µ 1. Från programutskriften finner man punktskattningen ˆβ 2 = 198.20, och medelfelet d( ˆβ 2 ) = 75.56. Med t-kvantilen t 0.025 (30 2 1) = 2.052 följer intervallet [ ˆβ 2 ± t 0.025 (27)d( ˆβ 2 )] = [43.2, 353.2]. 3.2.3 Variansanalys En viktig klass av statistiska metoder går under namnet variansanalys. Huvudsyftet med dessa metoder är att testa eventuella skillnader i väntevärden mellan olika grupper, behandlingar, osv. Nyckeln till metodiken är att studera kvoter mellan lämpligt valda varianser (därav namnet) vilket resulterar i F-test av olika slag. Det är fullt möjligt att formulera variansanalysproblem i termer av regressionsmodeller med indikatorvariabler, som vi studerat ovan. På engelska används begreppet Analysis of Variance, vilket lett till beteckningen ANOVA. Denna förekommer ofta i t.ex. statistisk programvara. Exempel 5. Vi återvänder till situationen i exempel 4 och studerar i figur 1 ett lådagram över kostnaderna i de tre delstaterna. Det vågräta strecket i varje låda indikerar medianen. Maintenance cost (USD) 0 200 400 600 800 KS KY TX Figur 3.1: Lådagram: Underhållskostnader i tre amerikanska delstater (KS, KY, TX) 12

3.3. KVANTITATIVA OCH KVALITATIVA VARIABLER I variansanalys vill man, som nämnts ovan, statistiskt testa skillnader i väntevärden mellan grupper. En förutsättning för variansanalysen är konstant varians, dvs. lika varians oavsett grupp (jämför förutsättningar i linjär regression). Lådagrammet kan ge en antydan om detta, men det finns även statistiska test utvecklade. Nollhypotesen i variansanalysen lyder samma väntevärde i alla grupper, med mothypotesen minst en grupps väntevärde skiljer sig åt. Om nollhypotesen förkastas kan man gå vidare med s.k. multipla jämförelser (även kallade post hoc-test) för att undersöka vilka grupper som avviker. 3.3 Kvantitativa och kvalitativa variabler Vanligt är att i en regressionsmodell bland de förklarande variablerna inkludera såväl kvalitativa som kvantitativa, givetvis beroende på sammanhanget. Vi ska här studera några modeller och deras innebörd. För enkelhets skull antar vi en indikatorvariabel, d, och en kvantitativ variabel, x. Modell 1. Följande modell resulterar i en additiv förändring hos Y : Y = β 0 + β 1 x + β 2 d + ɛ = { Y = β0 + β 1 x + ɛ, d = 0 Y = β 0 + β 2 + β 1 x + ɛ, d = 1 Indikatorvariabeln orsakar en förändring i intercept, och regressionskoefficienten β 2 mäter den additiva förändringen. Modell 2. Denna modell beaktar förändring i riktningskoefficient: Y = β 0 + β 1 x + β 3 d x + ɛ = { Y = β0 + β 1 x + ɛ, d = 0 Y = β 0 + (β 1 + β 3 )x + ɛ, d = 1 Modell 3. Den mest generella typen av dessa modeller resulterar i såväl additivt skift som förändring i riktningskoefficient: { Y = β0 + β Y = β 0 +β 1 x+β 2 d+β 3 d x = 1 x + ɛ, d = 0 Y = β 0 + β 2 + (β 1 + β 3 )x + ɛ, d = 1 13

KAPITEL 3. REGRESSION MED INDIKATORVARIABLER Referenser 20 Kentucky 354 1 0 21 Texas 385 0 1 Neter J, Wasserman W, Kutner MH (1989). 22 Texas 693 0 1 Applied Linear Regression Models. Second edition. R.D. Irwin Inc. 24 Texas 586 0 1 23 Texas 266 0 1 Kapitel 10. 25 Texas 178 0 1 Mendenhall W, Sincich T (2007). Statistics for Eng and the Sciences. Fifth 27 Texas 308 0 1 26 Texas 773 0 1 edition. Pearson. 28 Texas 430 0 1 Kapitel 12. 29 Texas 644 0 1 Sheather, SJ (2009). A Modern Approach to Regression with R. Springer-Verlag. 30 Texas 515 0 1 Kapitel 5. Appendix. Datas struktur (objektet kost) V1 V2 V3 V4 1 Kansas 198 0 0 2 Kansas 126 0 0 3 Kansas 443 0 0 4 Kansas 570 0 0 5 Kansas 286 0 0 6 Kansas 184 0 0 7 Kansas 105 0 0 8 Kansas 216 0 0 9 Kansas 465 0 0 10 Kansas 203 0 0 11 Kentucky 563 1 0 12 Kentucky 314 1 0 13 Kentucky 483 1 0 14 Kentucky 144 1 0 15 Kentucky 585 1 0 16 Kentucky 377 1 0 17 Kentucky 264 1 0 18 Kentucky 185 1 0 19 Kentucky 330 1 0 14

Sakregister Agresti Coull-intervall, 1 binomialfördelning, 1 centrala gränsvärdessatsen, 1 fördelning binomial-, 1 medelfel, 1 oberoende händelser, 4 Wilson-intervall, 3 15