Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Relevanta dokument
Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Till ampad statistik (A5) Förläsning 13: Logistisk regression

Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F13 Regression och problemlösning

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Matematisk statistik för D, I, Π och Fysiker

, s a. , s b. personer från Alingsås och n b

MVE051/MSG Föreläsning 14

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Grundläggande matematisk statistik

Föreläsning 5. Kapitel 6, sid Inferens om en population

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Matematisk statistik för B, K, N, BME och Kemister

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Statistik 1 för biologer, logopeder och psykologer

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Matematisk statistik, Föreläsning 5

Metod och teori. Statistik för naturvetare Umeå universitet

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

TMS136. Föreläsning 10

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Regressions- och Tidsserieanalys - F1

Föreläsning 12: Regression

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

TMS136. Föreläsning 13

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Multipel Regressionsmodellen

Hur man tolkar statistiska resultat

Föreläsning 12: Linjär regression

Enkel och multipel linjär regression

F3 Introduktion Stickprov

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning G60 Statistiska metoder

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 15, FMSF45 Multipel linjär regression

Föreläsning 11: Mer om jämförelser och inferens

Regressions- och Tidsserieanalys - F1

Hypotestestning och repetition

TENTAMEN I STATISTIKENS GRUNDER 2

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat urval

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

Formler och tabeller till kursen MSG830

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Att välja statistisk metod

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson,

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

F7 Polynomregression och Dummyvariabler

2. Test av hypotes rörande medianen i en population.

Finansiell statistik. Multipel regression. 4 maj 2011

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått


en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

SF1901 Sannolikhetsteori och statistik I

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

7.5 Experiment with a single factor having more than two levels

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Thomas Önskog 28/

Matematisk statistik för B, K, N, BME och Kemister

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Föreläsning 4: Konfidensintervall (forts.)

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Parade och oparade test

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Föreläsning G60 Statistiska metoder

Transkript:

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-23

Faktum är att vi i praktiken nästan alltid har en blandning av kvalitativa/kvantitativa variabler. y måste dock fortfarande vara kvantitativ! variabler Hittills bara studerat kvantitativa variabler, men till skillnad från Pearsons korrelationskoefficient måste x i multipel linjär regression inte vara kvantitativ. Betrakta återigen regression som ett betingat väntevärde E(y x) så inses det lätt att den ns skalnivå inte har betydelse för regressionens giltighet. Om x är en kategori är t ex E(y x = Kategori A ) populationsmedelvärdet i kategori A. Vi kan också skriva detta som µ y x=a

variabler Typiska kategorivariabler är kön utbildningsnivå attitydfrågor på ordinalskala i enkäter länder eller regioner i makroekonomisk statsvetenskaplig utvärdering specifika händelser när data observeras över tid (t ex för att indikera Estoniakatastrofen om vi observerar antalet döda i abrbetskraftaolyckor över tid eller för att indikera finanskrisen 2008 om vi observerar finansdata) Kategorivariabler kan vara på nominal- eller ordinalskala.

En binär kvalitativ Den linjära modellen specificeras som förut: y = β 0 + β 1 x + ε men x ha värdet 0 eller 1. För observationer med x = 1 kommer utfallet y från modellen: y = β 0 + β 1 1 + ε För observationer med x = 0 kommer utfallet y från modellen: y = β 0 + β 1 0 + ε Modellerna kan även formuleras E(y x = 1) = µ y x=1 = β 0 + β 1 1 = β 0 + β 1 respektive E(y x = 0) = µ y x=0 = β 0 + β 1 0 = β 0

En binär kvalitativ Då E(y x = 1) E(y x = 0) är skillnaden mellan medelvärdet för observationer med x = 1 medelvärdet för observationer med x = 0 blir E(y x = 1) E(y x = 0) = β 0 + β 1 β 0 = β 1 β 1 är skillnaden mellan gruppernas medelvärden i populationen! Att β 1 är skillnaden i medelvärden när x kan anta värdena 0 eller 1 är viktigt! Spendera tid till att förstå varför (om det inte är uppenbart direkt). Detta resultat används (väldigt) mycket i praktiken! 1 1 Vad en eventuell skillnad beror på återkommer vi till senare på kursen när vi talar om kausalitet. Än så länge talar vi enbart om association!

Ex1: Födelsevikt bland rökare icke-rökare Anta att vi vill studera om rökning bland gravida är associerat med födelsevikt. Så här skulle ni undersökt det på en första kurs i statistik: Mål: Studera om medelvikten bland nyfödda till mammor som rökte under graviditet, µ y x=1, skiljer sig åt från medelvikten bland nyfödda till mammor som inte rökte under graviditeten, µ y x=0. Hypoteser: H 0 : µ y x=1 µ y x=0 = 0 H 1 : µ y x=1 µ y x=0 0

Ex1: Födelsevikt bland rökare icke-rökare Förutsättningar: 1) OSU från respektive grupp. Varianserna för y i respektive grupp, σy x=1 2 σy x=0 2, är okända. För att bestämma testfunktionen undersöker vi varianserna lika. Bägge stickproven är stora n x=1 = 115, n x=0 = 74 > 30, vilket innebär att även om y inte är normalfördelad i respektive grupp så kan vi använda oss av CGS (såvida y inte är väldigt skevt fördelad)

Ex1: Födelsevikt bland rökare icke-rökare Skattningarna för µ y x=1 µ y x=0 är ȳ x=0 = 3055 ȳ x=1 = 2773 i gruppen där x = 1, vilket innebär att skattningen för µ y x=1 µ y x=1 = 282 I stickprovet är den genomsnittliga födelsevikten för barn till rökande mammor 282 gram mindre än den genomsnittliga födelsevikten för barn till mammor som inte röker.

Ex1: Födelsevikt bland rökare icke-rökare Vi studerar alltid datamaterialet grafiskt. (Hypoteserna formulerade innan.) Spridningen i y verkar inte vara alltför olika enligt boxplottarna ovan. Tumregeln: Om vi använder oss av tumregeln σ1 2/σ2 0 < 2 så antar vi lika varianser.

Ex1: Födelsevikt bland rökare icke-rökare

Ex1: Födelsevikt bland rökare icke-rökare Testfunktion: Enligt förutsättningarna används: t = ȳ 1 ȳ 0 sp(1/n 2 1 + 1/n 0 ) där den poolade variansen (med insättning av tidigare värden) är: s 2 ε = (s2 y 1 (n 1 1) + s 2 y 0 (n 0 1) n 2 = 515206,6 Testfunktionen är t-fördelad med n 2 frihetsgrader om H 0 är sann.

Ex1: Födelsevikt bland rökare icke-rökare Beslutsregel: Vi testar på 5%-signifikansnivå, dvs p < 0,05 betraktas som statistiskt signifikant. Beräkning. Se Minitab-output på nästa slide! Beslut: Eftersom p = 0,009 förkastas H 0. Svar på tenta: Vi kan påvisa att den genomsnittliga födelsevikten bland barn till gravida som röker inte är samma som den genomsnittliga födelsevikten bland barn till gravida som inte röker. Redovisning i rapport/artikel: Barn till gravida som röker väger i genomsnitt 282 gram mindre än barn till gravida som inte röker (p = 0,009). 2 2 Ange inte bara testet utan ange alltid punktskattningen, dvs skillnaden i medelvärden!

Ex1: Födelsevikt bland rökare icke-rökare

E(BWT SMOKE = 0) = β 0 om icke-rökare Ex1: Födelsevikt bland rökare icke-rökare Istället för ett t-test enligt ovan undersöks nu associationen mellan rökning (SMOKE) födelsevikt (BWT ) via den linjära modellen: BWT = β 0 + β 1 SMOKE + ε där SMOKE är 1 om den gravida mamman rökte 0 om hon var icke-rökare. Detta innebär att BWT = β 0 + β 1 + ε om rökare, dvs SMOKE = 1 BWT = β 0 + ε om rökare, dvs SMOKE = 0 alternativt E(BWT SMOKE = 1) = β 0 + β 1 om rökare

Ex1: Födelsevikt bland rökare icke-rökare Modell: BWT = β 0 + β 1 SMOKE + ε Hypoteser: H 0 : β 1 = 0 vs H 1 : β 1 0 Förutsättningar: (i) linjär modell (vilket per automatik är uppfyllt om vi har en enda binär ), (ii) observationer, (iii) E(ε x) = 0, (iv) ε har konstant varians σ 2 ε. Eventuellt (v) ε är normalfördelad. Beslutsregel: Vi testar tvåsidigt på 5%-signifikansnivå, dvs förkasta H 0 om p < 0,05

Ex1: Födelsevikt bland rökare icke-rökare Modellen skattas med minstakvadratmetoden vi erhåller BWT = 3055 282SMOKE dvs ˆβ 1 = 282

Ex1: Födelsevikt bland rökare icke-rökare

Ex1: Födelsevikt bland rökare icke-rökare Kontrollera antagande (i)-(v). Plotten i nedre högre hörnet skulle dock kunna indikera ett problem! Det verkar som observationerna faktiskt är beroende. Emellertid beror detta på observationerna i datat är sorterat på födelsevikt. Detta påverkar inte resultaten utan via datainsamlingen garanteras observationer.

Ex1: Födelsevikt bland rökare icke-rökare Beslut: Eftersom p = 0,009 förkastas H 0. Svar på tenta: Vi kan påvisa att röknig är associerat med födelsevikt då den genomsnittliga födelsevikten bland barn till gravida som röker inte är samma som den genomsnittliga födelsevikten bland barn till gravida som inte röker. Redovisning i rapport/artikel: Barn till gravida som röker väger i genomsnitt 282 gram mindre än barn till gravida som inte röker (p = 0,009). 3 3 Ange inte bara testet utan ange alltid punktskattningen, dvs skillnaden i medelvärden! Detta avgör vad som är praktiskt signifikant.

Ex1: Födelsevikt bland rökare icke-rökare Redovisning i rapport/artikel om vi redovisar konfidensintervall: Barn till gravida som röker väger i genomsnitt 282 gram mindre än barn till gravida som inte röker (95% KI: -479; -71). 4 4 I regel anges KI, men pga av utrymmeskäl exkluderas dessa outputsen. Kontrollera för dig själv att du förstår genom att beräkna intervallet från outputen. Om målet är att skatta ett KI för β 1 kan du gå igenom motsvarande steg som ovan.

Jämförelse med t-testet t-testet i linjär regression Jämför outputen från t-testet från regressionsanalysen. Skillnaden mellan första t-testet är regressionsanalysens t-test är att regressionsanalysen bygger på en modell. Betydelse av antagande (iv) om lika varianser för alla x blir nu uppenbart. Detta är precis det antagande som görs när gör ett t-test med poolad varians, då antog vi att σ1 2 = σ2 2. vilket också skattar σε 2 om (iv) gäller.

Ex1: Intervallskattning av E(y x = 1) E(y x = 0) Mål: Intervallskatta genomsnittlig födelsevikt bland barn till rökare µ y x=1 genomsnittlig födelsevikt bland barn till icke-rökare µ y x=0 Samma modell förutsättningar som tidigare Skattningar: Använd tidigare output. µ y x=1 skattas med µ y x=0 skattas med ˆβ 0 = ȳ x=1 = 3055 ˆβ 0 + ˆβ 1 = ȳ x=1 = 3055 282 = 2773

Ex1: Födelsevikt bland rökare icke-rökare Vi tar fram lite beskrivande statistik som kan vara användbar.

Ex1: Intervallskattning av E(y x = 1) E(y x = 0) Ett 95% KI (under givna förutsättningar) för µ y x=xp ges av ŷ ± t n 2,α/2 ˆV (ŷ) ( där ˆV 1 (ŷ) = sε 2 n + (x p x) 2 ) t = 1,973 SS xx För µ y x=xp har vi då ( ) 1 (1 0,3915)2 ˆV (ŷ) = 515207 + = 6962,25 189 45,0265 där SS xx = (n 1)s 2 x = 45,0265.

Ex1: Intervallskattning av E(y x = 1) E(y x = 0) Beräkning ger intervallet (2608, 64, 2937, 85). Med 95% säkerhet är den genomsnittliga födelsevikten bland barn till mammor som rökt under graviditeten mellan 2609 2938 gram. Motsvarande intervall för icke-rökande mammor är (2922,92; 3187,00). Prova räkna!

Ex1: Födelsevikt bland rökare icke-rökare

Att ha i åtanke beträffande binära variabler En kvalitativ binär benämns även dikotom, dummy-, indikator. Om n är på nominalskala kan den (i princip) kodas hur vi vill eftersom värdet i sig saknar betydelse. Man måste däremot alltid vara noga med vad som är referenskategorin Om n är på ordinalskala kan den (i princip) kodas hur vi vill så länge inbördes rangordning bibehålls. Kodningen har ingen betydelse för testens slutsatser. Vi få exakt samma p-värde.

Att ha i åtanke beträffande binära variabler Kodningen har betydelse för punktskattningarnas värde om vi inte anger för programmet att x är en kategori. Vid kodningen ( 1, 1) erhålls t ex en annan punktskattning än om n kodas (0, 1). Ibland används kodningen (1, 2). Tolkningen görs utifrån vad som väljs som referenskategori. Syftet är ju att jämföra en grupp med annan.

Ex1 Rökningsn heter nu C12 är här kodad 1 för icke-rökare 1 för rökare. Jämför med (0, 1) kodningen tolka skillnaden! Räkna ut medelvärdet bland rökare medelvärdet bland icke-rökare.

Ex1 Explicit angett att C12 är en kategori.

Ex1 Explicit angett att C12 är en kategori.

Att ha i åtanke beträffande binära variabler I statistikprogram måste man ofta ange att n är en kategori. I praktiken används oftast (0,1)-kodningen eftersom vi direkt har en tydlig referenskategori. Dessutom har en interceptet en tydlig tolkning eftersom det är medelvärdet för referenskategorin när alla övriga variabler är noll. Om vi är nöjda med tolkningen vid (0,1)-kodningen behöver vi i princip inte ange att n är en kategori. Vid kodningen (-1,1) erhålls andra goda egenskaper som vi ska se närmare på senare på kursen. På samma sätt, är vi medvetna om kodningen behöver vi inte ange att n är en kategori, men vi måste tolka parametrarna rätt! En kategori kallas också för faktor

fler än två F-test Analys av enskilda parametrar Test för linjär trend Låt x vara en med 3. Baserat på x-n skapar vi nu tre nya binära variabler d 1, d 2, d 3 som indikerar kategoritillhörighet. Eftersom en individ inte kan tillhöra flera grupper gäller följande: Om x = 1 så d 1 = 1 d 2 = 0 d 3 = 0 Om x = 2 så d 2 = 0 d 2 = 1 d 3 = 0 Om x = 3 så d 3 = 0 d 2 = 0 d 3 = 1 Bestäm sedan en referenskategori. Dummy-variablerna som inte baseras på referenskategorin används sedan i en linjär modell.

fler än två F-test Analys av enskilda parametrar Test för linjär trend HAr vi en kvalitativ med 3 resulterar det i en linjär modell med 2 dummy-variabler välja 1 som referens erhålls modellen: vilket också kan skriva som y = β 0 + β 1 d 2 + β 2 d 3 + ε y = β 0 + β 1 0 + β 2 0 + ε om x = 1 (eller d 1 = 1) y = β 0 + β 1 1 + β 2 0 + ε om x = 2 (eller d 2 = 1) y = β 0 + β 1 0 + β 2 1 + ε om x = 3 (eller d 3 = 1)

fler än två Alternativt: E(y x = 1) = β 0 F-test Analys av enskilda parametrar Test för linjär trend E(y x = 2) = β 0 + β 1 E(y x = 3) = β 0 + β 2 Enligt ovanstående opecifikation kan vi skatta alla betingade medelvärden E(y x). Dessutom har vi följande praktiska tolkningar β 1 = E(y x = 2) E(y x = 1) β 2 = E(y x = 3) E(y x = 1)

Ex1: SES BWT F-test Analys av enskilda parametrar Test för linjär trend Vi vill nu undersöka om socio-ekonomisk status (1=låg, 2=mellan, 3=hög) är associerat med födelsevikt. Vi börjar därför med kodningen till dummy-variabler. Ett snabbt sätt att göra detta i Minitab är genom Calc-Make Indicator Variables...

Ex1: SES BWT F-test Analys av enskilda parametrar Test för linjär trend Vi misstänker att låg SES är associerat med låg födelsevikt så sätter vi hög SES som referens. Återigen, detta är godtyckligt, men att sätta hög SES som referens kan i det här fallet förenkla tolkningar. Vi sätter därför upp modellen BWT = β 0 + β 1 SES 1 + β 2 SES 2 + ε där målet är att testa hypoteserna H 0 : β 1 = β 2 = 0 mot H 1 : Att minsta en av parametrarna är skild från noll Men innan vi testar så ska se närmare på tolknigen av parameterskattningarna som vi erhåller från regressionsmodellen ovan.

Ex1: SES BWT F-test Analys av enskilda parametrar Test för linjär trend Utan att göra någon regression så kan vi ta fram skattningarna: E(y x = 1) som skattas med ȳ x=1 = 2720 E(y x = 2) som skattas med ȳ x=2 = 2804 E(y x = 3) som skattas med ȳ x=3 = 3103,7

Ex1: SES BWT F-test Analys av enskilda parametrar Test för linjär trend

F-test Analys av enskilda parametrar Test för linjär trend Ex1: SES BWT På motsvarade sätt som formulerat i populationsmodellerna tidigare kan de skattande medelvärden erhållas direkt från den skattade regressionsmodellen: ˆβ 0 = 3103, 7 ˆβ 0 + β 1 = 3103, 7 + ( 384) = 2720 ˆβ 0 + ˆβ 2 = 2720 + ( 300) = 2804 Dessutom skattas direkt de (i regel) mest relevanta parametrarna, skillnader i medelvärden. Vi ser att nyfödda till mammor med låg SES väger i genomsnitt 384 gram mindre än nyfödda till mammor med hög SES. Dessutom är födelsevikten bland barn till mammor med mellannivå SES i genomsnitt 300 gram mindre jämfört med födelsevikten bland barn till mammor med hög SES. Observera! Vi ännu inte angett konfidensintervall eller testat. Det är enbart punktskattningar så här långt.

F-test Analys av enskilda parametrar Test för linjär trend Ex1: Test av association mellan SES BWT Utgångspunkten är modellen BWT = β 0 + β 1 SES 1 + β 2 SES 2 + ε vi ser nu att även om vi bara har en, SES, så har vi flera parametrar att testa. För att formellt testa om det finns en association mellan SES BWT så ska vi alltså testa hypoteserna H 0 : β 1 = β 2 = 0 H 1 : Att minsta en av parametrarna är skild från noll Test av flera parametrar samtidigt gjordes tidigare med ett F -test. Vi gör på motsvarande sätt nu.

Ex1: Test av association mellan SES BWT F-test Analys av enskilda parametrar Test för linjär trend Mål: Är SES associerat med BWT? Modell: BWT = β 0 + β 1 SES 1 + β 2 SES 2 + ε Hypoteser: H 0 : β 1 = β 2 = 0 H 1 : Att minsta en av parametrarna 0 Förutsättningar för F -test: (i) En linjär modell följer av enbart disjunkta indikatorvariabler. (ii) Observationerna är pga datainsamlingen (tvärsnittsdata utan några kluster). (iii) E(ε x) = 0. (iv) Feltermens varians är konstant, dvs V (ε x) = σ 2 ε. (v) Feltermens fördelning är normalfördelad.

Ex1: Test av association mellan SES BWT F-test Analys av enskilda parametrar Test för linjär trend Mål: Är SES associerat med BWT? Modell: BWT = β 0 + β 1 SES 1 + β 2 SES 2 + ε Hypoteser: H 0 : β 1 = β 2 = 0 H 1 : Att minsta en av parametrarna 0 Förutsättningar för F -test: (i) En linjär modell följer av enbart disjunkta indikatorvariabler. (ii) Observationerna är pga datainsamlingen (tvärsnittsdata utan några kluster). (iii) E(ε x) = 0. (iv) Feltermens varians är konstant, dvs V (ε x) = σ 2 ε. (v) Feltermens fördelning är normalfördelad.

Ex1: Test av association mellan SES BWT F-test Analys av enskilda parametrar Test för linjär trend Testfunktion: F = MS(Model) MSE Beslutsregel: Förkasta H 0 på 5%-signifikansnivå, α = 0,05 om p < 0,05. F = MS(Model) MSE

Ex1: Test av association mellan SES BWT F-test Analys av enskilda parametrar Test för linjär trend

Ex1: Test av association mellan SES BWT F-test Analys av enskilda parametrar Test för linjär trend

Ex1: Test av association mellan SES BWT F-test Analys av enskilda parametrar Test för linjär trend

Ex1: Test av association mellan SES BWT F-test Analys av enskilda parametrar Test för linjär trend (ii) observationer gäller från designen i datainsamlingen där det inte finns kluster/grupper. Plotten nere till höger är i regel bara tillämplig vid tidsseriedata. Vi har observationer. (iv) Samma varianser. Residualplotten indikerar inte alltför olika spridning av residualerna i de olika na. Samma sak observeras för varianserna för y i respektive SES-grupp.

Ex1: Test av association mellan SES BWT F-test Analys av enskilda parametrar Test för linjär trend Beslut: Eftersom p < 0,05 förkastar vi H 0. Svar: Vi kan påvisa SES är statistiskt användbart för att förklara BWT. Rapport/artikel: Gravida mödrars socio-ekonomiska status är associerad med barnens vikt vid födsel (F 2,186 = 4,97, p = 0,008).

Ex1: Test av association mellan SES BWT F-test Analys av enskilda parametrar Test för linjär trend Om det redan finns andra variabler i modellen måste vi göra ett nested F -test. Detta finns inte implementerat i Minitab utan måste utföras för hand.

Test konfidensintervall för enskilda β j F-test Analys av enskilda parametrar Test för linjär trend Efter F -testet brukar det vara av intresse testa för att se vilka skillnader som finns. Det görs genom test av enskilda β j (som ju är skillnad i medelvärden). F -testet påverkas inte av vilken kategori som används som referens. Samma gäller inte när vi betraktar enskilda parametrar. Vi måste välja en referens! Teori. Vad vill vi jämföra mot? I vilken riktning går sambandet? Styrka. Välj den referens med flest antal observationer. Val av referensgrupp påverkar p-värdet i enskilda testen.

Test konfidensintervall för enskilda β j F-test Analys av enskilda parametrar Test för linjär trend

Test konfidensintervall för enskilda β j F-test Analys av enskilda parametrar Test för linjär trend

Test konfidensintervall för enskilda β j F-test Analys av enskilda parametrar Test för linjär trend Varför p-värdena blir olika är tydligt om vi studerar. Signifikanta skillnader erhålls om vi jämför grupper vars medelvärden ligger långt ifrån varandra. Vi ska dock välja test utifrån figurer! Hypoteserna ska vara formulerade i förväg! Alternativt baserat på vad som uppkommer i samband med datainsamling när en kategori erhåller få observationer.

F-test Analys av enskilda parametrar Test för linjär trend Konfidensintervall för enskilda β j I regel är konfidensintervall mer informativa än p-värden. Tolkning: Nyfödda till mödrar med låg SES väger i genomsnitt 384 gram mindre än nyfödda till mödrar med hög socio-ekonomisk status (95% KI: -696; -73). Vi finner även att nyfödda till mödrar med mellan-nivå av SES i väger i genomsnitt 300 gram mindre än nyfödda till mödrar med hög SES (95% KI: -524; -75). 5. 5 Vi kan däremot inte uttala oss skillnaden mellan låg mellan SES

F-test Analys av enskilda parametrar Test för linjär trend Test för linjär trend Om den kvalitativa n är på ordinalskala används ibland ett test för linjär test. Vi har då ett värde för varje kategori sedan jämna skalsteg 1, 2, 3,...,. Därefter inkluderas n i regressionen som om den vore kvantitativ, dvs med samma avstånd mellan svarsalternativen. Vi testar då om det finns en linjär trend spar samtidigt frihetsgrader (testar bara en parameter). Men tolkningen är just att vi testar en linjär trend under den givna förutsättningen med lika avstånd. Detta test gäller av naturliga skäl inte för variabler på nominalskala.

Ex1: Test för linjär trend mellan BWT SES F-test Analys av enskilda parametrar Test för linjär trend

MS: 5.2, s213-s217, 5.7

Övningsuppgifter MS: 4.45, 4.51, 5.25