Bygga linjära modeller! Didrik Vanhoenacker 2007



Relevanta dokument
Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3

InStat Exempel 4 Korrelation och Regression

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Multipel Regressionsmodellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Statistik och epidemiologi T5

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Regressions- och Tidsserieanalys - F4

Medicinsk statistik II

Analytisk statistik. Tony Pansell, optiker Universitetslektor

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Laboration 2 multipel linjär regression

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Linjär regressionsanalys. Wieland Wermke

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

Statistik , Stansens PC-klass ASA-huset. Schema: mån ti ons to fre

Skrivning i ekonometri torsdagen den 8 februari 2007

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Föreläsning 4. Kap 5,1-5,3

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

ANOVA Faktoriell (tvåvägs)

Repetitionsföreläsning

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Lektionsanteckningar 11-12: Normalfördelningen

Statistik och epidemiologi T5

Uppgift 1. Produktmomentkorrelationskoefficienten

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

0,22 m. 45 cm. 56 cm. 153 cm 115 cm. 204 cm. 52 cm. 38 cm. 93 cm 22 cm. 140 cm 93 cm. 325 cm

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Föreläsning 12: Regression

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

3.6 Generella statistiska samband och en modell med för sockerskörden begränsande variabler

Kort manual till SPSS 10.0 för Mac/PC

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Matematisk statistik för B, K, N, BME och Kemister

EXAMINATION KVANTITATIV METOD

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Handledning för konstruktion av tabeller och diagram med Excel

TENTAMEN I MATEMATISK STATISTIK Statistik för lärare 7,5 hp

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Ekonomisk statistik 2 Economic statistics 2. Imputering

Vad man bör tänka på innan man börjar analysera sina data SLU

Korrelation och autokorrelation

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

RödGrön-spelet Av: Jonas Hall. Högstadiet. Tid: minuter beroende på variant Material: TI-82/83/84 samt tärningar

En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart:

Sänkningen av parasitnivåerna i blodet

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Bilaga 3. Varselstatistik, bortfallsanalys och statistiska beräkningar

Skrivning/skriftlig eksamen till statistikdelen av kursen i forskningsmetodik maj 2002

Medicinsk statistik II

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

, s a. , s b. personer från Alingsås och n b

OBS! Vi har nya rutiner.

Matematisk statistik för D, I, Π och Fysiker

Att välja statistisk metod

Instruktioner till Inlämningsuppgiften i Statistik Kursen Statistik och Metod Psykologprogrammet (T8), Karolinska Institutet

7.5 Experiment with a single factor having more than two levels

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

8.1 General factorial experiments

Färdtjänsten i Norrköping

OBS! Vi har nya rutiner.

10.1 Enkel linjär regression

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Analys av priser på små bostadsrätter samt villor i Uppsala

Hälso- och sjukvårdsverksamhet har som övergripande mål ett gott hälsotillstånd

Laboration 2: Styrkefunktion samt Regression

4-8 Cirklar. Inledning

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Grundläggande Biostatistik. Joacim Rocklöv, Lektor Epidemiologi och global hälsa Umeå Universitet

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Transkript:

Bygga linjära modeller! Didrik Vanhoenacker 2007 1

Bygga enkla modeller Tänk att vi ska försöka förstå vad som styr hur många blommor korsblommiga växter har. T ex hos Lomme och Penningört. Hittills har vi bara byggt enkla modeller av typen: BLOMANTAL ~ ART [ blomantalet beror på art ] dvs olika arter har olika många blommor eller BLOMANTAL ~ ROSETTDIAMETER [ blomantalet beror på rosettdiameter ] t ex ju större bladrosett desto fler blommor ~ uttalas tilde och betyder beror på Modellen BLOMANTAL ~ ART har en kategorisk förklaringsvariabel och kallas för en anova. Modellen BLOMANTAL ~ ROSETTDIAMETER har en kontinuerlig förklaringsvariabel och kallas för en regression. Men egentligen gör vi samma sak. Vi kollar om en signifikant del av variationen i blomantal kan förklaras av art eller rosett-diameter. I princip: - Vi har en Lomme. Kommer vi oftare gissa rätt (eller nästan rätt) på blomantal om vi vet artens medelvärde, än om vi bara vet de korsblommigas medelvärde. Eller: - Vi har en planta med 8 cm rosettdiameter. Kommer vi då oftare gissa rätt på blomantal om vi vet att korsblommigas blomantal ökar med ungefär 4.5 blommor per cm rosettdiameter, än om vi bara vet att korsblommiga plantor i snitt har 54 blommor? Vi bygger en modell och testar statistiskt om den gör att vi signifikant bättre förstår vad som styr responsvariabeln. 2

Bygga större modeller Man kan också bygga modeller med flera förklaringsvariabler. T ex: BLOMANTAL ~ ART + ROSETTDIAMETER [ blomantalet beror på art och rosettdiameter ] olika arter har olika många blommor, men dessutom har växten fler blommor ju större bladrosetten är - Vi har en Lomme med 8 cm rosett-diameter. Kommer vi bli signifikant bättre på att gissa rätt blomantal på den om vi både vet medelvärdet för artens blomantal och vet hur korsblommigas blomantal brukar öka med rosettdiameter? eller BLOMANTAL ~ ART + ROSETTDIAMETER + ART : ROSETTDIAMETER [ blomantalet beror på art och rosettdiameter, samt interaktionen art gånger rosettdiameter] t ex olika arter har olika många blommor, men effekten av större bladrosett skiljer sig åt mellan arterna. Hos den ena arten ökar blomantalet med diametern på bladrosetten, medan den andra artens blomantal inte påverkas av rosettstorlek. - Vi har en Lomme med 8 cm rosett-diameter. Kommer vi bli signifikant bättre på att gissa rätt blomantal på den om vi vet hur Lommens blomantal brukar öka med rosettdiameter? modellen BLOMANTAL ~ ART + ROSETTDIAMETER + ART : ROSETTDIAMETER brukar skrivas ihop till BLOMANTAL ~ ART * ROSETTDIAMETER Sådana här modeller kallas för Linjära Modeller, linear models (eller ibland general linear models). Andra exempel på linjära modeller skulle t ex kunna vara: ARTANTAL ~ ÖSTORLEK + AVSTÅND.TILL.FASTLANDET FRUKTSÄTTNING ~ POLLINATÖRSBESÖK * KVÄVE.I.JORDEN ANDEL.GIFTIGA.KLÖVERBLAD ~ I.ELLER.UTANFÖR.HAGE * DJURSLAG * BETESMARKENS.ÅLDER SPINDELNÄTS-STORLEK ~ SPINDELSTORLEK * KÖN + BIOTOP SPRIDNINGSAVSTÅND ~ HÅRPENSELLÄNGD + FRÖVIKT BYTESSTORLEK ~ PREDATORART I princip kan du bygga dina modeller hur du vill. Du kan använda både kategoriska och kontinuerliga förklaringsvariabler. Du bör ha koll på vilka som är vilka så att du kan se att R räknat rätt. Själva räkneprocessen skiljer sig nämligen lite mellan kategoriska och kontinuerliga variabler. R utgår från att kolumner med siffror är kontinuerliga och att kolumner med bokstäver eller ord är kategoriska. Ett vanligt fel är att man skriver in populationsnummer eller år med siffror fast det är kategoriska variabler. Men man kan också gå in i datafilen i R och rätta till. 3

Testa olika linjära modeller samt deras förklaringsvariabler KRAV: För att få testa en linjär modell måste responsvariabeln: vara kontinuerlig ha hyfsat normalfördelade residualer (residualer är det brus som förklaringsvariablerna inte förklarar) ha ungefär samma variation i olika grupper och längs kontinuerliga förklaringsvariabler Håller inte detta får man testa på något annat sätt. Det går det med. Vad går testet ut på? Vi vill ha den modell med förklaringsvariabler som gör att vi blir bättre på att gissa rätt på responsvariabeln. Men, vi vill INTE ha med förklaringsvariabler som inte förbättrar gissningarna. De förklaringsvariabler som inte tillför någon information tar man bort. Man börjar med att testa de mest komplicerade interaktionerna. Exempel Vi undersöker responsvariabeln BLOMANTAL. Interaktion Om vi vill testa ifall interaktionen ART : ROSETTDIAMETER påverkar BLOMANTAL signifikant jämför vi modellerna: Model.1 BLOMANTAL ~ ART + ROSETTDIAMETER + ART : ROSETT-DIAMETER och Model.2 BLOMANTAL ~ ART + ROSETTDIAMETER Gissar vi oftare rätt med Model.1 än med Model.2? Dvs, gissar vi oftare rätt om vi vet hur Lommens blomantal brukar öka med rosettdiameter än om vi bara vet medelvärdet för Lommens blomantal och vet hur korsblommigas blomantal i allmänhet brukar öka med rosettdiameter? Är interaktionen ART : ROSETTDIAMETER statistiskt signifikant? Då behåller vi Model.1. Om den inte är det tar vi bort interaktionen och skrotar Model.1. 4

Huvudeffekter Är huvudeffekterna ART och ROSETTDIAMETER signifikanta då? Vi mekar två nya modeller: Model.3 BLOMANTAL ~ ART Model.4 BLOMANTAL ~ ROSETTDIAMETER Först undersöker vi om rosett-diameter gör våra gissningar bättre GIVET att vi redan vet artens medel. Eller räcker det med att veta artens medel? Vi jämför därför Model.2 BLOMANTAL ~ ART + ROSETT-DIAMETER med Model.3 BLOMANTAL ~ ART Är Model.2 signifikant bättre? Samtidigt undersöker vi om art gör våra gissningar bättre GIVET att vi redan vet hur rosett-diametern påverkar blomantalet. Eller räcker det med att veta hur rosettdiametern påverkar blomantalet? Vi jämför därför Model.2 BLOMANTAL ~ ART + ROSETT-DIAMETER med Model.4 BLOMANTAL ~ ROSETT-DIAMETER Är Model.2 signifikant bättre? Den variabel som inte är signifikant kan man ta bort. VIKTIG REGEL: Man får bara testa att ta bort effekter som inte finns med i en högre interaktion. <FEL> SPRIDNINGSAVSTÅND ~ HÅRPENSELLÄNGD + FRÖVIKT + HÅRPENSELLÄNGD : FRÖVIKT vs. <FEL> SPRIDNINGSAVSTÅND ~ HÅRPENSELLÄNGD + HÅRPENSELLÄNGD : FRÖVIKT är INTE ok!! 5

Korrelerade Förklaringsvariabler Ibland är en förklaringsvariabel korrelerad med en annan förklaringsvariabel. Kolla på modellen: Model.1 ARTANTAL ~ ÖSTORLEK + AVSTÅND.TILL.FASTLANDET Om alla isolerade öar är små och alla stora ligger nära fastlandet blir det problem. Då kan vi råka ut för att: - Givet att vi redan vet hur östorlek påverkar artantalet, så blir vi inte bättre på att gissa om vi också får reda på hur avståndet till fastlandet påverkar artantalet. Model.1 ARTANTAL ~ ÖSTORLEK + AVSTÅND.TILL.FASTLANDET skiljer sig inte signifikant från Model.2 ARTANTAL ~ ÖSTORLEK Och samtidigt kan det vara så att: - Givet att vi redan vet hur avståndet till fastlandet påverkar artantalet, så blir vi inte bättre på att gissa om vi också får reda på hur östorlek påverkar artantalet. Model.1 ARTANTAL ~ ÖSTORLEK + AVSTÅND.TILL.FASTLANDET skiljer sig inte signifikant från Model.2 ARTANTAL ~ AVSTÅND.TILL.FASTLANDET Men om vi vet hur antingen östorlek eller avstånd till fastland påverkar artantalet kan vi ändå vara bättre på att gissa artantalet på en viss ö än om vi bara vet hur många arter det i medel är på en ö. Model.2 ARTANTAL ~ ÖSTORLEK skiljer sig kanske signifikant från Model.0 ARTANTAL ~ 1 Model.0 ARTANTAL ~ 1 betyder en modell där vi bara använder öarnas medel-artantal för att gissa artantalet på en viss ö. Om fortfarande ingen förklaringsvariabel är signifikant? Well, då kan vi helt enkelt inte förklara varför blomantalet varierar som det gör. 6