Bygga linjära modeller! Didrik Vanhoenacker 2007 1
Bygga enkla modeller Tänk att vi ska försöka förstå vad som styr hur många blommor korsblommiga växter har. T ex hos Lomme och Penningört. Hittills har vi bara byggt enkla modeller av typen: BLOMANTAL ~ ART [ blomantalet beror på art ] dvs olika arter har olika många blommor eller BLOMANTAL ~ ROSETTDIAMETER [ blomantalet beror på rosettdiameter ] t ex ju större bladrosett desto fler blommor ~ uttalas tilde och betyder beror på Modellen BLOMANTAL ~ ART har en kategorisk förklaringsvariabel och kallas för en anova. Modellen BLOMANTAL ~ ROSETTDIAMETER har en kontinuerlig förklaringsvariabel och kallas för en regression. Men egentligen gör vi samma sak. Vi kollar om en signifikant del av variationen i blomantal kan förklaras av art eller rosett-diameter. I princip: - Vi har en Lomme. Kommer vi oftare gissa rätt (eller nästan rätt) på blomantal om vi vet artens medelvärde, än om vi bara vet de korsblommigas medelvärde. Eller: - Vi har en planta med 8 cm rosettdiameter. Kommer vi då oftare gissa rätt på blomantal om vi vet att korsblommigas blomantal ökar med ungefär 4.5 blommor per cm rosettdiameter, än om vi bara vet att korsblommiga plantor i snitt har 54 blommor? Vi bygger en modell och testar statistiskt om den gör att vi signifikant bättre förstår vad som styr responsvariabeln. 2
Bygga större modeller Man kan också bygga modeller med flera förklaringsvariabler. T ex: BLOMANTAL ~ ART + ROSETTDIAMETER [ blomantalet beror på art och rosettdiameter ] olika arter har olika många blommor, men dessutom har växten fler blommor ju större bladrosetten är - Vi har en Lomme med 8 cm rosett-diameter. Kommer vi bli signifikant bättre på att gissa rätt blomantal på den om vi både vet medelvärdet för artens blomantal och vet hur korsblommigas blomantal brukar öka med rosettdiameter? eller BLOMANTAL ~ ART + ROSETTDIAMETER + ART : ROSETTDIAMETER [ blomantalet beror på art och rosettdiameter, samt interaktionen art gånger rosettdiameter] t ex olika arter har olika många blommor, men effekten av större bladrosett skiljer sig åt mellan arterna. Hos den ena arten ökar blomantalet med diametern på bladrosetten, medan den andra artens blomantal inte påverkas av rosettstorlek. - Vi har en Lomme med 8 cm rosett-diameter. Kommer vi bli signifikant bättre på att gissa rätt blomantal på den om vi vet hur Lommens blomantal brukar öka med rosettdiameter? modellen BLOMANTAL ~ ART + ROSETTDIAMETER + ART : ROSETTDIAMETER brukar skrivas ihop till BLOMANTAL ~ ART * ROSETTDIAMETER Sådana här modeller kallas för Linjära Modeller, linear models (eller ibland general linear models). Andra exempel på linjära modeller skulle t ex kunna vara: ARTANTAL ~ ÖSTORLEK + AVSTÅND.TILL.FASTLANDET FRUKTSÄTTNING ~ POLLINATÖRSBESÖK * KVÄVE.I.JORDEN ANDEL.GIFTIGA.KLÖVERBLAD ~ I.ELLER.UTANFÖR.HAGE * DJURSLAG * BETESMARKENS.ÅLDER SPINDELNÄTS-STORLEK ~ SPINDELSTORLEK * KÖN + BIOTOP SPRIDNINGSAVSTÅND ~ HÅRPENSELLÄNGD + FRÖVIKT BYTESSTORLEK ~ PREDATORART I princip kan du bygga dina modeller hur du vill. Du kan använda både kategoriska och kontinuerliga förklaringsvariabler. Du bör ha koll på vilka som är vilka så att du kan se att R räknat rätt. Själva räkneprocessen skiljer sig nämligen lite mellan kategoriska och kontinuerliga variabler. R utgår från att kolumner med siffror är kontinuerliga och att kolumner med bokstäver eller ord är kategoriska. Ett vanligt fel är att man skriver in populationsnummer eller år med siffror fast det är kategoriska variabler. Men man kan också gå in i datafilen i R och rätta till. 3
Testa olika linjära modeller samt deras förklaringsvariabler KRAV: För att få testa en linjär modell måste responsvariabeln: vara kontinuerlig ha hyfsat normalfördelade residualer (residualer är det brus som förklaringsvariablerna inte förklarar) ha ungefär samma variation i olika grupper och längs kontinuerliga förklaringsvariabler Håller inte detta får man testa på något annat sätt. Det går det med. Vad går testet ut på? Vi vill ha den modell med förklaringsvariabler som gör att vi blir bättre på att gissa rätt på responsvariabeln. Men, vi vill INTE ha med förklaringsvariabler som inte förbättrar gissningarna. De förklaringsvariabler som inte tillför någon information tar man bort. Man börjar med att testa de mest komplicerade interaktionerna. Exempel Vi undersöker responsvariabeln BLOMANTAL. Interaktion Om vi vill testa ifall interaktionen ART : ROSETTDIAMETER påverkar BLOMANTAL signifikant jämför vi modellerna: Model.1 BLOMANTAL ~ ART + ROSETTDIAMETER + ART : ROSETT-DIAMETER och Model.2 BLOMANTAL ~ ART + ROSETTDIAMETER Gissar vi oftare rätt med Model.1 än med Model.2? Dvs, gissar vi oftare rätt om vi vet hur Lommens blomantal brukar öka med rosettdiameter än om vi bara vet medelvärdet för Lommens blomantal och vet hur korsblommigas blomantal i allmänhet brukar öka med rosettdiameter? Är interaktionen ART : ROSETTDIAMETER statistiskt signifikant? Då behåller vi Model.1. Om den inte är det tar vi bort interaktionen och skrotar Model.1. 4
Huvudeffekter Är huvudeffekterna ART och ROSETTDIAMETER signifikanta då? Vi mekar två nya modeller: Model.3 BLOMANTAL ~ ART Model.4 BLOMANTAL ~ ROSETTDIAMETER Först undersöker vi om rosett-diameter gör våra gissningar bättre GIVET att vi redan vet artens medel. Eller räcker det med att veta artens medel? Vi jämför därför Model.2 BLOMANTAL ~ ART + ROSETT-DIAMETER med Model.3 BLOMANTAL ~ ART Är Model.2 signifikant bättre? Samtidigt undersöker vi om art gör våra gissningar bättre GIVET att vi redan vet hur rosett-diametern påverkar blomantalet. Eller räcker det med att veta hur rosettdiametern påverkar blomantalet? Vi jämför därför Model.2 BLOMANTAL ~ ART + ROSETT-DIAMETER med Model.4 BLOMANTAL ~ ROSETT-DIAMETER Är Model.2 signifikant bättre? Den variabel som inte är signifikant kan man ta bort. VIKTIG REGEL: Man får bara testa att ta bort effekter som inte finns med i en högre interaktion. <FEL> SPRIDNINGSAVSTÅND ~ HÅRPENSELLÄNGD + FRÖVIKT + HÅRPENSELLÄNGD : FRÖVIKT vs. <FEL> SPRIDNINGSAVSTÅND ~ HÅRPENSELLÄNGD + HÅRPENSELLÄNGD : FRÖVIKT är INTE ok!! 5
Korrelerade Förklaringsvariabler Ibland är en förklaringsvariabel korrelerad med en annan förklaringsvariabel. Kolla på modellen: Model.1 ARTANTAL ~ ÖSTORLEK + AVSTÅND.TILL.FASTLANDET Om alla isolerade öar är små och alla stora ligger nära fastlandet blir det problem. Då kan vi råka ut för att: - Givet att vi redan vet hur östorlek påverkar artantalet, så blir vi inte bättre på att gissa om vi också får reda på hur avståndet till fastlandet påverkar artantalet. Model.1 ARTANTAL ~ ÖSTORLEK + AVSTÅND.TILL.FASTLANDET skiljer sig inte signifikant från Model.2 ARTANTAL ~ ÖSTORLEK Och samtidigt kan det vara så att: - Givet att vi redan vet hur avståndet till fastlandet påverkar artantalet, så blir vi inte bättre på att gissa om vi också får reda på hur östorlek påverkar artantalet. Model.1 ARTANTAL ~ ÖSTORLEK + AVSTÅND.TILL.FASTLANDET skiljer sig inte signifikant från Model.2 ARTANTAL ~ AVSTÅND.TILL.FASTLANDET Men om vi vet hur antingen östorlek eller avstånd till fastland påverkar artantalet kan vi ändå vara bättre på att gissa artantalet på en viss ö än om vi bara vet hur många arter det i medel är på en ö. Model.2 ARTANTAL ~ ÖSTORLEK skiljer sig kanske signifikant från Model.0 ARTANTAL ~ 1 Model.0 ARTANTAL ~ 1 betyder en modell där vi bara använder öarnas medel-artantal för att gissa artantalet på en viss ö. Om fortfarande ingen förklaringsvariabel är signifikant? Well, då kan vi helt enkelt inte förklara varför blomantalet varierar som det gör. 6