Enkel linjär regression

Relevanta dokument
Repetition 2, inför tentamen

Föreläsning 12: Linjär regression

Föreläsning 12: Regression

Matematisk statistik för D, I, Π och Fysiker

Laboration 2: Styrkefunktion samt Regression

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Grundläggande matematisk statistik

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Hypotestest och fortsättning av skattningar och konfidensintervall

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

1 Förberedelseuppgifter

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Matematisk statistik, Föreläsning 5

F13 Regression och problemlösning

10.1 Enkel linjär regression

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Multipel linjär regression

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Statistisk försöksplanering

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

1 Förberedelseuppgifter

Föreläsning 11: Mer om jämförelser och inferens

TMS136. Föreläsning 13

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Matematisk statistik KTH. Formelsamling i matematisk statistik

Laboration 4 R-versionen

F9 Konfidensintervall

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Föreläsning 15, FMSF45 Multipel linjär regression

LKT325/LMA521: Faktorförsök

Föreläsning 12, FMSF45 Hypotesprövning

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Matematisk statistik för B, K, N, BME och Kemister

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Styrkeberäkningar och diskreta data

FÖRELÄSNING 8:

Laboration 4 Regressionsanalys

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

TMS136. Föreläsning 10

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Thomas Önskog 28/

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Tenta i Statistisk analys, 15 december 2004

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Statistik 1 för biologer, logopeder och psykologer

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Repetition. Plus lite av det om faktorförsök som inte hanns med förra gången

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Tentamen för kursen. Linjära statistiska modeller. 20 mars

oberoende av varandra så observationerna är

Föreläsning G60 Statistiska metoder

Föreläsning 4: Konfidensintervall (forts.)

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

TMS136. Föreläsning 11

LABORATION 3 - Regressionsanalys

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Examinationsuppgifter del 2

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Statistisk försöksplanering

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

Föreläsning 5: Hypotesprövningar

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Föreläsning 13: Multipel Regression

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Föreläsning 5. Kapitel 6, sid Inferens om en population

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Tentamen för kursen. Linjära statistiska modeller. 14 januari

Enkel och multipel linjär regression

Mer om konfidensintervall + repetition

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Binomialfördelning, två stickprov

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Regressions- och Tidsserieanalys - F7

Lycka till!

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

F3 Introduktion Stickprov

MVE051/MSG Föreläsning 14

Transkript:

Enkel linjär regression

Fäders och söners längder Om man anpassar en linje y=α+βx, så passar y = 86.07+0.51x bäst. Uppenbart räcker inte linjen som förklaring. Det finns slumpmässig variation, som gör att man aldrig kan förutsäga söners längd, bara skatta parametrar. För att så uttömmande som möjligt beskriva vad som händer, behöver vi beskriva den slumpmässiga variationen också.

En linje med avvikelser Vi anpassar en linje och ser hur avvikelserna, residualerna, ser ut. Residualerna är förflyttade längst till vänster och lagda så att man kan förstå hur de är fördelade. Det är avståndet till linjen som är det intressanta. Residualerna ser väldigt normalfördelade ut.

Modellantagande En statistisk modell: är oberoende slumpfel med väntevärdet 0 och standardavvikelse σ. Oftast antar man också normalfördelning:

Enkel linjär regression handlar om...... att skatta α, β och σ. Detta innebär också att uppskatta göra konfidensintervall och att testa hypoteser. att prediktera framtida värden utifrån den information data innehåller. att kalibrera, dvs. utifrån ett värde på y ta reda på vad x kan vara. Notera: Olbjer och övningsboken använder beteckningarna α och β och β0 och β1 (och ytterligare några) om vartannat. Det är bara att tugga i sig.

Kalibrering

Hur kan vi skatta α och β? Användbar kunskap i 6.1a), 6.5.a) och extrauppgiften 6.2b)

Olbjer 10.1, där y är specifik värme och x temperatur Man använder minsta kvadratskattaren, de β0 och β1 som minimerar: Till exempel genom att derivera och sätta lika med noll kan man visa att de skattningar som ges i formelsamlingen är minsta kvadratskattare.

α* ocb β* minimerar kvadratsumman

Råräkningsmetodenmetoden (ur formelsamlingen) Det viktiga är att man skatta parametrarna om man känner fyra tal:

Jag visar hur man gör i Matlab. Det går också med en någorlunda avancerad räknare.

Man ska alltid plotta data om man kan >> scatter(x,y)

α* ocn β*: skattningar av α och β >> Mx = mean(x) %50 >> My = mean(y) %0.763 >> Sxx = sum((xmx).^2) %2000 >> Sxy = sum((xmx).*(ymy)) %5.3000 >> Syy = sum((ymy).^2) %0.0150 På en tentamen kommer ni att få dessa summor givna om ni behöver dem. När ni löser uppgifterna kommer ni att behöva beräkna dem. Använd gärna Matlab! Irriterande nog ger Matlabmetoden betastar = 0.0027. Det beror på att 0.00265 kan avrundas både uppåt och nedåt. Inget att bekymra sig om!

Matlabmetoden (mitt hemsnickrade namn) y = [.70.72.74.73.78.75.8.78.82.81]'; x = [30 30 40 40 50 50 60 60 70 70]'; scatter(x,y) ONES = ones(10,1); X = [ONES x]; bhat = regress(y,x) 0.6305 0.0026

Designmatrisen X Detta kommer vi att se mer av när vi kommer till multipel linjär regression. Ettorna är för den första skattade koefficienten β0.

Att skatta σ2 och σ: s och s2. Detta är ett nödvändigt steg i alla regressionsuppgifter, men det frågas bara direkt efter σ2skattningen i 6.1b och extrauppgiften 6.2c. Q0=SyySxy2/Sxx=0.01505.3002/2000. Matlab: >> Q0 =0.01505.300^2/2000 %9.5500e04 Hellre, med sparade summor: >> Q0 = SyySxy^2/Sxx %9.6500e04 >> n = length(x) %10 >> s2 = Q0/(n2) %1.2063e04 >> s = sqrt(s2) %0.0110 >> Sxx = sum((xmx).^2) [2000] >> Sxy = sum((xmx).*(ymy)) [5.3000] >> Syy = sum((ymy).^2) [0.0150]

Notera frihetsgraderna! Det kostade två frihetsgrader att skatta α och β. Därför återstår n2, alltså 8 frihetsgrader till skattningen av standardavvikelsen. >> s2 = Q0/(n2)

Hypotestest och konfidensintervall för α och β Detta behövs i 6.1c, 6.5b, 6.6b, 6.12c och i extrauppgiften 6.2d.

Det vanligaste statistiska testet är av H0: β=0 Att β=0 betyder ju att det inte finns någon effekt, och det är ofta naturligt att vilja testa detta. Men låt oss börja med konfidensintervall!

Ur formelsamlingen: Ett konfidensintervall med konfidensgrad 1α är TQTILE = tinv(0.975,8) %2.3060 betastartqtile*s/sqrt(sxx) %0.0021 betastar+tqtile*s/sqrt(sxx) %0.0032 Återigen: Ett 1αkonfidensintervall ges av [skattning] ± [α/2kvantil]*[medelfel]

Hypotesprövning av β=0 är lite poänglöst här... men det är helt analogt:

Ur formelsamlingen: Det kan räcka med att säga att skattningen av β är nästan 11 gånger så stort som medelfelet, vilket är oerhört osannolikt om allt bara är en slump. >> Tstatistic = betastar/(s/sqrt(sxx)) %10.7905 >> 1tcdf(Tstatistic,8)+tcdf(Tstatistic,8) %4.7966e06 Men om man verkligen vill ha en gräns, ser man efter i tabell, eller använder tinv i Matlab: t0.025(n2)=2.306 (med n=8) ger en övre gräns för hur stor teststorheten kan bli av en ren slump.

Berusningsgrad och vikt I uppgift 6.6a) kommer ni att få tillfälle att testa om kvinnors alkoholtolerans har någon relation till vikten. Använd den beskrivna tekniken! (Motsvarande undersökning av män vore förstås lika relevant, men övningsboken har nu en gång valt att låta exemplet handla om kvinnor.)

Hur mycket ökar y när x ökar enheter? I vissa uppgifter frågas efter ökningen i y när x ändras t.ex. 5 enheter, och man vill ha ett konfidensintervall. Gör då ett konfidensintervall för β och multiplicera gränserna med det aktuella talet, här 5. Om det gäller de data vi redan sett på, så skulle konfidensintervallet vara (5*0.0021,5*0.0032)=(0.0105,0.160)

Anmärkning om β2β1 Antag att vi har två material av oberoende observationer. Medelfel och konfidensintervall för β2β1 kan beräknas precis som tidigare (n2+n14 frihetsgrader!), men vi hoppar över det. Detta problem löses kan dock lättare lösas om det formuleras som multipel linjär regression. Därför skjuts det på det till nästa föreläsning. Då kan man skatta β1 β2 separat och få två uppskattningar av det gemensamma σ2, som kan viktas ihop som beskrivs i avsnitt 10.6.4 i boken.

α gör man mer sällan konfidensintervall för, men ni kommer att få göra ett i 6.5b) Matlab: >> Mybetastar*Mxs*TQTILE*sqrt(1/10+Mx^2/Sxx%0.6011 >> Mybetastar*Mx+s*TQTILE*sqrt(1/10+Mx^2/Sxx)%0.6599

Konfidensintervall för förväntat y Om α och β är kända, är det lätt att hitta det förväntade värdet av y: När det gäller ett konfidensintervall, är en viss omskrivning bra:

Uppdelning i två oberoende termer Återigen har vi ett uttryck för varians och standardavvikelse. Om skattningen av σ sätts in, får vi medelfelet:

Detta är precis vad som står i formelsamlingen Ett sådant konfidensintervall ska ni göra i 6.1d, 6.2ef (extrauppgift) och 6.6c. Intervallet ser för all del lite krångligt ut, men alla komponenter är lätta. Låt oss se hur man gör i exemplet med specifik värme! Vi söker ett konfidensintervall för μ(55)=α+ β*55.

>> estim = alphastar+betastar*55 %0.7763 >> standarderror = s*sqrt(1/10+(55mx)^2/sxx) %0.0037 >> QUANTILE = tinv(0.975,8) %2.3060 % Vänster gräns för CI: >> estimquantile*standarderror %0.7678 >> % Höger gräns för CI: >> estim+quantile*standarderror %0.7847 Lite R: Matlab

Ett intervall som täcker α+βx0 med sannolikhet α En nackdel med att använda α för intercept: Man måste hålla reda på att de två α betecknar olika saker. Detta är säkerhetsgränser för var korrekt värde kan tänkas ligga. Det är inte gränser för var framtida observationer kan tänkas ligga. Sådant tar vi itu med nu.

Prediktionsintervallet är en förutsägelse Prediktionsintervall ska ni göra i uppgift 6.1e. Om α, β och σ vore kända, kunde man bara säga att 95 % av värdena ligger inom Vi kan se prediktionsintervallet som den övre formen med korrektion för att vi måste skatta α, β och σ. De övriga två termerna under rottecknet härleds analogt med för konfidensintervallet. Beviset ges inte i denna kurs.

Räkningarna blir nästan de samma >> estim = alphastar+betastar*55 %0.7763 >> predictionerror = s*sqrt(1+1/10+(55mx)^2/sxx)%0.0116 >> QUANTILE = tinv(0.975,8)%2.3060 % Vänster gräns för PI: >> estimquantile*predictionerror%0.7495 % Höger gräns för PI: >> estim+quantile*predictionerror%0.8030

Prediktionsintervall Jämfört med konfidensintervallet är prediktionsintervallet bredare. Konfidensintervall: där det sanna, okända värdet förmodligen finns. Prediktionsintervall: där framtida mätningar kan förmodas hamna. Blanda inte ihop!

Kalibreringsintervall: Nummer tre i en trio Det händer att man vill gå baklänges : Man har ett y och vill se vilka x som kan motsvara detta. Typiskt är att man har en svårmätt kvantitet, säg kaloriförbrukning och en lättmätt, säg syrehalten i utandningsluften. Då kan man etablera att syrehalten beror av kaloriförbrukningen och sedan läsa diagrammet baklänges.

Kalibreringsintervall motiveras geometriskt Lös ut ut x0 ur y0=α*+β*x0. Variationen i yled fås ur prediktionsintervallet. Variationen i y och xled förhåller sig som β*:1.

Matlabgrejer y0 = 0.78 x0=(y0alphastar)/betastar%56.4151 calibrationerror = s*sqrt(1+1/10+(x0mx)^2/sxx)/abs(betastar)%4.3873 QUANTILE = tinv(0.975,8)%2.3060 x0quantile*calibrationerror%46.2980 x0+quantile*calibrationerror%66.5321 Ett sätt att testa detta är med Matlabfunktioen reggui, som följer med boken.

Nu kan vi: Skatta en linje, göra konfidensintervall och testa hypoteser om α och β. Göra ett konfidensintervall för värdet α+βx Göra prediktionsintervall, som är en förutsägelse om var framtida observationer kan hamna. Göra kalibreringsintervall, som är ett sätt förutsäga xvärden ur yvärden.

I förbigående sagt. Befogad fråga: Varför heter det regression, som ju mest är känt från psykologin, där det betyder att gå tillbaka till ett tidigare utvecklingsstadium?

Långa fäder får långa söner, men inte så långa... Att både far och son båda råkar bli lika väldigt långa eller korta är osannolikt. Regression mot medelvärdet förekommer i helt andra sammanhang. Om man replikerar en känd studie blir det påvisade resultatet ofta svagare. Nästa gång man går på en restaurang där allt kändes magiskt, blir upplevelsen lätt en besvikelse. Men nu har regression kommit att betyda linjeanpassning, och själva historien bakom ordet är bortglömd.

Bolmengädda uppgift 6.21 Här finns tillfälle att använda rutinen reggui, som följer med boken. Den plottar data, anpassar en linjär regressionsmodell och gör residualanalys.

Det går inte uruselt att använda en linjär modell, men det är tydligt att korta fiskars längd underskattas och långa överskattas. Se residualerna! Normalfördelningsplotten av residualerna visar att residualerna innehåller outliers.

Pröva att logga värdena! För människor har vi ju BMI = V/L2 log(bmi) = log(v) 2log(L) log(v)= 2 log(l)+ log(bmi) Om BMI varierar slumpmässigt kring, säg, 25 eller 30, så har vi en linjär modell. En liknande modell kanske fungerar för gäddorna.

Outlier: modellen passar alla utom en datapunkt Utliggare Uteliggare

Residualanalys uppgift 6.1 >> x = [10 18 26 34 42 50] >> y = [7.9 16.7 25.6 34.3 43.2 52.0 ] >> reggui(x,y)

Residualer: vara slumpmässiga och normalförd? Plotta mot x, mot ordningsföljden och mot de predikterade värdena. Tyvärr ger reggui inte plot mot de predikterade värdena. Därför får man fixa det själv. Att, som i reggui, plotta mot yvärdena är felaktigt. Stora värden ska generera stora residualer i viss mån.

Residualer mot predikterade värden >> b = regress(y',x) >> ypred = X*b >> res = y'ypred >> scatter(ypred,res)

Normalfördelade residualer, uppgift 6.21 Stark avvikelse från normalfördelning > transformation till ganska bra normalfördelning > som blir ännu bättre efter borttagande av en utliggare.

>> normplot(res), om man inte använder reggui

Användning på Hornsgatandata Dessa data kan faktiskt skrivas som en regressionsmodell. load Hornsgatan x = [zeros(133,1);ones(143,1)] y = [PM25_2008;PM25_2010] reggui(x,y) α blir 20082009nivån och β skillnaden mellan 20102011nivån och denna.

Resultat med prediktionsinterval Notera hur residualerna har ett tidsberoende, som dock skulle synas bättre om vi hade linjer.

Residualer mot ordningsnummer X = [ones(276,1) x] b = regress(y,x) res = yx*b plot(1:276,res) Vi kan, som sagt inte göra så mycket åt det seriellt beroendet, som inte är jättestarkt, men detta ger ett sätt att detektera sådant.

reggui(x,log(y)) En mycket bättre modellanpassning!