Föreläsning 12: Regression



Relevanta dokument
Föreläsning 12: Linjär regression

Föreläsning 11: Mer om jämförelser och inferens

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 13: Multipel Regression

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Lektionsanteckningar 11-12: Normalfördelningen

F13 Regression och problemlösning

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

FÖRELÄSNING 8:

Grundläggande matematisk statistik

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Samplingfördelningar 1

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Föreläsning 15: Försöksplanering och repetition

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 12: Repetition

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

FÖRELÄSNING 7:

Matematisk statistik för B, K, N, BME och Kemister

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Matematisk statistik KTH. Formelsamling i matematisk statistik

8 Inferens om väntevärdet (och variansen) av en fördelning

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Repetitionsföreläsning

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

F9 Konfidensintervall

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Föreläsning 7: Punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Medicinsk statistik II

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Sannolikheter och kombinatorik

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 7: Punktskattningar

Formel- och tabellsamling i matematisk statistik

9. Konfidensintervall vid normalfördelning

Föreläsning 7: Punktskattningar

Föreläsning 11, FMSF45 Konfidensintervall

Tentamen MVE302 Sannolikhet och statistik

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

MVE051/MSG Föreläsning 14

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

Tenta i Statistisk analys, 15 december 2004

Konfidensintervall, Hypotestest

TMS136. Föreläsning 13

TMS136. Föreläsning 10

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Föreläsning 15, FMSF45 Multipel linjär regression

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Industriell matematik och statistik, LMA /14

Thomas Önskog 28/

TMS136. Föreläsning 11

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Föreläsning G60 Statistiska metoder

27,5 27,6 24,8 29,2 27,7 26,6 26,2 28,0 (Pa s)

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Diskussionsproblem för Statistik för ingenjörer

Avd. Matematisk statistik

Enkel och multipel linjär regression

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Föreläsning 11, Matematisk statistik Π + E

Ett exempel från fysikalisk kemi. Föreläsning 13: Multipel Regression. Enkel linjär regression. Mätningar från laborationer 2014

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

SF1901: Sannolikhetslära och statistik

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

TENTAMEN I STATISTIKENS GRUNDER 2

F22, Icke-parametriska metoder.

0 om x < 0, F X (x) = c x. 1 om x 2.

Uppgift 1. f(x) = 2x om 0 x 1

Föreläsning 4: Konfidensintervall (forts.)

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Matematisk statistik, Föreläsning 5

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

1 Förberedelseuppgifter


FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Avd. Matematisk statistik

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

TMS136. Föreläsning 7

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Transkript:

Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014

Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är en väntevärdesriktig skattning av p med varians V(p ) = p(1 p)/n. Centrala gränsvärdessatsen som säger att X är approximativt N(np, np(1 p))-fördelad om n är stor. En tumregel brukar vara att om np(1 p) > 10 så fungerar normalapproximation bra. Vi har då att p är approximativt N(p, p(1 p)/n)-fördelad och att p p p (1 p )/n är approximativt N(0, 1)-fördelad. Repetition Inferens för binomialfördelningen David Bolin 2/32

Konfidensintervall Ett konfidensintervall med approximativ konfidensgrad 1 α fås som I p = [p ± z α/2 p (1 p )/n] Eftersom p är en sannolikhet bildas ensidiga intervall som [0, p + z α p (1 p )/n] och [p z α p (1 p )/n, 1] Repetition Inferens för binomialfördelningen David Bolin 3/32

Hypotestest Vill vi testa H 0 : p = p 0 H 1 : p p 0 eller en ensidig hypotes H 1 : p > p 0 eller H 1 : p < p 0. Under H 0 är X Bin(n, p 0 ), och vi kan direkt beräkna p-värdet för testet: p = P H0 (X x) om H 1 : p > p 0. p = P H0 (X x) om H 1 : p < p 0. p = 2P H0 (X x) om x np 0 och p = 2P H0 (X x) om x np 0 i fallet H 1 : p p 0. Repetition Inferens för binomialfördelningen David Bolin 4/32

Jämförelser i binomialfördelningen Antag att X 1 Bin(n 1, p 1 ) och X 2 Bin(n 2, p 2 ) och vi vill testa om det är rimligt att anta att p 1 = p 2. p 1 p 2 är en väntevärdesriktig skattning av p 1 p 2. Om n 1 p 1 (1 p 1 ) och n 2 p 2 (1 p 2 ) båda är stora (säg större än 10) så är p 1 p 2 approximativt normalfördelad. Vi har V(p 1 p 2) = p 1(1 p 1 ) n 1 + p 2(1 p 2 ) n 2 ett konfidensintervall för p 1 p 2 fås som I p1 p 2 = p 1 p p 1 2 ± z (1 p 1 ) α/2 + p 2 (1 p 2 ) n 1 n 2 Repetition Inferens för binomialfördelningen David Bolin 5/32

Hypotestest Om vi vill testa H 0 : p 1 = p 2 kan vi använda en poolad variansskattning eftersom vi har att under H 0 så gäller V H0 (p 1 p 2) = p(1 p)( 1 n 1 1 n 2 ) Här är p det gemensamma värdet under H 0, vilket skattas som Vi bilar då teststorheten p = x 1 + x 2 n 1 + n 2 T = p 1 p 2 p (1 p )( 1 n 1 + 1 n 2 ) som under H 0 är approximativt N(0, 1) fördelad. Repetition Inferens för binomialfördelningen David Bolin 6/32

Teckentest för medianen Medianen för en kontinuerlig fördelning är definierad som det tal M så att P(X < M) = P(X > M) = 1/2. Givet ett stickprov av storlek n vill vi testa H 0 : M = M 0 mot en ensidig eller tvåsidig mothypotes. Låt Q + vara antalet observerade värden större än M. Låt Q vara antalet observerade värden mindre än M. Under H 0 är Q + Bin(n, 1/2) och Q Bin(n, 1/2). Om H 1 : M < M 0, förkasta H 0 om Q + är för liten. Om H 1 : M > M 0, förkasta H 0 om Q är för liten. Om H 1 : M M 0, förkasta H 0 om min(q +, Q ) är för liten. Teststorheten är binomialfördelad, vi kan direkt beräkna p-värdet. Om X i M = 0 räknar vi den observationen till den minsta av Q + eller Q eftersom det inte motsäger H 0. Repetition Icke-parametriska metoder David Bolin 7/32

Wilcoxons ranktest Beräkna alla absolutdiffereneser X i M 0 och ordna dessa i ökande storleksordning. Låt R i vara ranken för den ite absolutdifferensen gånger tecknet på motsvarande avvikelse. Beräkna Wilcoxons teststorheter W + = R i, i:r i >0 W = i:r i <0 R i Definiera teststorheten W = min(w +, W ). Kritiska värden för W finns tabulerad för olika n och α. Om två absolutdifferenser är lika stora så tilldelar vi dem medelvärdet av motsvarande ranker. Till exempel om vi observerar differenser 2 och 2 som skulle få rankerna 4 och 5 så tilldelar vi dem båda rank 4.5 gånger motsvarande tecken. Repetition Icke-parametriska metoder David Bolin 8/32

Exempel för stickprov i par I fallet med parade observationer (X 1, Y 1 ),..., (X m, Y m ) bildar vi först differenserna X i Y i och använder sedan ett ranktest på differenserna för att testa om differensernas median är noll. Exempel 10.6.2 i boken. Vi vill testa hur mycket minne två statistiska paket använder vid analys av ett dataset. Vi gör mätningar (i Kb). Program Paket X Paket Y D i = X i Y i 1 512 500 12 2 650 600 50 3 890 890 0 4 410 400 10 5 1050 1025 25 6 1500 1400 100 7 600 625-25 8 750 710 40 Repetition Icke-parametriska metoder David Bolin 9/32

Exempel (forts) Vi vill testa H 0 : M X = M Y H 1 : M X M Y Vi ordnar differenserna och beräknar rankerna D i : 0 10 12 25 25 40 50 100 Rank: 1 2 3 4.5 4.5 6 7 8 R i : 1 2 3 4.5 4.5 6 7 8 Vi har nu W + = 2 + 3 + 4.5 + 6 + 7 + 8 = 30.5 och W = 1 + 4.5 = 5.5. Eftersom vi har ett tvåsidigt test använder vi W = min( W, W + ) = 5.5. Från tabell ser vi att den kritiska punkten för ett tvåsidigt test med α = 0.1 är 6. Eftersom W = 5.5 < 6 så kan vi förkasta H 0. Repetition Icke-parametriska metoder David Bolin 10/32

Wilcoxons ranksummetest Antag att vi har två oberoende stickprov X 1,..., X m och Y 1,..., Y n från några fördelningar X respektive Y och vill jämföra medianerna för de två variablerna. Ordna de m + n värdena i ökande storleksordning och ge varje observation en rank R i från 1 till m + n. Om vi har värden som är lika stora tilldelar vi dem medelranken precis som i rank-testet. Vi antar att m n och bildar teststorheten W m som summan av rankerna associerade med variablerna X 1,..., X m. Det kritiska värdet för W m finns tabulerat för olika värden på m, n, och α. Repetition Icke-parametriska metoder David Bolin 11/32

Exempel, regression Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera termisk energi) beror av temperaturen. För var och en av fem temperaturer gör man två mätningar av värmepakaciteten med fäljande resultat: Temperatur (C) 30 40 50 60 70 värmeskapacitet 0.70 0.74 0.78 0.80 0.82 0.72 0.73 0.75 0.78 0.81 Linjär regression David Bolin 12/32

Linjär regression David Bolin 13/32

Exempel (forts) Vi ser att värmekapaciteten ser ut att öka för högre temperaturer och vi vill nu anpassa en linje y = β 0 + β 1 x till datan, så att vi kan prediktera väntevärdet för den specifika värmekapaciteten (y) för en given temperatur (x). Vi vill också ha ett mått på hur stor de enskilda mätvärdenas spridning kring linjen är. Det är detta vi gör med linjär regression. Linjär regression David Bolin 14/32

Modellbeskrivning I exemplet ovan hade vi en responsvariabel, y, som är en linjär funktion av en förklarande variabel x. Förutsättningen för linjär regression är att vi kan välja värdena på x och att dessa kan bestämmas utan fel. Detta gör att vi kan betrakta x-värdena som fixa konstanter. För varje värde på x har motsvarande värde på y en viss variation, till exempel på grund av mätfel. Vi väljer nu ett antal värden x 1,..., x n och mäter responsvariabeln för dessa värden. Vi får då mätvärden y 1,..., y n, där y 1 är värdet som är uppmätt då den förklarande variabeln är x 1 och så vidare. Linjär regression David Bolin 15/32

Modellbeskrivning Vi har alltså talpar (x i, Y i ) där x i är ett fixt värde och Y i är en slumpvariabel. Modellen vi ansätter för Y i är Y i = β 0 + β 1 x i + ε i (1) där ε i är oberoende N(0, σ 2 ) slumpvariabeler som beskriver mätfelet och β 0 och β 1 är okända parametrar som beskriver det linjära sambandet. Ett annat sätt att skriva upp modellen på är alltså att Y i N(β 0 + β 1 x i, σ 2 ), det vill säga att vi har ett linjärt samband som bestämmer väntevärdet hos Y och en viss mätfelsvarians σ 2 som beskriver de enskilda observationernas variation kring väntevärdet β 0 + β 1 x. Linjär regression David Bolin 16/32

Minsta-kvadratmetoden Antag den lite mer generella modellen att väntevärdet för Y ges av en funktion f: E(Y i ) = f(θ 1,..., θ k, x i ) Parametrarna θ 1,..., θ k skattas enligt minsta-kvadratmetoden genom att minimera kvadratfelet för den datan vi har S(θ 1,..., θ k ) = n (y i f(θ 1,..., θ k, x i )) 2 i=1 med avseende på parametrarna θ 1,..., θ k. Lösningen brukar fås som lösningen till ekvationerna S θ i = 0, för i = 1,..., k Ekvationssystemet löses av θ1,..., θ k som kallas för MK-skattningarna av θ 1,..., θ k. Linjär regression David Bolin 17/32

MK-skattningar av β 0 och β 1 Inför S xx = S yy = S xy = n n (x i x) 2 = x 2 i n x 2 i=1 n (y i ȳ) 2 = i=1 i=1 n yi 2 nȳ 2 i=1 n (x i x)(y i ȳ) = i=1 i=1 n x i y i n xȳ Vi kan nu skriva lösningen till ekvationssystemet som β 1 = S xy /S xx β 0 = ȳ β 1 x Linjär regression David Bolin 18/32

MK-skattning av σ 2 Variansparametern σ 2 beskriver spridningen kring linjen och skattas som s 2 = Q 0 n 2 där Q 0 = n (y i β0 β1x i ) 2. i=1 Om vi räknar för hand kan vi använda att Q 0 = S yy β 1S xx = S yy S2 xy S xx Vi delar på n 2 eftersom två frihetsgrader används till att skatta β 0 och β 1. Linjär regression David Bolin 19/32

Exempel (forts) Vi skattar nu linjen i exemplet ovan. x = 1 10 ȳ = 1 10 10 i=1 10 i=1 10 x i = (30 + 30 + 40 +... + 70)/10 = 50 y i = (0.70 + 0.72 +... + 0.81)/19 = 0.763 S xx = x 2 i 10 x 2 = 27000 10 50 2 = 2000 i=1 10 S yy = yi 2 10ȳ 2 = 5.8367 10 0.763 2 = 0.01501 i=1 10 S xy = x i y i 10 xȳ = 386.8 10 50 0.763 = 5.3 i=1 Linjär regression David Bolin 20/32

Exempel (forts) och får därför skattningarna β 1 = S xy /S xx = 5.3/2000 = 0.00265 β0 = ȳ β1 x = 0.6305 ( ) s 2 = 1 S yy S2 xy n 2 S xx = 0.00012. En skattning av standardavvikelsen är s = 0.00012 = 0.011. Linjär regression David Bolin 21/32

Den skattade regressionslinjen β 0 + β 1 x Linjär regression David Bolin 22/32

Egenskaper hos skattarna Eftersom β0 = ȳ β 1 x så är ȳ = β 0 + β 1 x vilket betyder att den skattade linjen alltid går genom punkten ( x, ȳ). Detta betyder att om vi centrerar datan, (x i x, y i ȳ), i = 1,..., n så har vi att y i ȳ = β 1(x i x) och vi har då bara en parameter, β 1, att skatta. Linjär regression Egenskaper hos skattarna David Bolin 23/32

Vi kan skriva den skattade linjens ekvations som antingen y = β 0 + β 1x eller där β 0, β 1 y = Ȳ + β 1(x x) och Ȳ är slumpvariabler. Sats Vi har att E(Ȳ ) = β 0 + β 1 x E(β 1) = β 1 V(Ȳ ) = σ2 n V(β 1) = σ2 S xx = σ 2 n i=1 (x i x) Vi ser alltså att β 1 är väntevärdesriktig. Linjär regression Egenskaper hos skattarna David Bolin 24/32

Fördelen med representationen y = Ȳ + β 1(x x) är att C(Ȳ, β 1 ) = 0. Detta göra att vi enkelt kan beräkna variansen för linjen genom att summera osäkerheten i höjdled, V(Ȳ ), samt osäkerheten i lutning, V(β1 ). Sats Om µ Y (x 0) = β 0 + β 1 x 0 är den skattade linjens värde för ett fixt x 0 så är E(µ Y (x 0 )) = β 0 + β 1 x 0 samt [ 1 V(µ Y (x 0 )) = σ 2 n + (x 0 x) 2 ] S xx Linjär regression Egenskaper hos skattarna David Bolin 25/32

Anmärkning Om vi i satsen ovan sätter x 0 = 0 ser vi att samt att E(β 0) = β 0 [ ] 1 V(β0) = σ 2 n + x2 S xx Det framgår också i satsen att osäkerheten i linjenskattningen ökar med x 0 :s avstånd till x. Vi ser också från de två satserna att β 0, β 1 och µ Y (x 0) alla är väntevärdesriktiga. Linjär regression Egenskaper hos skattarna David Bolin 26/32

Skattningarnas fördelningar Sats Om ε i är normalfördelade gäller att Ȳ, β 0, β 1 och β 0 + β 1 x 0 också är normalfördelade. Eftersom skattarna är summor av Y i så gäller enligt CGS satsen approximativt även om ε i avviker från normalfördelningen. Sats Om ε i är normalfördelade så gäller att (n 2)s 2 σ 2 χ 2 (n 2) vidare är s 2 oberoende av Ȳ, β 0, β 1 och β 0 + β 1 x 0. Linjär regression Egenskaper hos skattarna David Bolin 27/32

Konfidensintervall och test Låt θ vara någon av β 0, β 1 eller β 0 + β 1 x 0. Vi vet att dess skattningar är normalfördelade och vi har tagit fram variansen av skattningarna. Låt d(θ ) vara standardavvikelsen för skattningen, vi har då att T = θ θ d(θ t(n 2) ) vilken på vanligt sätt används för att göra test och bilda konfidensintervall, I θ = (θ ± t α/2 (n 2)d(θ )) Linjär regression Egenskaper hos skattarna David Bolin 28/32

Konfidensintervall Konfidensintervall för β 0 : I β0 = β 0 ± t α/2 (n 2)s 1 n + x2 S xx Konfidensintervall för β 1 : ( ) I β1 = β1 s ± t α/2 (n 2) Sxx Konfidensintervall för µ Y (x 0 ) = β 0 + β 1 x 0 : I µy (x 0 ) = β 0 + β1x 1 0 ± t α/2 (n 2)s n + (x 0 x) 2 S xx Linjär regression Egenskaper hos skattarna David Bolin 29/32

Prediktionsintervall Om man är intresserad av var en framtida observation Y kommer ligga för ett visst x 0, och man använder då ett prediktionsintervall. Skillnaden mellan ett konfidensintervall för µ Y och ett prediktionsintervall för Y är att konfidensintervallet talar om var väntevärdet troligen ligger, medan prediktionsintervallet talar om var en framtida observation troligen ligger. Eftersom vi har en viss spriding kring linjen för de faktiska observationerna så måste prediktionsintervallet vara bredare än konfidensintervallet, och man kan visa att Y (x 0 ) N (β 0 + β 1 x 0, σ 2 (1 + 1n + (x 0 x) 2 ) ). S xx Ett prediktionsintervall bildas nu som I Y (x0 ) = β 0 + β1x 0 ± t p/2 (n 2)s 1 + 1 n + (x 0 x) 2 S xx Linjär regression Egenskaper hos skattarna David Bolin 30/32

Exempel (forts) Vi beräknar konfidensintervall för regressionslinjen samt prediktionsintervall för framtida observationer för exemplet med värmekapaciteten. De blå linjerna visar övre och undre gränser för konfidensintervallet för alla värden på x och de röda linjerna är gränserna för motsvarande prediktionsintervall. Linjär regression Egenskaper hos skattarna David Bolin 31/32

Modellvalidering En mycket viktig komponent i en regressionsanalys är validering av modellen, vilket betyder att vi måste försäkra oss om att det är lämpligt att ansätta en enkel regressionsmodell. Det vanligaste sättet att göra detta på är att beräkna de så kallade residualerna e i = y i β 0 β 1x i Om modellen är korrekt bör dessa residualer vara ungefär normalfördelade med väntevärde noll. inte uppvisa någon speciell struktur som funktion av x. ha ungefär samma variation för alla olika värden på x, vi får till exempel inte ha att variansen verkar vara större för stora värden på x. Undersök visuellt genom att plotta residualerna som funktion av x och använda normalfördelningsdiagram. Linjär regression Egenskaper hos skattarna David Bolin 32/32