lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten.



Relevanta dokument
Lunds tekniska högskola Matematikcentrum Matematisk statistik. FMS035: Matematisk statistik för M Datorlaboration 5

1 Produktivitet kontra kvalitet vid tillverkning av bilar

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Laboration 4: Lineär regression

Resultatet läggs in i ladok senast 13 juni 2014.

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

1 Förberedelseuppgifter

Laboration 5: Regressionsanalys

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

oberoende av varandra så observationerna är

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Laboration 2: Styrkefunktion samt Regression

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

TAIU07 Matematiska beräkningar med Matlab

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

FMS032: MATEMATISK STATISTIK AK FÖR V OCH L KURSPROGRAM HT 2015

Datorövning 5 Regression

Statistik och epidemiologi T5

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

1 Förberedelseuppgifter

Instruktioner till arbetet med miniprojekt II

Matematisk Modellering

Instruktioner till arbetet med miniprojekt II

LABORATION 3 - Regressionsanalys

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4 R-versionen

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

6 Skattningar av parametrarna i en normalfördelning

Linjär regressionsanalys. Wieland Wermke

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Laboration 3: Enkel linjär regression och korrelationsanalys

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 13: Multipel Regression

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)

Regressionsanalys av huspriser i Vaxholm

Vad roligt att ni har valt att bjuda varandra på den här timmen.

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT10

om att anordna föreningsstyrelsesamling i unf

Funktioner och grafritning i Matlab

Resultat. Principalkomponentanalys för alla icke-kategoriska variabler

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

TAMS65 DATORÖVNING 2

LABORATION 3 - Regressionsanalys

UTVECKLA SÅ UTVECKLAR NI ER FÖRENING!

Uppgift 1 ( Betyg 3 uppgift )

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

Uppgift 1. Deskripitiv statistik. Lön

Laboration 4 Regressionsanalys

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Matematisk statistik för B, K, N, BME och Kemister

Instruktion för laboration 1

Tentamen STA A10 och STA A13, 9 poäng 19 januari 2006, kl

LABORATIONSHÄFTE NUMERISKA METODER GRUNDKURS 1, 2D1210 LÄSÅRET 03/04. Laboration 3 3. Torsionssvängningar i en drivaxel

Övning: Dilemmafrågor

Kompletterande lösningsförslag och ledningar, Matematik 3000 kurs B, kapitel 1

Datorlaboration 3. 1 Inledning. 2 Grunderna. 1.1 Förberedelse. Matematikcentrum VT 2007

Mer om linjära ekvationssystem

Barnfattigdom. Arbetsplan för en studiecirkel

Inlämningsuppgift 4 NUM131

TVM-Matematik Adam Jonsson

ÖVNINGSUPPGIFTER KAPITEL 9

Föreläsning 12: Regression

Laboration 4: Hypotesprövning och styrkefunktion

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Ett Liv i Lärjungaskap Del 1 - Frälsningens Mysterium

om demokrati och föreningskunskap

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Ladda för fotboll i Södertälje FK

MÄSSHANDBOK ENTREPRENÖRSKAP PÅ RIKTIGT 2016 KRONOBERG

Textsträngar från/till skärm eller fil

Dataprojekt. Nanovetenskapliga tankeverktyg. January 18, 2008

Datorövning Matlab/Simulink. Styr- och Reglerteknik för U3/EI2

Datorövning 2 Statistik med Excel (Office 2007, svenska)

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Föreläsning G60 Statistiska metoder

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Konsten att leda workshops

Regressions- och Tidsserieanalys - F4

ARIMA del 2. Patrik Zetterberg. 19 december 2012

Frisörer och Faktorer

F13 Regression och problemlösning

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

Omtentamen i DV & TDV

Grunderna i stegkodsprogrammering

Förslag på lektionsupplägg: Dag 1- en lektionstimme

Föreläsning 12: Linjär regression

Blandade problem från väg- och vattenbyggnad

Datorlaboration 2 Konfidensintervall & hypotesprövning

Manus: Tredje bildspelet handlar om kroppen och rörelse. Alla vet säkert att det är bra för våra kroppar att få röra på sig.

Transkript:

LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK FMS035: MATEMATISK STATISTIK FÖR M DATORLABORATION 5, 11 MAJ 2012 Syfte Syftet med dagens laboration är att du ska lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten. känna till situationer som kan ge falsk korrelation där det egentligen inte finns samband, och situationer som kan ge mycket liten korrelationskoefficient trots att det finns ett samband. förstå att ett statistisk samband inte nödvändigtvis betyder orsak-verkan. lära dig att använda Matlab för att skatta parametrarna i en multipel linjär regression i viss mån kunna jämföra olika modeller och välja bland olika modeller för samband mellan variabler Förberedelseuppgifter Läs igenom Kapitel 3 och 4 i Sambandsanalyshäftet. Koncentrera dig på tolkningen av de uträknade storheterna. Du ska ha gjort följande uppgifter innan du kommer till laborationen: Hemuppgift 1: Gör övningsuppgifterna på övningsblad 11. Introduktion Första delen av denna laboration handlar om ett av de vanligaste måtten av beroende mellan två slumpvariabler, korrelationskoefficient. I andra halvan studerar ni regressionsmodeller där man har mer än en förklarande variabel, d.v.s. multipel linjär regression. I en sådan analys är det också naturligt att använda korrelationskoefficienten. Filer du behöver till laboratinen hämtas på kursens hemsida www.maths.lth.se/matstat/kurser/fms035/material. Ladda ner de som står under laboration 5. 1 Produktivitet kontra kvalitet vid tillverkning av bilar Vi ska här undersöka data från 27 bilfabriker, insamlade under 1989. Under denna tidsperiod hade Japan stora framgångar inom bilindustrin. Data vi tittar på är antal tillverkningsfel per 100 bilar, och genomsnittligt antal produktionstimmar per bil. 1.1 Intressanta frågeställningar Vilket samband finns mellan produktionstimmar per bil och antal tillverkningsfel. Man kunde förvänta sig att då produktionstimmar per bil går ner borde antalet fel gå upp. Stämmer detta? Hur förhöll sig japanska bilproduktionen till övriga världen? Hade japanska bilar färre produktionsfel per bil, och hur förhöll sig produktionstimmar per bil jämfört med resten av världen?

Börja med att ladda in datamaterialet, load carproduction.mat. Vektorn hourspercar innehåller genomsnittligt antal produktionstimmar per bil för de 27 fabrikerna,nbrerrors innehåller antal produktionsfel per 100 bilar, ochjapanese är en vektor med 1 för de fabriker som var japanska och 0 för de som inte var japanska. 1.2 Samband mellan kvalitet och produktivitet i japanska fabriker Börja med att skaffa en överblick av datamaterialet för japanska fabriker. Gör en punktplot av antalet produktionsdefekter mot timmar per bil. >> nbrejap=nbrerrors(japanese==1) >> hpcjap=hourspercar(japanese==1) >> plot(nbrejap, hpcjap,. ) >> xlabel( Assembly defects per 100 cars ) >> ylabel( Hours per vehicle ) Ser det ut att finnas ett samband mellan mellan antal fel och produktionstiden för japanska bilar? Detta kan vara ganska svårt att avgöra med blotta ögat. Vi ska nu använda korrelationskoefficient för att mäta beroendet. Uppgift 1.1: Beräkna den uppskattade korrelationskoefficienten (corr i Matlab) mellan antal fel och produktionstiden för japanska bilar. Använd kommandot corr(nbrejap,hpcjap). Tips: corr ger tillbaks en 2*2-matris, där korrelationskoefficienten för variabel 1 och 2 står vid sidan av diagonalen. I diagonalen finns korrelationskoefficienten mellan variabel i(i = 1, 2) och med sig själv, d.v.s. det är alltid 1. Uppgift 1.2: Tyder korrelationskoefficienten på att det finns ett samband mellan antal fel och produktionstiden för japanska bilar? Verkar det vara ett positivt samband eller negativt samband? Är det som ni förväntat er att antal fel och produktionstid bör samverka? 1.3 Samband mellan kvalitet och produktivitet i icke-japanska fabriker Uppgift 1.3: Gör samma undersökning på fabriker som inte är japanska. Plocka ut de mätningar ur nbrerrors och hourspercar som kommer från icke-japanska fabriker. Plotta materialet och uppskatta korrelationskoefficienten. Vad har ni att säga om sambandet mellan antal fel och produktionstid för icke-japanska bilar? Är det starkt eller svagt? Är tecknet på korrelationskoefficienten som väntat? 2

1.4 Blandning av subpopulationer Uppgift 1.4: Plotta i samma figur data från japanska fabriker som punkter, och data från icke-japanska fabriker som exempelvis stjärnor (Använd kommandonaplot ochhold). Hur verkar japanska fabriker förhålla sig mot icke-japanska fabriker? Uppgift 1.5: Vad skulle hända om ni tog det ursprungliga datamaterialet, där japanska fabriker är blandade med ickejapanska och inte skiljde på de två datamängderna, eller subpopulationerna. Räkna ut den uppskattade korrelationkoefficienten för hela datamaterialet (dvs vektorerna nbrerrors och hourspercar. Tyder detta på ett samband mellan antal fel och produktionstid? Uppgift 1.6: Fundera på varför fick ni det resultat ni fick ovan på korrelationskoefficienten. Vad är era slutsatser? Ni har nu visat på en mycket allvarlig princip då man ska koppla samman samband mellan flera förklarande variabler. Om man blandar flera olika subpopulationer (i detta fall japanska och icke-japanska) kan ett samband som borde finnas där bli mycket svagt. Det omvända kan också hända. Om man tar två subpopulationer som inbördes inte har något samband mellan två variabler, och tittar på dem som en helhet kan det se ut som det finns korrelation. Titta på den sista bilden i 4.3 för denna situation. Det ser ut som det finns en ganska stark korrelation, bara för att två subpopulationer har blandats. 2 Rymdfärjan Challenger Den 28 januari 1986 sköts rymdfärjan Challenger iväg för sin tionde rymdfärd. 73 sekunder efter uppskjutning fylldes luftrummet ovanför Kennedy Space Center av vit rök. Challenger hade förstörts i en explosionsartad brand. Alla sju ombordvarande omkom. Ett videoklipp av olyckan kan ses på http://www.youtube.com/watch?v=j4jojcdftbe (eller sök på space shuttle challenger disaster på youtube, översta träffen). Vi ska här titta på den statistiska analys som ingenjörerna gjorde innan uppskjutningen, men först behöver vi lite bakgrundsmaterial: Rymdfärjan använde två hjälpraketer för att få upp den i omloppsbana. Varje hjälpraket bestod av flera delar, vars fogar förslöts med O-ringar av gummi. O-ringarnas uppgift var att förhindra läckage av de heta gaser som bildas vid förbränning. Varje hjälpraket hade tre primära O-ringar (totalt sex). För de 23 tidigare flygningarna med Challenger hade man undersökt O-ringarna för skada. Temperaturen på startdagen var 31 F ( -1 C). Den kallaste tidigaste uppskjutet hade varit 53 F ( 12 C). O-ringarnas temperaturkänslighet var väl känd sedan innan. En varm O-ring får snabbt tillbaks sin form efter en kompression upphör, medan en kall inte får det. O-ringars oförmåga att återta sin form efter komprimering ledde till att den varma gasen läckte in till hjälpraketerna externa bränsletank, som exploderade. 3

Innan start hade det varit en hel del diskussion om uppskjutningen skulle genomföras trots den kalla väderleken. Vi ska nu titta på ett förenklat argument som ingenjörerna använde (att tillägga är också att inga statistiker fanns med i överläggningarna). Uppgift 2.1: ladda in datamaterialet i challenger.mat. Här i finns data för de tidigare 23 flygningarna med challenger. I vektorntemp ligger temperaturen ( F) och inbrerrors antalet trasiga O-ringar för motsvarande flygningar. Vi ska nu börja med att göra en liknande analys som gjordes innan uppskjutningen. Plotta de flygningar där det fanns trasiga O-ringar mot temperaturen. >> temp2=temp(nbrerrors>0) >> nbredamage=nbrerrors(nbrerrors>0) >> plot(temp2,nbredamage, * ) Ser det ut att finnas ett samband mellan temperatur och antalet trasiga O-ringar när vi tittar på de flygningar där det fanns skador på O-ringarna? Uppgift 2.2: Beräkna korrelationskoefficienten för datamaterialet med kommandot corr. Är den stor? Tyder det på att det finns ett samband mellan temperatur och antalet trasiga O-ringar när vi tittar på de flygningar där det fanns skador på O-ringarna? Uppgift 2.3: Någonting är fruktansvärt fel med ovanstående statistiska analys. Kan ni komma på vad? Vi har nu helt struntat i de flygningar som inte hade skador på O-ringarna, och vi beter oss som om dessa flygningar inte innehåller någon information. Detta är inte rimligt. Uppgift 2.4: Plotta det fullständiga datamaterialet, dvs. temperatur mot antal trasiga O-ringar för de 23 flygningarna. Ser det nu ut att finnas ett samband mellan antalet trasiga O-ringar och temperatur? Uppgift 2.5: Vad blir korrelationskoefficienten nu? Verkar det mer rimligt med vad vi vet om O-ringars temperaturkänslighet? 4

En analys där man tog hänsyn till alla tidigare flygningar gjordes aldrig inför Challengers sista rymdfärd. Om man gjort en plot som den ovan där man tog hänsyn till alla tidigare flygningar hade man antagligen undrat om det vore lämpligt att fullfölja uppskjutningen trots den kalla temperaturen. Även om det är med facit i hand, kan man säga att givet det data som fanns till hand innan uppskjutningen, borde man inte ha genomfört uppskjutningen. En av utredningskommittens åtgärder för att undvika olyckor i framtiden var att rekommendera att en statistiker är medlem i markkontrollgruppen. 3 Multipel linjär regression: Frost Hur beror antalet frostdagar i en ort på höjd och latitud? Om man känner höjden och latituden hos en ort kan man då förutsäga (prediktera) antalet frostdagar? Man noterade det genomsnittliga antalet frostdagar vid 20 olika väderstationer i West Virginia. Detta tillsammans med höjden över havet (feet) och stationens latitud finns i filenfrost. 3.1 Vilken typ av modell? Multipel regression är en mycket vanlig teknik när man vill undersöka hur p uppmätta variabler, x 1,...,x p påverkar en responsvariabel, y. I denna situation har vi två förklarande variabler, dvs p = 2. Regressionsmodellen är alltså av formen y i =β 0 +β 1 x 1i +β 2 x 2i +ε i, i = 1,...,n. där man tänker sig att allaε i är oberoende och normalfördelade med väntevärde 0 och variansσ 2. Uppgift 3.1: Identifiera de olika variablerna i modellen ovan i vårt frostproblem. Vad är alltså er ansatta modell i just detta exemplet? 3.2 Regression med regress I Miniprojekt II använde ni flitigt kommandot Reggui som är en specialskriven funktion för våra grundkurser i matematisk statistik. Den fungerar emellertid bara för enkel linjär regression (och s.k. polynomregression), den går alltså inte att använda här. Om man vill arbeta med multipel linjär regression (flera x-variabler) måste man använda Matlabs inbyggda funktion för regressionsanalys, regress. Gör help regress för att ta reda på hur in- och utargumenten ser ut. Uppgift 3.2: Användregress för att skatta parametrarna i modellen ovan. Börja med att bygga upp matrisen X som, i det här fallet, är en (20 3)-matris (det finns 20 st observationer av x 1 -värden respektive x 2 -värden) med första kolumnen enbart ettor, andra kolumnen bestående av x 1 -värdena och tredje av x 2 -värdena. >> X = [ones(size(x1)) x1 x2] >> [b Ib r] = regress(y,x,0.05) Vektornbger skattningarna av parametrarnaβ 0,β 1 ochβ 2 medan deras konfidensintervall, med konfidensgraden 95 % (= 1 0.05), finns i matrisenib. Vektornrger residualerna. 5

Uppgift 3.3: Vad är skattningarna avβ 0,β 1 ochβ 2? Ange också motsvarande konfidensintervall. Hur många av modellparametrarna är signifikant skilda från noll (på 5%-nivån)? Kan vi förenkla modellen? Gör en samlad bedömning utifrån residualplottarna - finner du något att anmärka på, eller anser du att regressionsmodellen är acceptabel? Använd modellen för att skatta medelfrostdurationen för en ort som ligger på 1000 fots höjd på 40 nordlig latitud. >> X0=[1 1000 40]; % 1000 feet, 40 grader >> Y0=X0*b Ni kan även rita det skattade regressionsplanet i en tredimensionell bild. Funktionen planplot är skriven just för denna uppgift, men den utnyttjar Matlabs standardfaciliteter för 3D-plottar, >> planplot(x1, x2, b, y) % där b = vektorn med parameterskattningar 4 Vad påverkar andelen bussresande i en stad? I ett nyligen avslutat examensarbete på LTH 1 funderar man över vilka faktorer som påverkar hurvida en person tar bussen eller ett annat färdemedel i stadstrafik. Från ett antal städer i Västsverige studerar man hållplatser utmed vissa utvalda busslinjer. I detta material har vi 49 olika hållplatser. För varje hållplats har man lokaliserat ett närområde, d.v.s det bostadsområde som naturligt tillhör just denna hållplats. Uppmätta variabler för varje hållplats och närområde är: resandel= (antal resande från hållplatsen en viss tidsperiod)/ (totala antalet invånare i närområdet) avst= avstånd från hållplatsen till stadens centrumpunkt (d.v.s. en plats där många stiger av) restid= restiden med buss från hållplatsen till stadens centrumpunkt ink= medelinkomsten (10 000 kr) hos invånarna i hållplatsens närområde bil= bilinnehav i närområdet ((antal bilar)/(antal invånare i närområdet)) Data finns i filenbuss. 4.1 Vilka variabler samvarierar? Starta med att direkt lägga alla data i en matris och beräkna parvisa korrelationskoefficienter >> bussmatris=[resandel avst restid ink bil] >> corrcoeff(bussmatris) 1 Tack till Viktor Sköldstedt som gett oss data och idéer till problemställningar. Viktor har hämtat sina data från bl.a. Västtrafiks resvägsundersökning och från Statistiska Centralbyrån.Vi har i denna labb förenklat det ursprungliga problemet. 6

Tolkningen av den första raden i matrisen är att där visas ρ resandel,reasndel,ρ resandel,avst,ρ resandel,restid,ρ resandel,ink samtρ resandel,bil. De övriga raderna tolkas på motsvarande sätt. Vi vill bygga en modell där andelen resande från en hållplats kan förklaras m.h.a. en eller flera av variablerna avst,restid,ink ochbil. En stark samvariation mellanresandel (vår responsvariabel) och en annan variabel tyder på att denna variabel kanske kan användas som förklarande variabel i vår modell. En stark samvariation mellan två tänkbara förklarande varaibler är däremot oroväckande. Det tyder på att de i princip mäter samma sak och i modelltänkande innebär det att det kanske räcker med att ha en av de två variablerna med i modellen. Uppgift 4.1: Utifrån korrelationsmatrisen, vilka variabler tror ni påverkar andelen resande? Finns det någon variabel som verkar onödig? Resonera också utifrån vad variablerna mäter. 4.2 Vilka variabler ska vi ta med i modellen? Lite förenklat arbetar vi enligt dessa kriterier när vi väljer modell. Vi eftersträvar en modell där: koefficienterna framför samtliga förklarande variabler ska vara signifikant skilda från 0 skattningen av modellensσska vara liten residualerna plottade mot de förklarande variablerna ska bete sig slumpmässigt (inga mönster) och helst kunna anpassas till en normalfördelning När man ska avgöra vilka variabler som bör vara med i modellen har man i princip två strategier att välja mellan: Ta med samtliga variabler från början och ta bort variabler efter hand som inte verkar påverka. Plocka in variabler i modellen en efter en. Vi gör en variant av den första strategin. Låt de förklarande variablerna vara avst, bil och ink och utför en multipel regression: >> [b I_b r rint stats]=regress(resandel, [ones(49,1) avst bil ink]); >> b >> I_b >> stats Uppgift 4.2: Titta på de skattade parametrarna i vektornb, vad är tolkningen av dem? Är de rimliga (går på rätt håll)? 7

Uppgift 4.3: Titta på konfidensintervallen i vektorn I b. Vilka av de tre förklarande variablerna bör vara med i modellen och vilka kan ni ta bort? Uppgift 4.4: Titta på resultatet i variabelnstats. Det första talet anger förklaringsgraden R 2, det sista skattningen avσ 2 (de båda andra behöver ni inte bry er om). Skriv ner de båda resultaten. Både värdet på förklaringsgraden och skattningen avσ 2 är bra att titta på när man väljer mellan två modeller med samma antal förklarande variabler. Uppgift 4.5: Om ni beslöt att ta bort någon eller några variabler, pröva den nya regressionsmodellen. Kanske är det ytterligare någon modell ni vill testa? Jämför även förklaringsgrader ochσ 2 -skattningar. Vad är ert slutliga förslag på förklarande variabler? Uppgift 4.6: Ni såg tidigare att det fanns en stark samvariation mellan avst och restid eftersom de i pricip mäter samma sak. Pröva vad som händer om ni även plockar in restid i modellen. 4.3 Ytterligare koll av modellen När ni bestämt er för vilka variabler som bör vara med ska ni kontrollera att modellens residualer beter sig som man förväntar sig. Avsluta därför med att plotta residualerna mot var och en av de förklarande variablerna. Undersök också om residualerna kan tänkas vara normalfördelade. Uppgift 4.7: Sammanfatta er analys genom att skriva upp er fullständiga modell! 8