Lunds tekniska högskola Matematikcentrum Matematisk statistik. FMS035: Matematisk statistik för M Datorlaboration 5

Relevanta dokument
förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten.

1 Produktivitet kontra kvalitet vid tillverkning av bilar

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys

oberoende av varandra så observationerna är

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Laboration 4: Lineär regression

Laboration 2: Styrkefunktion samt Regression

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Datorövning 5 Regression

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

F13 Regression och problemlösning

Instruktioner till arbetet med miniprojekt II

Laboration 4 R-versionen

LABORATION 3 - Regressionsanalys

1 Förberedelseuppgifter

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

1 Förberedelseuppgifter

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

10.1 Enkel linjär regression

LABORATION 3 - Regressionsanalys

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Laboration 4 Regressionsanalys

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

TVM-Matematik Adam Jonsson

Finansiell statistik. Multipel regression. 4 maj 2011

Matematisk statistik, Föreläsning 5

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

TAMS65 DATORÖVNING 2

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Föreläsning 12: Regression

Laboration 3: Enkel linjär regression och korrelationsanalys

Föreläsning 12: Linjär regression

Matematisk statistik för B, K, N, BME och Kemister

Multipel linjär regression

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDI, FMS012, HT10

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

3 Maximum Likelihoodestimering

Laboration 4: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression

Regressions- och Tidsserieanalys - F4

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Matematisk statistik för D, I, Π och Fysiker

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Föreläsning 13: Multipel Regression

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

bli bekant med summor av stokastiska variabler.

Lektionsanteckningar 11-12: Normalfördelningen

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Datorlaboration 3. 1 Inledning. 2 Grunderna. 1.1 Förberedelse. Matematikcentrum VT 2007

Regressionsanalys av lägenhetspriser i Spånga

Grundläggande matematisk statistik

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 3: Icke-parametrisk korrelations- och regressionsanalys

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Höftledsdysplasi hos dansk-svensk gårdshund

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Regressions- och Tidsserieanalys - F1

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

TAMS65 - Seminarium 4 Regressionsanalys

SF1901 Sannolikhetsteori och statistik, VT 2017 Datorlaboration 1 för CELTE2, CTFYS2

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Härledning av Black-Littermans formel mha allmänna linjära modellen

Föreläsning 7: Punktskattningar

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Datorövning 1: Fördelningar

Bayesiansk statistik, 732g43, 7.5 hp

Statistisk försöksplanering

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Metod och teori. Statistik för naturvetare Umeå universitet

Regressions- och Tidsserieanalys - F1

Statistisk försöksplanering

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Matematisk statistik för B, K, N, BME och Kemister

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

3. Vad är ett prediktionsintervall och hur räknas det ut? 4. Vad är ett kalibreringsintervall och hur kan det konstrueras?

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Enkel linjär regression

Medicinsk statistik II

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Transkript:

Lunds tekniska högskola Matematikcentrum Matematisk statistik FMS035: Matematisk statistik för M Datorlaboration 5 Syfte Syftet med dagens laboration är att du ska lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten. lära dig att använda Matlab för att skatta parametrarna i en multipel linjär regression i viss mån kunna jämföra olika modeller och välja bland olika modeller för samband mellan variabler Förberedelseuppgifter Läs igenom Kapitel 3 och 4 i Sambandsanalyshäftet. Koncentrera dig på tolkningen av de uträknade storheterna. Gör övningsuppgifterna på övningsblad 11 innan du kommer till laborationen: Introduktion Första delen av denna laboration handlar om ett av de vanligaste måtten av beroende mellan två slumpvariabler, korrelationskoefficient. I andra halvan studerar ni regressionsmodeller där man har mer än en förklarande variabel, d.v.s. multipel linjär regression. I en sådan analys är det också naturligt att använda korrelationskoefficienten. Filer du behöver till laborationen hämtas på kursens hemsida www.maths.lth.se/matstat/kurser/fms035/material under laboration 5. 1 Rymdfärjan Challenger Den 28 januari 1986 sköts rymdfärjan Challenger iväg för sin tionde rymdfärd. 73 sekunder efter uppskjutning fylldes luftrummet ovanför Kennedy Space Center av vit rök. Challenger hade förstörts i en explosionsartad brand. Alla sju ombordvarande omkom. Ett videoklipp av olyckan kan ses på http://www.youtube.com/watch?v=j4jojcdftbe (eller sök på space shuttle challenger disaster på youtube). Vi ska här titta på den statistiska analys som ingenjörerna gjorde innan uppskjutningen, men först behöver vi lite bakgrundsmaterial: Rymdfärjan använde två hjälpraketer för att få upp den i omloppsbana. Varje hjälpraket bestod av flera delar, vars fogar förslöts med O- ringar av gummi. O-ringarnas uppgift var att förhindra läckage av de heta gaser som bildas vid förbränning. Varje hjälpraket hade tre primära O-ringar (totalt sex). För de 23 tidigare flygningarna med Challenger hade man undersökt O-ringarna för skada.

Temperaturen på startdagen var 31 F ( -1 C). Den kallaste tidigaste uppskjutet hade varit 53 F ( 12 C). O-ringarnas temperaturkänslighet var väl känd sedan innan. En varm O-ring får snabbt tillbaks sin form efter en kompression upphör, medan en kall inte får det. O-ringars oförmåga att återta sin form efter komprimering ledde till att den varma gasen läckte in till hjälpraketerna externa bränsletank, som exploderade. Innan start hade det varit en hel del diskussion om uppskjutningen skulle genomföras trots den kalla väderleken. Vi ska nu titta på ett förenklat argument som ingenjörerna använde (att tillägga är också att inga statistiker fanns med i överläggningarna). Uppgift 1.1: Ladda in datamaterialet i challenger.mat. Här i finns data för de tidigare 23 flygningarna med challenger. I vektorn temp ligger temperaturen ( F) och i nbrerrors antalet trasiga O-ringar för motsvarande flygningar. Vi ska nu börja med att göra en liknande analys som gjordes innan uppskjutningen. Plotta de flygningar där det fanns trasiga O-ringar mot temperaturen. >> temp2=temp(nbrerrors>0) >> nbredamage=nbrerrors(nbrerrors>0) >> plot(temp2,nbredamage, * ) Ser det ut att finnas ett samband mellan temperatur och antalet trasiga O-ringar när vi tittar på de flygningar där det fanns skador på O-ringarna? Uppgift 1.2: Beräkna korrelationskoefficienten för datamaterialet med kommandot corr. Använd kommandot corr(temp2,nbredamage). Tips: corr ger tillbaks en 2*2-matris, där korrelationskoefficienten för variabel 1 och 2 står vid sidan av diagonalen. I diagonalen finns korrelationskoefficienten mellan variabel i (i = 1, 2) och med sig själv, d.v.s. det är alltid 1. Tyder det på att det finns ett samband mellan temperatur och antalet trasiga O-ringar när vi tittar på de flygningar där det fanns skador på O-ringarna? Uppgift 1.3: Någonting är fruktansvärt fel med ovanstående statistiska analys. Kan ni komma på vad? Vi har nu helt struntat i de flygningar som inte hade skador på O-ringarna, och vi beter oss som om dessa flygningar inte innehåller någon information. Detta är inte rimligt. 2

Uppgift 1.4: Plotta det fullständiga datamaterialet, dvs. temperatur mot antal trasiga O-ringar för de 23 flygningarna. Ser det nu ut att finnas ett samband mellan antalet trasiga O-ringar och temperatur? Uppgift 1.5: Vad blir korrelationskoefficienten nu? Verkar det mer rimligt med vad vi vet om O-ringars temperaturkänslighet? En analys där man tog hänsyn till alla tidigare flygningar gjordes aldrig inför Challengers sista rymdfärd. Om man gjort en plot som den ovan där man tog hänsyn till alla tidigare flygningar hade man antagligen undrat om det vore lämpligt att fullfölja uppskjutningen trots den kalla temperaturen. Även om det är med facit i hand, kan man säga att givet det data som fanns till hand innan uppskjutningen, borde man inte ha genomfört uppskjutningen. En av utredningskommittens åtgärder för att undvika olyckor i framtiden var att rekommendera att en statistiker är medlem i markkontrollgruppen. 2 Multipel linjär regression: Frost Hur beror antalet frostdagar i en ort på höjd och latitud? Om man känner höjden och latituden hos en ort kan man då förutsäga (prediktera) antalet frostdagar? Man noterade det genomsnittliga antalet frostdagar vid 20 olika väderstationer i West Virginia. Detta tillsammans med höjden över havet (feet) och stationens latitud finns i filen frost. 2.1 Vilken typ av modell? Multipel regression är en mycket vanlig teknik när man vill undersöka hur p uppmätta variabler, x 1,..., x p påverkar en responsvariabel, y. I denna situation har vi två förklarande variabler, dvs p = 2. Regressionsmodellen är alltså av formen y i = β 0 + β 1 x 1i + β 2 x 2i + ɛ i, i = 1,..., n. där man tänker sig att alla ɛ i är oberoende och normalfördelade med väntevärde 0 och varians σ 2. 2.2 Regression med regress I Miniprojekt II använde ni flitigt kommandot Reggui som är en specialskriven funktion för våra grundkurser i matematisk statistik. Den fungerar emellertid bara för enkel linjär regression (och s.k. polynomregression), den går alltså inte att använda här. Om man vill arbeta med 3

multipel linjär regression (flera x-variabler) måste man använda Matlabs inbyggda funktion för regressionsanalys, regress. Gör help regress för att ta reda på hur in- och utargumenten ser ut. Uppgift 2.1: Använd regress för att skatta parametrarna i modellen ovan. Börja med att bygga upp matrisen X som, i det här fallet, är en (20 3)-matris (det finns 20 st observationer av x 1 -värden respektive x 2 -värden) med första kolumnen enbart ettor, andra kolumnen bestående av x 1 - värdena och tredje av x 2 -värdena. >> X = [ones(size(x1)) x1 x2] >> [b Ib r] = regress(y,x,0.05) Vektorn b ger skattningarna av parametrarna β 0, β 1 och β 2 medan deras konfidensintervall, med konfidensgraden 95 % (= 1 0.05), finns i matrisen Ib. Vektorn r ger residualerna. Uppgift 2.2: Vad är skattningarna av β 0, β 1 och β 2? Ange också motsvarande konfidensintervall. Hur många av modellparametrarna är signifikant skilda från noll (på 5%-nivån)? Kan vi förenkla modellen? Gör en samlad bedömning utifrån residualplottarna - finner du något att anmärka på, eller anser du att regressionsmodellen är acceptabel? Använd modellen för att skatta medelfrostdurationen för en ort som ligger på 1000 fots höjd på 40 nordlig latitud. >> X0=[1 1000 40]; % 1000 feet, 40 grader >> Y0=X0*b Ni kan även rita det skattade regressionsplanet i en tredimensionell bild. Funktionen planplot är skriven just för denna uppgift, men den utnyttjar Matlabs standardfaciliteter för 3D-plottar, >> planplot(x1, x2, b, y) % där b = vektorn med parameterskattningar 3 Vad påverkar andelen bussresande i en stad? I ett nyligen avslutat examensarbete på LTH 1 funderar man över vilka faktorer som påverkar hurvida en person tar bussen eller ett annat färdemedel i stadstrafik. Från ett antal städer i Västsverige studerar man hållplatser utmed vissa utvalda busslinjer. I detta material har vi 49 olika hållplatser. För varje hållplats har man lokaliserat ett närområde, d.v.s det bostadsområde som naturligt tillhör just denna hållplats. Uppmätta variabler för varje hållplats och närområde är: 1 Tack till Viktor Sköldstedt som gett oss data och idéer till problemställningar. Viktor har hämtat sina data från bl.a. Västtrafiks resvägsundersökning och från Statistiska Centralbyrån.Vi har i denna labb förenklat det ursprungliga problemet. 4

resandel= (antal resande från hållplatsen en viss tidsperiod)/ (totala antalet invånare i närområdet) avst= avstånd från hållplatsen till stadens centrumpunkt (d.v.s. en plats där många stiger av) restid= restiden med buss från hållplatsen till stadens centrumpunkt ink= medelinkomsten (10 000 kr) hos invånarna i hållplatsens närområde bil= bilinnehav i närområdet ((antal bilar)/(antal invånare i närområdet)) Data finns i filen buss. 3.1 Vilka variabler samvarierar? Starta med att direkt lägga alla data i en matris och beräkna parvisa korrelationskoefficienter >> bussmatris=[resandel avst restid ink bil] >> corrcoeff(bussmatris) Tolkningen av den första raden i matrisen är att där visas ρ resandel,reasndel, ρ resandel,avst, ρ resandel,restid, ρ resandel,ink samt ρ resandel,bil. De övriga raderna tolkas på motsvarande sätt. Vi vill bygga en modell där andelen resande från en hållplats kan förklaras m.h.a. en eller flera av variablerna avst, restid, ink och bil. En stark samvariation mellan resandel (vår responsvariabel) och en annan variabel tyder på att denna variabel kanske kan användas som förklarande variabel i vår modell. En stark samvariation mellan två tänkbara förklarande variabler är däremot oroväckande. Det tyder på att de i princip mäter samma sak och i modelltänkande innebär det att det kanske räcker med att ha en av de två variablerna med i modellen. Uppgift 3.1: Utifrån korrelationsmatrisen, vilka variabler tror ni påverkar andelen resande? Finns det någon variabel som verkar onödig? Resonera också utifrån vad variablerna mäter. 3.2 Vilka variabler ska vi ta med i modellen? Lite förenklat arbetar vi enligt dessa kriterier när vi väljer modell. Vi eftersträvar en modell där: koefficienterna framför samtliga förklarande variabler ska vara signifikant skilda från 0 skattningen av modellens σ ska vara liten 5

residualerna plottade mot de förklarande variablerna ska bete sig slumpmässigt (inga mönster) och helst kunna anpassas till en normalfördelning När man ska avgöra vilka variabler som bör vara med i modellen har man i princip två strategier att välja mellan: Ta med samtliga variabler från början och ta bort variabler efter hand som inte verkar påverka. Plocka in variabler i modellen en efter en. Vi gör en variant av den första strategin. Låt de förklarande variablerna vara avst, bil och ink och utför en multipel regression: >> [b I_b r rint stats]=regress(resandel, [ones(49,1) avst bil ink]); >> b >> I_b >> stats Uppgift 3.2: Titta på de skattade parametrarna i vektorn b, vad är tolkningen av dem? Är de rimliga (går på rätt håll)? Uppgift 3.3: Titta på konfidensintervallen i vektorn I b. Vilka av de tre förklarande variablerna bör vara med i modellen och vilka kan ni ta bort? Uppgift 3.4: Titta på resultatet i variabeln stats. Det första talet anger förklaringsgraden R 2, det sista skattningen av σ 2 (de båda andra behöver ni inte bry er om). Skriv ner de båda resultaten. Både värdet på förklaringsgraden och skattningen av σ 2 är bra att titta på när man väljer mellan två modeller med samma antal förklarande variabler. Uppgift 3.5: Om ni beslöt att ta bort någon eller några variabler, pröva den nya regressionsmodellen. Kanske är det ytterligare någon modell ni vill testa? Jämför även förklaringsgrader och σ 2 -skattningar. Vad är ert slutliga förslag på förklarande variabler? 6

Uppgift 3.6: Ni såg tidigare att det fanns en stark samvariation mellan avst och restid eftersom de i pricip mäter samma sak. Pröva vad som händer om ni även plockar in restid i modellen. 3.3 Ytterligare koll av modellen När ni bestämt er för vilka variabler som bör vara med ska ni kontrollera att modellens residualer beter sig som man förväntar sig. Avsluta därför med att plotta residualerna mot var och en av de förklarande variablerna. Undersök också om residualerna kan tänkas vara normalfördelade. Uppgift 3.7: Sammanfatta er analys genom att skriva upp er fullständiga modell! 7