LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK FMS 035: MATEMATISK STATISTIK FÖR M, VT-11 DATORLABORATION 5 Syfte Syftet med dagens laboration är att du ska lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten. känna till situationer som kan ge falsk korrelation där det egentligen inte finns samband, och situationer som kan ge mycket liten korrelationskoefficient trots att det finns ett samband. förstå att ett statistisk samband inte nödvändigtvis betyder orsak-verkan. Förberedelseuppgifter Läs igenom Kapitel 4 i Sambandsanalyshäftet. Koncentrera dig på tolkningen av de uträknade storheterna. Du ska ha gjort följande uppgifter innan du kommer till laborationen: Hemuppgift 1: Gör de övningsuppgifter på övningsblad 12 som har med korrelationskoefficent att göra. Introduktion Denna laboration handlar om ett av de vanligaste måtten av beroende mellan två slumpvariabler, korrelationskoefficient. Filer du behöver till laboratinen hämtas på kursens hemsida www.maths.lth.se/matstat/kurser/fms035/material. Ladda ner alla som står under laboration 5. 1 Produktivitet kontra kvalitet vid tillverkning av bilar Vi ska här undersöka data från 27 bilfabriker, insamlade under 1989. Under denna tidsperiod hade Japan stora framgångar inom bilindustrin. Data vi tittar på är antal tillverkningsfel per 100 bilar, och genomsnittligt antal produktionstimmar per bil. 1.1 Intressanta frågeställningar Vilket samband finns mellan produktionstimmar per bil och antal tillverkningsfel. Man kunde förvänta sig att då produktionstimmar per bil går ner borde antalet fel gå upp. Stämmer detta? Hur förhöll sig japanska bilproduktionen till övriga världen? Hade japanska bilar färre produktionsfel per bil, och hur förhöll sig produktionstimmar per bil jämfört med resten av världen? Börja med att ladda in datamaterialet, load carproduction.mat. Vektorn hourspercar innehåller genomsnittligt antal produktionstimmar per bil för de 27 fabrikerna, nbrerrors innehåller antal produktionsfel per 100 bilar, ochjapanese är en vektor med 1 för de fabriker som var japanska och 0 för de som inte var japanska.
2 Laboration 5: Matstat AK för M, VT-11 1.2 Samband mellan kvalitet och produktivitet i japanska fabriker Börja med att skaffa en överblick av datamaterialet för japanska fabriker. Gör en punktplot av antalet produktionsdefekter mot timmar per bil. >> nbrejap=nbrerrors(japanese==1) >> hpcjap=hourspercar(japanese==1) >> plot(nbrejap, hpcjap,. ) >> xlabel( Assembly defects per 100 cars ) >> ylabel( Hours per vehicle ) Ser det ut att finnas ett samband mellan mellan antal fel och produktionstiden för japanska bilar? Detta kan vara ganska svårt att avgöra med blotta ögat. Vi ska nu använda kovarians och korrelationskoefficient för att mäta beroendet. Uppgift 1.1: Beräkna den uppskattade kovariansen mellan antal fel och produktionstiden för japanska bilar. Använd kommandot cov. Tips: cov ger tillbaks en 2*2-matris, där de uppskattade varianserna för variabel 1 och 2 står i diagonalen och den uppskattade kovariansen står vid sidan av diagonalen. Uppgift 1.2: Använd siffrorna ni fick ut i matrisen ovan för att beräkna den uppskattade korrelationskoefficienten. Använd sambandet på s. 22 under 4.1 i sambandsanalyshäftet, där man kopplar samman kovarians och korrelationskoefficient. Uppgift 1.3: I fortsättningen kan ni direkt använda kommandotcorr för at räkna ut den uppskattade korrelationskoefficienten. Gör det och se om ni får samma sak som ovan. Uppgift 1.4: Tyder korrelationskoefficienten på att det finns ett samband mellan antal fel och produktionstiden för japanska bilar? Verkar det vara ett positivt samband eller negativt samband? Är det som ni förväntat er att antal fel och produktionstid bör samverka? 1.3 Samband mellan kvalitet och produktivitet i icke-japanska fabriker Uppgift 1.5: Gör samma undersökning på fabriker som inte är japanska. Plocka ut de mätningar ur nbrerrors och hourspercar som kommer från icke-japanska fabriker. Plotta materialet och uppskatta korrelationskoefficienten. Vad har ni att säga om sambandet mellan antal fel och produktionstid för icke-japanska bilar? Är det starkt eller svagt? Är tecknet på korrelationskoefficienten som väntat?
Laboration 5: Matstat AK för M, VT-11 3 1.4 Blandning av subpopulationer Uppgift 1.6: Plotta i samma figur data från japanska fabriker som punkter, och data från icke-japanska fabriker som exempelvis stjärnor (Använd kommandona plot och hold). Hur verkar japanska fabriker förhålla sig mot icke-japanska fabriker? Uppgift 1.7: Vad skulle hända om ni tog det ursprungliga datamaterialet, där japanska fabriker är blandade med ickejapanska och inte skiljde på de två datamängderna, eller subpopulationerna. Räkna ut den uppskattade korrelationkoefficienten för hela datamaterialet (dvs vektorerna nbrerrors och hourspercar. Tyder detta på ett samband mellan antal fel och produktionstid? Uppgift 1.8: Fundera på varför fick ni det resultat ni fick ovan på korrelationskoefficienten. Vad är era slutsatser? Ni har nu visat på en mycket allvarlig princip då man ska koppla samman samband mellan flera förklarande variabler. Om man blandar flera olika subpopulationer (i detta fall japanska och icke-japanska) kan ett samband som borde finnas där bli mycket svagt. Det omvända kan också hända. Om man tar två subpopulationer som inbördes inte har något samband mellan två variabler, och tittar på dem som en helhet kan det se ut som det finns korrelation. Titta på den sista bilden i 4.3 för denna situation. Det ser ut som det finns en ganska stark korrelation, bara för att två subpopulationer har blandats. 2 Statistisk samband betyder inte orsak-verkan Statistisk samband betyder inte orsak-verkan. Detta är ett av det vanligaste felet som media och människor i allmänhet gör. Det vi mäter kan uppvisa ett samband, men det betyder inte nödvändigtvis att de finns en orsak-verkan. Ladda in det simulerade datamaterialet lakare.mat. I vektornantalsjukdagar finns antalet sammanlagda sjukdagar under en period i tio städer. I vektornantaldok finns antalet läkare i repsektive stad. Uppgift 2.1: Plotta antalet läkare mot antalet sjukdagar. Ser det ut att finnas ett samband? Gissa på vad ni tror att korrelationskoefficienten blir.
4 Laboration 5: Matstat AK för M, VT-11 Uppgift 2.2: Räkna ut korrelationskoefficienten mellan antal läkare och antal sjukdagar. Blev det i närheten av det ni gissat? Uppgift 2.3: Om man skulle minska antalet läkare i en stad, tror ni att antalet sjukdagar skulle gå ned? Här finns det en tredje faktor som påverkar de båda undersökta variablerna: Antalet innevånare! Ett statistiskt samband betyder alltså inte att orsak-verkan mellan variablerna föreligger. Ett annat exempel där statistiskt samband misstolkas som orsak-verkan kan ses på http://www.cnn.com/health/9905/12/children.lights/index.html. Forskare fann ett statistiskt samband mellan spädbarn som hade ljuset tänt under natten och barn som utvecklade närsynthet. De drog slutsatsen att ljus under nattetid på små barn orsakade närsynthet senare i livet. Detta var felaktigt. Uppgift 2.4: Kan ni komma på en annan förklaring till det statistiska sambandet mellan nattljus och närsynthet, förutom orsak-verkan? Fundera på om det kan finnas en tredje förklarande variabel som kopplar ihop dem, eller om vi blandat två subpopulationer. Vid en senare studie, där man tog hänsyn till att närsynta föräldrar ofta får närsynta barn, visade sig att man inte kunna hitta sambandet mellan ljus under nattetid och närsynthet längre. Det var det underliggande sambandet att närsynta föräldrar oftare lämnar ljuset på hos barnen som hade fångats upp i den första undersökningen. 3 Rymdfärjan Challenger Den 28 januari 1986 sköts rymdfärjan Challenger iväg för sin tionde rymdfärd. 73 sekunder efter uppskjutning fylldes luftrummet ovanför Kennedy Space Center av vit rök. Challenger hade förstörts i en explosionsartad brand. Alla sju ombordvarande omkom. Ett videoklipp av olyckan kan ses på http://www.youtube.com/watch?v=j4jojcdftbe (eller sök på space shuttle challenger disaster på youtube, översta träffen). Vi ska här titta på den statistiska analys som ingenjörerna gjorde innan uppskjutningen, men först behöver vi lite bakgrundsmaterial: Rymdfärjan använde två hjälpraketer för att få upp den i omloppsbana. Varje hjälpraket bestod av flera delar, vars fogar förslöts med O-ringar av gummi. O-ringarnas uppgift var att förhindra läckage av de heta gaser som bildas vid förbränning. Varje hjälpraket hade tre primära O-ringar (totalt sex). För de 23 tidigare flygningarna med Challenger hade man undersökt O-ringarna för skada. Temperaturen på startdagen var 31 F ( -1 C). Den kallaste tidigaste uppskjutet hade varit 53 F ( 12 C). O-ringarnas temperaturkänslighet var väl känd sedan innan. En varm O-ring får snabbt tillbaks sin form efter en kompression upphör, medan en kall inte får det. O-ringars oförmåga att återta sin form efter komprimering ledde till att den varma gasen läckte in till hjälpraketerna externa bränsletank, som exploderade.
Laboration 5: Matstat AK för M, VT-11 5 Innan start hade det varit en hel del diskussion om uppskjutningen skulle genomföras trots den kalla väderleken. Vi ska nu titta på ett förenklat argument som ingenjörerna använde (att tillägga är också att inga statistiker fanns med i överläggningarna). Uppgift 3.1: ladda in datamaterialet i challenger.mat. Här i finns data för de tidigare 23 flygningarna med challenger. I vektorn temp ligger temperaturen ( F) och i nbrerrors antalet trasiga O-ringar för motsvarande flygningar. Vi ska nu börja med att göra en liknande analys som gjordes innan uppskjutningen. Plotta de flygningar där det fanns trasiga O-ringar mot temperaturen. >> temp2=temp(nbrerrors>0) >> nbredamage=nbrerrors(nbrerrors>0) >> plot(temp2,nbredamage, * ) Ser det ut att finnas ett samband mellan temperatur och antalet trasiga O-ringar när vi tittar på de flygningar där det fanns skador på O-ringarna? Uppgift 3.2: Beräkna korrelationskoefficienten för datamaterialet med kommandot corr. Är den stor? Tyder det på att det finns ett samband mellan temperatur och antalet trasiga O-ringar när vi tittar på de flygningar där det fanns skador på O-ringarna? Uppgift 3.3: Någonting är fruktansvärt fel med ovanstående statistiska analys. Kan ni komma på vad? Vi har nu helt struntat i de flygningar som inte hade skador på O-ringarna, och vi beter oss som om dessa flygningar inte innehåller någon information. Detta är inte rimligt. Uppgift 3.4: Plotta det fullständiga datamaterialet, dvs. temperatur mot antal trasiga O-ringar för de 23 flygningarna. Ser det nu ut att finnas ett samband mellan antalet trasiga O-ringar och temperatur? Uppgift 3.5: Vad blir korrelationskoefficienten nu? Verkar det mer rimligt med vad vi vet om O-ringars temperaturkänslighet?
6 Laboration 5: Matstat AK för M, VT-11 Om vi ser mätningarna som en slumpprocess kan det ju faktiskt vara slumpen som gör att vi ser en korrelationskoefficient som inte är 0. För att vara säker på om det verkligen finns ett samband måste man alltså ta hänsyn till att korrelationskoefficienten ni räknat ut ovan är skattad. Uppgift 3.6: Om vi antar att data uppkommit ur en tvådimensionell normalfördelning (stämmer inte riktigt här då antal fel är diskret) kan ett hypotestest göras enligt 4.2 i sambandsanalyshäftet. Vad är slutsaten från ert hypotestest? Finns det ett signifikant samband? Tips: använd tinv(0.975,n-2) för att få t 0.025 (n 2)- kvantilen. En analys där man tog hänsyn till alla tidigare flygningar gjordes aldrig inför Challengers sista rymdfärd. Om man gjort en plot som den ovan där man tog hänsyn till alla tidigare flygningar hade man antagligen undrat om det vore lämpligt att fullfölja uppskjutningen trots den kalla temperaturen. Även om det är med facit i hand, kan man säga att givet det data som fanns till hand innan uppskjutningen, borde man inte ha genomfört uppskjutningen. En av utredningskommittens åtgärder för att undvika olyckor i framtiden var att rekommendera att en statistiker är medlem i markkontrollgruppen.