1 Produktivitet kontra kvalitet vid tillverkning av bilar

Relevanta dokument
lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten.

Lunds tekniska högskola Matematikcentrum Matematisk statistik. FMS035: Matematisk statistik för M Datorlaboration 5

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Laboration 4: Hypotesprövning och styrkefunktion

Laboration 2: Styrkefunktion samt Regression

Laboration 4: Lineär regression

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Datorövning 1: Fördelningar

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Datorövning 1 Fördelningar

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

bli bekant med summor av stokastiska variabler.

Laboration 1: Beskrivande statistik

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Instruktioner till arbetet med miniprojekt II

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Laboration 4 R-versionen

1 Grundläggande begrepp vid hypotestestning

1 Förberedelseuppgifter

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 1: TIDSSERIER.

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

Instruktion för laboration 1

TAMS36 Matematisk statistik för IT: Vinjetter

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Datorövning 1 Introduktion till Matlab Fördelningar

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Projekt 3: Diskret fouriertransform

KURSPROGRAM HT-10 MATEMATISK STATISTIK AK FÖR CDI, FMS 012

Laboration 2: Sannolikhetsteori och simulering

Datorlaboration 2. Läs igenom avsnitt 4.1 så att du får strukturen på kapitlet klar för dig.

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

SF1901 Sannolikhetsteori och statistik I

FMS032: MATEMATISK STATISTIK AK FÖR V OCH L KURSPROGRAM HT 2015

2 Laborationsuppgifter, upptagetsystem

1 Syfte. 2 Förberedelseuppgifter DATORLABORATION 1 MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT-03

SF1901 Sannolikhetsteori och statistik, VT 2017 Datorlaboration 1 för CELTE2, CTFYS2

Laboration 1: Mer om Matlab samt Deskriptiv statistik

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Laboration 3: Parameterskattning och Fördelningsanpassning

Lunds tekniska högskola Matematikcentrum Matematisk statistik

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Instruktioner till arbetet med miniprojekt II

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Datorövning 1: Fördelningar

Instruktion för laboration 1

KURSPROGRAM HT-18 MATEMATISK STATISTIK AK FÖR D, I OCH PI, FMSF45 & MASB03

LABORATION 3 - Regressionsanalys

3 Maximum Likelihoodestimering

Department of Physics Umeå University 27 augusti Matlab för Nybörjare. Charlie Pelland

Laboration 2 Inferens S0005M VT18

Examinationsuppgift 2014

Lunds tekniska högskola Matematikcentrum Matematisk statistik

SF1901: SANNOLIKHETSTEORI OCH MER ON VÄNTEVÄRDE OCH VARIANS. KOVARIANS OCH KORRELATION. STORA TALENS LAG. STATISTIK.

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

TSBB14 Laboration: Intro till Matlab 1D

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

Inlämningsuppgift 1: Portföljvalsteori

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Laboration 2: Sannolikhetsteori och simulering

Syftet med den här laborationen är att du skall bli mer förtrogen med några viktiga områden inom kursen nämligen

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Laboration 4 Regressionsanalys

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Föreläsning 7: Punktskattningar

Projekt 1: Om fördelningar och risker

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

EXAMINATION KVANTITATIV METOD

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden

Tentamen TANA17 Matematiska beräkningar Provkod: DAT1 Godkänd: 8p av totalt 20p Tid: 14:e januari klockan

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Flerdimensionella signaler och system

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 1, OCH ÖVNING 2, SAMT INFÖR ÖVNING 3

Föreläsning 7: Punktskattningar

1 Förberedelser. 2 Teoretisk härledning av värmeförlust LABORATION 4: VÄRMEKRAFTVERK MATEMATISK STATISTIK AK, MAS 101:A, VT-01

Laboration 2: Sannolikhetsteori och simulering

Innehåll. Standardavvikelse... 3 Betarisk... 3 Value at Risk... 4 Risknivån i strukturerade produkter... 4

Stokastiska vektorer

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

FACIT (korrekta svar i röd fetstil)

TVM-Matematik Adam Jonsson

Transkript:

LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK FMS 035: MATEMATISK STATISTIK FÖR M, VT-11 DATORLABORATION 5 Syfte Syftet med dagens laboration är att du ska lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten. känna till situationer som kan ge falsk korrelation där det egentligen inte finns samband, och situationer som kan ge mycket liten korrelationskoefficient trots att det finns ett samband. förstå att ett statistisk samband inte nödvändigtvis betyder orsak-verkan. Förberedelseuppgifter Läs igenom Kapitel 4 i Sambandsanalyshäftet. Koncentrera dig på tolkningen av de uträknade storheterna. Du ska ha gjort följande uppgifter innan du kommer till laborationen: Hemuppgift 1: Gör de övningsuppgifter på övningsblad 12 som har med korrelationskoefficent att göra. Introduktion Denna laboration handlar om ett av de vanligaste måtten av beroende mellan två slumpvariabler, korrelationskoefficient. Filer du behöver till laboratinen hämtas på kursens hemsida www.maths.lth.se/matstat/kurser/fms035/material. Ladda ner alla som står under laboration 5. 1 Produktivitet kontra kvalitet vid tillverkning av bilar Vi ska här undersöka data från 27 bilfabriker, insamlade under 1989. Under denna tidsperiod hade Japan stora framgångar inom bilindustrin. Data vi tittar på är antal tillverkningsfel per 100 bilar, och genomsnittligt antal produktionstimmar per bil. 1.1 Intressanta frågeställningar Vilket samband finns mellan produktionstimmar per bil och antal tillverkningsfel. Man kunde förvänta sig att då produktionstimmar per bil går ner borde antalet fel gå upp. Stämmer detta? Hur förhöll sig japanska bilproduktionen till övriga världen? Hade japanska bilar färre produktionsfel per bil, och hur förhöll sig produktionstimmar per bil jämfört med resten av världen? Börja med att ladda in datamaterialet, load carproduction.mat. Vektorn hourspercar innehåller genomsnittligt antal produktionstimmar per bil för de 27 fabrikerna, nbrerrors innehåller antal produktionsfel per 100 bilar, ochjapanese är en vektor med 1 för de fabriker som var japanska och 0 för de som inte var japanska.

2 Laboration 5: Matstat AK för M, VT-11 1.2 Samband mellan kvalitet och produktivitet i japanska fabriker Börja med att skaffa en överblick av datamaterialet för japanska fabriker. Gör en punktplot av antalet produktionsdefekter mot timmar per bil. >> nbrejap=nbrerrors(japanese==1) >> hpcjap=hourspercar(japanese==1) >> plot(nbrejap, hpcjap,. ) >> xlabel( Assembly defects per 100 cars ) >> ylabel( Hours per vehicle ) Ser det ut att finnas ett samband mellan mellan antal fel och produktionstiden för japanska bilar? Detta kan vara ganska svårt att avgöra med blotta ögat. Vi ska nu använda kovarians och korrelationskoefficient för att mäta beroendet. Uppgift 1.1: Beräkna den uppskattade kovariansen mellan antal fel och produktionstiden för japanska bilar. Använd kommandot cov. Tips: cov ger tillbaks en 2*2-matris, där de uppskattade varianserna för variabel 1 och 2 står i diagonalen och den uppskattade kovariansen står vid sidan av diagonalen. Uppgift 1.2: Använd siffrorna ni fick ut i matrisen ovan för att beräkna den uppskattade korrelationskoefficienten. Använd sambandet på s. 22 under 4.1 i sambandsanalyshäftet, där man kopplar samman kovarians och korrelationskoefficient. Uppgift 1.3: I fortsättningen kan ni direkt använda kommandotcorr för at räkna ut den uppskattade korrelationskoefficienten. Gör det och se om ni får samma sak som ovan. Uppgift 1.4: Tyder korrelationskoefficienten på att det finns ett samband mellan antal fel och produktionstiden för japanska bilar? Verkar det vara ett positivt samband eller negativt samband? Är det som ni förväntat er att antal fel och produktionstid bör samverka? 1.3 Samband mellan kvalitet och produktivitet i icke-japanska fabriker Uppgift 1.5: Gör samma undersökning på fabriker som inte är japanska. Plocka ut de mätningar ur nbrerrors och hourspercar som kommer från icke-japanska fabriker. Plotta materialet och uppskatta korrelationskoefficienten. Vad har ni att säga om sambandet mellan antal fel och produktionstid för icke-japanska bilar? Är det starkt eller svagt? Är tecknet på korrelationskoefficienten som väntat?

Laboration 5: Matstat AK för M, VT-11 3 1.4 Blandning av subpopulationer Uppgift 1.6: Plotta i samma figur data från japanska fabriker som punkter, och data från icke-japanska fabriker som exempelvis stjärnor (Använd kommandona plot och hold). Hur verkar japanska fabriker förhålla sig mot icke-japanska fabriker? Uppgift 1.7: Vad skulle hända om ni tog det ursprungliga datamaterialet, där japanska fabriker är blandade med ickejapanska och inte skiljde på de två datamängderna, eller subpopulationerna. Räkna ut den uppskattade korrelationkoefficienten för hela datamaterialet (dvs vektorerna nbrerrors och hourspercar. Tyder detta på ett samband mellan antal fel och produktionstid? Uppgift 1.8: Fundera på varför fick ni det resultat ni fick ovan på korrelationskoefficienten. Vad är era slutsatser? Ni har nu visat på en mycket allvarlig princip då man ska koppla samman samband mellan flera förklarande variabler. Om man blandar flera olika subpopulationer (i detta fall japanska och icke-japanska) kan ett samband som borde finnas där bli mycket svagt. Det omvända kan också hända. Om man tar två subpopulationer som inbördes inte har något samband mellan två variabler, och tittar på dem som en helhet kan det se ut som det finns korrelation. Titta på den sista bilden i 4.3 för denna situation. Det ser ut som det finns en ganska stark korrelation, bara för att två subpopulationer har blandats. 2 Statistisk samband betyder inte orsak-verkan Statistisk samband betyder inte orsak-verkan. Detta är ett av det vanligaste felet som media och människor i allmänhet gör. Det vi mäter kan uppvisa ett samband, men det betyder inte nödvändigtvis att de finns en orsak-verkan. Ladda in det simulerade datamaterialet lakare.mat. I vektornantalsjukdagar finns antalet sammanlagda sjukdagar under en period i tio städer. I vektornantaldok finns antalet läkare i repsektive stad. Uppgift 2.1: Plotta antalet läkare mot antalet sjukdagar. Ser det ut att finnas ett samband? Gissa på vad ni tror att korrelationskoefficienten blir.

4 Laboration 5: Matstat AK för M, VT-11 Uppgift 2.2: Räkna ut korrelationskoefficienten mellan antal läkare och antal sjukdagar. Blev det i närheten av det ni gissat? Uppgift 2.3: Om man skulle minska antalet läkare i en stad, tror ni att antalet sjukdagar skulle gå ned? Här finns det en tredje faktor som påverkar de båda undersökta variablerna: Antalet innevånare! Ett statistiskt samband betyder alltså inte att orsak-verkan mellan variablerna föreligger. Ett annat exempel där statistiskt samband misstolkas som orsak-verkan kan ses på http://www.cnn.com/health/9905/12/children.lights/index.html. Forskare fann ett statistiskt samband mellan spädbarn som hade ljuset tänt under natten och barn som utvecklade närsynthet. De drog slutsatsen att ljus under nattetid på små barn orsakade närsynthet senare i livet. Detta var felaktigt. Uppgift 2.4: Kan ni komma på en annan förklaring till det statistiska sambandet mellan nattljus och närsynthet, förutom orsak-verkan? Fundera på om det kan finnas en tredje förklarande variabel som kopplar ihop dem, eller om vi blandat två subpopulationer. Vid en senare studie, där man tog hänsyn till att närsynta föräldrar ofta får närsynta barn, visade sig att man inte kunna hitta sambandet mellan ljus under nattetid och närsynthet längre. Det var det underliggande sambandet att närsynta föräldrar oftare lämnar ljuset på hos barnen som hade fångats upp i den första undersökningen. 3 Rymdfärjan Challenger Den 28 januari 1986 sköts rymdfärjan Challenger iväg för sin tionde rymdfärd. 73 sekunder efter uppskjutning fylldes luftrummet ovanför Kennedy Space Center av vit rök. Challenger hade förstörts i en explosionsartad brand. Alla sju ombordvarande omkom. Ett videoklipp av olyckan kan ses på http://www.youtube.com/watch?v=j4jojcdftbe (eller sök på space shuttle challenger disaster på youtube, översta träffen). Vi ska här titta på den statistiska analys som ingenjörerna gjorde innan uppskjutningen, men först behöver vi lite bakgrundsmaterial: Rymdfärjan använde två hjälpraketer för att få upp den i omloppsbana. Varje hjälpraket bestod av flera delar, vars fogar förslöts med O-ringar av gummi. O-ringarnas uppgift var att förhindra läckage av de heta gaser som bildas vid förbränning. Varje hjälpraket hade tre primära O-ringar (totalt sex). För de 23 tidigare flygningarna med Challenger hade man undersökt O-ringarna för skada. Temperaturen på startdagen var 31 F ( -1 C). Den kallaste tidigaste uppskjutet hade varit 53 F ( 12 C). O-ringarnas temperaturkänslighet var väl känd sedan innan. En varm O-ring får snabbt tillbaks sin form efter en kompression upphör, medan en kall inte får det. O-ringars oförmåga att återta sin form efter komprimering ledde till att den varma gasen läckte in till hjälpraketerna externa bränsletank, som exploderade.

Laboration 5: Matstat AK för M, VT-11 5 Innan start hade det varit en hel del diskussion om uppskjutningen skulle genomföras trots den kalla väderleken. Vi ska nu titta på ett förenklat argument som ingenjörerna använde (att tillägga är också att inga statistiker fanns med i överläggningarna). Uppgift 3.1: ladda in datamaterialet i challenger.mat. Här i finns data för de tidigare 23 flygningarna med challenger. I vektorn temp ligger temperaturen ( F) och i nbrerrors antalet trasiga O-ringar för motsvarande flygningar. Vi ska nu börja med att göra en liknande analys som gjordes innan uppskjutningen. Plotta de flygningar där det fanns trasiga O-ringar mot temperaturen. >> temp2=temp(nbrerrors>0) >> nbredamage=nbrerrors(nbrerrors>0) >> plot(temp2,nbredamage, * ) Ser det ut att finnas ett samband mellan temperatur och antalet trasiga O-ringar när vi tittar på de flygningar där det fanns skador på O-ringarna? Uppgift 3.2: Beräkna korrelationskoefficienten för datamaterialet med kommandot corr. Är den stor? Tyder det på att det finns ett samband mellan temperatur och antalet trasiga O-ringar när vi tittar på de flygningar där det fanns skador på O-ringarna? Uppgift 3.3: Någonting är fruktansvärt fel med ovanstående statistiska analys. Kan ni komma på vad? Vi har nu helt struntat i de flygningar som inte hade skador på O-ringarna, och vi beter oss som om dessa flygningar inte innehåller någon information. Detta är inte rimligt. Uppgift 3.4: Plotta det fullständiga datamaterialet, dvs. temperatur mot antal trasiga O-ringar för de 23 flygningarna. Ser det nu ut att finnas ett samband mellan antalet trasiga O-ringar och temperatur? Uppgift 3.5: Vad blir korrelationskoefficienten nu? Verkar det mer rimligt med vad vi vet om O-ringars temperaturkänslighet?

6 Laboration 5: Matstat AK för M, VT-11 Om vi ser mätningarna som en slumpprocess kan det ju faktiskt vara slumpen som gör att vi ser en korrelationskoefficient som inte är 0. För att vara säker på om det verkligen finns ett samband måste man alltså ta hänsyn till att korrelationskoefficienten ni räknat ut ovan är skattad. Uppgift 3.6: Om vi antar att data uppkommit ur en tvådimensionell normalfördelning (stämmer inte riktigt här då antal fel är diskret) kan ett hypotestest göras enligt 4.2 i sambandsanalyshäftet. Vad är slutsaten från ert hypotestest? Finns det ett signifikant samband? Tips: använd tinv(0.975,n-2) för att få t 0.025 (n 2)- kvantilen. En analys där man tog hänsyn till alla tidigare flygningar gjordes aldrig inför Challengers sista rymdfärd. Om man gjort en plot som den ovan där man tog hänsyn till alla tidigare flygningar hade man antagligen undrat om det vore lämpligt att fullfölja uppskjutningen trots den kalla temperaturen. Även om det är med facit i hand, kan man säga att givet det data som fanns till hand innan uppskjutningen, borde man inte ha genomfört uppskjutningen. En av utredningskommittens åtgärder för att undvika olyckor i framtiden var att rekommendera att en statistiker är medlem i markkontrollgruppen.