1/53 Introduktion till statistik för ingenjörer Måns Thulin Uppsala universitet thulin@math.uu.se 17/1 2011
2/53 Dagens föreläsning Presentation av kursen Statistik och sannolikhet inledande exempel Att undersöka data
3/53 Kursupplägg 10 föreläsningar 6 lektioner 2 datorövningar R www.r-project.org Kurslitteratur: Stokastisk för ingenjörer (Uthgård) Tenta 17/3 Två delar, A och B På del A krävs minst 8 av 10 poäng för godkänt Tillåtna hjälpmedel är räknedosa, utdelat tabellblad och en sida på ett A4-papper med egna handskrivna anteckningar Tre inlämningsuppgifter Varje inlupp ger som mest 20 poäng Sammanlagt minst 30 p ger 1 bonuspoäng till tentan Sammanlagt minst 40 p ger 2 bonuspoäng till tentan Löses på egen hand eller i grupper om två Kursmaterial m.m. på Studentportalen
Tidigare kursvärderingar Datorövningar: Hade varit bättre att använda Matlab. Gav en bild av hur man kan jobba mer praktiskt inom detta område. Vi som inte tidigare gjort programmering hade svårt att förstå vad vi gjorde. Inte en nödvändig del för att förstå resten av kursen. Vill ha mer R-relaterade uppgifter! Det var roligt men vet inte om den gjorde någon nytta i kursen. Bara att knappra siffror rakt upp och ner... Examination: Bra med inluppar längs vägen som motiverar en att verkligen hänga med. Gjorde man inlämningsuppgifterna hade man full koll. Färdigtryckt formelblad på tentan hade varit bättre. Det egna formelbladet gör tentan till en tävling i att skriva litet. Ändra tentan, inga krav på del A bör finnas. Upplägget med A och B-del var smart. Läromedel: Mycket bra med ett kompendium som tar upp precis det kursen tar upp. Ganska många tryckfel. Lite kortfattade förklaringar ibland. Borde vara fler övningar i övningsboken. Väldigt bra kompendium! 4/53
5/53 Sannolikhetslära och statistik Sannolikhetslära: att beräkna sannolikheter för olika händelser där slumpen är inblandad. Statistik: att dra slutsatser om vår omvärld utifrån insamlade data som på något sätt påverkats av slumpen. Men vad är slumpen? Vad är slumpmässigt? Finns slumpen?
6/53 Kursmål: sannolikhetsteori För godkänt betyg ska studenten kunna... genomföra enkla beräkningar av sannolikheter; redogöra för begreppet stokastisk variabel (slumpvariabel) och kunna använda några vanliga sannolikhetsfördelningar; tolka centrala gränsvärdessatsen; Vi illustrerar kursmålen genom att titta på några exempel på problem som de rör.
Kursmål: sannolikhetsteori exempel Hur många parkeringsplatser behövs? Ett företag ska bygga 100 nya lägenheter. Utifrån erfarenhet från liknande områden vet man att sannolikheten är 25 % att ett hushåll inte har någon bil, 50 % att ett hushåll har en bil och 25 % att ett hushåll har två bilar. Hur många bilar kan man förvänta sig att hushållen har tillsammans? Hur många parkeringsplatser ska man bygga vid bostäderna för att sannolikheten att alla hushålls bilar får plats ska vara 95 %? Antag att man av utrymmesskäl inte får plats med fler än 75 parkeringsplatser. Hur stor är då sannolikheten att hushållens bilar får plats? 7/53
Kursmål: sannolikhetsteori exempel Vilket kretskort är bäst? Ett företag ska köpa in kretskort för motorstyrning till en maskin de tillverkar. Företaget erbjuder en garanti som innebär att om kretskortet går sönder inom ett år så byter de ut det utan extra kostnad för kunden. Kretskort A kostar 75 kr och går sönder det första året med sannolikhet 0.1 %. Kretskort B kostar 20 kr och går sönder det första året med sannolikhet 1.2 %. Själva reparationsarbetet kostar 50 kr plus kostnaden för ett nytt kretskort. Vilket kretskort ska företaget välja för att betala så lite som möjligt för kretskort? 8/53
9/53 Kursmål: sannolikhetsteori exempel Kommer data fram? Data skickas mellan två datorer över internet. På vägen passerar det ett antal routrar. Data kan skickas från A till D via två olika vägar. Antingen A E D eller A B C D.
Kursmål: sannolikhetsteori exempel Sannolikheten att router E är trasig är 0.5 %, medan sannolikheten att B är trasig är 0.2 % och sannolikheten att C är trasig är 0.3 %. Om en router är trasig så kan data inte passera den. Vad är sannolikheten att det går att skicka data från A till D, det vill säga sannolikheten att ingen router är trasig? Är sannolikheten att minst en av B och C är trasig mindre än sannolikheten att E är trasig? 10/53
Kursmål: sannolikhetsteori exempel Data-mellan-datorer-problemet liknar många andra problem, som exempelvis Säkerhetssystem i kärnkraftverk Transport av ett paket mellan två platser Mer avancerat: en vara finns i olika mängder på tre olika lager, B, C och D. Man vill åka från A till D och få med sig så mycket vara som möjligt per körd kilometer. Ska man åka via E eller via B och C? 11/53
12/53 Kursmål: statistik För godkänt betyg ska studenten kunna... använda punkt- och intervallskattningar för några statistiska typproblem; tillämpa enkel regressionsmetodik för anpassning av mätdata; ange ett flertal metoder och tekniker för visualisering av datamaterial;
13/53 Kursmål: statistik exempel Utveckling av gruvborrar Ett svenskt företag utvecklar gruvborrar och vill jämföra två olika material för hårdmetallstift på borrkronor. Man gör provborrningar i en gruva, dels med det material som används idag och dels med det nya testmaterial som man utvecklat. Vid provborrningarna mäter man dels hur långt man lyckas borra (borrmeter) och dels nötningen på stiften (i mikrometer). Borrar man längre med det nya materialet än med det gamla? Är nötningen på det nya material mindre än på det gamla? Hur ska man avgöra vilket material som är bäst?
14/53 Kursmål: statistik exempel Jämförelse av borrar Nötning (mikrometer) 1000 2000 3000 4000 5000 6000 Standard Test 40 60 80 100 120 140 Borrmeter
15/53 Kursmål: statistik exempel Varningsskyltars effekt I en brittisk trafikstudie undersökte man effekten av en varningsskylt på bilisters fart. Man mätte farten på ett antal förbipasserande bilar några dagar innan skylten sattes upp; några dagar efter att skylten sattes upp.
16/53 Kursmål: statistik exempel Resultat (mph): Före: 28, 35, 36, 41, 44, 50, 55,... Efter: 25, 28, 30, 33, 35, 45,... Kan man utifrån detta dra slutsatsen att varningsskylten fått bilisterna att sänka farten? Första gången bilister ser en varningsskylt så blir de mer vaksamma, men slutar de vara vaksamma när de vant sig vid skylten? Egentligen är man intresserad av skyltens långsiktiga effekten på farten. Mätning ett halvår efter uppsättning: 31, 36, 41, 41, 45, 57, 60,... Här kanske slutsatsen blir en annan än tidigare...
17/53 Kursmål: statistik exempel Extrema belastningar I många situationer är man intresserad av hur stora de mest extrema belastningarna kommer att vara, så att man kan bygga strukturer som med stor sannolikhet står pall. Vilken blir den största belastningen på det svenska elnätet under 2010-talet? Hur hög kommer den högsta vågen vid en oljeplattform vara de kommande 50 åren? Hur hög kommer den snabbaste vindhastigheten vid ett vindkraftverk vara de kommande 50 åren? Hur mycket nederbörd kommer som mest under en månad de kommande 100 åren?
18/53 Kursmål: statistik exempel Nederbörd i Brisbane i december, 1889 2009 Nederbörd (mm) 0 100 200 300 400 500 1900 1920 1940 1960 1980 2000 År
19/53 Kursmål: statistik exempel Under december 2010 och januari 2011 har Brisbane drabbats av översvämningar som följd av extremt regn.
20/53 Kursmål: statistik exempel Nederbörd i Brisbane i december, 1889 2010 Dec 2010 Nederbörd (mm) 0 100 200 300 400 500 1900 1920 1940 1960 1980 2000 År
Kursmål: statistik exempel Fiberoptik Hur ser sambandet ut? Påverkar luftfuktigheten utmattningen? 21/53
22/53 Kursmål: statistik exempel Sveriges elförbrukning Sveriges elförbrukning i GWh, månadvis jan 1990 till okt 2010 Elförbrukning (Gwh) 10000 12000 14000 16000 1990 1995 2000 2005 2010 År Data med säsongsvariation. Finns det en stigande trend?
23/53 Kursmål: statistik exempel Internet och dagens snabba datorer har förändrat vad statistik är. Vi lever i dataåldern, där data samlas in snabbare än vi hinner analysera den. Vänner på Facebook I Facebooks databaser lagras mängder av information om användarnas aktivitet och vilka deras vänner är. Informationen analyseras och används bland annat för att ge riktade reklamerbjudanden. Stora databaser, som Facebooks, kan vara svåra att visualisera. I december 2010 använde Facebooks infrastructure engineering team programvaran R för att konstruera en karta över Facebookvänner. Linjer mellan städer visar vänskapsband mellan städernas invånare.
Kursmål: statistik exempel 24/53
Kursmål: statistik exempel 25/53
Kursmål: statistik exempel 26/53
27/53 Kursmål: tillämpningar För godkänt betyg ska studenten kunna... redogöra för några typiska ingenjörstillämpningar av sannolikhet och statistik, exempelvis tillförlitlighet och kvalitetsteknik.
28/53 Statistik för ingenjörer Design: Fastslå och beräkna värden i normer och tabeller. Produktutveckling: Jämföra olika prototyper och material. Modellering: Ta med slump, variation och mätfel i matematiska modeller. Riskhantering: Beräkna sannolikheter för oönskade händelser. Beslutsfattande: Välja det alternativ som är bäst ekonomiskt, säkerhetsmässigt, kvalitetsmässigt...
29/53 Behovet av att beskriva datamaterial Vid i stort sett allt statistiskt arbete börjar man med att beskriva och sammanfatta datamaterialet. Visualisering: Grafisk presentation av data. Lägesmått: Hur ser datamaterialet ut i genomsnitt? Spridningsmått: Hur stor är spridningen i datamaterialet? Beroendemått: Om vi studerar flera storheter som varierar slumpmässigt, vad kan vi säga om deras samvariation? Beror de på varandra?
30/53 Olika typer av data Kvalitativa variabler: Kategori- eller grupptillhörighet. Kan inte beskrivas med siffror. Man kan därför inte ordna mätvärdena. Exempel: kön, fungerar/fungerar ej, nationalitet, typ av material... Kvantitativa variabler: Variabler som antar siffervärden och därmed kan jämföras storleksmässigt. Delas upp i två typer: Diskreta variabler: Kan bara anta speciella värden på den skala som används; ofta bara heltalsvärden. Ex: antal, ålder i år, kostnader... Kontinuerliga variabler: Kan anta alla mätvärden i ett intervall. Ex: tekniska och naturvetenskapliga mätvärden. I den här kursen kommer vi framförallt att studera kvantitativa variabler.
31/53 Ett första exempel: diskreta data Vid ett pappersbruk för man dagligen under en månads tid statistik över antalet driftstopp som varar längre än 10 minuter. Resultat: 0, 1, 1, 0, 1, 1, 2, 2, 2, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 5, 1, 2, 0, 0, 0, 1, 1, 2, 3. Eftersom mätvärdena här är antal så är det fråga om diskreta data. Diskreta data illustreras ofta med stolpdiagram.
32/53 Stolpdiagram Antal driftstopp >10 min Frekvens 0 2 4 6 8 10 12 0 1 2 3 4 5 Antal stopp
33/53 Stolpdiagram med relativa frekvenser Antal driftstopp >10 min Relativ frekvens 0.0 0.1 0.2 0.3 0.4 0 1 2 3 4 5 Antal stopp
34/53 Ett andra exempel: kontinuerliga data Vi återvänder nu till jämförelsen av de två borrmaterialen för stift till gruvborrar. Mätvärdena är kontinuerliga, med enheterna meter och mikrometer. Standard 1 2 3 4 5 6 Borrmeter (m) 44.0 123.2 66.7 122.7 69.4 92.0 Nötning (µm) 1201.20 6504.96 2101.05 4797.57 2803.76 3597.20 Test 1 2 3 4 5 6 7 Borrmm 109.8 113.3 122.4 99.6 146.1 121.0 117.0 Nötn. 3996.72 5098.50 4700.16 5398.32 5405.70 3303.30 3205.80 Kontinuerliga data illustreras ofta med histogram och punkt- eller spridningsdiagram.
35/53 Histogram Borrmeter för testmaterialet Frekvens 0.0 0.5 1.0 1.5 2.0 90 100 110 120 130 140 150 Borrmeter
36/53 Histogram med area 1 (motsvarar relativa frekvenser) Borrmeter för testmaterialet Täthet 0.000 0.005 0.010 0.015 0.020 0.025 90 100 110 120 130 140 150 Borrmeter
37/53 Punktdiagram (endimensionella data) Jämförelse av borrar: borrmeter Standard Test Materialtyp 40 60 80 100 120 140 Borrmeter
38/53 Spridningsdiagram (tvådimensionella data) Jämförelse av borrar Nötning (mikrometer) 1000 2000 3000 4000 5000 6000 Standard Test 40 60 80 100 120 140 Borrmeter
39/53 Att vrida och vända på data Ett mått på nötning som företaget bedömde vara intressantare än den totala nötningen är nötning per borrad meter. Standard 1 2 3 4 5 6 Borrmeter (m) 44.0 123.2 66.7 122.7 69.4 92.0 Nötning (µm/m) 27.3 52.8 31.5 39.1 40.4 39.1 Test 1 2 3 4 5 6 7 Borrmeter 109.8 113.3 122.4 99.6 146.1 121.0 117.0 Nötning (µm/m) 36.4 45.0 38.4 54.2 37.0 27.3 27.4
40/53 Spridningsdiagram Jämförelse av borrar Nötning (mikrometer/borrmeter) 25 30 35 40 45 50 55 Standard Test 40 60 80 100 120 140 Borrmeter
41/53 Numeriska mått Man är ofta intresserad av att sammanfatta informationen i datamaterialet i ett eller ett par numeriska värden. Vi ska här diskutera lägesmått, spridningsmått och beroendemått. Vi antar att vi har ett datamaterial som består av n observationer, som betecknas x 1, x 2, x 3,..., x n.
42/53 Lägesmått Lägesmått beskriver var datamaterialet ligger i genomsnitt. Medelvärdet: x = 1 n (x 1 + x 2 +... + x n ) = 1 n i=1 x i. Medianen: Sortera observationerna i storleksordning. Medianen x blir då den mittersta observationen. Om antalet observationer n är jämnt så tar man istället medelvärdet av de två mittersta observationerna. Andra lägesmått som används är geometrisk medelvärde, typvärde och percentiler/kvartiler.
43/53 Spridningsmått Spridningsmått beskriver hur utspritt datamaterialet är. Variansen: s 2 = 1 n 1 n i=1 (x i x) 2. Standardavvikelsen: s = s 2 får samma enhet som ursprungliga data. Exempel: om data mäts i meter får variansen enheten kvadratmeter och standardavvikelsen enheten meter. Variationsbredden: differensen mellan den största och den minsta observationen. Andra spridningsmått som används är exempelvis kvartilavstånd och variationskoefficienten s/ x.
44/53 Drifstopp på pappersbruket Statistik över antalet driftstopp som varar längre än 10 minuter, per dag: 0, 1, 1, 0, 1, 1, 2, 2, 2, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 5, 1, 2, 0, 0, 0, 1, 1, 2, 3. Vi har n = 31 observationer. Medelvärde x = 1 n n i=1 x i = 1 31 (0+1+1+0+1+1+2+2+2+0+0+0+0+1+1+0+0+1+ 0 + 0 + 1 + 5 + 1 + 2 + 0 + 0 + 0 + 1 + 1 + 2 + 3) = 29 31 = 0.9354839. Median x: 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 3 5. Varians s 2 = 1 n n 1 i=1 (x i x) 2 = 1 31 30 i=1 (x i 0.9354839) 2 = ) 1 30 ((0 0.9354839) 2 +(1 0.9354839) 2 +...+(3 0.9354839) 2 = 1.262366.
45/53 Jämförelse av borrar Vi återgår till jämförelsen av material för stift till gruvborrar. Statistiska mått för borrmeter: Mått x x s 2 s s/ x Standard 86.3 80.7 1035.6 32.2 0.37 Test 118.5 117 207.6 14.4 0.12 Verkar det finns någon skillnad mellan materialen? I läge? I spridning? Statistiska mått för nötning i mikrometer/borrmeter: Mått x x s 2 s s/ x Standard 38.3 39.1 76.6 8.8 0.23 Test 38.0 37 90.3 9.5 0.25 Skillnader?
46/53 Lådagram Jämförelse av borrar: lådagram Borrmeter 40 60 80 100 120 140 Standard Test
47/53 Lådagram Jämförelse av borrar: lådagram Nötning 30 35 40 45 50 55 Standard Test
48/53 Beroendemått Ofta mäter man två olika egenskaper för varje enhet (som i borrexemplet). Man har då två variabler x och y som finns registrerade parvis: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Beroendemått beskriver samvariationen mellan de två variablerna. Kovariansen: c = 1 n 1 n i=1 (x i x)(y i ȳ). Korrelationskoefficienten: r = att 1 r 1. c s x s y är en enhetslös storhet sådan Om r = 1 så ligger observationerna på en rät linje med positiv lutning och om r = 1 på en rät linje med negativ lutning. Om r ligger nära 0 så tyder det på att det inte finns något linjärt samband mellan variablerna. Andra beroendemått som används är Kendalls τ och Spearmans ρ.
Beroendemått Jämförelse av borrar Nötning (mikrometer) 1000 2000 3000 4000 5000 6000 Standard Test 40 60 80 100 120 140 Borrmeter För standardmaterialet får vi r = 0.95 och för testmaterialet får vi r = 0.11. 49/53
50/53 Beroendemått Om r ligger nära -1 eller 1 så tyder det på att det finns ett starkt samband mellan variablerna. Men: samband är inte detsamma som orsakssamband! Exempel: vid en undersök av barns läs- och skrivförmåga upptäckte man att barn med stora fötter stavar bättre. Exempel: glassförsäljning per månad och antal drunkningsolyckor per månad har hög korrelation. Exempel: för perioden 1945-1957 så är korrelationen mellan antalet häckande storkar i Köpenhamn och antalet barn som föddes i staden hög. Man kan bevisa vad som helst med statistik åtminstone om man är oförsiktig och inte tänker efter ordentligt. Lästips: Allan Gut: Sant eller sannolikt (Norstedts 2002).
51/53 Sammanfattning Typ av data Diskreta Kontinuerliga Visualisering av data Stolpdiagram, histogram Punktdiagram, spridningsdiagram Lådagram Numeriska mått Medelvärde x, median x Varians s 2, standardavvikelse s Korrelationskoefficient r
52/53 Nästa gång Definition av sannolikhet Mängder och händelser Räkneregler för sannolikheter
53/53 The Joy of Stats Hemuppgift till nästa gång: titta på filmen The Joy of Stats på http://www.gapminder.org/videos/the-joy-of-stats