Introduktion till statistik för ingenjörer

Relevanta dokument
F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Mer om slumpvariabler

Mer om konfidensintervall + repetition

Sannolikhetsteori. Måns Thulin. Uppsala universitet Statistik för ingenjörer 23/ /14

FMSF 30/35/40 Matematisk statistik Grundläggande sannolikhetsteori Sannolikhetsteori och diskret matematik

F14 Repetition. Måns Thulin. Uppsala universitet Statistik för ingenjörer 6/ /15

13.1 Matematisk statistik

Statistik 1 för biologer, logopeder och psykologer

732G01/732G40 Grundläggande statistik (7.5hp)

Föreläsning G60 Statistiska metoder

F11 Två stickprov. Måns Thulin. Uppsala universitet Statistik för ingenjörer 26/ /11

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

Statistik för ingenjörer 1MS008

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Sannolikhet och statistik 1MS005

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

SF1901: SANNOLIKHETSTEORI OCH STATISTIK GRUNDLÄGGANDE SANNOLIKHETSTEORI, KORT OM BESKRIVANDE STATISTIK. Tatjana Pavlenko.

Beskrivande statistik

Välkommen till Matematik 3 för lärare!

Exempel: Väljarbarometern. Föreläsning 1: Introduktion. Om Väljarbarometern. Statistikens uppgift

Beskrivande statistik

Föreläsning 7: Punktskattningar

Problemlösning. Måns Thulin. Uppsala universitet Statistik för ingenjörer 30/ /16

Föreläsning 1: Introduktion

Valresultat Riksdagen 2018

Diskussionsproblem för Statistik för ingenjörer

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Statistik 1 för biologer, logopeder och psykologer

2 Dataanalys och beskrivande statistik

Studiehandledning S0001M Matematisk statistik Läsperiod 2, HT 2017

SF1901 Sannolikhetsteori och statistik I

Matematisk statistik fo r B, K, N, BME och Kemister. Matematisk statistik slumpens matematik. Beskriva Data Florence Nightingale.

HÖGSKOLAN I BORÅS. FORSKNINGSMETODER I OFFENTLIG FÖRVALTNING 15 Högskolepoäng

KLEINLEKTION. Område statistik. Lektionens upplägg. Lämplig inom kurserna Matematik 2b och 2c. Engage (Väck intresse) Explore (Upptäck laborera)

Bearbetning och Presentation

Examinationsuppgift 2014

Matematisk statistik for B, K, N, BME och Kemister. Matematisk statistik slumpens matematik. Beskriva Data Florence Nightingale. Forel.

Deskription (Kapitel 2 i Howell) Moment 1: Statistik, 3 poäng

Summor av slumpvariabler

Studiehandledning S0001M Matematisk statistik Läsperiod 4, VT 2017

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

Valfritt läromedel för kurs Matematik B Exempel: Räkna med Vux B, Gleerups förlag. Tag kontakt med examinator om du har frågor

Föreläsning G60 Statistiska metoder

Finansiell statistik, vt-05. Allmän information. Johan Koskinen. F1(a) Allmän information

Tentamen i Matematisk statistik Kurskod S0001M

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

Föreläsning 1: Introduktion

F13 Regression och problemlösning

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Gamla tentor (forts) ( x. x ) ) 2 x1

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Statistiska undersökningar

Föreläsning G70 Statistik A

Laboration 1: Beskrivande statistik

Introföreläsning i S0001M Matematisk statistik Läsperiod 2, HT 2018

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

DATORÖVNING 2: SIMULERING

OBS! Vi har nya rutiner.

Studiehandledning S0008M Sannolikhetslära och statistik Läsperiod 1, HT 2017

F4 Beskrivning av ett datamaterial. Val av diagram, lägesmått och spridningsmått.

Studiehandledning S0001M Matematisk statistik Läsperiod 2, Ht 2013

Lektionsanteckningar 11-12: Normalfördelningen

MVE051/MSG Föreläsning 7

TENTAMEN I STATISTIKENS GRUNDER 1

Repetitionsföreläsning

Tentamen i Matematisk statistik Kurskod S0001M

LYCKA TILL! Omtentamen i Statistik A1, Institutionen för Farmaceutisk Biovetenskap Institutionen för Farmaci

Tentamen i Matematisk statistik Kurskod S0001M

Introföreläsning i S0001M, Matematisk statistik LP3 VT18

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

TMS136. Föreläsning 7

Föreläsning 7: Punktskattningar

Föreläsning 1: Introduktion

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning 7: Punktskattningar

Kursbeskrivning för Statistisk teori med tillämpningar, Moment 1, 7,5 hp

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

STOCKHOLMS UNIVERSITET HT 2011 Statistiska institutionen Bertil Wegmann

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

TENTAMEN I MATEMATIK MED MATEMATISK STATISTIK HF1004, TEN

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

KURSPROGRAM HT-18 MATEMATISK STATISTIK AK FÖR D, I OCH PI, FMSF45 & MASB03

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

ÄMAD04, Matematik 4, 30 högskolepoäng Mathematics 4, 30 credits Grundnivå / First Cycle

Höftledsdysplasi hos dansk-svensk gårdshund

Förra gången (F4-F5)

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Syfte med undervisningen är att du ska få utveckla din förmåga att...

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Sannolikhetslära och statistik, grundkurs

Andelar och procent Fractions and Percentage

SF1914/SF1916: SANNOLIKHETSTEORI OCH GRUNDLÄGGANDE SANNOLIKHETSTEORI, STATISTIK KORT OM BESKRIVANDE STATISTIK. Tatjana Pavlenko.

Kvantitativ forskning C2. Viktiga begrepp och univariat analys

Läs noggrant informationen nedan innan du börjar skriva tentamen

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

Fö relä sning 1, Kö system vä ren 2014

Transkript:

1/53 Introduktion till statistik för ingenjörer Måns Thulin Uppsala universitet thulin@math.uu.se 17/1 2011

2/53 Dagens föreläsning Presentation av kursen Statistik och sannolikhet inledande exempel Att undersöka data

3/53 Kursupplägg 10 föreläsningar 6 lektioner 2 datorövningar R www.r-project.org Kurslitteratur: Stokastisk för ingenjörer (Uthgård) Tenta 17/3 Två delar, A och B På del A krävs minst 8 av 10 poäng för godkänt Tillåtna hjälpmedel är räknedosa, utdelat tabellblad och en sida på ett A4-papper med egna handskrivna anteckningar Tre inlämningsuppgifter Varje inlupp ger som mest 20 poäng Sammanlagt minst 30 p ger 1 bonuspoäng till tentan Sammanlagt minst 40 p ger 2 bonuspoäng till tentan Löses på egen hand eller i grupper om två Kursmaterial m.m. på Studentportalen

Tidigare kursvärderingar Datorövningar: Hade varit bättre att använda Matlab. Gav en bild av hur man kan jobba mer praktiskt inom detta område. Vi som inte tidigare gjort programmering hade svårt att förstå vad vi gjorde. Inte en nödvändig del för att förstå resten av kursen. Vill ha mer R-relaterade uppgifter! Det var roligt men vet inte om den gjorde någon nytta i kursen. Bara att knappra siffror rakt upp och ner... Examination: Bra med inluppar längs vägen som motiverar en att verkligen hänga med. Gjorde man inlämningsuppgifterna hade man full koll. Färdigtryckt formelblad på tentan hade varit bättre. Det egna formelbladet gör tentan till en tävling i att skriva litet. Ändra tentan, inga krav på del A bör finnas. Upplägget med A och B-del var smart. Läromedel: Mycket bra med ett kompendium som tar upp precis det kursen tar upp. Ganska många tryckfel. Lite kortfattade förklaringar ibland. Borde vara fler övningar i övningsboken. Väldigt bra kompendium! 4/53

5/53 Sannolikhetslära och statistik Sannolikhetslära: att beräkna sannolikheter för olika händelser där slumpen är inblandad. Statistik: att dra slutsatser om vår omvärld utifrån insamlade data som på något sätt påverkats av slumpen. Men vad är slumpen? Vad är slumpmässigt? Finns slumpen?

6/53 Kursmål: sannolikhetsteori För godkänt betyg ska studenten kunna... genomföra enkla beräkningar av sannolikheter; redogöra för begreppet stokastisk variabel (slumpvariabel) och kunna använda några vanliga sannolikhetsfördelningar; tolka centrala gränsvärdessatsen; Vi illustrerar kursmålen genom att titta på några exempel på problem som de rör.

Kursmål: sannolikhetsteori exempel Hur många parkeringsplatser behövs? Ett företag ska bygga 100 nya lägenheter. Utifrån erfarenhet från liknande områden vet man att sannolikheten är 25 % att ett hushåll inte har någon bil, 50 % att ett hushåll har en bil och 25 % att ett hushåll har två bilar. Hur många bilar kan man förvänta sig att hushållen har tillsammans? Hur många parkeringsplatser ska man bygga vid bostäderna för att sannolikheten att alla hushålls bilar får plats ska vara 95 %? Antag att man av utrymmesskäl inte får plats med fler än 75 parkeringsplatser. Hur stor är då sannolikheten att hushållens bilar får plats? 7/53

Kursmål: sannolikhetsteori exempel Vilket kretskort är bäst? Ett företag ska köpa in kretskort för motorstyrning till en maskin de tillverkar. Företaget erbjuder en garanti som innebär att om kretskortet går sönder inom ett år så byter de ut det utan extra kostnad för kunden. Kretskort A kostar 75 kr och går sönder det första året med sannolikhet 0.1 %. Kretskort B kostar 20 kr och går sönder det första året med sannolikhet 1.2 %. Själva reparationsarbetet kostar 50 kr plus kostnaden för ett nytt kretskort. Vilket kretskort ska företaget välja för att betala så lite som möjligt för kretskort? 8/53

9/53 Kursmål: sannolikhetsteori exempel Kommer data fram? Data skickas mellan två datorer över internet. På vägen passerar det ett antal routrar. Data kan skickas från A till D via två olika vägar. Antingen A E D eller A B C D.

Kursmål: sannolikhetsteori exempel Sannolikheten att router E är trasig är 0.5 %, medan sannolikheten att B är trasig är 0.2 % och sannolikheten att C är trasig är 0.3 %. Om en router är trasig så kan data inte passera den. Vad är sannolikheten att det går att skicka data från A till D, det vill säga sannolikheten att ingen router är trasig? Är sannolikheten att minst en av B och C är trasig mindre än sannolikheten att E är trasig? 10/53

Kursmål: sannolikhetsteori exempel Data-mellan-datorer-problemet liknar många andra problem, som exempelvis Säkerhetssystem i kärnkraftverk Transport av ett paket mellan två platser Mer avancerat: en vara finns i olika mängder på tre olika lager, B, C och D. Man vill åka från A till D och få med sig så mycket vara som möjligt per körd kilometer. Ska man åka via E eller via B och C? 11/53

12/53 Kursmål: statistik För godkänt betyg ska studenten kunna... använda punkt- och intervallskattningar för några statistiska typproblem; tillämpa enkel regressionsmetodik för anpassning av mätdata; ange ett flertal metoder och tekniker för visualisering av datamaterial;

13/53 Kursmål: statistik exempel Utveckling av gruvborrar Ett svenskt företag utvecklar gruvborrar och vill jämföra två olika material för hårdmetallstift på borrkronor. Man gör provborrningar i en gruva, dels med det material som används idag och dels med det nya testmaterial som man utvecklat. Vid provborrningarna mäter man dels hur långt man lyckas borra (borrmeter) och dels nötningen på stiften (i mikrometer). Borrar man längre med det nya materialet än med det gamla? Är nötningen på det nya material mindre än på det gamla? Hur ska man avgöra vilket material som är bäst?

14/53 Kursmål: statistik exempel Jämförelse av borrar Nötning (mikrometer) 1000 2000 3000 4000 5000 6000 Standard Test 40 60 80 100 120 140 Borrmeter

15/53 Kursmål: statistik exempel Varningsskyltars effekt I en brittisk trafikstudie undersökte man effekten av en varningsskylt på bilisters fart. Man mätte farten på ett antal förbipasserande bilar några dagar innan skylten sattes upp; några dagar efter att skylten sattes upp.

16/53 Kursmål: statistik exempel Resultat (mph): Före: 28, 35, 36, 41, 44, 50, 55,... Efter: 25, 28, 30, 33, 35, 45,... Kan man utifrån detta dra slutsatsen att varningsskylten fått bilisterna att sänka farten? Första gången bilister ser en varningsskylt så blir de mer vaksamma, men slutar de vara vaksamma när de vant sig vid skylten? Egentligen är man intresserad av skyltens långsiktiga effekten på farten. Mätning ett halvår efter uppsättning: 31, 36, 41, 41, 45, 57, 60,... Här kanske slutsatsen blir en annan än tidigare...

17/53 Kursmål: statistik exempel Extrema belastningar I många situationer är man intresserad av hur stora de mest extrema belastningarna kommer att vara, så att man kan bygga strukturer som med stor sannolikhet står pall. Vilken blir den största belastningen på det svenska elnätet under 2010-talet? Hur hög kommer den högsta vågen vid en oljeplattform vara de kommande 50 åren? Hur hög kommer den snabbaste vindhastigheten vid ett vindkraftverk vara de kommande 50 åren? Hur mycket nederbörd kommer som mest under en månad de kommande 100 åren?

18/53 Kursmål: statistik exempel Nederbörd i Brisbane i december, 1889 2009 Nederbörd (mm) 0 100 200 300 400 500 1900 1920 1940 1960 1980 2000 År

19/53 Kursmål: statistik exempel Under december 2010 och januari 2011 har Brisbane drabbats av översvämningar som följd av extremt regn.

20/53 Kursmål: statistik exempel Nederbörd i Brisbane i december, 1889 2010 Dec 2010 Nederbörd (mm) 0 100 200 300 400 500 1900 1920 1940 1960 1980 2000 År

Kursmål: statistik exempel Fiberoptik Hur ser sambandet ut? Påverkar luftfuktigheten utmattningen? 21/53

22/53 Kursmål: statistik exempel Sveriges elförbrukning Sveriges elförbrukning i GWh, månadvis jan 1990 till okt 2010 Elförbrukning (Gwh) 10000 12000 14000 16000 1990 1995 2000 2005 2010 År Data med säsongsvariation. Finns det en stigande trend?

23/53 Kursmål: statistik exempel Internet och dagens snabba datorer har förändrat vad statistik är. Vi lever i dataåldern, där data samlas in snabbare än vi hinner analysera den. Vänner på Facebook I Facebooks databaser lagras mängder av information om användarnas aktivitet och vilka deras vänner är. Informationen analyseras och används bland annat för att ge riktade reklamerbjudanden. Stora databaser, som Facebooks, kan vara svåra att visualisera. I december 2010 använde Facebooks infrastructure engineering team programvaran R för att konstruera en karta över Facebookvänner. Linjer mellan städer visar vänskapsband mellan städernas invånare.

Kursmål: statistik exempel 24/53

Kursmål: statistik exempel 25/53

Kursmål: statistik exempel 26/53

27/53 Kursmål: tillämpningar För godkänt betyg ska studenten kunna... redogöra för några typiska ingenjörstillämpningar av sannolikhet och statistik, exempelvis tillförlitlighet och kvalitetsteknik.

28/53 Statistik för ingenjörer Design: Fastslå och beräkna värden i normer och tabeller. Produktutveckling: Jämföra olika prototyper och material. Modellering: Ta med slump, variation och mätfel i matematiska modeller. Riskhantering: Beräkna sannolikheter för oönskade händelser. Beslutsfattande: Välja det alternativ som är bäst ekonomiskt, säkerhetsmässigt, kvalitetsmässigt...

29/53 Behovet av att beskriva datamaterial Vid i stort sett allt statistiskt arbete börjar man med att beskriva och sammanfatta datamaterialet. Visualisering: Grafisk presentation av data. Lägesmått: Hur ser datamaterialet ut i genomsnitt? Spridningsmått: Hur stor är spridningen i datamaterialet? Beroendemått: Om vi studerar flera storheter som varierar slumpmässigt, vad kan vi säga om deras samvariation? Beror de på varandra?

30/53 Olika typer av data Kvalitativa variabler: Kategori- eller grupptillhörighet. Kan inte beskrivas med siffror. Man kan därför inte ordna mätvärdena. Exempel: kön, fungerar/fungerar ej, nationalitet, typ av material... Kvantitativa variabler: Variabler som antar siffervärden och därmed kan jämföras storleksmässigt. Delas upp i två typer: Diskreta variabler: Kan bara anta speciella värden på den skala som används; ofta bara heltalsvärden. Ex: antal, ålder i år, kostnader... Kontinuerliga variabler: Kan anta alla mätvärden i ett intervall. Ex: tekniska och naturvetenskapliga mätvärden. I den här kursen kommer vi framförallt att studera kvantitativa variabler.

31/53 Ett första exempel: diskreta data Vid ett pappersbruk för man dagligen under en månads tid statistik över antalet driftstopp som varar längre än 10 minuter. Resultat: 0, 1, 1, 0, 1, 1, 2, 2, 2, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 5, 1, 2, 0, 0, 0, 1, 1, 2, 3. Eftersom mätvärdena här är antal så är det fråga om diskreta data. Diskreta data illustreras ofta med stolpdiagram.

32/53 Stolpdiagram Antal driftstopp >10 min Frekvens 0 2 4 6 8 10 12 0 1 2 3 4 5 Antal stopp

33/53 Stolpdiagram med relativa frekvenser Antal driftstopp >10 min Relativ frekvens 0.0 0.1 0.2 0.3 0.4 0 1 2 3 4 5 Antal stopp

34/53 Ett andra exempel: kontinuerliga data Vi återvänder nu till jämförelsen av de två borrmaterialen för stift till gruvborrar. Mätvärdena är kontinuerliga, med enheterna meter och mikrometer. Standard 1 2 3 4 5 6 Borrmeter (m) 44.0 123.2 66.7 122.7 69.4 92.0 Nötning (µm) 1201.20 6504.96 2101.05 4797.57 2803.76 3597.20 Test 1 2 3 4 5 6 7 Borrmm 109.8 113.3 122.4 99.6 146.1 121.0 117.0 Nötn. 3996.72 5098.50 4700.16 5398.32 5405.70 3303.30 3205.80 Kontinuerliga data illustreras ofta med histogram och punkt- eller spridningsdiagram.

35/53 Histogram Borrmeter för testmaterialet Frekvens 0.0 0.5 1.0 1.5 2.0 90 100 110 120 130 140 150 Borrmeter

36/53 Histogram med area 1 (motsvarar relativa frekvenser) Borrmeter för testmaterialet Täthet 0.000 0.005 0.010 0.015 0.020 0.025 90 100 110 120 130 140 150 Borrmeter

37/53 Punktdiagram (endimensionella data) Jämförelse av borrar: borrmeter Standard Test Materialtyp 40 60 80 100 120 140 Borrmeter

38/53 Spridningsdiagram (tvådimensionella data) Jämförelse av borrar Nötning (mikrometer) 1000 2000 3000 4000 5000 6000 Standard Test 40 60 80 100 120 140 Borrmeter

39/53 Att vrida och vända på data Ett mått på nötning som företaget bedömde vara intressantare än den totala nötningen är nötning per borrad meter. Standard 1 2 3 4 5 6 Borrmeter (m) 44.0 123.2 66.7 122.7 69.4 92.0 Nötning (µm/m) 27.3 52.8 31.5 39.1 40.4 39.1 Test 1 2 3 4 5 6 7 Borrmeter 109.8 113.3 122.4 99.6 146.1 121.0 117.0 Nötning (µm/m) 36.4 45.0 38.4 54.2 37.0 27.3 27.4

40/53 Spridningsdiagram Jämförelse av borrar Nötning (mikrometer/borrmeter) 25 30 35 40 45 50 55 Standard Test 40 60 80 100 120 140 Borrmeter

41/53 Numeriska mått Man är ofta intresserad av att sammanfatta informationen i datamaterialet i ett eller ett par numeriska värden. Vi ska här diskutera lägesmått, spridningsmått och beroendemått. Vi antar att vi har ett datamaterial som består av n observationer, som betecknas x 1, x 2, x 3,..., x n.

42/53 Lägesmått Lägesmått beskriver var datamaterialet ligger i genomsnitt. Medelvärdet: x = 1 n (x 1 + x 2 +... + x n ) = 1 n i=1 x i. Medianen: Sortera observationerna i storleksordning. Medianen x blir då den mittersta observationen. Om antalet observationer n är jämnt så tar man istället medelvärdet av de två mittersta observationerna. Andra lägesmått som används är geometrisk medelvärde, typvärde och percentiler/kvartiler.

43/53 Spridningsmått Spridningsmått beskriver hur utspritt datamaterialet är. Variansen: s 2 = 1 n 1 n i=1 (x i x) 2. Standardavvikelsen: s = s 2 får samma enhet som ursprungliga data. Exempel: om data mäts i meter får variansen enheten kvadratmeter och standardavvikelsen enheten meter. Variationsbredden: differensen mellan den största och den minsta observationen. Andra spridningsmått som används är exempelvis kvartilavstånd och variationskoefficienten s/ x.

44/53 Drifstopp på pappersbruket Statistik över antalet driftstopp som varar längre än 10 minuter, per dag: 0, 1, 1, 0, 1, 1, 2, 2, 2, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 5, 1, 2, 0, 0, 0, 1, 1, 2, 3. Vi har n = 31 observationer. Medelvärde x = 1 n n i=1 x i = 1 31 (0+1+1+0+1+1+2+2+2+0+0+0+0+1+1+0+0+1+ 0 + 0 + 1 + 5 + 1 + 2 + 0 + 0 + 0 + 1 + 1 + 2 + 3) = 29 31 = 0.9354839. Median x: 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 3 5. Varians s 2 = 1 n n 1 i=1 (x i x) 2 = 1 31 30 i=1 (x i 0.9354839) 2 = ) 1 30 ((0 0.9354839) 2 +(1 0.9354839) 2 +...+(3 0.9354839) 2 = 1.262366.

45/53 Jämförelse av borrar Vi återgår till jämförelsen av material för stift till gruvborrar. Statistiska mått för borrmeter: Mått x x s 2 s s/ x Standard 86.3 80.7 1035.6 32.2 0.37 Test 118.5 117 207.6 14.4 0.12 Verkar det finns någon skillnad mellan materialen? I läge? I spridning? Statistiska mått för nötning i mikrometer/borrmeter: Mått x x s 2 s s/ x Standard 38.3 39.1 76.6 8.8 0.23 Test 38.0 37 90.3 9.5 0.25 Skillnader?

46/53 Lådagram Jämförelse av borrar: lådagram Borrmeter 40 60 80 100 120 140 Standard Test

47/53 Lådagram Jämförelse av borrar: lådagram Nötning 30 35 40 45 50 55 Standard Test

48/53 Beroendemått Ofta mäter man två olika egenskaper för varje enhet (som i borrexemplet). Man har då två variabler x och y som finns registrerade parvis: (x 1, y 1 ), (x 2, y 2 ),..., (x n, y n ). Beroendemått beskriver samvariationen mellan de två variablerna. Kovariansen: c = 1 n 1 n i=1 (x i x)(y i ȳ). Korrelationskoefficienten: r = att 1 r 1. c s x s y är en enhetslös storhet sådan Om r = 1 så ligger observationerna på en rät linje med positiv lutning och om r = 1 på en rät linje med negativ lutning. Om r ligger nära 0 så tyder det på att det inte finns något linjärt samband mellan variablerna. Andra beroendemått som används är Kendalls τ och Spearmans ρ.

Beroendemått Jämförelse av borrar Nötning (mikrometer) 1000 2000 3000 4000 5000 6000 Standard Test 40 60 80 100 120 140 Borrmeter För standardmaterialet får vi r = 0.95 och för testmaterialet får vi r = 0.11. 49/53

50/53 Beroendemått Om r ligger nära -1 eller 1 så tyder det på att det finns ett starkt samband mellan variablerna. Men: samband är inte detsamma som orsakssamband! Exempel: vid en undersök av barns läs- och skrivförmåga upptäckte man att barn med stora fötter stavar bättre. Exempel: glassförsäljning per månad och antal drunkningsolyckor per månad har hög korrelation. Exempel: för perioden 1945-1957 så är korrelationen mellan antalet häckande storkar i Köpenhamn och antalet barn som föddes i staden hög. Man kan bevisa vad som helst med statistik åtminstone om man är oförsiktig och inte tänker efter ordentligt. Lästips: Allan Gut: Sant eller sannolikt (Norstedts 2002).

51/53 Sammanfattning Typ av data Diskreta Kontinuerliga Visualisering av data Stolpdiagram, histogram Punktdiagram, spridningsdiagram Lådagram Numeriska mått Medelvärde x, median x Varians s 2, standardavvikelse s Korrelationskoefficient r

52/53 Nästa gång Definition av sannolikhet Mängder och händelser Räkneregler för sannolikheter

53/53 The Joy of Stats Hemuppgift till nästa gång: titta på filmen The Joy of Stats på http://www.gapminder.org/videos/the-joy-of-stats