StaM-Bladet. Informationsblad för medlemmar i StaM (Statistisk Metodik), sektion inom SFK, Svenska Förbundet för Kvalitet

Relevanta dokument
Nedan redovisas resultatet med hjälp av ett antal olika diagram (pkt 1-6):

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning G60 Statistiska metoder

4.1 Grundläggande sannolikhetslära

Introduktion till statistik för statsvetare

4 Diskret stokastisk variabel

FÖRELÄSNING 8:

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

TMS136. Föreläsning 4

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

1.1 Diskret (Sannolikhets-)fördelning

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Våra vanligaste fördelningar

Tentamen i Dataanalys och statistik för I den 28 okt 2015

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Kap 3: Diskreta fördelningar

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Uppgift 1. Produktmomentkorrelationskoefficienten

Simulering av Poissonprocesser Olle Nerman, Grupprojekt i MSG110,GU HT 2015 (max 5 personer/grupp)

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Föreläsning G60 Statistiska metoder

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

MVE051/MSG Föreläsning 7

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

bli bekant med summor av stokastiska variabler.

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

F3 Introduktion Stickprov

Studietyper, inferens och konfidensintervall

MSG830 Statistisk analys och experimentplanering - Lösningar

FÖRELÄSNING 4:

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

1 Stokastiska processer. 2 Poissonprocessen

SF1901: Sannolikhetslära och statistik

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

TMS136. Föreläsning 7

Veckoblad 3. Kapitel 3 i Matematisk statistik, Blomqvist U.

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Exempel på tentamensuppgifter

Föreläsning 5: Hypotesprövningar

1. Inledning, som visar att man inte skall tro på allt man ser. Betrakta denna följd av tal, där varje tal är dubbelt så stort som närmast föregående

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Statistik 1 för biologer, logopeder och psykologer

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Valresultat Riksdagen 2018

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Avd. Matematisk statistik

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Gamla tentamensuppgifter i stokastik

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Avd. Matematisk statistik

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0002M, MAM801, IEK600,IEK309 Institutionen för matematik Datum Skrivtid

Statistisk utvärdering av antagningen till Polishögskolan

Föreläsning 8, FMSF45 Binomial- och Poissonfördelning, Poissonprocess

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

SF1901: Sannolikhetslära och statistik

1 Mätdata och statistik

Tentamen MVE301 Sannolikhet, statistik och risk

Samplingfördelningar 1

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

Uppgift 1 (14p) lika stor eller mindre än den förväntade poängen som efterfrågades i deluppgift d? Endast svar krävs, ingen motivering.

Parade och oparade test

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Tentamen i Matematisk statistik Kurskod S0001M

Matematisk statistik KTH. Formelsamling i matematisk statistik

Formel- och tabellsamling i matematisk statistik

Tentamen i Matematisk statistik Kurskod S0001M

Några extra övningsuppgifter i Statistisk teori

0 om x < 0, F X (x) = c x. 1 om x 2.

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

TMS136. Föreläsning 11

Föreläsning 4: Konfidensintervall (forts.)

Transkript:

StaM-Bladet Informationsblad för medlemmar i StaM (Statistisk Metodik), sektion inom SFK, Svenska Förbundet för Kvalitet Augusti 1994 årgång 4 nummer 9 Nionde numret I detta nionde nummer har vi några sidor där vi diskuterar några grundläggande statistiska synpunkter på en intressant datamängd: resultatet i fotbolls-vm. Strax före VM intervjuades den norske tränaren Drillo i sportradion. Journalisten visste om att Drillo studerade fotboll ur en statistisk synpunkt och hävde ur sig något om det trista och tråkiga med bara siffror: Jeg syns det er moro, sade Drillo. Vi hoppas StaM-Bladets läsare instämmer. Dessutom redovisar vi resultatet från en enkät som genomförts i StaM-Bladets läsekrets. Att studera t.ex. tidsåtgången i ett flöde i en produktionsenhet är en intressant och givande statistisk utmaning. Vi har med ett kort exempel. Data som presenteras i form av t.ex. en felkvot är ganska svåra att anlysera. Oftast presenteras bara felkvoten men man behöver också antal värden i partiet för att göra en korrekt analys. En vinkling på detta problem presenteras också. Fler bidrag från läsare välkomnas. Ordförandens ruta Den sköna sommaren, som nu måste anses vara slut, kommer vi att leva länge på. Den har fört det goda med sig, att vi kanske ser fram emot hösten på ett annat sätt än tidigare. Hösten är också den tid då det årliga StaM-seminariet går av stapeln och i år sker det onsdagen den 26 oktober i Stockholm. I anslutning till seminariet har vi också årsmöte i sektionen och jag hoppas att så många som möjligt kan delta även i detta. Ni finner program och närmare detaljer angående seminariet på näst sista sidan. Årets seminarium har temat Försöksplanering i teori och praktik och föredragshållarna kommer både från industri och högskola. Förutom det som titeln anger blir det också en hel del om erfarenheter kring förutsättningar, utbildning och införande. I år kan vi även erbjuda två nyheter. I syfte att tillgodose så många olika intressen som möjligt körs två parallella sessioner, en med praktikfall från företag och en där mer generella frågor tas upp. Den andra nyheten är att det under seminariet kommer att finnas en fråge-hörna där det är möjligt att diskutera frågor om försöksplanering och andra statistiska metoder. Ta tillfället i akt och planera redan nu in seminariet i almanackan. Marie Olausson Förteckning över styrelsen finns på sista sidan

STATISTISK ANALYS AV EN FREKVENSTABELL I den enkät som styrelsen genomförde fanns en fråga: Vad anser du om nivån på StaM-bladet? Tre svarsalternativ gavs, för låg nivå, lagom och för teoretiskt hög nivå. Tabell 1 visar antalet svar, uppdelat på de svarandes utbildningsnivå. I tabellen är responsen på de första två frågorna sammanförda till en kolumn, eftersom endast två personer ansåg att nivån var för låg. Låg eller lagom För teoretisk Total Gymnasium 9 (41 %) 13 (59 %) 22 Akademiker 29 (81 %) 7 (19 %) 36 Total 38 2 58 Tabell 1. Uppfattning om nivån på StaM-bladet, uppdelad på de svarandes utbildningsnivå. Siffrorna anger frekvens och radprocent (inom parentes) De observerade frekvenserna i stickprovet visar att svarande med högst gymnasieutbildning i högre grad än akademikerna angav att bladet har en för teoretiskt hög nivå. Är denna bild representativ för alla medlemmar? Eller är det slumpen som har gjort att vi fått detta utfall? För att kunna besvara detta formulerar vi nollhypotesen: Det finns ingen association mellan utbildning och anseende om nivån på StaM-bladet. När detta är gjort ska vi se om vi kan förkasta denna hypotes. En vanlig metod för att göra denna hypotesprövning är den s.k. Chi-två-testen. Denna metod beräknar en summa. Summan baseras på en jämförelse mellan observerade frekvenser och förväntade frekvenser om ingen association mellan rader och kolumner finns. Förväntade frekvenser beräknas från totalerna i tabellens marginaler. Vi har 22 st svarande av 58 med gymnasieutbildning. Totalt har 38 st avgivit svaret Låg eller lagom. Den övre, vänstra cellen har därför det förväntade värdet 38*(22/58)=14.4. Det är den frekvens vi skulle ha förväntat oss i denna cell om andelarna i cellerna vore samma som totalerna visar, dvs rader och kolumner vore oberoende av varandra, utan association. Beräkningen ger tabell 2. Låg eller lagom För teoretisk Total Gymnasium 9 (14.4) 13 (7.6) 22 Akademiker 29 (23.6) 7 (12.4) 36 Total 38 2 58 Tabell 2. Observerade och förväntade frekvenser (inom parentes) Vi ser i tabell 2 att akademiker har en lägre förväntad frekvens än den observerade i kolumnen Låg eller lagom. Motsatsen gäller för de med gymnasieutbildning. Kvadraten på skillnaden mellan observerad (O) och förväntad (E) frekvens, dividerat med den förväntade frekvensen summeras över all n celler: Summan blir 2.3 3.86 1.26 2.36 = 9.5. StaM-Bladet nr 9, aug 94 2

Ju större skillnaderna är mellan observerade och förväntade frekvenser, desto större blir summan. Kunde vi förväntas få ett så högt värde som 9.5 om de observerade frekvenserna bara är betingade av slumpen? Under vissa förutsättningar (se nedan), är summan fördelad enligt chi-två-fördelningen. Vi kan då jämföra med tabellerade värden hur denna fördelning uppför sig. Vi tar reda på om värdet 9.5 är större än vad man skulle förväntas få om enbart slumpen rådde. Tabellvärden för chi-tvåfördelningen finns i de flesta statistikböcker. Fördelningen är beroende av det antal frihetsgrader som värdet baseras på. I vårt fall har vi en tabell med två rader (n = 2) och två kolumner (k = 2). Värdena i cellerna bestäms av totalerna i marginalen. Om vi väljer värdet i en cell, bestäms de andra cellernas värden automatiskt av restriktionen att totalerna i marginalerna måste vara uppfyllda. Vi har alltså bara en frihetsgrad att välja värden i denna tabell. Allmänt gäller för en frekvenstabell att vi har (n-1)*(k-1) frihetsgrader för summan. I en tabell finner vi för en frihetsgrad att värden högre än 3.84 har en sannolikhet av högst.5 att dyka upp. Vårt värde på 9.5 har en sannolikhet av ca.1. Det verkar alltså otroligt att vi skulle få ett så högt värde, enbart betingat av slumpen. Vi förkastar därmed vår nollhypotes och accepterar att det mycket sannolikt finns en association mellan utbildning och svaret på frågan. Chi-två-testen kan användas under förutsättning att antalet celler med låga värden på förväntade frekvenser ej är för många. En tumregel är att inte ha celler med lägre värden än 5. Det medför att man ibland måste sammanföra grupper så att man har färre rader eller kolumner. Om antalet celler är få, bör man också göra en korrektion, dra ifrån.5 från de observerade frekvenserna. Det ger en bättre överensstämmelse med chi-två-fördelningen, som är en kontinuerlig fördelning, medan frekvenstabellen ju nödvändigtvis har diskreta värden. En annan mycket viktig förutsättning är att stickprovet verkligen var slumpmässigt, dvs att alla medlemmar hade en lika stor chans att delta i enkäten. Om inte detta är uppfyllt hjälper inte den bästa analys oss att dra slutsatser från tabellen. Försöksplanen måste vara sådan att stickprovet är representativt för den grupp vi vill undersöka. I vårt fall avgjorde slumpen vilka som utsågs att delta i enkäten. Läs mer i din statistikbok, t.ex. Box, Hunter, Hunter: Statistics for experimenters! χ Bertil Runström Den grekiska bokstaven "chi" Enkäten i diagramform: se sidorna 4 och 5! 3 StaM-Bladet nr 9, aug 94

Utbildning och ålder Bransch Övrigt Grundskola Civ.ek. Universitet Forskare Civ.ing. Gymnasium < 3 år 3-45 år > 45 år Annan Läkemedel Bygg Livsmedel Kemi Service/Konsult Univ./Högsk. Verkstad 5 1 15 2 25 Antal 5 1 15 2 25 3 35 4 45 Antal anställda Statistisk kompetens 5-25-5 1-25 75-1 5-75 25-5 5-25 <5 Ingen Avancerat Varians/regr SFP SPS/Duglighet Beskr stat 2 4 6 8 1121416182 1234567891 Användning av statistiska metoder Åsikter om seminarierna: Frekvens Varians/regr SPS SFP Beskr stat Avancerat 1 2 3 4 5 6 7 8 9 1 (Dagligen-Periodvis-Sällan-Aldrig) 1 2 3 4 5 6 7 8 9 1 (< 1 g/år - 1 g/år - 2 g/år - > 2 g/år ()) Åsikter om seminarierna: Tidpunkt Åsikter om seminarierna: Plats 1 2 3 4 5 6 7 8 9 1 (Vår - Höst - Likgiltigt) 1 2 3 4 5 6 7 8 9 1 (Sthlm - Gbg - Malmö () - Roterande) StaM-Bladet nr 9, aug 94 4

Hur blev man informerad om seminariet? Orsak till att informerade ej deltog i seminariet Annat Fackpress Kollegor Spec utskick Ej informerad StaM-Bladet Annat Ingen/dålig info För dyrt Plats ej OK Uppgift saknas Ämnet ointr Hade ej tid 1 2 3 4 5 6 1 2 3 4 5 6 Betyg på StaM-Bladet och seminarier Nivå på StaM-Bladet Seminarier StaM-Bladet 1 2 3 4 5 6 7 8 9 1 (Mkt bra - Bra - Varken eller - Dålig - Mkt dålig - Ej svar) 1 2 3 4 5 6 7 8 9 1 (För låg - Lagom - För hög - Ej svar) Läste senaste StaM-Bladet Inslagens längd i StaM-Bladet 1 2 3 4 5 6 7 8 9 1 (Inte alls - Delvis - Allt - Ej svar) 1 2 3 4 5 6 7 8 9 1 (För korta - Lagom - För långa - Ej svar) StaM-Bladets omfattning Vill ha mera av i StaM-Bladet 1 2 3 4 5 6 7 8 9 1 (För lite - Lagom - För mycket - Ej svar) Annat Teori Litt.rec Pgmvarurec. Meddelanden "Hur man gör" 1234567891 5 StaM-Bladet nr 9, aug 94

Antal produktionssteg i ett flöde Om man frågar en ingenjör om medelvärde och standardavvikelse för antal produktionssteg i hans process kommer han antagligen inte att förstå frågan. Han är förstås medveten om det faktum att vissa order måste gå tillbaka men enligt hans tankesfär beor det på otur eller eventuellt slarv hos nattskiftet. Om vi har värden på de olika sannolikheterna för omarbete, kan vi beräkna sannolikheten att en order tar 3, 4, 5, 6 etc steg innan den är klar. Produktionsprocessen kan (under några enkla förutsättningar) beskrivas som en enkel Markov kedja. Figur 1 visar ett enkelt produktionsflöde..3 Start 1 2 3 Stopp Figur 1. Ett enkelt produktionsflöde. Med sannolikheten.3 måste ordern returneras till operation 1 efter att ha passerat operation 2 (och med sannolikheten.7 fortsätta till operation 3). Med sannolikheten.2 måste ordern returneras till operation 2 efter att passerat operation 3..2 Figur 1 visar de enkla sannolikheterna i flödet: sannolikheten att ordern går från Start till operation 1 är exakt 1. Sannolikheten att ordern går från 1 till operation 2 är också 1. Sannolikheten att ordern går från 2 till operation 3 är emellertid.7 och tillbaka till operation 1 med sannolikheten.3. Samma idé gäller flödet till operation 2 från operation 3. Hur kommer en order att passera hela flödet i 3, 4, 5 etc steg? Följande tabell ger detaljerna (S 1 2 3 S betyder att ordern startar och sedan passerar operation 1, 2 och 3 innan den stoppar. I detta exempel är det omöjligt att gå från start till stopp i ett udda antal steg; det är anledningen till att bara jämna antal steg visas): Antal steg Flöde i produktionsprocessen 4 S 1 2 3 S 6 S 1 2 3 2 3 S eller S 1 2 1 2 3 S 8 S 1 2 3 2 3 2 3 S eller S 1 2 1 2 3 2 3 S eller S 1 2 1 2 3 2 3 S eller S 1 2 3 2 1 2 3 S. StaM-Bladet nr 9, aug 94 6

Om vi beräknar de olika sannolikheterna får vi följande tabell: Antal steg Sannolikhet 4 1 1.7.8 =.56 6 1 1.7.2.7.8 1 1.3 1.7.8 =.2464 8 1 1.7.2.7.2.7.8 1 1.3 1.7.2.7.8 1 1.3 1.3 1.7.8 1 1.7.2.3 1.7.8 =.184 12 (P.g.a det stora antalet olika möjliga =.21 14 sätt som en order kan ta från Start =.92 16 till Stopp, utelämnar vi detaljerna.) =.41 Sannolikhet,6,5,4,3,2,1 4 6 8 1 12 14 16 Antal steg Figur 2 Sannolikhetsfördelningen för antal steg från Start till Stopp i produktionsprocessen i figur 1. I detta exempel finns det bara jämnt antal steg. Det finns ingen övre gräns för antal steg men sannolikheten för mer än 16 steg är.7. Därför visas bara 4 till 16 steg. 4 steg är naturligtvis det teoretiska och praktiska minimum. Även för detta relativt enkla exempel är det ett omständligt arbete att manuellt hitta sannolikheten för antal steg. Problemet är att få fram alla olika slingor. Med hjälp av ett datorprogram och matrisalgebra kan man dock förenkla arbetet avsevärt. Vi skall därför i nästa nummer av StaM- Bladet gå igenom ett mer komplicerat exempel. Vi går då också igenom hur man beräknar medelvärdet och standardavvikelsen. Om vi vet medelvärde och standardavvikelse för tillverkningstiden för varje operation kan vi beräkna medelvärde och standardavvikelse för den totala tiden. Även detta tar vi upp i kommande nummer. Ingemar Sjöström 7 StaM-Bladet nr 9, aug 94

VM I StaM-Bladet nummer 1 gjorde vi en liten statistik bearbetning av resultaten från fotbolls-vm i Italien. I detta nummer fortsätter vi med fotbolls-vm i år i USA. Vi redovisar antal mål per 9 minuter (dvs inga förlängningar eller straffsparkar) samt tiden mellan varje mål. Av redovisningen i StaM-Bladet framgår det att vi kan betrakta antal mål per match som en Poissonfördelad variabel. Därmed är tidsintervallen mellan varje mål en så kallad exponentialfördelad variabel. Dessa två fördelningar är mycket viktiga och bör ingå i varje ingenjörs kunskapsbank. De utgör dessutom en utgångspunkt för andra viktiga fördelningar som används inom de flesta grenar av ingenjörsvetenskapen. Det nära sambandet mellan fördelningarna brukar visas i beteckningssätten Po(λ) och Exp(λ); parametern i den diskreta Poissonfördelningen är densamma som parametern i den kontinuerliga exponentialfördelningen. I följande tabell redovisar vi några av fördelningarnas egenskaper: Fördelning Parametervärde Teo. medelvärde (µ) Stand.avvikelse (σ) Poisson λ λ λ Exponential 1 1 λ λ λ Tabell 1. Teoretiska samband för Poisson- och exponentialfördelningen Medelvärdet över de 52 fotbollsmatcherna i årets VM blev 2.673 mål per match och standardavvikelsen 1.517. Dessa siffror belyser sambandet i den första raden i tabell 1. För att kunna göra en ordentlig jämförelse måste vi räkna om målintensiteten per 9 minuter till målintensiteten per minut. Då får vi: 2.673 9 =.297 mål per minut Antag nu att vi sätter λ till detta värde. Vi får då för exponentialfördelningen följande tabell ('x-bar' och s är medelvärde och standardavvikelse beräknade ur datamängden): λ µ x σ s.297 33.67 32.65 33.67 32.38 Tabell 2. Teoretiska och observerade värden för exponentialfördelningen Vi ser att data i de två tabellerna belyser de teoretiska sambanden med all önskvärd tydlighet. StaM-Bladet nr 9, aug 94 8

Sannolikheten för oavgjort Låt oss också beräkna sannolikheten att en match slutar oavgjort. De olika möjligheterna för oavgjort är, 1 1, 2 2, 3 3, 4 4 osv. För varje möjlighet använder vi multiplikationslagen och adderar sedan resultatet: Händelse Sannolikhet.69.69.48 1 1.1846.1846.341 2 2.2467.2467.69 3 3.2198.2198.483 4 4.1469.1469.216.. summa.1771 Sannolikheten att en match slutar oavgjort är alltså cirka.18. Detta skall jämföras med att 11 matcher av 52 slutade oavgjort (11/52 =.21). Teori och utfall är som synes ganska lika (Se sidan 12 för beräkning av enskilda sannolikheter). Resultaten i diagramform Histogram över utfall och simulerade data Antal matcher Antal matcher 14 12 1 8 6 4 2 123456789 Antal mål per match 14 12 1 8 6 4 2 123456789 Antal mål per match (sim 2) Antal matcher Antal matcher 14 12 1 8 6 4 2 123456789 Antal mål per match (sim 1) 14 12 1 8 6 4 2 123456789 Antal mål per match (sim 3) Figur 1. Histogrammen visar verkliga data samt tre histogram från simulerade data från en Poissonfördelning med samma parameter. Form och omfattning är ganska lika. 9 StaM-Bladet nr 9, aug 94

Standardavvikelse mot medelvärde: utfall och simulerade data Standardavvikelse 2,2 2,1 2 1,9 1,8 1,7 1,6 1,5 1,4 1,3 1,2 2 2,2 2,4 2,6 2,8 3 3,2 3,4 Medelvärde antal mål per match Figur 2. Diagrammet visar medelvärde mot standardavvikelse för 2 simulerade datamänger á 52 värden från en Poissonfördelad variabel med parametervärde 2.67. Den svarta punkten visar resultatet från årets resultat i VM-fotbollen. Observera sambandet mellan medelvärde och standardavvikelse hos en Poissonfördelad variabel. Se tabell 1! Kan årets resultat anses vara Po(2.67)? Förra VM gav medelvärdet 2.21 mål per match. Kan de två senaste VM-resultaten rent av anses komma från samma stadiga process (trots sportjournalisternas kommentarer)? Samtliga mål i VM som en lång tidsserie (I) 5 1 15 2 25 3 35 4 45 5 Total speltid match 1 52 (468 min) Figur 3. Antag att alla matcherna kopplas ihop till en lång process. Varje punkt i diagrammet är då ett mål. Om målintensiteten är konstant kan processen kallas en Poissonprocess. Tidsavståndet mellan varje mål är exponentialfördelat (summan av ett antal tidsavstånd är gammafördelad). Samtliga mål i VM som en lång tidsserie (II) Antal mål 16 14 12 1 8 6 4 2 5 1 15 2 25 3 35 4 45 Total speltid match 1 52 (468 min) Figur 4. Om vi låter en kurva hoppa upp ett steg för varje mål får vi diagrammet till vänster. Figur 3 och 4 hänger alltså ihop. Vi ser i figur 4 att målintensiteten tycks vara konstant under hela VM. StaM-Bladet nr 9, aug 94 1

Tidsutfall mot exponentialfördelningens fördelningsfunktion (I) Sannolikhet 1,8,6,4,2 Figur 5. Diagrammet visar exponentialfördelningens fördelningsfunktion tillsammans med tidsavstånden mellan varje mål sett över hela processen. Medelvärdet för tid till mål är 32.65 minuter. Vi ser att det observerade utfallet följer den teoretiska kurvan (prickad linje) ganska väl. (Detta är en del av det s.k. Kolmogorov-Smirnov- testet som används för att kontrollera om ett visst utfall kan tänkas följa en viss kontinuerlig fördelning). 2 4 6 8 1 12 14 16 18 Antal min mellan mål. (Tot speltid 468 min) Samtliga mål i VM som en 9 min-match Antal mål 16 14 12 1 8 6 4 2 1 2 3 4 5 6 7 8 9 9 minuter Figur 6. Samma information som i figur 4 men här har alla matcher startat vid samma tidpunkt och pågått i 9 minuter. Målintensiteten tycks vara konstant under hela matchtiden. Om inte intensiteten var konstant, skulle kurvan vika av från den räta linjen. Tidsutfall mot exponentialfördelningens fördelningsfunktion (II) Sannolikhet 1,8,6,4,2,5 1 1,5 2 2,5 3 Antal min mellan mål. (Tot speltid 9 min) Figur 7. Samma information som i figur 5 men, precis som i figur 6, har alla matcher startat samtidigt. Medelvärdet för 'tid till mål' är.66 minuter. Vi ser att det observerade utfallet följer den teoretiska kurvan ganska väl. 11 StaM-Bladet nr 9, aug 94

Ytterligare analyser Processen Spela 52 fotbollsmatcher i VM kan, precis som varje annan process, ge upphov till en mängd idéer och hypoteser och om man har data kan dessa idéer prövas på ett eller annat sätt. Det tycks inte vara något problem att få tag på diverse olika data, i varje fall presenteras en hel del data på TV-skärmen efter varje halvlek eller match och med hjälp av videoteknik kan varje tidpunkt studeras från en mängd olika vinklar. På sidan nio visas olika sannolikheter från Poissonfördelningen. Dessa beräknas med hjälp det matematiska uttrycket för sannolikhetsfördelningen. Nedan beräknas sannolikheten att få exakt två mål under 9 minuter om målintensiteten är 2.673 mål per 9 minuter: Slutord Avsikten med denna redovisning är inte i första hand att beskriva utfallet från processen VM i fotboll utan att visa något av det hantverk och det statistiska resonemang som man kan applicera på dylika, andra processer. För att studera t.ex. leverans- eller tillverkningstider är exponential- och gammafördelningarna lämpliga. Sådana studier är nödvändiga för att bedöma leveranssäkerhet, minskning av tillverkningstider etc. Med annan statistisk teori t.ex. teorin om linjärkombinationer av variabler och någon modell kan man studera flaskhalsar o.d. Ingemar Sjöström λ x e λ x! = 2.6732 e 2.673 2!. 2467 På nästa sida presenterar Lars Söderström en betraktelse över problemet att analysera s.k. binomialfördelad data, Vi har en dylik variabel då vi bedömer t.ex. detaljer som godkända respektive icke godkända. Det är i allmänhet ganska svårt att analysera sådant utfall. Ett problem är att variationen ändras då felkvoten ändras. En modell för fekvoten måste dessutom ha vissa egenskaper. Den får t.ex. inte nå utanför intervallet [, 1] ty det finns ju ingen negativa felkvoter eller felkvoter över 1. Binomialfördelningens sannolikhetsfördelning ser ut så här:,25 P (X = x ) = n p x (1 p) n x x,2 Felkvot,15,1,5,1,2,3,4,5,6,7,8 Tid Varje tidpunkt i diagrammet till vänster innehåller resultat från 2 partier. Varje parti består av 2 enheter som bedömts som OK respektive ej OK. Felkvoten vid tidpunkt är.385. Denna felkvot har förbättrats över tiden och är.15 vid tidpunkt.8. Det är helt omöjligt att inse detta enbart från diagrammet. En logistisk regressionsmodell plockar dock fram denna förbättring. StaM-Bladet nr 9, aug 94 12

-1-1-1---1---1--1--1-------1-1-----1---1-------1-1-1 Ett exempel på analys av binomiala data Redan innan rymdfärjan Challenger exploderade den 2 januari 1986 hade NASA samlad information från 23 tidigare uppskjutningar. Bland dessa data fanns bl.a. antalet O-ringar som skadats vid varje uppskjutning. O-ringarna satt som tätningar för att förhindra varm gas att läcka vid starten. Totalt fanns det 6 O-ringar och man hade uppgifter om antalet skadade samt även temperaturen vid uppskjutningstillfället, i grader Fahrenheit. En ansats kunde då vara att se om det finns något samband mellan temperaturen och antalet defekta O-ringar. Om vi betraktar variabeln antalet defekta O-ringar, kan vi börja med att konstatera att den är binomial, dvs antalet defekta av 6 möjliga. Beräknar vi proportionen defekta O-ringar så inses även att den modell vi väljer måste ha egenskapen att ge proportioner mellan och 1, vilket innebär att vi får svårigheter att hitta en enkel modell. En ansats kan därför vara att välja en logistisk regressionsmodell. Teorin för detta är tämligen komplicerad, men med ett lämpligt statistikprogram kan man ändå enkelt klara av analysen. Figur 1 visar resultatet efter det att vi anpassat en logistisk regressionsmodell med antagande om binomialt fel, tillsammans med rådata.,95,85,75,65,55 prop,45,35,25,15,5 -,5 3 4 5 6 7 8 9 Temp Figur 1. Skattat samband mellan proportionen defekta O-ringar vid olika uppskjutningstemperaturer, F Som framgår av figur 1 är anpassningen inte den bästa och det finns heller inget som direkt antyder att en logistisk regressionsmodell skulle vara den rätta. Försöker vi använda modellen till skatta proportionen defekta O-ringar vid den aktuella uppskjutningen kommer vi även att extrapolera långt utanför vårt observationsområde. Vid det olyckliga tillfället när Challenger exploderade var nämligen temperaturen 31 F. Men ur pedagogisk synpunkt kan det kanske vara intressant att göra en skattning ändå, trots att denna är mycket osäker. Använder vi den skattade modellen finner man att sannolikheten för att en O-ring skadas vid en temperatur om 31 F är ~.82 vilket framgår av figuren. Detta ger förväntade antalet skadade O-ringar till 4.92 (.82 * 6 =4.92). Lars Söderström 13 StaM-Bladet nr 9, aug 94

SFK StaM Seminarium med sektionsmöte Onsdagen den 26 oktober 1994 i Stockholm Försöksplanering praktik och lite teori Sal A Sal B 9: Registrering och kaffe 9:3 Inledning Ordförande Marie Olausson IVF Göteborg 9:45 Hur införde vi SFP på Ericsson i Visby? Roland Jansson och Rolf Stahre Ericsson Telecom 1:45 Paus med frukt 11:15 Framgångsfaktorer och fallgropar Marie Olausson IVF Förbättrad dimensionsstabilitet hos mönsterkort Tommy Sandin Ericsson Telecom, Norrköping 12: Lunch 12:45 Sektionsmöte med sedvanliga årsmötesförhandlingar 13:15 Utbildning vad är viktigt att tänka på? Sören Karlsson och Pia Sandvik Wiklund Linköpings Tekniska Högskola 14: Bortom kuben Rolf Sundberg Mat. stat, Sthlm Universitet 14:45 Kaffe 15:15 Paneldebatt Optimering av en kemisk process Eva Pettersson Pharmacia Diagnostics Robust konstruktion bestämning av bästa material och process för tillverkning av kompositdetaljer Ove Åkerlund och Anders Hynén SAAB Military Aircraft respektive Linköpings Tekniska Högskola 16:15 Sammanfattning och avslutning 16:3 Slut StaM-Bladet nr 9, aug 94 14

Anmälan SFK StaM Seminarium med sektionsmöte Försöksplanering praktik och lite teori Tid: Onsdagen den 26 oktober 1994, 9: 16:3 Plats: Ericsson, Huvudfabriken Telefonplan, Stockholm Avgift: 16 kr inkluderar lunch och kaffe. Avgiften betalas via faktura som bifogas bekräftelsen. (Vid > 2 anmälningar samtidigt och på samma fakturaadress lämnas 2 %. Vid avbokning senare än 14 oktober debiteras fullt pris.) Namn: Företag/Organisation Högskola/Universitet: Adress: Telefon: Anmälan bör vara oss tillhanda senast den 1 oktober 1994 och faxas till Marie Olausson IVF Fax: 31 27 61 3 Frågor om seminariet besvaras av samtliga styrelsemedlemmar. Se sista sidan! 15 StaM-Bladet nr 9, aug 94

Styrelsen B Ordförande: Sekreterare: Kassör: Marie Olausson Lars Söderström Anders Hynén IVF Pharmacia Diagnostics AB Tekniska Högskolan Argongatan 3 F35 2 i Linköping 431 53 Mölndal 751 82 Uppsala Kvalitetsteknik 31 76 693 18 16 46 83 581 83 Linköping 13 28 17 82 Ledamöter: Susanna Weinberger Olle Carlsson Göran Lande Ovako Steel AB Inst. för dataanalys Ericsson Telecom AB 712 8 Hällefors Högskolan, Box 923 126 25 Stockholm 591 61 94 71 3 Örebro 8 719 8521 19 3 12 67 Bertil Runström Göran Gustafsson Redaktionskommitté: Gothia Tobak AB Högskolan i Karlstad Marie Olausson Box 77 Inst f teknik Box 951 Ingemar Sjöström 41 21 Göteborg 65 9 Karlstad Lars Söderström 31 8 86 94 54 83 8 Bidrag accepteras gärna via 3.5"-diskett med textmängden i format WordPerfect, Word eller i TEXT (ASCII). Man blir medlem i SFK StaM genom att kontakta Svenska Förbundet för Kvalitet telefon 8 783 82 54 eller 8 783 1 71. Kanslisekreterare är Anne-Charlotte Mark. I framtida nummer av StaM-Bladet I framtida nummer av StaM-Bladet skall vi försöka få plats med följande: Reflektioner från intervjuer hos japanska och amerikanska företag Basverktyg: grafer användbara verktyg En förklaring av Motorolas 6-sigma begrepp Som vanligt välkomnar vi bidrag från läsarna! StaM-Bladet nr 9, aug 94 16