Statistiska modeller inom datateknik. Mikael Möller

Transkript

1 Statistiska modeller inom datateknik Mikael Möller

2 ii

3 Innehåll Innehåll Figurer Tabeller Förord Introduktion iii ix xi xiii xvii. Läges- och spridningsmått Medelvärdet Standardavvikelse Diagram Diskreta data Kontinuerliga data Sammanfattning Övningar och problem Lösningar till uppgifterna Klassisk sannolikhetsde nition Kast med två tärningar Snitt Union Disjunkt Betingning Oberoende Allmänna sannolikhetsmått iii

4 iv INNEHÅLL.. Kolmogorovs axiom Betingning Oberoende Sammanfattning Övningar och problem Lösningar till uppgifterna Introduktion Diskreta stokastiska variabler Kontinuerliga stokastiska variabler Några diskreta Likformig fördelning Binomialfördelning Geometrisk fördelning Negativ binomialfördelning Hypergeometrisk fördelning Poissonfördelning Några kontinuerliga Likformig fördelning Exponentialfördelning Normalfördelning Gammafördelning Weibullfördelning fördelning T-fördelning Fördelningsapproximationer Binomial till Poisson Centrala gränsvärdessatsen Sammanfattning Övningar och problem Lösningar till uppgifterna Introduktion Väntevärde Varians Väntevärde Väntevärde av en funktion Kovarians och Korrelation Varians

5 v INNEHÅLL 4.4 Gauss approximationsformler Stora talens lag Sammanfattning Övningar och problem Lösningar till uppgifterna Introduktion Den likformiga fördelningen sgeneratorer Linjära kongruenta generatorer Kontinuerlig invers transformmetod Rektangelfördelning Exponentialfördelning Gammafördelning Weibullfördelning Logistisk fördelning Normalfördelning fördelning Diskret invers transformmetod Bernoullifördelning Binomialfördelning Poissonfördelning Geometrisk fördelning Sammanfattning Övningar och problem Lösningar till uppgifterna Introduktion Punktskattning Önskade egenskaper hos en punktskattning Metoder för att nna skattningar Normalfördelningen Intervallskattning Kon densintervall vid normalfördelning Kon densintervall vid normalapproximation Ett approximativt kon densintervall vid Poissonfördelning Kon densintervall vid exponentialfördelning Sammanfattning

6 vi INNEHÅLL 6.5 Övningar och problem Lösningar till uppgifterna Introduktion test Slantsingling test vid kända parametrar test vid okända parametrar Fördelningsdiagram Inledning till fördelningsdiagram Teori för fördelningsdiagram Försäljning av ett skogsområde Sammanfattning Övningar och problem Lösningar till uppgifterna Beteckningar Little:s sats Jämviktssannolikheter Jämviktsekvationernas lösning M/M/ köer M/M/ M/M/s M/M//n Nätverk av M/M/ köer Två tandemkopplade M/M/ köer Nätverk av köer Övningar och problem Lösningar till uppgifterna Introduktion Tre typer av algoritmer Sannolikhetsnumeriska algoritmer Integral mellan 0 och Integral mellan a och b Integral mellan 0 och Multipla integraler En variansreducerande metod Monte Carlo-algoritmer

7 vii INNEHÅLL 9.3. Primtalstest Las Vegas-algoritmer QuickSort Övningar och problem A Litteraturförteckning 5

8 viii INNEHÅLL

9 Figurer. Balansering av två lika vikter Balansering av två lika vikter förskjutna Balansering av tre lika vikter Antalet SQL anrop Parasiters längder Möjliga utfall vid kast med två tärningar Sannolikhets- och fördelningsfunktion för summan av två tärningskast En speciell sorts oändlighet Täthets- och fördelningsfunktion i tunnelbaneexemplet Sannolikhetsfunktion för likformig fördelning Sannolikhetsfunktion Bin (8; 0:5) Sannolikhetsfunktion Geo (0:4) Sannolikhetsfunktion NegBin (3; 0:3) Sannolikhetsfunktion Hyp (00; 8; 0:8) Sannolikhetsfunktion P o (:5) R(; 6) Exp(0:)(- - -), Exp(0:5)( ) och Exp()( ) N( ; )( ), N(; )(- - -) och N(; 0)( ) Gam(; )( ), Gam(; )(- - -), och Gam(0; )( ) W ei(; 5)( ), W ei(5; )(- - -) och W ei(3; 3)( ) ()( ), ()(- - -) och (0)( ) T ()( ), T (3)(- - -) och T (0)( ) Bin (; 0:) och N (:; 3:6) Symmetrisk fördelning Osymmetrisk fördelning f (x) = 0 x 00 0 x ix

10 x FIGURER 6. Väntevärdesriktighet Konsistens E ektivitet Regression av Seghet mot Nickel Bubble Sort övre kurva och Insertion Sort undre kurva Bubble Sort och Insertion Sort Förstoring kring skärningspunkten Likelihoodfunktionen L (p) = p 5 ( p) log likelihoodfunktionen G (p) = 5 ln p + 0 ln ( p) Direkt minimering av kvadratsumma observationer från R (0; ) observationer från (R (0; )) observationer från p R (0; ) Täthetsfunktioner Täthetsfunktioner för likformig och triangulärfördelning observationer från en triangulär fördelning Två typer av histogram Histogram med varierande klassintervall Gam (; ) ( ) versus (9) ( ) Ursprungsdata mot gammafördelningen Gamma ( ) Normal ( ) Geometriska relationer för den Harmoniska summan... 4

11 Tabeller. Diskreta data antal anrop Parasiternas längder Kontinuerliga data sandödlors parasiter Diskreta sannolikhetsfördelningar Kontinuerliga sannolikhetsfördelningar Additionssatser Väntevärde och varians för diskreta och kontinuerliga fördelningar xi

12 xii TABELLER

13 Förord Första upplagan Denna bok vänder sig i första hand till de studenter inom data och datateknik som vill lära sig utnyttja den matematiska statistiken:s verktyg inom data. Den är skriven med tanke på högskoleingenjörernas 3- åriga utbildning inom datateknik och de olika datalinjerna på universiteten men kan även användas som första bok på civilingenjörsutbild- ningen. I boken läggs framställningens tonvikt på att medelst resonemang bygga de statistiska verktyg som behövs för att lösa statistiska problem inom data. Liksom vid all inlärning är det egna arbetet som skapar kunskap och förståelse och det förutsätts därför att texten studeras aktivt. Det förutsätts att läsaren har tillgång till ett matematiskt uppslagsverk som Mathematics Handbook alternativt själv har mycket goda kunskaper inom matematik, ty vissa av exemplen och uppgifterna anknyter till verkligheten och denna tar ingen hänsyn till den studerandes förkunskaper. Det är därför av vikt att man vid studium av boken har tillgång till antingen programvara, typ Scienti c NoteBook eller MuPAD (eller någon annan symbolisk och numerisk formelmanipulerare), eller ett bra uppslagsverk. I den löpande texten ges Uppgifter av varierande svårighetsgrad som antingen är enkla tillämpningar på den nyss genomgångna teorin eller överhoppade härledningar till påstående som görs i texten. Dessa uppgifter förväntas läsaren aktivt bearbeta för att på så sätt levandegöra teorin och idéerna bakom den statistiska teoribildningen. De sista avsnitten i varje kapitel består av: ) En kort sammanfattning av de viktigaste begreppen och verktygen i kapitlet. ) Övningar, uppgifter av enkel karaktär som testar ett direkt användande av den genomgångna teorin. 3) Problem, uppgifter som ofta kräver förståelse av inte enbart den aktuella teorin utan också av den tidigare samt 4) Lösningar på de i kapitlet givna Uppgifterna. Övningarna och Problemen är ofta, för att underlätta för studenten xiii

14 xiv Förord och läraren, indelade i underrubriker. Till Övningarna och Problemen nns det svar och ledningar i appendix sid??. Om många av de i boken ingående exemplen, övningarna och problemen känns igen så är detta ingen tillfällighet. Bland de källor som kan nämnas är KTH:s Problemsamling i Matematisk Statistik samt den outömliga källa av tentamenstal som tillverkats på KTH och SU. Många tal som rör speci ka datatekniska tillämpningar är dock av egen tillverkning. Härutöver kommer talen från en mängd olika håll men gemensamt för dem alla är att eventuella fel är författaren ensam ansvarig för. Boken lämpar sig för fyra till fem veckors heltidsstudier där kapitel -4 och 6-7 tar upp grunderna inom matematisk statistik och kapitel 5 behandlar hur man genererar slumptal på en dator. Kapitel 8 behandlar, som en förberedelse till vissa problem inom bland annat realtidsprogrammering och datanät, köteori med hjälp av elementära metoder och kapitel 9 tar upp hur man med hjälp av randomiserade algoritmer kan lösa problem som utan den matematiska statistiken inte är praktiskt lösbara. Det förutsätts att grundläggande kunskaper inom diskret matematik har inhämtats d v s kombinatorik, mängdlära, logik och induktion. En bra lärobok i detta ämne är Susanna Epp:s bok [7, Epp]. Även en förståelse för analysen förutsätts men här kan man med hjälp av programmet Scienti c NoteBook komma långt utan att kunna alla matematiska recept. Dessutom är det bra om grundläggande kunskaper i programmering nns ty i boken ges ett antal algoritmer som bör köras av läsaren. Dessa algoritmer är skrivna i C men är lätta att översätta till andra språk. I era av Övningarna och Problemen krävs också kunskaper i programmering. Förslag till kursomfattning För matematik-datalinjerna samt civilingenjörsutbildningen föreslås hela boken ingå i en grundkurs i sannolikhetslära med statistik och den bör kunna inhämtas under 4 till 5 veckors heltidsstudier. För den 3-åriga ingenjörsutbildningen inom datateknik läses lämpligen de första 7 kapitlen minus det som handlar om regression. Det är även lämpligt att ta bort vissa av de teoretiska delarna allt efter lärarens preferenser. Detta bör hinnas med på 3 till 4 veckors heltidsstudier och för dem som aspirerar på högre betyg än godkänt bör även kapitlet om köteori ingå. Det sista kapitlet läses av dem som tycker om algoritmteori och undrar vad statistiken har där att göra. Denna bok skulle aldrig blivit av utan typsättningssystemet TEX och

15 xv Förord ordbehandlaren Scienti c WorkPlace för vilka vi har att tacka Donald Knuth och Barry MacKichan. Tack till Jesper Pålsson elektroingenjör från ingenjörsskolan i Karlstad som utifrån studentens och den aktive ingenjörens syn granskat boken. Andra upplagan I denna upplaga har de av mig kända felen rättats. Vidare ingår inte avsnitten Övningar och problem, Lösningar till uppgifterna samt satsernas bevis. Denna upplaga ligger fritt tillgänglig för alla och envar på nätet i form av en pdf- l. Följande är villkoren för dess användande:. det står envar fritt att ladda ned boken till sin dator eller motsvarande apparatur,. det står envar fritt att distribuera elektroniska kopior av boken till andra, 3. det står envar fritt att med datorns hjälp och för egen räkning kopiera hela eller delar av boken för infogning i annat verk under förutsättning att a. anvisning till källan klart anges, b. det nya verket blir tillgängligt på samma sätt dvs som en fri pdf- l på nätet, c. fotogra er inte kopieras (upphovsrättsliga skäl), 4. det står envar fritt att ta betalt för verken och derivat därav, 5. dessa fem punkter står i förordet eller annan ingress av det nya verket. Avsnittet Övningar och problem med svar och lösningar publiceras separat samt i betalboken. Lösningar till uppgifterna liksom satsernas bevis publiceras även de i betalboken. Den 6 Augusti 008 Mikael Möller

16 xvi Förord

17 Introduktion som vetenskap är ganska ung. Den föddes 654 då Blaise Pascal söktes upp av en spelare med ett par problem vid spel med tärning. Pascal löste dessa problem och vidarebefordrade sina lösningar till Pierre de Fermat vilket gav upphov till en längre skriftväxling rörande problem inom spelteori. För en levande beskrivning av hur det kunde ha gått till se Sannolikhet en breväxling av A. Rényi [0, Renyi]. En översättning av breven till engelska nns i A source book in mathematics av D. E. Smith [5, Smith]. Dock var det Christiaan Huygens som först publicerade en avhandling inom sannolikhetslära Calculations in Games of Chance. Datavetenskapen är själv en mycket ung vetenskap och statistikens nuvarande roll inom datavetenskapen är dels att skapa e ektivare algoritmer och dels ge vägledning i hur man gör simuleringar av komplicerade händelser som ej går att lösa analytiskt. Ett mycket hett område vad gäller simuleringar är Markov Chain Monte Carlo metoder men dessa går utanför målsättningen med denna bok och likaså gör ett annat livaktigt område som Bootstrap metoder. I kapitlet tar vi upp slumptalsalgoritmer, hur man genererar slumpmässiga tal med en dator, för olika statistiska fördelningar. Självklart kan vi inte i ett enda kapitel ge mer än en ytlig framställning av hur man genererar slumptal och vilka egenskaper dessa generatorer har. De som behöver en mer ingående text om slumptal har glädje av [9, Knuth Vol -3]. Ett mycket användbart område, där simulering spelar en stor roll, är köteori. Köteoretiska problem blir snabbt svåra till omöjliga att lösa analytiskt men är av stor betydelse för dimensionering av t ex nätverk på ett optimalt och ekonomiskt sätt. I kapitlet ger vi en introduktion till köteorin och de frågeställningar denna teori avser att ge svar på. För den som önskar fördjupa sig i köteori med betoning mot datanät är [3, Kleinrock-I-II] ett ypperligt val och de som vill lära sig om datanät med hjälp av köteori studerar [4, Schwartz]. Det ett välkänt faktum inom algoritmteori att de mycket bra algoritxvii

18 xviii merna ofta har ett värsta scenario som tyvärr är det vanligast förekommande scenariot. Här kommer sannolikhetsteorin in som en räddande ängel och vi beskriver en del metoder i kapitlet. För dem som önskar fördjupa sig i detta, något 0 tals år gamla, område nns, förutom Knuth:s tre volymer, [0, Habib-Eds] och [6, Motwani-Raghavan]. I övrigt är man i stort sett hänvisad till forskningsartiklar och avhandlingar varav en intressant skrivits på KTH [, Bodell]. Denna bok börjar med en introduktion till deskriptiv statistik som avslutas med en enkel frågeställning. Denna enkla frågeställning besvaras sedan i de följande 6 kapitlen. De statistiska verktyg som härvid tas fram utgör den matematiska statistikens grundval och används för att, i slutet av boken, besvara frågeställningar inom köteori och algoritmteori.

19 ., även kallad beskrivande statistik är en samling metoder för att kondensera (stora) datamängder i ett mindre antal relevanta mått och gurer. I detta kapitel behandlas metoder för att hos en datamängd bestämma de vanligaste läges- och spridningsmåtten (medelvärde och standardavvikelse ) samt några enkla gra ska metoder (stapeldiagram, histogram och kumulativa histogram). I de följande kapitlen studeras egenskaper hos medelvärdet, standardavvikelsen och diagrammen samt hur dessa kan användas för att göra kvantitativa och kvalitativa utsagor om de underliggande samband som genererat datamängden i fråga. Detta kapitels syfte är att visa att data delar in sig i två klart skilda typer diskreta och kontinuerliga samt att detta ger upphov till olika sätt att betrakta och behandla de givna datamängderna. Dess syfte är också att ge en frågeställning som för oss vidare in i sannolikhetsläran och statistiken. Diskreta data är information som naturligt kan betraktas som antal. Några exempel på dylika data är:. Antal anrop till en databas, under en timmes tid, kan vara något av talen 0; ; ; : : :.. Antal defekta processorer i en försändelse, om 00 processorer, kan anta något av värdena 0; ; ; : : : ; Antal inkommande samtal till en telefonväxel, under en dag, kan vara något av talen 0; ; ; : : :. 4. En individs kontosaldo en viss dag uttryckt i kronor. Kontosaldot kan anta värdena : : : ; ; ; 0; ; ; : : :. Det nns även andra typer av lägesmått som median (det mittersta värdet), mode (det vanligaste värdet) och andra typer av spridningsmått som variationsvidden (skillnaden mellan största och minsta värdet), MAD ( P jx xj) för att bara nämna några.

20 5. Antal patienter som reagerar positivt på en framtagen medicin. En de nition över vad som är att betrakta som diskreta data är De nition. Om data i en datamängd entydigt kan avbildas in i de naturliga talen säges data häröra från en diskret situation. Ett annat sätt att uttrycka samma sak är att alla mängder som kan räknas upp är diskreta och då blir exempel nummer 4 ovan inte så konstigt ty om vi avbildar de negativa hela talen på de udda positiva heltalen och de positiva heltalen på de jämna positiva heltalen, det vill säga,...! 3! 0! 0!! 4. ser man att, märkligt nog, så blir antalet positiva heltal detsamma som antalet heltal. Kontinuerliga data är data som ej naturligen kan betraktas som antal. Några exempel på dylika är:. Längden av ett uppkopplat telefonsamtal kan anta alla (reella) tal t som är större än eller lika med 0.. Kapacitanser hos kondensatorer med samma märkning ligger mellan två toleransvärden. 3. Utomhustemperaturen, i Stockholm, mätt i Celsius, kan anta alla värden mellan säg 35 och För en databas är det intressant att studera svarstiderna för olika typer av frågor så att den kan optimeras för de vanligaste frågorna. Dessa svarstider är större än Längden hos nu levande 0-åriga män ligger med säkerhet någonstans mellan 0 och 300 cm. 6. Den återstående livslängd hos patienter som har behandlats för en viss typ av cancer...

21 3. En de nition över vad som är att betrakta som kontinuerliga data är De nition. Om data i en datamängd ej entydigt kan avbildas in i de naturliga talen säges data häröra från en kontinuerlig situation.. Läges- och spridningsmått För en serie x ; : : : ; x n av n data så de nieras det aritmetiska medelvärdet (synonymer är: medelvärdet och stickprovsmedelvärdet) av x = n samt stickprovsvariansen (synonym är: den observerade variansen) s av s = n nx i= x i nx (x i x) i= och den observerade standardavvikelsen s erhålls som kvadratroten ur den observerade variansen. Framöver kommer vi att hoppa över ordet observerade om detta klart framgår av sammanhanget. Dessa två storheter, det aritmetiska medelvärdet och stickprovsvariansen, kommer vi att belysa ur era aspekter framöver. Vi börjar här med att ge en kort heuristisk motivering till varför de är betydelsefulla. Längre fram kommer vi visa att de följer ur vissa rimliga antaganden som man kan göra på en datamängd och då erhålls också svar på varför variansen skall innehålla faktorn n och ej n... Medelvärdet Antag att dina månadsinkomster, under ett halvt år, har varit 9950; 0; 4398; 339; 345; 6578 och att du vill jämföra din inkomst med månadsinkomsten för en fast anställning med samma arbetsuppgifter. Det naturliga sättet (det sätt som tutats i oss sen barnsben) är att bilda kvoten = 7864 och din genomsnittliga månadsinkomst har därför varit 7864 kronor.

22 4.. Läges- och spridningsmått Detta genomsnitt har en speciell tolkning som är mycket användbar för att förstå det aritmetiska medelvärdets betydelse och funktion framöver. För att komma fram till tolkningen utgår vi ifrån att det nns n vikter av samma storlek v. Dessa vikter placerar vi slumpmässigt på en planka och ställer oss sedan frågan: Var på plankan nns den punkt där den balanserar d v s var nns tyngdpunkten för plankan inklusive vikterna? 0 v x x Figur.: Balansering av två lika vikter Detta problem löses genom att vi tänker oss att plankan är fullständigt homogen (alternativt viktlös) samt yttar över problemet till ett koordinatsystem och formulerar om det till: På olika avstånd x i från origo nns vikter av storlek, var på x-axeln kommer dessa vikters balanseringspunkt (tyngdpunkt) x att ligga? Det är ett välkänt faktum, från fysiken, att om vi har två lika stora vikter v i ändarna på en bräda av längd x så erhålls jämvikt i punkten mitt emellan de två vikterna se gur.. För att bestämma denna punkt använder vi oss av jämviktsekvationen (x x) v = (x 0) v och nner x = (0 + x ). v Om nu den första vikten förskjuts x enheter in på brädan se gur. så erhålls den nya balanseringspunkten, under antagandet om att brädan är viktlös, ur sambandet (x x) v = (x x ) v varur x = (x + x ). Det gäller således att det aritmetiska medelvärdet vid två lika vikter är 0 x x v x v Figur.: Balansering av två lika vikter förskjutna

23 5. detsamma som balanseringspunkten för dessa vikter. För att kunna slutföra resonemanget skriver vi om jämviktsekvationen vid två lika vikter till (x x) v + (x x) v = 0 och utvidgar det till tre lika stora vikter i punkterna x ; x ; x 3. De första två vikternas balanseringspunkt kan enligt ovan skrivas x = (x + x ) Balanseringspunkten för de tre punkterna erhålles nu genom att ersätta de två första vikterna v med en vikt v i punkten x och därefter tillämpa resonemanget en gång till. 0 x x 3 v x 3 Figur.3: Balansering av tre lika vikter Av gur.3 följer den nya jämviktsekvationen v (x x 3 ) + v (x 3 x 3 ) = 0 Denna ekvation kan i sin tur skrivas om till och dess lösning blir (x x 3 ) v + (x x 3 ) v + (x 3 x 3 ) v = 0 x 3 = 3 d v s vi har visat att även för tre lika vikter är balanseringspunkten och det aritmetiska medelvärdet samma sak. Med hjälp av ett induktivt resonemang, enligt linjerna ovan, följer för n punkter, med lika stora vikter v, att deras balanseringspunkt kan skrivas x = nx x i n 3X i= i= x i v

24 6.. Läges- och spridningsmått eller med andra ord: det aritmetiska medelvärdet för vikterna i punkterna x i, i = ; ; : : : ; n, är detsamma som dessa vikters balanseringspunkt. Resonemanget kan utvidgas till att gälla för vikten i i punkten x i och då erhålls istället den nya balanseringspunkten till x = P i n X i= i x i I vårt exempel med månadsinkomst ovan har vi lagt samma vikt i alla punkter, ty varje månadsinkomst har lika stor betydelse, samt x = 9950, x = 0, : : :, x 6 = Uppgift. Visa att situationen ( ; x ; : : : ; n ; x n ) ger balanseringspunkten x = P i n X i= i x i.. Standardavvikelse Medelvärdet ger information om data:s balanseringspunkt men ej om hur utspritt data är till exempel så har de två dataparen (; 0; ; ) och (; 0; ; ) samma balanseringspunkt () men de är av helt olika karaktär. Detta framgår klart om vi räknar ut respektive datapar:s varians s = (0 ) + ( ) = s = (0 ) + ( ) = 4 och vi ser då att de två parens varianser skiljer sig märkbart åt. Den gra ska skillnaden mellan de två paren är att det senare är mer utspritt än det förra. Variansen är därför ett mått på datamaterialets utspridning. Observera att vi i räkningarna har utfört en division med = (n ) men eftersom n = så dividerar vi med och detta syns ej. Om det till mätningarna naturligt knytes en måttenhet som t ex cm är det orimligt att jämföra medelvärde och varians ty man jämför då cm med cm. Detta är anledningen till att man även infört begreppet standardavvikelse ty denna kan direkt relateras till det aritmetiska medelvärdet.

25 7. I vårt exempel med månadsinkomst erhålls variansen ur s = ( ) + (0 7864) + ( ) 6 + ( ) + ( ) + ( ) till s = : och standardavikelsen blir s = 438. Det givna datamaterialets standardavvikelse är mycket stor i förhållande till det observerade aritmetiska medelvärdet. Om vi istället betraktar endast alla månader med positiv inkomst så blir x = 436:6 och s = 859:5. En betydande reduktion av standardavvikelsen. Det nns en uppsjö av mått och metoder för att beskriva datamaterial samt för att göra dataanalyser men vi nöjer oss här med ovanstående två mått. Den intresserade läsaren kan nna mer information i [5, Chambers et al] och [, Hoaglin et al].. Diagram För en given datamängd kan man, som ovan, beräkna olika mått men det säger sig självt att om man kondenserar 00 data i två (eller möjligen er) mått så förlorar man en övervägande del av den tillgängliga informationen. Om vi t ex har en genomsnittlig månadsinkomst på 7864 kronor så kan denna ha erhållits på era sätt. Antingen som ovan eller allt under endast en månad eller allt under den första och andra månaden. Sättet på vilket månadsinkomsten erhålls är av betydelse ty om vi får allt under januari månad kan vi planera andra för oss intressanta, men icke nödvändigtvis inkomstbringande, aktiviteter under de övriga månaderna. I det följande skall vi ange två metoder för gra sk kondensering som behåller mer information om data än vad medelvärdet och standardavvikelsen förmår... Diskreta data När vi arbetar med diskreta data kan vi göra stapeldiagram och kumultativt stapeldiagram. Förfarandet illustreras enklast med ett exempel. Kumulera innebär att addera, lägga på hög.

26 8.. Diagram Tabell.: Diskreta data antal anrop Antal Frekvens Relativ frekvens Kummulerad relativ frekvens Exempel. Till en resebyrås databasserver anländer SQL-anrop och man har under 60 minuter, under dagens brådaste timme, noterat hur många anrop som anländer varje minut och därvid erhållit följande tabell: Resebyrån tror sig ha missat ett antal beställningar, på grund av att servern är underdimensionerad, och vill därför ha antalet anrop analyserat. I ett första steg önskar man få de vanligaste måtten och diagrammen. Lösning Vårt första steg för att kunna besvara frågor och rita gurer är att göra en frekvenstabell (tabell.) över antalet SQL-anrop. Till denna tabell lägger vi även kolumner över relativ frekvens och kumulerad relativ frekvens. Här de nieras den relativa frekvensen för i stycken anrop

27 9. som antalet minuter med i anrop delat med totala antalet studerade minuter. Det är lätt att bestämma läges- och spridningsmått för data: x = 5:9, s = 5:4, s = :3. Men dessa mått säger bara att anrop anländer i medeltal med 5:9 anrop per minut och med en standardavvikelse av :3 anrop per minut. Vi får till exempel ingen vägledning till svaren på frågor om servern:s arbetsbelastning klarar den alltid av att besvara frågorna inom rimlig tid? Hur stor andel av tiden har servern inga frågor alls att besvara? Finns det risk för att servern kan bli överbelastad så att svarstiderna blir orimliga och i så fall hur stor är denna risk? Med hjälp av tabellen skapas ett stapeldiagram, baserat på den relativa frekvensen, och dess kumultativa stapeldiagram, baserat på den kumulerade relativa frekvensen, för antalet SQL-anrop se gur Relativt stolpdiagram Kummulerat relativt stolpdiagram Figur.4: Antalet SQL anrop Det första diagrammet ger oss den ytterligare informationen att det är stor chans att det kommer er kunder än medelvärdet samt att chansen att det kommer kunder per minut också är relativt stor. Men det nns inga tidsintervall där det kommer 0 och kund vilket gör att man på

28 0.. Diagram detta stadium gärna vill ha en längre observationsserie 3. Det andra diagrammet ger oss ingen ny information och i själva verket är det svårtolkat. Anledningen till att vi tar upp det här är att det längre fram introduceras en funktion som kommer att vara betydelsefull och diagrammet är en approximation av denna funktion. Dock är detta rätta platsen att introducera diagrammet... Kontinuerliga data När vi arbetar med kontinuerliga data kan vi göra histogram och kumultativt histogram. Förfarandet illustreras, liksom tidigare, enklast med ett exempel. Tabell.: Parasiternas längder Exempel. Vid en studie av sandödlor har man uppmätt längderna på de parasiter som ofta förekommer på dessa ödlor. Man noterade 76 parasiters längder (i tusendels millimeter). De uppmätta längdernas mätvärden beskrivs i tabell. ovan. Till dessa data fogades även andra, här ej angivna data som sandölornas längd, vikt, färg m m. Studiens mål var att nna de för ödlorna viktigaste villkoren för överlevnad. I ett första steg önskar man få de vanligaste måtten och diagrammen på parasiternas längder. 3 I själva verket kommer ovanstående data från en simulering av en Poissonfördelning med ankomstintensiteten 6 anrop per minut. Hur en sådan ser ut förklaras längre fram.

29 . Lösning Datamaterialet ger upphov till tabell.3 nedan. Tabell.3: Kontinuerliga data sandödlors parasiter Klass Frekvens Relativ frekvens 0 ( ; 8:5] (8:5; 97:5] (97:5; :5] (:5; 7:5] 7 76 (7:5; 4:5] 76 7 (4:5; 57:5] 7 76 (57:5; 7:5] (7:5; 87:5] (87:5; 0:5] (0:5; 7:5] 76 5 (7:5; 3:5] 5 76 (3:5; 47:5] 76 7 (47:5; 6:5] (6:5; ) 0 76 Kummulerad relativ frekvens Först bestämmer vi läges- och spridningsmåtten, x och s, och därmed även standardavvikelsen för de givna data till x = 75:7, s = 06, s = 33:3. Så långt är förfarandet detsamma som vid diskreta data men eftersom en parasits längd kan anta många er värden, än de i tabellen givna, har vi här ett exempel på kontinuerliga data. Våra resultat beror på hur noggranna mätningar vi gör. Ett stapeldiagram skulle därför bara bli en samling staplar alla med ungefär samma längd, ty enligt teorin skall de alla ha samma längd (gör, för att övertyga dig själv, ett stapeldiagram över ovanstående data) och därför bli totalt intetsägande. Istället konstruerar vi en tabell på följande sätt: Dela in data:s de nitionsområde i ett antal lika långa och

30 .. Diagram disjunkta intervall av längd 5. Bestäm därefter antalet observationer i varje delintervall och gör motsvarande tabell som vid diskreta data Relativt histogram Kummulerat relativt histogram Figur.5: Parasiters längder Valet av talet 5 följer ej ur någon objektiv regel utan man har att pröva olika värden för att komma fram till ett histogram med lämpligt utseende. Vad är då ett lämpligt utseende? På detta stadium är det faktiskt en åsikt. Vad vi är ute efter är att på bästa sätt få ut information ur de givna data och eftersom den bakomliggande slumpmekanismen i allmänhet är okänd kan den ena åsikten inte skiljas från den andra. Det nns därför oanade möjligheter att lura både sig själv och andra på detta stadium. Till detta kommer att de disjunkta intervallen, som kallas klassintervall, ej heller behöver vara av samma längd. Det är fullt tillåtet att välja intervall av varierande längd ty vi är ute efter att beskriva datamaterialet och detta kan göras på oändligt många sätt. Det nns dock några användbara tumregler när man bestämmer klassintervallen för första gången. Till att börja med väljer man antalet intervall till roten ur antalet mätvärden ( p n). Därefter ritar man rektanglar vars bas är det studerade mätområdet (från det minsta värdet till det största värdet) delat med antalet intervall. Rektangelns höjd sätts till den relativa frekvensen av mätvärdena i intervallet. Genom att sedan öka/minska antalet klassintervall, och därmed räkna om tabellen, erhålls olika utseenden på diagrammet och utifrån dessa utseenden försöker man dra slutsatser om data:s bakomliggande struktur. Om man har tillgång till lämplig programvara kan man även välja klassintervall av olika längd. Detta är ofta lämpligt när man har extrema datapunkter som ligger långt från de övriga (då tar man ett längre

31 3. intervall) eller om data är koncentrerat till ett visst område (då tar man kortare intervall). Observera att på detta stadium är det fullt tillåtet att pröva alla idéer, även uppenbart tokiga, för att se om man kan avslöja något om data:s struktur 4. Tabell.3 sid ger gur.5 sid över histogrammet, baserat på den relativa frekvensen, och det kumultativa histogrammet, baserat på den kumulerad relativa frekvensen, av parasiters längder. Det första diagrammet ger oss den ytterligare informationen att parasiternas längder drar sig mot centrum och att det är små sannolikheter för riktigt stora respektive riktigt små parasiter. Dessutom ger diagrammet ett skevt intryck. Betyder detta att sandödlorna kan bekämpa stora parasiter men inte små? Det andra diagrammet ger oss, liksom tidigare, ingen ny information och är svårtolkat. Vi noterar dock att kumulerade diagram ser likadana ut för både diskreta som kontinuerliga data. Det föreligger dock en väsentlig skillnad mellan diagram för diskreta respektive kontinuerliga data. De senare är nämligen approximationer av jämna (kontinuerliga) funktioner. Mer om detta i kapitlet. Uppgift. Gör histogram, för parasiternas längder, med klasslängderna 0,, 7 och 0. Blir histogrammen karakteristiskt annorlunda? En viktig anledning till att vi arbetar med diagram är att de hjälper oss att få ideer om data:s struktur d v s om data kan anses komma från någon speciell fördelning (se kapitlet ). Om diagrammen ger oss idéer om lämplig fördelning måste vi därefter bestämma några parametrar (ty alla intressanta fördelningar har sådana). Dessa parametrar beror oftast av det aritmetiska medelvärdet och standardavvikelsen (vilket är ett av skälen till att de är så viktiga). De följande 6 kapitlen (förutom ) har som syfte att lära oss hitta data:s fördelning och vilka slutsatser man kan dra givet denna och data. 4 Längre fram i kapitlet kommer vi att ge metoder som i viss mening är objektiva för gra ska studier av datamängder. I kapitlets slut görs en rätt så omfattande analys av ett skogsområde.

32 4.3. Sammanfattning.3 Sammanfattning. Ett datamaterials aritmetiska medelvärde är eller mer generellt x = n x = P i nx i= n X i= x i i x i Det aritmetiska medelvärdet är detsamma som datamaterialets balanseringspunkt.. Ett datamaterials standardavvikelse är roten ur dess varians s = n nx (x i x) i= Standardavvikelsen är ett mått på hur utspritt data är. 3. Kvantitativa data delas in i diskreta och kontinuerliga data. a. Diskreta data i. är data som kan beskrivas som antal ii. beskrivs gra skt medelst stapeldiagram och kumulerat stapeldiagram b. Kontinuerliga data i. är data som ej kan beskrivas som antal ii. beskrivs gra skt medelst histogram och kumulerat histogram

33 5..4 Övningar och problem

34 6.5. Lösningar till uppgifterna.5 Lösningar till uppgifterna

35 . Alla har en intuitiv uppfattning om vad en sannolikhet är och begrepp som chansen att få en krona vid kast med ett mynt och chansen att få en sexa vid kast med en tärning är välkända. Även mer subjektiva sannolikheter av typen chansen för fred i vår tid och Öresundsbron kommer sannolikt att skapa er arbeten används ofta i vardagsspråket. Vi skall här endast diskutera den första typen av sannolikheter, det vill säga sådana som härrör från repeterbara situationer, och för dessa bygga upp en speciell matematisk modell sannolikhetsläran. Observera att sannolikhetslära är en matematisk disciplin och därför måste vi noggrant skilja mellan det formella logiska innehållet, det intuitiva tänkandet och applikationerna. Det logiska innehållet baseras på de storheter, axiom och begrepp, som införs och på vilka olika typer av operationer som de nieras. Det intuitiva tänkandet hjälper oss att hitta lösningar på de olika problem vi ställs inför och dessa lösningar kan ofta används på andra snarliknande problem. Logiken och intuitionen ger oss verktyg matematiskt statistiska verktyg som vi kan använda för att lösa olika problem i olika applikationer. Styrkan hos dessa verktyg är att ett och samma verktyg kan användas för problem inom så vitt skilda applikationer som stickprovsundersökningar och design av kösystem. Kapitlet börjar konkret med kast av två tärningar och den klassiska sannolikhetsde nitionen. Via de så införda storheterna och begreppen introduceras de axiom på vilka sannolikhetsläran vilar och de satser som omedelbart kan härledas.. Klassisk sannolikhetsde nition Den klassiska sannolikhetsteorin hanterar frågor som Vad är sannolikheten att få en sexa vid kast med två tärningar, Vad är sannolikheten för k kunder i ett kösystem m liknande frågeställningar. Alla dessa sannolikheter kan intuitivt beräknas som kvoten mellan de gynnsamma möjligheterna och det totala antalet möjligheter. Det svåra 7

36 8.. Klassisk sannolikhetsdefinition är att beräkna dessa två tal det gynnsamma och det totala och ofta behöver man hjälp av satser från den diskreta matematiken. Liksom historien börjar vi med att studera tärningsspel... Kast med två tärningar Låt oss utgå ifrån två stycken perfekt symmetriska tärningar där sidorna är markerade med ett till sex och där den första tärningen är röd och den andra grön. Om vi nu kastar dessa så erhåller vi ett värdepar (Ri; Gj) där i och j kan antaga talen ; : : : ; 6 och R och G står för röd respektive grön. Härav följer att de möjliga paren är f(r; G) ; (R; G) ; : : : ; (R6; G6)g och dessa kan representeras i ett koordinatsystem se gur Figur.: Möjliga utfall vid kast med två tärningar Eftersom de två tärningarna är perfekta får varje punkt i koordinatsystemet samma chans att inträ a och eftersom det nns 36 möjliga punkter har varje punkt (Ri; Gj) en chans på 36. Om vi istället betraktar den händelse som innebär att den röda tärningen blir 3 så består denna händelse av punkterna f(r3; G) ; : : : ; (R3; G6)g vilket totalt ger sex punkter och chansen för denna händelse är 6 av 36. Detta enkla exempel leder oss till att de niera sannolikheten för en händelse som g gynnsamma utfall för händelsen = m totala antalet möjliga utfall Beteckningarna g och m används framgent för antalet gynsamma utfall respektive antalet möjliga utfall. Det framgår av sammanhanget hur de skall beräknas.

37 9. och sannolikheten för att erhålla R3 blir enligt denna de nition g m = Ett mer precist ord för händelse, i vår mening ovan, är mängd. Ty vi kan prata om en sommarhändelse men knappast tillägna denna händelse en sannolikhet. I det följande kommer orden händelse och mängd att användas synonymt om ej annat klart framgår av texten... Snitt Med snittet (\) av två mängder förstås det som är gemensamt för båda mängderna. Antag att vi har de två mängderna f(r3; G) ; : : : ; (R3; G6)g och f(r; G3) ; : : : ; (R6; G3)g och om vi ritar in dessa i koordinatsystemet ovan ser vi att de har precis punkten (R3; G3) gemensam och mängden f(r3; G3)g utgör därför snittmängden till de första två mängderna. Detta skrivs formellt f(r3; G3)g = f(r3; G) ; : : : ; (R3; G6)g \ f(r; G3) ; : : : ; (R6; G3)g Sannolikheten för denna händelse blir enligt de nition ovan g m = 36 ty de två mängderna har endast en punkt gemensam...3 Union Med unionen ([) av två mängder förstås det som tillhör den ena eller den andra eller båda mängderna. Om vi ritar in mängderna f(r3; G) ; : : : ; (R3; G6)g och f(r; G3) ; : : : ; (R6; G3)g i koordinatsystemet ovan ser vi att unionen av dessa två mängder består av punkterna f(r3; G) ; (R3; G) ; (R3; G3) ; (R3; G4) ; (R3; G5) ; (R3; G6) (R; G3) ; (R; G3) ; (R4; G3) ; (R5; G3) ; (R6; G3)g Observera att punkten (R3; G3) bara nns med en gång ty en punkt kan antingen tillhöra en mängd eller inte. Däremot kan punkten inte tillhöra en mängd extra mycket. Unionen av de två mängderna skrivs också f(r3; G) ; : : : ; (R3; G6)g [ f(r; G3) ; : : : ; (R6; G3)g

38 0.. Klassisk sannolikhetsdefinition och sannolikheten för denna händelse blir g m = = = 36 där nns med för att kompensera för den dubbla förekomsten av punkten (R3; G3). Anledningen till att vi skriver ut i framgår längre fram se sats. sid Disjunkt Två mängder säges vara disjunkta om de ej har något gemensamt. Våra två mängder ovan har något gemensamt, nämligen punkten (R3; G3), och kan således inte vara disjunkta. Däremot är mängderna f(r3; G) ; : : : ; (R3; G6)g och f(r4; G) ; : : : ; (R4; G6)g disjunkta och för deras snitt gäller f(r3; G) ; : : : ; (R3; G6)g \ f(r4; G) ; : : : ; (R4; G4)g = ; där ; utläses den tomma mängden den mängd som inte innehåller någonting. Sannolikheten för snittet av två disjunkta händelser blir g m = 0 36 = 0 ty i snittmängden nns ingen punkt...5 Betingning Ibland har vi extra kunskap som vi kan utnyttja när vi skall beräkna en sannolikhet. Antag att vi skall gissa summan av två tärningskast efter det att vi fått veta att denna summa är större än 0. Eftersom summan är större än 0 kan endast punkterna f(5; 6) ; (6; 5) ; (6; 6)g komma ifråga och de ger summorna f; g. Med vårt sätt att beräkna sannolikheter erhålls sannolikheten för summan när summan är större än 0 till g m = g f(6;5);(5;6)g = m f(5;6);(6;5);(6;6)g 3 Observera att när dessa sannolikheter beräknas betraktas den ursprungliga situationen f(5; 6) ; (6; 5) ; (6; 6)g och inte den nya summasituationen f; g ty i den senare har händelserna fg och fg inte samma sannolikheter.

39 . och för summan när summan är större än 0 till g m = g f(6;6)g = m f(5;6);(6;5);(6;6)g 3 Vid beräkningarna ovan har vi nöjt oss med att betrakta en delmängd av de 36 punkterna men vi kan också utföra beräkningarna baserat på alla punkter. Skriv om sannolikheten för att få t ex. när summan är större än 0 på följande sätt g m = = = g f(6;5);(5;6)g m f(5;6);(6;5);(6;6)g g f(6;5);(5;6)g m f(;);:::;(6;6)g g f(5;6);(6;5);(6;6)g m f(;);:::;(6;6)g Samma sannolikhet erhålls därför även när vi baserar räkningrna på alla möjliga utfall. Detta ger oss följande identitet g gynnsamt för att få = m möjliga utfall = baserat på 3 p u n k t e r gynnsamt för att få summan när summan är större än 0 möjliga utfall gynnsamt för att få en summa större än 0 möjliga utfall baserat på 3 6 p u n k t e r Exemplet visar på att det är viktigt att hålla reda på hur grundmängden ser ut, och därmed de möjliga utfallen, samt att om vi gör det så nns det mer än ett sätt att komma fram till sannolikheten för summan. I det första fallet har den betraktade grundmängden reducerats från 36 punkter till 3 punkter och vi besvarar frågan genom att betrakta endast dessa 3 punkter. I det senare fallet betraktar vi samma problem men utifrån alla 36 punkter. Det begrepp som här införts kallas betingning och innebär konkret att utfallsrummet 3 görs mindre samt att sannolikheterna ändrar utseende. Den så erhållna sannolikheten, för att få summan när vi vet att summan är större än 0, kallas den betingade sannolikheten och den kan 3 För de nition av utfallsrum se avsnittet om Allmänna sannolikhetsmått följande sida.

40 .. Allmänna sannolikhetsmått uttryckas i termer av sannolikheter på det ursprungliga utfallsrummet. Vi säger att vi har funnit sannolikheten för att summan är betingat av att summan är större än Oberoende Ibland har extra kunskap ingen betydelse för en händelses sannolikhet och vi säger då att händelsen är oberoende av den extra kunskapen. Antag att vi är intresserade av att beräkna sannolikheten för att få, vid kast med två tärningar, en röd :a när vi ck en grön 3:a. För denna händelse gäller att g RG3 m = g f(;3)g m f(;3);:::;(6;3)g = 6 Men vi får exakt samma resultat om vi helt struntar i den gröna tärningen: g R m = 6 Det gäller därför att sannolikheten för att erhålla en röd :a betingat av att vi ck en grön 3:a, vid kast med två tärningar, är densamma som sannolikheten att erhålla en röd :a, vid kast med en tärning, g RG3 g R m m = och detta är också vad vi intuitivt känner för. Implikationen av detta begrepp framgår klarare i nästa avsnitt där en beteckning för betingning införs.. Allmänna sannolikhetsmått Situationen kast med två tärningar är onekligen lite speciell och vi vill kunna lösa många er problem än man kan med några tärningar. Däremot är kast med två tärningar en utmärkt grund för att förstå nya begrepp som införs. Nu skall vi däremot, som den gode baron Münchhausen, lyfta oss i håret så att vi ser det hela från ovan. Det väsentliga vi gjort är att betrakta mängder och på dessa ange en räkneregel för att räkna ut sannolikheten för dylika mängder. Vi utgick från en grundmängd som bestod av alla möjliga elementära utfall (ej delbara händelser), ovan bestod denna grundmängd av de 36 punkterna, och vi skall kalla denna grundmängd för utfallsrummet och beteckna det med.

41 3. Därefter införde vi olika delmängder som vi här skall kalla A och B. Dessutom infördes den tomma mängden som den mängd som inte innehåller något alls (jämför med talet 0) och den betecknas med ;. För alla dessa mängder gäller mängdoperationerna \ = snitt: A \ B är det som är gemensamt för A och B. [ = union: A [ B är det som nns i en eller båda av A och B. = delmängd: A B betyder att mängden A helt ligger i mängden B. { = komplement: {A är det som ej nns i A. samt att alla mängder är delmängder av. På de så införda mängderna de nieras nu en räkneregel (funktion) P som talar om en mängd:s chans för att inträ a och denna räkneregel skall uppfylla ett antal axiom. Dessa är trivialt uppfyllda i tärningsexemplet ovan (kontrollera)... Kolmogorovs axiom För ett givet utfallsrum och sannolikhetsräkneregel P skall det gälla. P () =,. Om A så skall gälla 0 P (A), 3. Om A \ B = ; så skall gälla P (A [ B) = P (A) + P (B). Dessa axiom kan synas triviala och självklara men de har haft en oerhörd betydelse för utvecklingen av den matematiska statistiken. Förutsättningen i axiom 3 är så ofta förekommande att den har fått ett eget namn: De nition. Två mängder A och B säges vara disjunkta om det gäller A \ B = ;. Uppgift. Använd Kolmogorovs axiom för att visa att sannolikheten för att få ett jämnt antal poäng, vid kast med en tärning, är en halv. Med hjälp av Kolmogorovs axiom kan man direkt härleda era mycket användbara samband. Vi börjar med den allmänna additionssatsen. Sats. För godtyckliga mängder A och B gäller att P (A [ B) = P (A) + P (B) P (A \ B).

42 4.. Allmänna sannolikhetsmått Exempel. Vad är sannolikheten att få minst en 4:a vid kast med två tärningar? Lösning De niera de två delmängderna R 4 och G 4 enligt R 4 = en 4:a på den röda tärningen, G 4 = en 4:a på den gröna tärningen, och för dessa två delmängder gäller enligt den klassiska sannolikhetsdefinitionen att P (R 4 ) = P (G 4 ) = 6 36 = 6. Sannolikheten att få minst en 4:a blir enligt sats. sid 3 P (R 4 [ G 4 ) = P (R 4 ) + P (G 4 ) P (R 4 \ G 4 ) = = 36. Additionssatsen gör livet lite enklare eftersom den håller reda på de punkter som är gemensamma för de två mängderna. Den ger oss också följande mycket användbara samband mellan en mängd och dess komplement 4. Sats. Om A är en godtycklig mängd så gäller att P {A = P (A). Betydelsen av denna sats skall inte underskattas. Ty ofta när det är svårt att lösa ett speci kt sannolikhetsproblem visar det sig att det komplementära problemet är enklare att lösa ibland blir det trivialt. Men om det komplementära problemet är löst så är, enligt ovanstående sats, även det ursprungliga problemet löst. Uppgift. Visa att för den tomma mängden ; gäller P (;) = 0. Exempel. Visa att bland 3 slumpmässigt utvalda personer så är sannolikheten för att minst två skall ha samma födelsedag större än 0:5. Lösning Detta är ett typiskt exempel när det är svårt att räkna ut den sökta sannolikheten direkt (försök göra detta). Betrakta istället komplementhändelsen! A = minst två har samma födelsedag, {A = alla har olika födelsedagar. 4 Komplementet till en mängd A är allt i som ej tillhör mängden A och denna mängd betecknar vi med {A.

Visa mer