13.1 Matematisk statistik 13.1.1 Grundläggande begrepp I den här föreläsningen kommer vi att definiera och exemplifiera ett antal begrepp som sedan kommer att följa oss genom hela kursen. Det är därför av största vikt att memorera dem och lära sig vad de står för. Med ordet statistik kan menas dels data eller uppgifter som ofta sammanställs i numerisk form, vanligen i tabeller eller diagram som vetenskapen om hur dessa uppgifter skall samlas in, analyseras och presenteras. som vetenskapen, som en del av den tillämpade matematiken, där man studerar slumpmässiga förändringar. Grundläggande för statistik som en vetenskap är sannolikhetslära, som den största delen av kursen kommer att handla om. Exempel 1. Från filen heartstat.txt saxar vi dessa två rader 44 4 124 80 140 70 254 165 178 86 84 0 35 5 110 70 114 74 240 209 185 98 84 0 data från två av totalt 200 män, med variabler enligt tabellen nedan: 1 Ålder när testerna startades 2 Utbildning (1=Hög... 5=Låg) 3 Systoliskt blodtryck (övre trycket) 4 Diastoliskt blodtryck (undre trycket) 5 Systoliskt blodtryck 10 år senare 6 Diastoliskt blodtryck 10 år senare 7 Kolesterol 8 Kolesterol 10 år senare 9 Längd i cm 10 Vikt i kg Håkan Strömberg 1 KTH Syd
13.1. MATEMATISK STATISTIK 11 Puls (slag/minut) 12 1=Har haft hjärtinfarkt, 0=Har ej haft hjärtinfarkt Frågan är nu hur vi kan presentera och analysera dessa uppgifter. Finns det några samband? Även om vi aldrig kan bevisa dessa samband, kan vi kanske påstå att de till ett viss sannolikhet är sanna. 13.1.2 Medelvärde Låt n beteckna antalet observationer i ett material, där x 1,x 2,...x n är observationernas värden. Det aritmetiska medelvärdet, m, bestäms då, som alla redan känner till, genom x = 1 n x i n medelvärdet tillhör kategorin lägesmått 13.1.3 Median Ett annat välkänt lägesmått är median md, som definieras som det mittersta värdet i ett material efter att det sorterats i storleksordning. Detta fungerar bra då antalet observationer n, är udda. Då däremot n är jämt bestämmer man md genom medelvärdet av de två mittersta observationerna. Exempel 2. Bestäm genom huvudräkning m och md för 4,7,3,10,6,5,9,1, 5 md = 5 liksom m = 5. Att de lika är här en tillfällighet. Hos 1,2,1002 är md = 2 och m = 335. Skillnad så det räcker! 13.1.4 Variationsbredd Variationsbredden tillhör kategorin spridningsmått R, som också är det enklaste i denna kategori. Helt enkelt skillnaden mellan det största och minsta observationsvärdet. 13.1.5 Varians Till de vanligaste spridningsmått en hör varians som definieras s 2 = 1 n (x i x) 2 Håkan Strömberg 2 KTH Syd
Man summerar alltså kvadraterna på skillnaden mellan observationsvärdena och medelvärdet. Om observationsvärdena ligger nära medelvärdet är variansen mindre än om de är utspridda på båda långt från medelvärdet. Varför man dividerar med i stället för n får bli en hemlighet så länge. 13.1.6 Standardavvikelse Om observationsvärdena mäts i cm, variansen dimensionen cm 2, vilket kan kännas lite märkligt. Av den anledningen så definieras spridningsmåttet standardavvikelsen som s = 1 n (x i x) 2 I och med detta får vi ett mått i samma dimension som observationsvärdena. Exempel 3. Om man ska skriva ett program som bestämmer variansen s 2 för ett material kan man först tro att man måste går igenom observationerna två gånger. Första gången för att bestämma medelvärdet och andra för att till slut bestämma variansen. Men... n (x i x) 2 = n ( x 2 i 2x i x + x 2) = n x2 i 2x n x i + n x 2 = n x2 i 2x nx + n x2 = n x2 i 1 n ( n x i) 2 Vår nya och effektivare formel för varians får alltså följande utseende ( s 2 = 1 n x 2 i 1 n ) 2 x i n Så här kommer funktionen att ta sig ut i C: 1 double varians(double a[ ],int n){ 2 double s=0,ks=0; 3 int i; 4 for(i=0;i<n;i++){ 5 s+=a[i]; 6 ks+=a[i] a[i]; 7 } 8 return (ks s s/n)/(n 1); 9 } 13.1.7 Frekvenstabell Genom en frekvenstabell får man en klarare överblick av en serie observationsvärden än över själva listan av värden. Denna tabell över absoluta frekvenser Längd (y i ) 157 160 163 165 168 170 173 175 178 180 183 185 188 Antal (f i ) 1 3 4 11 21 35 26 27 26 22 9 9 6 Håkan Strömberg 3 KTH Syd
13.1. MATEMATISK STATISTIK innehåller precis lika mycket information som denna tabell över rådata, speciellt då ordning här saknar betydelse 178 185 173 173 173 178 173 170 168 170 175 173 168 188 165 188 178 175 175 168 180 175 175 175 178 180 173 170 173 185 175 170 180 178 173 173 180 175 175 170 173 168 168 165 173 175 185 180 183 178 165 175 180 170 173 178 170 173 175 157 168 170 178 173 168 170 170 165 170 170 175 188 170 168 175 173 178 175 170 168 178 178 165 168 170 170 168 170 163 183 175 178 188 165 175 163 160 175 160 173 170 178 175 170 173 180 180 180 175 180 183 165 170 180 178 180 180 178 185 188 170 185 168 180 168 165 168 170 173 178 168 183 168 168 173 173 165 170 180 178 170 180 175 180 175 170 180 178 178 185 178 185 180 175 168 170 165 168 170 175 170 173 170 183 183 180 168 165 175 170 173 180 160 183 180 178 178 185 170 173 168 163 175 173 178 183 170 178 170 173 175 183 185 163 173 178 170 178 188 170 Om vi betecknar de k olika observationsvärdena med y i i = 1... k och antalet förekomster av detta med f i i = 1... k kan vi skriva en ny formel för medelvärdet m = 1 n k f i y i Vi kan också skriva formeln för varians med hjälp av y i och f i. Speciellt om vi använder oss av den senare effektiva formeln ( s 2 = 1 n f i y 2 i 1 n ) 2 f i y i n Ibland presenterar man en frekvenstabell med relativa frekvenser uttryckta i procent Längd 157 160 163 165 168 170 173 175 178 180 183 185 188 Rel frekv 0.5 1.5 2.0 5.5 10.5 17.5 13.0 13.5 13.0 11.0 4.5 4.5 3.0 Det största värdet f i i en frekvenstabell kallas typvärde. 13.1.8 Stolpdiagram En frekvenstabell kan framställas grafiskt som ett stolpdiagram Var och en av de k olika y i observationsvärdena ger upphov till en stolpe med en höjd som motsvarar dess f i 13.1.9 Klassindelning Antalet olika observationsvärden, y i, vi exemplifierat med ovan, har hela tiden varit litet. Då antalet olika observationsvärden ökar, ökar också frekvenstabellens längd och antalet stolpar i stolpdiagrammet. Troligtvis minskar samtidigt f i och vi får en mängd korta stolpar. För att behålla överblicken tvingas man då slå samman flera observationsvärden till en klass. Man kallar detta att klassindela materialet. Samtidigt måste man då vara medveten Håkan Strömberg 4 KTH Syd
35 30 25 20 15 10 5 157160163165168170173175178180183185188 Figur 13.1: En frekvenstabell i grafisk form om att man tappar information. En klass har två klassgränser, som utgör ett intervall. Talet i mitten av intervallet kallas klassmitt. Bestämmer man sig för för många klasser närmar man sig den situation som fick en att lämna stolpdiagrammet. För få klasser däremot innebär att för mycket information går förlorad. 13.1.10 Histogram När man presenterar data genom ett histogram, får man en uppfattning om både medelvärde och spridning. Stapelns höjd bestäms av antalet män med längden i intervallet 60 50 40 30 20 10 160 165 170 175 180 185 190 Figur 13.2: Längden hos 200 män [x...x + 5]. Antalet intervall i vilket materialet indelas avgör graden av användbarhet. 200 150 100 50 50 100 150 200 Figur 13.3: Ett intervall är förstås meningslöst Håkan Strömberg 5 KTH Syd
13.1. MATEMATISK STATISTIK 35 30 25 20 15 10 5 160 165 170 175 180 185 Figur 13.4: Ett intervall per cm visar att mätningarna inte gjorts speciellt noggrant, eftersom flera intervall är tomma. 13.1.11 Kvartiler 0.5 0.4 0.3 0.2 0.1-0.1-3 -2-1 0 1 2 3 Kartil 1 Kartil 4 Figur 13.5: Kvartilerna delar ett sorterat datamaterial i fyra lika delar. En fjärdedel av observationerna är mindre än första kvartilen Q1 (undre kvartilen) och tre fjärdedelar är mindre än den tredje kvartilen Q3 (övre kvartilen). Den andra kvartilen är samma sak som medianen (md) Maple Med funktionen histogram kan man ordna histogram i Maple with(stats); with(stats[statplots]); data1:=[...]; histogram(data1,color=cyan,numbars=6,area=1) numbars anger antalet intervall. Problem 1. Konstruera två serier med vardera 5 observationsvärden, där md = m men där serierna ändå är olika. Håkan Strömberg 6 KTH Syd
Problem 2. Med hjälp av with(randomtools); langd:=generate(list(distribution(normal(180,12)),200)); kan man generera normalfördelade slumptal med medelvärdet 180 och standardavvikelsen 12. Upprätta ett histogram med 10 röda staplar som presenterar resultatet. Svar 1. with(randomtools); langd:=generate(list(distribution(normal(180,12)),200)); histogram(langd,color=red,numbars=10,area=1) Håkan Strömberg 7 KTH Syd