13.1 Matematisk statistik

Relevanta dokument
Statistik 1 för biologer, logopeder och psykologer

Beskrivande statistik

Beskrivande statistik

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

13.1 Matematisk statistik

2 Dataanalys och beskrivande statistik

Kvantitativ strategi Univariat analys 2. Wieland Wermke

Föreläsning G60 Statistiska metoder

Bearbetning och Presentation

Kvantitativ forskning C2. Viktiga begrepp och univariat analys

F4 Beskrivning av ett datamaterial. Val av diagram, lägesmått och spridningsmått.

Föreläsning G70 Statistik A

Exempel: Väljarbarometern. Föreläsning 1: Introduktion. Om Väljarbarometern. Statistikens uppgift

TMS136. Föreläsning 7

Forskningsmetodik 2006 lektion 2

11. DESKRIPTION EN VARIABEL

Föreläsning 1: Introduktion

Statistik och epidemiologi T5

732G01/732G40 Grundläggande statistik (7.5hp)

11. DESKRIPTION EN VARIABEL

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Introduktion till statistik för statsvetare

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

MVE051/MSG Föreläsning 7

Föreläsning 1: Introduktion

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

MATEMATIK ARBETSOMRÅDET LIKABEHANDLING Kränkande handlingar, nätmobbning, rasism och genus

Värdena för en diskret variabel (med få värden) kan redovisas i en tabell över frekvensfördelningen, dvs antalet observationer för de olika värdena.

Medelvärde, median och standardavvikelse

En typisk medianmorot

19.1 Funktioner av stokastiska variabler

KLEINLEKTION. Område statistik. Lektionens upplägg. Lämplig inom kurserna Matematik 2b och 2c. Engage (Väck intresse) Explore (Upptäck laborera)

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Valresultat Riksdagen 2018

Förra gången (F4-F5)

3, 6, 9, 12, 15, 18. 1, 2, 4, 8, 16, 32 Nu är stunden inne, då vill vill summera talen i en talföljd

Föreläsning 1: Introduktion

Biostatistik: Begrepp & verktyg. Kvantitativa Metoder II: teori och tillämpning.

Skrivning/skriftlig eksamen till statistikdelen av kursen i forskningsmetodik maj 2002

a = a a a a a a ± ± ± ±500

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

*****************************************************************************

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel

Deskription (Kapitel 2 i Howell) Moment 1: Statistik, 3 poäng

17.1 Kontinuerliga fördelningar

2.1 Minitab-introduktion

Grundläggande statistik kurs 1

Liten handledning i Excel och StarOffice Calc i anslutning till Datorövning 1

Syfte med undervisningen är att du ska få utveckla din förmåga att...

Grundläggande matematisk statistik

Ma7-Åsa: Statistik och Sannolikhetslära

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

Experimentella metoder 2014, Räkneövning 1

Introduktion till statistik för statsvetare

Lite extra material för deltagarna i kursen MAB 5.1

Medicinsk statistik I

Examinationsuppgift 2014

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Att göra före det schemalagda labpasset.

Gamla tentor (forts) ( x. x ) ) 2 x1

Introduktion till statistik för statsvetare

Introduktion till statistik för statsvetare

Finansiell statistik, vt-05. Allmän information. Johan Koskinen. F1(a) Allmän information

Laboration 1: Beskrivande statistik

ÖVNINGSUPPGIFTER KAPITEL 2

732G70, 732G01 Statistik A 7hp

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

Ingenjörsmetodik IT & ME 2011 Föreläsning 11

F2 Beskrivning av ett datamaterial. Tabellering och val av diagram. Summatecknet

SF1901: SANNOLIKHETSTEORI OCH STATISTIK GRUNDLÄGGANDE SANNOLIKHETSTEORI, KORT OM BESKRIVANDE STATISTIK. Tatjana Pavlenko.

Studieplanering till Kurs 2b Grön lärobok

Statistik. Berit Bergius & Lena Trygg, NCM

Arbeta med normalfördelningar

Institutionen för lingvistik och filologi VT 2014 (Marco Kuhlmann 2013, tillägg och redaktion Mats Dahllöf 2014).

Statistik för Brandingenjörer. Laboration 1

MA1S TATISTIK UPPGIFTER

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

Matematik 2b 1 Uttryck och ekvationer

Statistik 1 för biologer, logopeder och psykologer

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Det är tänkt att varje elev eller grupp ska få en egen kopia av provresultaten och en egen datablankett att fylla i.

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Statistiska undersökningar

Statistik för ingenjörer 1MS008

Antal ögon Vinst (kr) Detta leder till följande uttryck E(x) = x x p X(x) x f X(x)dx

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Forskningsmetodik 2006 Lektion 3

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Laboration med Minitab

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Repetitionsprov inför provet Statistik

Transkript:

13.1 Matematisk statistik 13.1.1 Grundläggande begrepp I den här föreläsningen kommer vi att definiera och exemplifiera ett antal begrepp som sedan kommer att följa oss genom hela kursen. Det är därför av största vikt att memorera dem och lära sig vad de står för. Med ordet statistik kan menas dels data eller uppgifter som ofta sammanställs i numerisk form, vanligen i tabeller eller diagram som vetenskapen om hur dessa uppgifter skall samlas in, analyseras och presenteras. som vetenskapen, som en del av den tillämpade matematiken, där man studerar slumpmässiga förändringar. Grundläggande för statistik som en vetenskap är sannolikhetslära, som den största delen av kursen kommer att handla om. Exempel 1. Från filen heartstat.txt saxar vi dessa två rader 44 4 124 80 140 70 254 165 178 86 84 0 35 5 110 70 114 74 240 209 185 98 84 0 data från två av totalt 200 män, med variabler enligt tabellen nedan: 1 Ålder när testerna startades 2 Utbildning (1=Hög... 5=Låg) 3 Systoliskt blodtryck (övre trycket) 4 Diastoliskt blodtryck (undre trycket) 5 Systoliskt blodtryck 10 år senare 6 Diastoliskt blodtryck 10 år senare 7 Kolesterol 8 Kolesterol 10 år senare 9 Längd i cm 10 Vikt i kg Håkan Strömberg 1 KTH Syd

13.1. MATEMATISK STATISTIK 11 Puls (slag/minut) 12 1=Har haft hjärtinfarkt, 0=Har ej haft hjärtinfarkt Frågan är nu hur vi kan presentera och analysera dessa uppgifter. Finns det några samband? Även om vi aldrig kan bevisa dessa samband, kan vi kanske påstå att de till ett viss sannolikhet är sanna. 13.1.2 Medelvärde Låt n beteckna antalet observationer i ett material, där x 1,x 2,...x n är observationernas värden. Det aritmetiska medelvärdet, m, bestäms då, som alla redan känner till, genom x = 1 n x i n medelvärdet tillhör kategorin lägesmått 13.1.3 Median Ett annat välkänt lägesmått är median md, som definieras som det mittersta värdet i ett material efter att det sorterats i storleksordning. Detta fungerar bra då antalet observationer n, är udda. Då däremot n är jämt bestämmer man md genom medelvärdet av de två mittersta observationerna. Exempel 2. Bestäm genom huvudräkning m och md för 4,7,3,10,6,5,9,1, 5 md = 5 liksom m = 5. Att de lika är här en tillfällighet. Hos 1,2,1002 är md = 2 och m = 335. Skillnad så det räcker! 13.1.4 Variationsbredd Variationsbredden tillhör kategorin spridningsmått R, som också är det enklaste i denna kategori. Helt enkelt skillnaden mellan det största och minsta observationsvärdet. 13.1.5 Varians Till de vanligaste spridningsmått en hör varians som definieras s 2 = 1 n (x i x) 2 Håkan Strömberg 2 KTH Syd

Man summerar alltså kvadraterna på skillnaden mellan observationsvärdena och medelvärdet. Om observationsvärdena ligger nära medelvärdet är variansen mindre än om de är utspridda på båda långt från medelvärdet. Varför man dividerar med i stället för n får bli en hemlighet så länge. 13.1.6 Standardavvikelse Om observationsvärdena mäts i cm, variansen dimensionen cm 2, vilket kan kännas lite märkligt. Av den anledningen så definieras spridningsmåttet standardavvikelsen som s = 1 n (x i x) 2 I och med detta får vi ett mått i samma dimension som observationsvärdena. Exempel 3. Om man ska skriva ett program som bestämmer variansen s 2 för ett material kan man först tro att man måste går igenom observationerna två gånger. Första gången för att bestämma medelvärdet och andra för att till slut bestämma variansen. Men... n (x i x) 2 = n ( x 2 i 2x i x + x 2) = n x2 i 2x n x i + n x 2 = n x2 i 2x nx + n x2 = n x2 i 1 n ( n x i) 2 Vår nya och effektivare formel för varians får alltså följande utseende ( s 2 = 1 n x 2 i 1 n ) 2 x i n Så här kommer funktionen att ta sig ut i C: 1 double varians(double a[ ],int n){ 2 double s=0,ks=0; 3 int i; 4 for(i=0;i<n;i++){ 5 s+=a[i]; 6 ks+=a[i] a[i]; 7 } 8 return (ks s s/n)/(n 1); 9 } 13.1.7 Frekvenstabell Genom en frekvenstabell får man en klarare överblick av en serie observationsvärden än över själva listan av värden. Denna tabell över absoluta frekvenser Längd (y i ) 157 160 163 165 168 170 173 175 178 180 183 185 188 Antal (f i ) 1 3 4 11 21 35 26 27 26 22 9 9 6 Håkan Strömberg 3 KTH Syd

13.1. MATEMATISK STATISTIK innehåller precis lika mycket information som denna tabell över rådata, speciellt då ordning här saknar betydelse 178 185 173 173 173 178 173 170 168 170 175 173 168 188 165 188 178 175 175 168 180 175 175 175 178 180 173 170 173 185 175 170 180 178 173 173 180 175 175 170 173 168 168 165 173 175 185 180 183 178 165 175 180 170 173 178 170 173 175 157 168 170 178 173 168 170 170 165 170 170 175 188 170 168 175 173 178 175 170 168 178 178 165 168 170 170 168 170 163 183 175 178 188 165 175 163 160 175 160 173 170 178 175 170 173 180 180 180 175 180 183 165 170 180 178 180 180 178 185 188 170 185 168 180 168 165 168 170 173 178 168 183 168 168 173 173 165 170 180 178 170 180 175 180 175 170 180 178 178 185 178 185 180 175 168 170 165 168 170 175 170 173 170 183 183 180 168 165 175 170 173 180 160 183 180 178 178 185 170 173 168 163 175 173 178 183 170 178 170 173 175 183 185 163 173 178 170 178 188 170 Om vi betecknar de k olika observationsvärdena med y i i = 1... k och antalet förekomster av detta med f i i = 1... k kan vi skriva en ny formel för medelvärdet m = 1 n k f i y i Vi kan också skriva formeln för varians med hjälp av y i och f i. Speciellt om vi använder oss av den senare effektiva formeln ( s 2 = 1 n f i y 2 i 1 n ) 2 f i y i n Ibland presenterar man en frekvenstabell med relativa frekvenser uttryckta i procent Längd 157 160 163 165 168 170 173 175 178 180 183 185 188 Rel frekv 0.5 1.5 2.0 5.5 10.5 17.5 13.0 13.5 13.0 11.0 4.5 4.5 3.0 Det största värdet f i i en frekvenstabell kallas typvärde. 13.1.8 Stolpdiagram En frekvenstabell kan framställas grafiskt som ett stolpdiagram Var och en av de k olika y i observationsvärdena ger upphov till en stolpe med en höjd som motsvarar dess f i 13.1.9 Klassindelning Antalet olika observationsvärden, y i, vi exemplifierat med ovan, har hela tiden varit litet. Då antalet olika observationsvärden ökar, ökar också frekvenstabellens längd och antalet stolpar i stolpdiagrammet. Troligtvis minskar samtidigt f i och vi får en mängd korta stolpar. För att behålla överblicken tvingas man då slå samman flera observationsvärden till en klass. Man kallar detta att klassindela materialet. Samtidigt måste man då vara medveten Håkan Strömberg 4 KTH Syd

35 30 25 20 15 10 5 157160163165168170173175178180183185188 Figur 13.1: En frekvenstabell i grafisk form om att man tappar information. En klass har två klassgränser, som utgör ett intervall. Talet i mitten av intervallet kallas klassmitt. Bestämmer man sig för för många klasser närmar man sig den situation som fick en att lämna stolpdiagrammet. För få klasser däremot innebär att för mycket information går förlorad. 13.1.10 Histogram När man presenterar data genom ett histogram, får man en uppfattning om både medelvärde och spridning. Stapelns höjd bestäms av antalet män med längden i intervallet 60 50 40 30 20 10 160 165 170 175 180 185 190 Figur 13.2: Längden hos 200 män [x...x + 5]. Antalet intervall i vilket materialet indelas avgör graden av användbarhet. 200 150 100 50 50 100 150 200 Figur 13.3: Ett intervall är förstås meningslöst Håkan Strömberg 5 KTH Syd

13.1. MATEMATISK STATISTIK 35 30 25 20 15 10 5 160 165 170 175 180 185 Figur 13.4: Ett intervall per cm visar att mätningarna inte gjorts speciellt noggrant, eftersom flera intervall är tomma. 13.1.11 Kvartiler 0.5 0.4 0.3 0.2 0.1-0.1-3 -2-1 0 1 2 3 Kartil 1 Kartil 4 Figur 13.5: Kvartilerna delar ett sorterat datamaterial i fyra lika delar. En fjärdedel av observationerna är mindre än första kvartilen Q1 (undre kvartilen) och tre fjärdedelar är mindre än den tredje kvartilen Q3 (övre kvartilen). Den andra kvartilen är samma sak som medianen (md) Maple Med funktionen histogram kan man ordna histogram i Maple with(stats); with(stats[statplots]); data1:=[...]; histogram(data1,color=cyan,numbars=6,area=1) numbars anger antalet intervall. Problem 1. Konstruera två serier med vardera 5 observationsvärden, där md = m men där serierna ändå är olika. Håkan Strömberg 6 KTH Syd

Problem 2. Med hjälp av with(randomtools); langd:=generate(list(distribution(normal(180,12)),200)); kan man generera normalfördelade slumptal med medelvärdet 180 och standardavvikelsen 12. Upprätta ett histogram med 10 röda staplar som presenterar resultatet. Svar 1. with(randomtools); langd:=generate(list(distribution(normal(180,12)),200)); histogram(langd,color=red,numbars=10,area=1) Håkan Strömberg 7 KTH Syd