F2 Beskrivning av ett datamaterial. Tabellering och val av diagram. Summatecknet

Relevanta dokument
F4 Beskrivning av ett datamaterial. Val av diagram, lägesmått och spridningsmått.

Statistik 1 för biologer, logopeder och psykologer

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Föreläsning G60 Statistiska metoder

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.

Grundläggande statistik kurs 1

11. DESKRIPTION EN VARIABEL

Statistiska undersökningar

Beskrivande statistik

Handledning för konstruktion av tabeller och diagram med Excel

MATEMATIK ARBETSOMRÅDET LIKABEHANDLING Kränkande handlingar, nätmobbning, rasism och genus

13.1 Matematisk statistik

Föreläsning 6. Korstabeller (Tvåvägstabeller) Kap Korstabeller

Valresultat Riksdagen 2018

Beskrivande statistik

11. DESKRIPTION EN VARIABEL

Introduktion till statistik för statsvetare

Värdena för en diskret variabel (med få värden) kan redovisas i en tabell över frekvensfördelningen, dvs antalet observationer för de olika värdena.

12. DESKRIPTION FLERA VARIABLER

ÖVNINGSUPPGIFTER KAPITEL 2

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Förra gången (F4-F5)

Vägda medeltal och standardvägning

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

Föreläsning G70 Statistik A

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Statistik för Brandingenjörer. Laboration 1

ÖVNINGSUPPGIFTER KAPITEL 2

Datorövning 1 Statistik med Excel (Office 2010, svenska)

Markovkedjor. Patrik Zetterberg. 8 januari 2013

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Bearbetning och Presentation

Sammanfattningar Matematikboken Y

2 Dataanalys och beskrivande statistik

Laborationer i statistik för A:1, Lab 1

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

2. Lära sig beskriva en variabel numeriskt med "proc univariate" 4. Lära sig rita diagram med avseende på en annan variabel

732G01/732G40 Grundläggande statistik (7.5hp)

Deskription (Kapitel 2 i Howell) Moment 1: Statistik, 3 poäng

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

STOCKHOLMS UNIVERSITET VT 2008 Statistiska institutionen Linda Wänström

En typisk medianmorot

Lokala mål i matematik

(a) Lära sig beräkna sannolikheter för binomial- och normalfördelade variabler (b) Lära sig presentera binomial- och normalfördelningen gra skt

Statistik 1 för biologer, logopeder och psykologer

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

REPETITION 3 A. en femma eller en sexa?

bli bekant med summor av stokastiska variabler.

Introduktion till statistik för statsvetare

732G70, 732G01 Statistik A 7hp

Kvantitativ strategi Univariat analys 2. Wieland Wermke

Lite extra material för deltagarna i kursen MAB 5.1

Richard Öhrvall, 1

Föreläsning G60 Statistiska metoder

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Datorövning 1 Introduktion till Minitab och Excel

Liten handledning i Excel och StarOffice Calc i anslutning till Datorövning 1

Biostatistik: Begrepp & verktyg. Kvantitativa Metoder II: teori och tillämpning.

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Medelvärde, median och standardavvikelse

Syfte med undervisningen är att du ska få utveckla din förmåga att...

Att göra före det schemalagda labpasset.

Datainmatning TÄNKTA BETECKNINGAR. Variabelnamn/kolumnbeteckning, Dummyvärden, som matas in beroende på aktuellt svarsalternativ

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 8. Kapitel 9 och 10 sid Samband mellan kvalitativa och kvantitativa variabler

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Statistik i Excel en introduktion

Lektionsanteckningar 11-12: Normalfördelningen

Kapitel 1 - bekanta dig med din målgrupp

Kvantitativ forskning C2. Viktiga begrepp och univariat analys

Uppgift 1. Produktmomentkorrelationskoefficienten

Histogram, pivottabeller och tabell med beskrivande statistik i Excel

Sammanfattningar Matematikboken X

en femma eller en sexa?

SPSS En guidad tur. Vad ska jag göra idag? Följ instruktioner som följer, om du behöver hjälp det är bara att fråga en lärare!

Tentamen: Vetenskapliga perspektiv på studie- och yrkesvägledning, 7,5hp distans (D1) & campus (T1), ht12

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 4: Aritmetik, forts. Tal i bråkform Tal i decimalform Sambandet mellan tal i bråkform och decimalform Procentbegreppet och Procenträkning

Exempel: Väljarbarometern. Föreläsning 1: Introduktion. Om Väljarbarometern. Statistikens uppgift

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Grundläggande matematisk statistik

Extramaterial till Matematik X

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Tal Räknelagar Prioriteringsregler

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 10 e januari Ten 1, 9 hp

OBS! Vi har nya rutiner.

Matematikcentrum 1(11) Matematisk Statistik Lunds Universitet. R - a guided tour

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Kontrollera att följande punkter är uppfyllda innan rapporten lämnas in: Första sidan är ett försättsblad (laddas ned från kurshemsidan)

Delkursplanering MA Matematik A - 100p

Katedralskolan Lena Claesson MICROSOFT EXCEL

Sociologi GR (A) Sociologisk Metod Examination #2 Peter Axelsson. N Minimum Maximum Mean Std. Deviation

Föreläsning 2 Deskription (forts). Index Deskription: diagram som stapeldiagram, histogram mm (tex spridningsdiagram, Mera om mätnivåer

Transkript:

F2 Beskrivning av ett datamaterial. Tabellering och val av diagram. Summatecknet

Tabellering av kvalitativ variabel En kvalitativ variabel varierar över ett antal kategorier. Antag att vi har observerat 300 personer och är intresserade av variabeln KÖN. Ange antalet individer som tillhör varje kategori i en frekvenstabell. Kön Antal personer Andel personer (%) Män 120 40 Kvinnor 180 60 Totalt 300 100 Den relativa frekvensen för män ges av 120 100 = 40(%). 300 I tabellen återges den absoluta och den relativa(procentuella) fördelningen.

Diagram över kvalitativ variabel: cirkeldiagram Andelarna kan illustreras som tårtbitar eller cirkelsektorer med en viss medelpunktsvinkel. Hela varvet i en cirkel utgör 360. Vilken medelpunktsvinkel skall andelen män ha? 40% av 360 = 0, 40 360 = 144.

Diagram över kvalitativ variabel: stapeldiagram Vi kan även rita staplar vars höjd motsvarar andelarna.

Tabellering av två kvalitativa variabler i kombination-korstabellering Om vi har observationer på två variabler kan vi (förstås) göra två frekvenstabeller. Om vi vill studera samvariationen mellan de två variablerna gör vi en korstabell. Vi tabellerar observationspar istället för observationer. Ange antalet individer som tillhör varje par av kategorier. Exempel. Civilstånd och valdeltagande. Individerna är antingen gifta(g) eller ej gifta(eg) och har röstat (= 1) eller ej röstat (= 0). Det ger fyra möjligheter (G, 0), (G, 1), (EG, 0), (EG, 1).

Arbetstabell Antag att de fyra första observationerna blir (G, 0), (EG, 1), (G, 1), (G, 1). Valdeltagande Civilstånd 0 1 G / // EG / När alla observationer avprickats kan vi framställa korstabellen. Valdeltagande Civilstånd Ej röstat Röstat Gifta 54 1496 Ej gifta 85 628

Korstabell eller grupperade staplar? Valdeltagande Civilstånd Ej röstat Röstat Gifta 54 1496 Ej gifta 85 628

Korstabell eller grupperade staplar? Valdeltagande Civilstånd Ej röstat Röstat Gifta 54 1496 Ej gifta 85 628

Korstabell-marginalfördelningar Valdeltagande Civilstånd Ej röstat Röstat Summa Gifta 54 1496 1550 Ej gifta 85 628 713 Summa 139 2124 2263 Vi har summerat radvis och kolumnvis. T ex över gifta och ogifta som inte röstat 54 + 85 = 139. Dessa fördelningar kallas marginalfrekvenserna eller marginalfördelningarna.

Marginalfördelningar De bägge marginalfördelningarna kan framställas på vanligt vis. Den absoluta och den relativa fördelningen för CIVILSTÅND ges som Civilstånd Antal personer Andel personer (%) Gifta 1550 68,5 Ej gifta 713 31,5 Totalt 2263 100 Den absoluta och den relativa fördelningen för VALDELTAGANDE ges som Valdeltagande Antal personer Andel personer (%) Ej röstat 139 6,1 Röstat 2124 93,9 Totalt 2263 100 Dessa fördelningar kan avläsas ur korstabellen.

Procentuell uppdelning radvis För att jämföra hur de gifta och de ogifta röstar, räknar vi om till radprocent. Valdeltagande Civilstånd Ej röstat Röstat Summa Gifta 54 1496 1550 Ej gifta 85 628 713 Summa 139 2124 2263 T ex och 54 100 = 3, 5(%). 1550 1496 100 = 96, 5(%). 1550

Procentuell uppdelning radvis Gör vi samma beräkningar för de ogifta, så får vi Valdeltagande Civilstånd Ej röstat Röstat Summa Gifta 3,5 96,5 100 Ej gifta 11,9 88,1 100 Summa 6,1 93,9 100 Tabellen visar hur fördelningen av individer på variabeln VALDELTAGANDE är betingad av om individerna är gifta eller ogifta. Vi har två betingade fördelningar. Vi har beräknat procenten i horisontell riktning, men jämför procenttalen i de vertikala kolumnerna. I den första kolumnen ökar andelen icke-röstande när vi går från gifta till ogifta. I den andra tvärtom.

Samband mellan kvalitativa variabler För att utröna om det finns ett samband mellan variablerna VALDELTAGANDE och CIVILSTÅND jämför man de betingade fördelningarna (som vi gjort). Vi såg ovan att valdeltagandet skiljer sig åt mellan grupperna gifta och ogifta. Variabeln VALDELTAGANDE beror av variabeln CIVELSTÅND. Hur skulle tabellen se ut om variablerna istället var oberoende? Då skulle andelarna i de vertikala kolumnerna vara ungefär lika. Valdeltagande Civilstånd Ej röstat Röstat Summa Gifta Ej gifta LIKA LIKA LIKA 100 LIKA 100

Avslutande anmärkningar Vi kan beräkna kolumnprocent istället för radprocent. Vi har tittat på två egenskaper samtidigt, man kan gå vidare till tre eller fler egenskaper samtidigt. Antag att vi även är intresserade av skillnader mellan könen. Då har vi åtta olika kategorier (G, 0, Kv), (G, 1, Kv), (EG, 0, Kv), (EG, 1, Kv) (G, 0, M), (G, 1, M), (EG, 0, M), (EG, 1, M). Gifta(G) eller ej gifta(eg) och har röstat (= 1) eller ej röstat (= 0)

Tabellering av kvantitativ variabel Grundprincipen vid tabellering av kvantitativa variabler är att ange observationerna i storleksordning. Antag att vi har n st observationer x 1,..., x n som antar k stycken olika värden. Vi har fler observationer än värden på variabeln, så n > k. Matematikbetyg Matematikbetyget för 25 elever (på den gamla goda tiden) 5 4 1 4 4 3 2 3 3 3 4 2 3 1 3 3 5 4 2 2 2 4 3 5 3. När data framställs på detta vis kallar vi detta ogrupperade data. Låt x i = värdena på observationerna, i = 1, 2,..., n f i = frekvensen för det i:te variabelvärdet, i = 1, 2,..., k Här är n = 25 och k = 5 (fem olika värden på variabeln MATEMATIKBETYG).

Tabellering av kvantitativ variabel Notera att 5 4 1 4 4 3 2 3 3 3 4 2 3 1 3 3 5 4 2 2 2 4 3 5 3. Betyg (x i ) Avprickning Frekvens (f i ) 1 2 2 5 3 9 4 6 5 3 25 k f i = 25 = n. i=1 En formel som alltid gäller. En frekvenstabell innebär att vi har grupperat data.

Stolpdiagram Eftersom variabeln MATEMATIKBETYG är diskret och antar endast ett fåtal variabelvärden, så illustrerar vi fördelningen med ett stolpdiagram.

Tabellering av kvantitativ variabel-kumulerad frekvens Den kumulativa frekvensen för ett visst variabelvärde visar hur många av observationerna som är mindre än eller lika med detta variabelvärde. Betyg (x i ) Absolut frekvens (f i ) Kumulativ frekvens (F i ) 1 2 2 2 5 7 3 9 16 4 6 22 5 3 25

Trappstegsdiagram Den kumulativa fördelningen för en diskret variabel som endast antar ett fåtal variabelvärden kan åskådliggöras i en trappstegskurva.

Tabellering av kvantitativ variabel-kumulerad relativ fördelning Vi kan även beräkna relativtal för att underlätta jämförelser Betyg (x i ) Relativ fördelning (%) Kumulerad relativ fördelning 1 8 8 2 20 28 3 36 64 4 24 88 5 12 100

Baby Ruth konfektyrer i styck Ingredients: sugar, roasted peanuts, corn syrup, partially hydrogenated palm kernel and coconut oil, nonfat milk, cocoa, high fructose corn syrup, and less than 1% of glycerin, whey (from milk), dextrose, salt, monoglycerides, soy lecithin, soybean oil, natural and artificial flavors, carrageenan, TBHQ and citric acid (to preserve freshness), caramel color.

Tabellering av kvantitativ variabel-babe Ruth konfektyrer i styck Fyrtio Babe Ruth konfektyrer vägdes och vikterna sorterades i storleksordning. 20,5 20,7 20,8 21,0 21,0 21,4 21,5 22,0 22,1 22,5 22,6 22,6 22,7 22,7 22,9 22,9 23,1 23,3 23,4 23,5 23,6 23,6 23,6 23,9 24,1 24,3 24,5 24,5 24,8 24,8 24,9 24,9 25,1 25,1 25,2 25,6 25,8 25,9 26,1 26,7 VIKT är en kontinuerlig variabel, så vi måste klassindela observationerna. Vi väljer fem klasser som är 1.3 breda och startar i 20.4, d v s klassindelningen 20.4-21.6, 21.7-22.9, 23.0-24.2, 24.3-25.5, 25.6-26.9 Klassbredden är skillnaden mellan den övre och den undre gränsen för en klass. Den undre gränsen för klassen 20.4-21.6 är 20.35. Den övre gränsen är 21.65.

Tabellering av kvantitativ variabel-babe Ruth konfektyrer i styck Vi tabellerar datamaterialet i en frekvenstabell Vikt/gram Avprickning Frekvens 20.4-21.6 7 21.7-22.9 9 23.0-24.2 9 24.3-25.5 10 25.6-26.9 5 Eftersom data är ordnade i storleksordning är det lätt att finna frekvenserna. 20.5 20.7 20.8 21.0 21.0 21.4 21.5 22.0 22.1 22.5 22.6 22.6 22.7 22.7 22.9 22.9 23.1 23.3 23.4 23.5 23.6 23.6 23.6 23.9 24.1 24.3 24.5 24.5 24.8 24.8 24.9 24.9 25.1 25.1 25.2 25.6 25.8 25.9 26.1 26.7

Tabellering av kvantitativ variabel-babe Ruth konfektyrer i styck För att få svar på hur många observationer som finns under ett visst värde beräknar vi kumulativa frekvenser. Absolut Kumulativ Relativ Kumulativ Vikt/gram frekvens (f) frekvens (F) fördelning (%) relativ fördelning (%) 20.4-21.6 7 7 17,5 17,5 21.7-22.9 9 16 22,5 40,0 23.0-24.2 9 25 22,5 62,5 24.3-25.5 10 35 25,0 87.5 25.6-26.9 5 40 12,5 100 40 100

Babe Ruth konfektyrer i styck-histogram

Babe Ruth konfektyrer i styck-stamblad-diagram 20.5 20.7 20.8 21.0 21.0 21.4 21.5 22.0 22.1 22.5 22.6 22.6 22.7 22.7 22.9 22.9 23.1 23.3 23.4 23.5 23.6 23.6 23.6 23.9 24.1 24.3 24.5 24.5 24.8 24.8 24.9 24.9 25.1 25.1 25.2 25.6 25.8 25.9 26.1 26.7 Djup 3 20 578 6 21 004 7 21 5 9 22 01 16 22 5667799 19 23 134 (5) 23 56669 16 24 13 14 24 558899 8 25 112 5 25 689 2 26 1 1 26 7

Exempel på följder av tal Låt x 1, x 2,..., x n vara n st tal. eller eller x 1 x 2 x 3 x 4 x 5 1 2 3 4 5 x 1 x 2 x 3 x 4 x 5 1 1 1 1 1 x 1 x 2 x 3 x 4 x 5 1 2 4 8 16

Summatecknet Summan av x 1, x 2,..., x 5 skrivs som x 1 + x 2 + x 3 + x 4 + x 5. Hur ska vi skriva upp summor av väldigt många tal? Vi använder den grekiska bokstaven stora sigma,, på följande sätt x 1 + x 2 + x 3 + x 4 + x 5 = 5 x i. i=1 Symbolkombinationen utläses som summan av x i, då i går från 1 till 5. Σ kallas då summatecknet. Se KD sid 375 för mer information.

Summationsindex Bokstaven i kallas summationsindex och kan väljas hur som helst! 1 + 2 + 3 + 4 + 5 = 5 j. j=1 5 1 + 1 + 1 + 1 + 1 = 1. ν=1 (Den grekiska bokstaven ν uttalas ny ). 4 1 + 2 + 4 + 8 + 16 = 2 0 + 2 1 + 2 2 + 2 3 + 2 4 = 2 m. m=0

Ytterligare exempel 5 x1 2 + x2 2 + x3 2 + x4 2 + x5 2 = xn. 2 n=1 (x 1 x) + (x 2 x) + (x 3 x) 5 + (x 4 x) + (x 5 x) = (x k x) = 0. k=1

Produkttecknet Produkten av x 1, x 2,..., x 5 skrivs som x 1 x 2 x 5 = 5 x i. Här använder vi istället den grekiska bokstaven stora pi,. Produkttecknet fungerar på precis samma sätt som summatecknet. Det används inte så ofta i statistiska sammanhang. i=1