Statistik. Författarna och Bokförlaget Borken, 2011. Statistik - 1

Relevanta dokument
Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Förtest. Hur kan jag arbeta med förtesten? Hur dokumenterar jag elevens kunskapsutveckling? Uppfattar du det som att eleven kan matematikinnehållet

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

Tal Räknelagar Prioriteringsregler

Extra övningssamling i undersökningsmetodik. till kursen Regressionsanalys och undersökningsmetodik, 15 hp

Matematik B (MA1202)

Statistikens grunder (an, 7,5 hsp) Tatjana Nahtman Statistiska institutionen, SU

Statistiska undersökningar

Innehåll. 1 Allmän information 5. 4 Formativ bedömning Diagnoser och tester Prov och repetition Kommentarer till kapitlen 18

Södervångskolans mål i matematik

Kompletterande lösningsförslag och ledningar, Matematik 3000 kurs A, kapitel 3

Sannolihhet. och statistik. Vad är möjligt och vad är inte möjligt? Kommer tåget fram i tid? Blir det regn imorgon? Vi bedömer ständigt risker eller

en femma eller en sexa?

Komvux/gymnasieprogram:

Lokala kursplaner i Matematik Fårösunds skolområde reviderad 2005 Lokala mål Arbetssätt Underlag för bedömning

P1071 TÖREBODA KOMMUN. Allmänhetens syn på valfrihetssystem inom hemtjänsten P1071

7 Använd siffrorna 0, 2, 4, 6, 7 och 9, och bilda ett sexsiffrigt tal som ligger så nära som möjligt.

Attityder kring SBU:s arbete. Beskrivning av undersökningens upplägg och genomförande samt resultatredovisning

Vad tycker norrbottningarna - Vårdbarometern, år 2005

Svenskt Näringsliv/Privatvården. Patienternas syn på vårdcentraler i privat och offentlig drift

Kompletterande lösningsförslag och ledningar, Matematik 3000 kurs B, kapitel 1

BEDÖMNINGSSTÖD. till TUMMEN UPP! matte inför betygssättningen i årskurs 6

Lärare 2. Lärare 1 Binomial och normalfördelning Fel i statistiska undersökningar Att tolka undersökningar Falska samband Jämföra i tid och rum

Teknisk Rapport En beskrivning av genomförande och metoder

P1071 GULLSPÅNGS KOMMUN. Allmänhetens syn på valfrihetssystem inom hemtjänsten P1071

8-1 Formler och uttryck. Namn:.

MA 1202 Matematik B Mål som deltagarna skall ha uppnått efter avslutad kurs.

Sveriges Arkitekter Swedish Association of Architects. Lönestatistik. Från 2014 års löneenkät

Fakta om Malala Yousafzai

Beskriv hur du, utan att räkna alla pärlor, kan göra en god uppskattning av hur många pärlor som finns av respektive färg. 2/0/0

Är sjukvården jämställd och går det åt rätt håll?

Statistik för Brandingenjörer. Laboration 1

Datorövning 1 Statistik med Excel (Office 2010, svenska)

Resultatnivåns beroende av ålder och kön analys av svensk veteranfriidrott med fokus på löpgrenar

Barn- och ungdomspsykiatri

Lokal pedagogisk planering i matematik för årskurs 9

Uppföljning av studerande på yrkesvux inom GR 2010

Matematik Åk 9 Provet omfattar stickprov av det centrala innehållet i Lgr b) c) d)

ATT SKRIVA DRAMATIK ATT UTFORMA ETT MANUSKRIPT. En handledning i dramaturgi av Henrik Bergkvist

Sannolikhetslära. 1 Grundläggande begrepp. 2 Likformiga sannolikhetsfördelningar. Marco Kuhlmann

Rapport om läget i Stockholms skolor

Högskolenivå. Kapitel 5

Kommentarmaterial, Skolverket 1997

ett projekt om barns och ungas rättigheter En första utvärdering - vad säger eleverna och lärarna?

Medelmånadshyra efter region och finansieringsform april 2010, euro/m 2. 9,00 8,00 7,00 6,00 5,00 4,00 3,00 2,00 1,00 0,00 Åland Mariehamn Landskomm.

NATIONELLT PROV I MATEMATIK KURS A VÅREN Tidsbunden del

Många elever som studerar på Barn- och Fritidsprogrammet kommer så

Betygsstatistik för årskurs 9 Läsåret 2014/15. Sammanfattning av betygsresultat för elever i årskurs 9 läsåret 2014/15.

LUPP-undersökning hösten 2008

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Mattestegens matematik

Statistisk undersökningsmetodik (Pol. kand.)

2 Dataanalys och beskrivande statistik

(1) För att numrera alla sidor i tidningen, löpande från och med 1, krävs 119 siffror.

Barns och ungdomars åsikter om akuten, barnakuten och avdelning 11

8-4 Ekvationer. Namn:..

Beskrivande statistik

Villaägaren. MarkCheck ROT avdraget. December 2009

205. Begrepp och metoder. Jacob Sjöström

Brukarenkät IFO Kvalitetsrapport 2014:02 KVALITETSRAPPORT

Studiehandledning till Nyckeln till arbete

13.1 Matematisk statistik

antal miljoner 3,0 2,5 2,0 1,5 1,0 0,5

28 Lägesmått och spridningsmått... 10

I addition adderar vi. Vi kan addera termerna i vilken ordning vi vill: = 7 + 1

Fritidsenkäten 2014 Sammanställning av svar och index

Begrepp Värde (mätvärde), medelvärde, median, lista, tabell, rad, kolumn, spridningsdiagram (punktdiagram)

Kompletterande lösningsförslag och ledningar, Matematik 3000 kurs A, kapitel 6

Matematik. Delprov B. Vårterminen 2009 ÄMNESPROV. Del B1 ÅRSKURS. Elevens namn

Lektion 1: Fördelningar och deskriptiv analys

INLEDNING... 3 SYFTE... 3 METOD... 3 URVAL OCH INSAMLING AV INFORMATION... 3 FRÅGEFORMULÄR... 3 SAMMANSTÄLLNING OCH ANALYS... 4

NATIONELLT KURSPROV I MATEMATIK KURS A HÖSTEN Del I

Malmöelevers levnadsvanor 2009 Hyllie, Malmö stad

Internettjänsten Skolmjölk

Jämföra, sortera tillsammans reflektera!

TENTAMEN KVANTITATIV METOD (100205)

ATTITYDER TILL ENTREPRENÖRSKAP PÅ HÄLSOUNIVERSITETET

Lönerapport år Löner och löneutveckling år

Utskrift av inspelat samtal hos Arbetsförmedlingen

DOPmatematik. Ett dataprogram för lärare. som undervisar i matematik. (Lågstadiet) Mellanstadiet. Högstadiet. Gymnasiet. Vuxenutbildning.

Mullsjö Elevkonstruerade matematikuppgifter, en väg till ökad matematisk begreppsförståelse? Kent Nordbakk.

Utvärdering av projekt SVUNG i Västervik

Beskrivande statistik

GRs effektstudie 2008 Gällande studerande vid kommunal vuxenutbildning i Göteborgsregionen, våren 2006

MATEMATIK ARBETSOMRÅDET LIKABEHANDLING Kränkande handlingar, nätmobbning, rasism och genus

Rapport om bostäder i Lunds kommun 1 (24) Staben

Väljarnas syn på ökande klyftor

TEMARAPPORT 2016:2 UTBILDNING

STUDIETEKNIK. Till eleven

ARBETSKRAFTENS UTBILDNING ÅR 2000 OCH 2020

En studie om konsumenters och handlares kännedom om CE-märket

Datorlaboration 2 Konfidensintervall & hypotesprövning

Finns det en skillnad mellan vad barn tror sig om att klara jämfört med vad de faktiskt klarar?

Befolkningsundersökning 2010 Vårdbarometern. Befolkningens attityder till, kunskaper om och förväntningar på svensk hälso- och sjukvård

MATEMATIK 3.5 MATEMATIK

3 Den offentliga sektorns storlek

SKOLRESANS KOLDIOXIDAVTRYCK

Matematikkunskaperna 2005 hos nybörjarna på civilingenjörsprogrammen vid KTH

Transkript:

Statistik 1 Vad är statistik? 2 2 Att avläsa och tolka diagram 4 3 Att rita diagram 7 4 Att vilseleda med diagram 12 5 Statistiska mått 14 6 Stolpdiagram 19 7 Spridning och klassindelning 21 8 Prisjämförelse 27 9 Statistiska undersökningar 31 10 Anpassning av grafer till uppmätta värden 44 11 Egenskaper hos normalfördelningen 47 12 Beräkningar av sannolikhetsfördelningar 52 Facit 57 Bilder: 2 Illustrationer s.4, 5, 6, 12 och 13 av Hans Hillerström; IBL Bildbyrå M. Donne/science Photo Library s.2, A. Autenzio/Explorer s.34; akvareller av Ramon Cavaller ; geometriska konstruktioner och diagram av Nils-Göran Mattsson Författarna och Bokförlaget Borken, 2011 Statistik - 1

1 Vad är statistik? Statistik handlar om att samla in, värdera och sortera data och presentera dessa på ett lättfattligt och överskådligt sätt. Till det använder man tabeller och olika typer av diagram. För att göra det lätt att få en uppfattning om en samling sifferuppgifter beräknas olika läges- och spridningsmått. Det skulle vara mycket klumpigt och svåröverskådligt att presentera längderna av en hel årskull värnpliktiga i form av en lång lista. Beräknar man i stället ett medelvärde av de mönstrandes längder blir det genast mycket lättare att få grepp om datamängden. Beräknar man dessutom ett tal som beskriver hur mycket längderna varierar får man mer värdefull information. Dessa tal gör det också lätt att jämföra de värnpliktigas längder från år till år. Beräkning av index och nyckeltal är andra metoder att beskriva stora datamängder på ett enkelt och tydligt sätt. Prisutvecklingen på vanliga varor och tjänster sammanfattas i Konsumentprisindex (KPI). Med hjälp av detta kan man visa hur den allmänna prisnivån ändrar sig med tiden. Många sådana indextal beräknas. Till exempel redovisas i olika börsindex hur priserna på värdepapper varierar. Det finns också speciella index för import, export och byggnadskostnader. Den gren av statistiken som sysslar med att sammanställa siffror och presentera dessa på ett lättförståeligt sätt kallas beskrivande statistik. Totalundersökning betyder i statistik att en hel population studeras. Ett exempel är vägning av nyfödda barn. Men statistik handlar inte bara om detta. Under nittonhundratalet utvecklades metoder att göra pålitliga stickprovsundersökningar. Hur ska man på bästa sätt göra kvalitetskontroll av till exempel glödlampor? Hur lång brinntid kan man förvänta sig av en viss glödlampa? Hur säker kan man vara på det? Hur förutsäger man resultatet av ett kommande val? Statistik - 2

Eller hur tar man reda på om invånarna i en kommun är positiva till att det byggs en ny idrottsanläggning utan att behöva fråga alla i kommunen? Kvalitetskontroll samt opinions- och marknadsundersökningar är vanliga uppgifter för denna del av statistiken. Ett annat område där statistik används mycket är inom medicinen. Försök med nya behandlingsmetoder måste planeras noga och analyseras med statistiska metoder för att det säkert ska gå att säga att metoderna är verksamma. Den här delen av den statistiska vetenskapen som bygger på sannolikheter kallas statistisk inferens. Statistiska metoder används särskilt mycket i samhällsvetenskaperna. Kunskaper i statistik gör det lättare att följa med i samhällsdebatten och värdera påståenden och skilja fakta från åsikter. Det är tyvärr vanligt att statistiska resultat tolkas felaktigt och att dåligt underbyggda resultat presenteras stort uppslagna i media. Rätt använd är statistik ett viktigt verktyg i samhällsplanering och beslutsfattande. Men statistik kan också användas på ett missvisande sätt. Vi ska i nästa avsnitt öva förmågan att tolka olika diagram. Statistik - 3

2 Att avläsa och tolka diagram G2.1 Diagrammet visar hur febern ändras hos en patient med mässlingen. a) Till vilken temperatur stiger febern som högst? b) När ökar temperaturen snabbast? c) Hur lång tid är febern högre än 38 C? G2.2 Diagrammet ovan visar hur världens befolkning väntas öka. a) När kommer befolkningen att överstiga 9 miljarder? b) Hur lång tid gick efter 1960 tills världens befolkning fördubblats? c) Hur många procent ökade världens befolkning från år 1985 till år 2000? Statistik - 4

G2.3 a) Hur många procent sjönk den öppna arbetslösheten mellan juli och november? b) Hur många procentenheter sjönk arbetslösheten samma period? c) I slutet av december var 194 000 personer öppet arbetslösa. Hur många var öppet arbetslösa sex månader tidigare? G2.4 Cirkeldiagrammet visar fördelningen av trosinriktningar i världen vid slutet av 1990-talet. Världens befolkning var vid samma tidpunkt 6 miljarder. a) Uppskatta antalet kristna. b) Uppskatta antalet hinduer. c) Andelen anhängare av islam är 18%. Hur stor medelpunktsvinkel har motsvarande sektor i cirkeldiagrammet? Statistik - 5

G2.5 Diagrammet intill visar en tidsserie över antalet anmälda brott under åren 1975-97. Utvecklingen följer en trend som visas av den heldragna linjen. a) Täck över diagrammet före 1990. Hur väl beskriver trendlinjen förändringen i antalet anmälda brott under 1990-talet? b) Lägg på fri hand in en ny trendlinje som enbart bygger på värden från 1990-talet. c) Jämför de båda trendlinjerna. Vilken trendlinje visar bäst brottslighetens utveckling? Kommentera. G2.6 Olika växthusgasers bidrag till växthuseffekten kan jämföras och adderas till varandra om man multiplicerar mängden av varje enskild gas med dess GWP-faktor (GWP = global warming potential). Denna faktor visar vilken effekt gasen har som klimatpåverkare i förhållande till koldioxiden, vanligen sett i ett hundraårsperspektiv (GWP 100). Detta betyder att man räknar om mängden växthusgaser som släppts ut till koldioxidekvivalenter. Tabellen här nedan anger de viktigaste växthusgasernas GWP-faktorer. Ursprungshalt(ppm) 280 Växthusgaser GWP100 Dominerande utsläppskälla i Sverige Koldioxid 1 Förbränning av fossila bränslen Dikväveoxid 310 Förbränning av biobränslen och fossila bränslen Metan 21 Utsöndring från idisslande boskap, läckage från avfallsupplag Fluorkolväten 1300 Läckage från kylskåp värmepumpar m m Flourkolföreningar 6500 Förorening vid aluminiumframställning Svavelhexafluorid 23900 Läckage från tyngre elektrisk apparatur 0,275 0,8 0 0 0 Nutida halt(ppm) 365 0,31 1,8 0,00008 0,000015 0,000004 Nutida Haltökning 0,4 %/år 0,3 %/år 0,5 %/år 1,3 %/år 5 %/år 7 %/år Utgå från den nutida halten av växthusgaser för att ser hur många ppm de olika växthusgaserna ökar nästa år, haltökningen. Rita ett cirkeldiagram som visar utsläppen av växthusgaserna koldioxid, dikväveoxid och metan räknade i koldioxidekvivalenter. Statistik - 6

3 Att rita diagram Teori Stapel- och cirkeldiagram Anledningen till att man ritar diagram över statistiska data är att det är svårt att snabbt avläsa siffervärden i en tabell och uppfatta deras storlek och jämföra dem med varandra. Ett diagram gör detta lätt. Man får direkt en uppfattning av det statistiska materialet, naturligtvis om diagrammet är korrekt och tydligt ritat. Man skiljer på kvantitativa och kvalitativa data. Kvantitativa data fås genom mätning eller räkning. Exempel på sådana data är kroppslängd, antal barn i familjen, brinntid hos glödlampor och temperatur. Kvalitativa data fås genom registrering och klassificering. Exempel på kvalitativa data är kön, yrke, sädesslag och typ av nederbörd. För att beskriva dessa senare data brukar olika typer av stapel- och cirkeldiagram vara lämpliga. I tabellen anges antalet manliga och kvinnliga elever på ett naturbruksgymnasium. Antalen kallas frekvenser och mittkolumnen kallas frekvenskolumn. I kolumnen längst till höger står andelarna pojkar respektive flickor uttryckta i decimalform och i procentform. Dessa andelar är de relativa frekvenserna. Kön Antal Relativ frekvens Pojkar 35 0,29 (29 %) Flickor 84 0,71 (71 %) Totalt 119 1,00 (100 %) Nedan har vi på dator ritat ett cirkel- och ett stapeldiagram över denna fördelning med hjälp av diagramverktyget i ett kalkylprogram. Statistik - 7

Modell Cirkeldiagram, fyrfältstabell Exempel I en kommun med 13 000 invånare planerades en ny gymnasieskola. En stickprovsundersökning genomfördes för att ta reda på vad de boende i kommunen ansåg om planerna. Man fick svar av 560 personer och resultatet blev att 381 (206 män och 175 kvinnor) var för planerna och 179 (61 män och 118 kvinnor) mot. Procentandelen för blir 381 0,68 68% 560 = = och procentandelen mot 179 0,32 32% 560 = =. För att rita ett cirkeldiagram över fördelningen beräknar vi sektorernas medelpunktsvinklar. Helheten 100% motsvarar 360. Medelpunktsvinkeln för sektorn för (pro) blir 381 360 245 560 = och motsvarande vinkel för sektorn mot (contra) blir 179 360 115 560 = Cirkeldiagram som innehåller många små sektorer blir svåra att tolka. Undvik att rita cirkeldiagram med fler än 6 7 sektorer. För att beskriva skillnaden mellan männens och kvinnornas åsikter tar vi hjälp av en fyrfältstabell. Tabellen kan antingen uppta frekvenser Positiva Negativa Summa Män 206 61 267 Kvinnor 175 118 293 Summa 381 179 560 Statistik - 8

eller procentandelar: Positiva Negativa Summa Män 37% 11% 48% Kvinnor 31% 21% 52% Summa 68% 32% 100% Här har vi låtit summan av de fyra fälten, det vill säga totala antalet svar, motsvara 100%. Vi kan också låta kolumnsummorna bli 100%. Då ser tabellen ut så här: Positiva Negativa Män 54% 34% Kvinnor 46% 66% Summa 100% 100% Man kan också lägga till en kolumn och beräkna procenttalen så att radsummorna blir 100%. Gör detta. Vilka frågor kan dessa procenttal besvara? G3.1 I december år 2000 fördelade sig antalet inregistrerade fordon av olika typer i Sverige på följande sätt: personbilar 4 000 000 lastbilar 370 000 bussar 14 000 traktorer 326 000 släpvagnar 729 000 motorcyklar 144 000 terrängskotrar 143 000 Rita ett a) Stapeldiagram b) Cirkeldiagram över fördelningen. G3.2 Tabellen visar den genomsnittliga älgtätheten i Sverige (antal älgar per 1000 hektar) vid fyra tillfällen. Antal älgar/1000 ha 1981/82 1989/90 1991/92 1995/96 12,2 10,1 8,9 9,5 a) Rita ett linjediagram som visar utvecklingen. b) Hur stor är förändringen i procent mellan 1981/82 och 1995/96? Statistik - 9

c) Hur stor är förändringen i procent mellan 1991/92 och 1995/96? G3.3 Den svenska åkerarealens användning 1993-1998 i hektar Gröda 1993 1998 Brödsäd 350 800 432 700 Fodersäd 802 400 850 200 Baljväxter 19 100 58 600 Vall och grönfoderväxter 1 085 700 985 400 Potatis 36 300 33 700 Sockerbetor 51 300 58 700 Raps och rybs 145 500 54 600 Övriga växtslag 52 200 54 700 Träda 56 000 193 000 Ej utnyttjad åkermark 180 500 62 300 Summa åkermark 2 779 700 2 783 800 a) Rita lämpligt diagram som visar åkerarealens användning. Använd papper och penna eller datorprogram för diagramritning. b) Med hur många procent har arealen för odling av raps och rybs minskat mellan åren 1993 och 1998? c) Hur många procent är ökningen för träda under dessa år? G3.4 Tabellen visar värdet av varuexporten åren 1998 och 1999 till de fem största exportmarknaderna. Land Export 1998 (Mkr) Export 1999 (Mkr) Tyskland 73 741 74 591 Storbritannien 61 967 65 316 USA 57 751 64 262 Norge 57 553 54 721 Nederländerna 38 592 41 696 Alla länder, totalt 657 435 685 457 Uppgiften löses bäst med kalkylprogram. a) Beräkna de fem ländernas andelar av den totala varuexporten för de båda åren. b) Vilket land ökar sin export mest respektive minst uttryckt i procent? c) Rita ett diagram som förtydligar tabellen. Statistik - 10

G3.5 Tabellen nedan visar antal elever på vissa gymnasieprogram läsåret 1999/2000. Program Samtliga Därav flickor Barn- och fritidsprogrammet 13 087 9 747 Byggprogrammet 6 240 122 Elprogrammet 12 676 183 Estetiska programmet 14 555 9 927 Handels- och administrationsprogrammet 12 829 6 424 Hotell- och restaurangprogrammet 14 177 7 653 Naturvetenskapsprogrammet 58 928 23 965 Omvårdnadsprogrammet 9 737 8 436 Samhällsvetenskapsprogrammet 75 812 47 167 Samtliga nationella program 260 494 128 624 Alla nationella program finns inte med i tabellen. Men de tre största i tabellen är också de största nationellt. Rita ett diagram som visar antalet elever på de tre största programmen var för sig och övriga program sammanräknat. G3.6 Vid en mindre gymnasieskola genomförde några elever en stickprovsundersökning för att se sina kamraters inställning till politiker och politik. Kamraterna fick tyvärr bara svara på om de hade en positiv eller negativ inställning samt om deras sympatier låg till vänster eller höger. Ett slumpmässigt urval bland skolans elever gjordes. Detta innebar att 120 elever tillfrågades. Av de 52 elever som hade en positiv inställning till politiker sympatiserade 39 elever med vänsterblocket och 13 med högerblocket. Av de 68 elever som hade en negativ inställning till politik sympatiserade 36 med vänsterblocket och 32 med högerblocket. Rita några olika fyrfältstabeller och dra några slutsatser. V3.7 En klass på 23 elever får lösa två uppgifter. Efter rättning konstaterades följande resultat (rätt: R, fel: F): FF FR RF RF FF RR RR RR FR FR FF FF RR RR FR RF RF RR RR FR FF FF RR Rita en fyrfältstabell som visar resultatet! Statistik - 11

4 Att vilseleda med diagram Stympade diagram Diagram är bra hjälpmedel för att sammanfatta och förtydliga siffermaterial. Men när man avläser dem måste man vara uppmärksam. Både för den som konstruerar och den som läser diagrammen finns fällor. Diagrammen kanske förmedlar något som inte var avsikten. Det kanske till och med är så att de medvetet gjorts för att få något att se bättre ut än vad det i verkligheten är. Det är inte ovanligt att diagram manipuleras för att passa speciella syften. De här tre diagrammen vill visa hur ett företags intäkter ökar månad för månad under ett år. Diagram 1 ger betraktaren en klar bild av att intäkterna under året ökar med 10%. En stor del nedtill i diagrammet har skurits bort i Diagram 2, och genast verkar ökningen vara större. Den som avläser diagrammet missar lätt att den lodräta axeln börjar vid 9 miljoner kronor. Riktigt dramatisk verkar utvecklingen vara om diagrammet tänjs ut i höjdled. Diagram 3 förmedlar en känsla av att ökningen är dramatisk, men precis samma värden avbildas som i Diagram 1. Fundera och diskutera om det är rätt eller fel att använda den här tekniken att förstärka ett budskap. Diagram 1 Diagram 2 Diagram 3 Statistik - 12

G4.1 Titta på diagrammet över arbetslösheten i uppgift G2.3. På vilket sätt ger det en skev bild av utvecklingen av den öppna arbetslösheten? Hur kan diagrammet förbättras? G4.2 Konsumentprisindex för varugruppen fisk ändrades under fyra år enligt tabellen. År 1996 1997 1998 1999 Index (1980=100) 239,9 243,5 254,2 267,6 Rita ett diagram som a) Framställer prisökningen som betydelselös b) Framställer prisökningen som kraftig. Teori Illustrerade diagram Firman Ekelunds bilar AB visar i en annons vilken kraftig utveckling försäljningen haft under några år: Vi ser att bilarnas höjd i stort sett motsvarar antalet sålda bilar. Men en bil som förstoras så att den blir dubbelt så hög blir dubbelt så stor också på bredden och på djupet. Bilen längst till höger ger i själva verket ett intryck av att vara åtta (2 3 ) gånger så stor som den längst till vänster. Men försäljningen har bara ökat till det dubbla. Statistik - 13

5 Statistiska mått För att beskriva en stor mängd statistiska data har vi sett att det är praktiskt att rita olika typer av diagram. Men ofta vill man kunna sammanfatta ett stort material i ett enda värde som anger ungefär var värdena är belägna. För detta ändamål brukar man beräkna olika lägesmått. De lägesmått vi ska använda är medelvärde, median och typvärde. Man vill ofta dessutom ange hur spridda värdena är. Ett mycket använt spridningsmått kallas standardavvikelse. Två andra mått som ibland används är kvartilavstånd och variationsbredd. Modell Medelvärde Exempel 1: Johanna köpte 10 påsar pasta som alla var märkta 1 kg. Hon vägde innehållet i påsarna noga när hon kommit hem och fick följande värden (i kg): 0,97 0,98 0,97 1,01 0,96 1,04 0,98 0,99 1,02 0,98 Medelvärdet av vikterna är lika med vikternas summa dividerad med antalet värden: 0,97 + 0,98 + 0,97 + 1,01+ 0,96 + 1,04 + 0,98 + 0,99 + 1,02 + 0,98 kg = 0,99kg 10 Medelvärdet av de tio pastapåsarnas vikter var alltså 0,99 kg Exempel 2 När samma värden återkommer flera gånger brukar man sammanfatta materialet i en frekvenstabell. Eleverna i två gymnasieklasser fick frågan hur många syskon de hade. Resultatet blev följande: Antal syskon x Antal elever f f x 0 12 0 1 22 22 2 11 22 3 4 12 4 0 0 5 1 5 50 61 Statistik - 14

Medelvärdet beräknas så här: 12 0 + 22 1+ 11 2 + 4 3 + 0 4 + 1 5 61 st = st = 1,22st. 12 + 22 + 11+ 4 + 0 + 1 50 Eleverna i de två gymnasieklasserna hade i genomsnitt 1,22 syskon. Summatecknet: För att underlätta formelskrivandet när summor av många termer ingår har man infört summatecknet Σ som är den grekiska bokstaven stora sigma. Summan av de n st x-värdena x 1, x 2, x 3,, x n skrivs på detta sätt: x i= 1 medelvärdet x blir: x = n n n i= 1 i x = x + x + + x. Formeln för i 1 2 eller kortare n x x =. n Modell Median Exempel 1 De tio heltidsanställda på ett litet företag har följande månadslöner: 14 300 13 900 25 200 15 100 14 400 15 400 16 200 13 800 15 500 15 900 Medelvärdet av de anställdas löner blir 15 970 kr/månad. Det visar sig att bara två anställda tjänar över men de övriga åtta under medellönen. Medelvärdet är därför ett dåligt mått på löneläget i företaget. Orsaken är att en medarbetare har en lön som ligger 9 000 kr högre än den näst högst avlönades lön. De övrigas löner visar inte så stor variation. Medelvärdet sjunker till 14 944 kr om den högsta lönen stryks. Ett bättre lägesmått här är medianen. Medianen är värdet i mitten när dessa är ordnade efter storlek. För att bestämma medianen storleksordnar vi lönerna: 13 800 13 900 14 300 14 400 15 100 15 400 15 500 15 900 16 200 25 200 Statistik - 15

Medianen är här det värde som ligger mitt emellan värde nr 5 (15100 kr/mån) och nr 6 (15400 kr/mån). Detta värde är medelvärdet av dessa båda löner. Medianen blir alltså 15100 + 15400 kr/mån = 15250 kr/mån. Vi ser att 2 medianen sammanfattar lönerna på ett bättre sätt än medelvärdet. Exempel 2 Om antalet värden är udda är medianen ett av värdena. Så här många år är medlemmarna i lokalavdelningen av en ideell förening: 26 19 57 28 39 46 48 63 22 55 21 Medlemmarna ordnas efter stigande ålder: 19 21 22 26 28 39 46 48 55 57 63 Medianåldern i avdelningen är 39 år, fem medlemmar är yngre och fem äldre. Modell Typvärde En grupp grundskoleelever fick i uppgift att anteckna hur många människor som åkte i de personbilar som under en timme lämnade parkeringen till ett stort köpcenter. De kom fram till följande: Antal resande Antal bilar Ett snabbt sätt att sammanfatta resultatet är 1 38 2 53 3 17 4 5 5 1 6 2 att ange typvärdet för antal resande. Det definieras som det värde som förekommer oftast. Det största antalet bilar hade 2 resande och detta är alltså typvärdet. Typvärdet går snabbt att ange och duger bra som lägesmått i många fall. G5.1 Lös följande uppgifter om undersökningen i ovanstående Modell. a) Vilken är medianen? b) Hur många bilar lämnade parkeringen under den aktuella timmen? c) Hur många personer åkte totalt i bilarna? Statistik - 16

G5.2 Niklas avläste sin fönstertermometer klockan 8 varje morgon under 10 dagar. Han fick följande värden ( C): 2-3 0 4 3-3 -5-1 -6 1 a) Beräkna medeltemperaturen för de 10 dagarna. b) Beräkna mediantemperaturen. G5.3 I en komvuxklass fanns det 27 elever. Deras medelålder var 37 år. Då en studerande hoppade av sjönk medelåldern till 36 år. Hur gammal var avhopparen? G5.4 En daglig tidnings totala upplaga är 352 000 exemplar på vardagar och 411 500 på söndagar. Hur stor är tidningens medelupplaga per utgivningsdag? G5.5 Åldersfördelningen för de anställda i två företag redovisas i tabellen nedan. Åldersgrupp Företag A Företag B Antal Procent Antal Procent -25 år 25 35% 659 54% 26 år -50 år 36 51% 431 35% 51 år - 10 14% 134 11% Totalt 71 100% 1224 100% a) Vilket av företagen har störst andel anställda över 25 år? Motivera ditt svar. b) Vilket företag har lägst medianålder? Motivera ditt svar. c) Förklara varför man inte utifrån tabellen kan beräkna de anställdas medelålder. (NP A ht 97) V5.6 En tankspridd matematiklärare hade vid poängbedömningen gett fem elever tillsammans 20 poäng för lite. Vad blev det nya medelvärdet om det gamla var 12 poäng för 31 elever? V5.7 Sju olika naturliga tal har medelvärdet och medianen 11. Vilket är största möjliga värde för de naturliga talen? Statistik - 17

V5.8 Enligt National Bureau of Economic Research har USA haft dessa konjunkturcykler i ekonomin sedan andra världskrigets slut. Använd nedgångsperiodernas längder för att beräkna medelvärde, median och variationsbredden. Konjunkturcykler i USA efter 1945 Vågdal Vågtopp Oktober 1945 November 1948 Oktober 1949 Juli 1953 Maj 1954 Augusti 1957 April 1958 April 1960 Februari 1961 December 1969 November 1970 November 1973 Mars 1975 Januari 1980 Juli 1980 Juli 1981 November 1982 Juli 1990 Mars 1991 Mars 2001 November 2001 December 2007 Juni 2009 V5.9 De elva spelarna i ett fotbollslag vägdes. Man fick följande lägesmått, medelvärde: 63,0 kg median: 61,5 kg typvärde: 66,0 kg Lotta som vägde 54,0 kg var lättast. Hon byttes ut mot Cathrine som vägde 49,0 kg. Bestäm medelvärde, median och typvärde efter spelarbytet V5.10 Tabellen visar hur många dagars frånvaro ett antal anställda hade under en månad. Antal frånvarodagar (x) 0 1 2 3 4 5 6 Antal anställda (f ) 13 9 11 5 2 1 2 Beräkna medelvärdet. V5.11 På en grundskola finns 23 kvinnliga och 14 manliga lärare. Medelåldern för de kvinnliga är 37 år och för de manliga 31 år. Beräkna medelåldern för skolans lärare. Statistik - 18

6 Stolpdiagram Modell Stolpdiagram Exempel I entréhallen till en liten gymnasieskola står en Colaautomat. Följande siffror visar hur många burkar Cola som såldes per dag under 45 skoldagar. 2 3 5 10 11 2 5 8 5 4 12 8 9 9 10 8 6 6 4 3 2 7 8 6 5 10 11 9 8 6 4 7 9 10 10 7 4 1 8 9 7 7 5 9 8 a) Gör en frekvenstabell. b) Rita ett stolpdiagram. c) Beräkna totalantalet Colaburkar som såldes de undersökta dagarna. d) Hur många burkar såldes i medeltal per dag? Lösning a) Skilj noga på antalet sålda burkar x och frekvensen som är antalet dagar f. Ibland kan det vara lämpligt att räkna ut de relativa frekvenserna. Eftersom 7 Cola såldes 5 av de 45 dagarna så blir dess andel 5/45 = = 0,111 = 11,1%. Antal sålda Cola x Frekvens f Relativ frekvens 1 1 2,2% 2 3 6,7% 3 2 4,4% 4 4 8,9% 5 5 11,1% 6 4 8,9% 7 5 11,1% 8 7 15,6% 9 6 13,3% 10 5 11,1% 11 2 4,4% 12 1 2,2% 45 Statistik - 19

b) Stolpdiagram c) Totalantalet sålda Cola fås genom att multiplicera antal dagar med motsvarande antal burkar och sedan addera. Hela antalet burkar blir (1 1+2 3+3 2+4 4+5 5+6 4+7 5+8 7+9 6+10 5+11 2+12 1) st = = 307 st d) Det såldes 307/45» 7 st burkar i medeltal per dag. G6.1 Stolpdiagrammet nedan visar antalet soltimmar per dag under en månad i Umeå. a) Bestäm den relativa frekvensen för sju timmar sol (svara i hela procent). b) Bestäm medianen. c) Bestäm medelvärdet. Problemlösning i grupp Relativa frekvenser Varje grupp gör ett av nedanstående experiment. Experimenten har endast två utfall. Beräkna den relativa frekvensen för de 10 första försöken, de 20 första försöken och så vidare. Rita ett diagram med antal försök på x-axeln och den relativa frekvensen på y- axeln. Dra slutsatser ur aktiviteten. a) Kast med häftstift. b) Observation av passerande röda bilar på en genomfartsled. c) Pojkfödslar från tidningsannonser. d) Hur många bokstäver finns i medeltal i svenska ord? Gör likadant för engelsk text (Välj t ex Hemsöborna på de två språken) e) Hemmasegrar i fotboll utifrån sportresultaten i någon tidning. Statistik - 20

7 Spridning och klassindelning Modell Spridningsmått Bara lägesmåttet räcker oftast inte för att beskriva en uppsättning värden. Vi får med lägesmåttet inte veta något om hur utspridda värdena är kring detta. De femton medlemmarna i en projektgrupp har åldrarna 28 37 60 23 49 46 39 42 57 33 39 51 44 40 27 Medelvärdet av medlemmarnas ålder är 41 år. Det enklaste spridningsmåttet är variationsbredden. Det är ett grovt mått men lätt att bestämma. Det definieras som differensen av det högsta och det lägsta värdet. Vi ser att variationsbredden här blir ( 60 23)år = 37år. Ett annat spridningsmått är kvartilavvikelsen. För att bestämma den ordnar vi medlemmarna efter stigande ålder. 23 27 28 33 37 39 39 40 42 44 46 49 51 57 60 Nedre Medianen Övre kvartilen kvartilen De värden som delar materialet i fjärdedelar kallas kvartiler. I detta statistiska material är nedre kvartilen 33 år, medianen 40 år och övre kvartilen 49 år. Kvartilavvikelsen är differensen av den övre och nedre kvartilen. Den blir här ( 49 33)år = 16år. Ett bekvämt sätt att snabbt rita ett diagram över medlemmarnas ålder är att använda ett lådagram. Det visar största och minsta värde, nedre och övre kvartil samt median. Så här ser lådagrammet ut över åldersfördelningen i projektgruppen: Statistik - 21

Lådagrammet är mycket användbart till att jämföra fördelningar. Att lägga två lådagram intill varandra är ett effektivt sätt att se skillnader mellan olika statistiska material. Detta är resultaten på ett skriftligt prov i engelska som gavs på ett gymnasieprogram i två parallellgrupper: Grupp 1 57 44 19 99 83 83 55 10 26 45 86 22 43 78 62 70 40 43 85 Grupp 2 42 28 8 18 71 23 51 54 20 9 71 56 27 26 22 51 50 48 9 56 28 57 12 Det är svårt att avläsa resultaten i tabellen, men lådagrammen visar tydligt skillnaden i resultat mellan grupperna: Det vanligaste spridningsmåttet är standardavvikelsen (s). För att beräkna det behöver vi medelvärdet. Sedan beräknar vi skillnaden mellan varje värde och medelvärdet och kvadrerar dessa skillnader. Kvadraterna summeras och denna summa divideras med antalet värden minus ett. Slutligen drar man roten ur denna kvot. Här visas hur standardavvikelsen för medlemmarnas åldrar beräknas: Ålder x 28 37 60 23 49 46 39 42 57 33 39 51 44 40 27 Medelvärde x = 41 x x -13-4 19-18 8 5-2 1 16-8 -2 10 3-1 -14 2 ( x x) 169 16 361 324 64 25 4 1 256 64 4 100 9 1 196 ( x x) 2 = 1594 ( x x) 15 1 2 1594 = = 113,9 14 Standardavvikelsen, σ = 113,9 = 10,7. Det är arbetsamt att beräkna standardavvikelse men de flesta räknare kan direkt beräkna den. Det gäller också medelvärde och andra statistiska mått. Med hjälp av kalkylprogram på dator kan man bekvämt göra beräkningar på stora statistiska material. Statistik - 22

G7.1 En laborant mätte hur många gram C-vitamin tio slumpvis utvalda tabletter innehöll och fick följande värden: 0,296 0,296 0,306 0,298 0,308 0,304 0,301 0,307 0,292 0,302 Beräkna medelvärde och standardavvikelse för antalet gram C- vitamin per tablett. G7.2 (Arbeta i grupp) Beräkna medelvärde och spridning för antalet gymnasieutbildade av befolkningen i de länder som anges i diagrammet nedan (Källa: Education at a Glance, 2010.) Diskutera resultatet! I Sverige har i snitt 85 procent av befolkningen en gymnasieexamen. Detta ligger över OECD-snittet på 71 procent. Vad gäller jämförelsen mellan de yngre och de äldre i befolkningen så ligger Sverige långt över snittet jämfört med OECD även här. I Sverige har 91 procent av befolkningen mellan 25-34 år en gymnasieexamen, i OECD ligger snittet på 80 procent. I åldersgruppen 45-54 år har 84 procent en gymnasieexamen, att jämföras med 68 procent inom OECD. Statistik - 23

Modell Histogram När antalet värden som kan antas är stort är det opraktiskt att rita stolpdiagram och resultatet blir svåröverskådligt. Det skulle rent av kunna hända att varje värde förekommer endast en gång. Diagrammets stolpar skulle då alla vara lika höga och ligga tätt. För att kunna rita ett diagram som på ett bra sätt beskriver värdena brukar man tillgripa klassindelning. Exempel De 86 lärarna på en gymnasieskola är mellan 25 och 64 år gamla. Rita ett diagram och beräkna ett medelvärde för lärarnas ålder. Lösning Vi sorterar lärarna efter ålder i klasser med klassbredden 5 år och klassgränserna 25 år, 30 år, 35 år och så vidare. Ålder avrundas nedåt. Det innebär till exempel att de lärare som fyllt 30 år men inte 35 år räknas till klassen 30-34 år. Vid beräkningar på det klassindelade materialet ger vi alla lärare i klassen 25-29 år åldern 27,5 år, alla lärare i klass 30-34 år åldern 32,5 år och vidare på samma sätt. Dessa åldrar som är medelvärdet av klassgränserna kallas klassmitter. Till exempel får de 8 lärare som tillhör klassen 30 34 år vid beräkningarna en sammanlagd ålder av 260 år, vilket är ett närmevärde. Ålder (x) Antal (f ) Klassmitt (x m) f x m 25 29 3 27,5 82,5 30 34 8 32,5 260 35 39 15 37,5 562,5 40 44 10 42,5 425 45 49 17 47,5 807,5 50 54 17 52,5 892,5 55 59 12 57,5 690 60 64 4 62,5 250 86 3970 Statistik - 24

Vi ritar ett histogram över lärarnas ålder. Medelvärdet av lärarnas ålder blir 3970 år 46 år 86 =. G7.3 Man frågade 50 ungdomar hur mycket pengar de lagt ner på kläder de senaste två månaderna och fick följande summor (i kronor): 1200 720 85 720 510 35 955 495 1135 710 335 1080 120 660 1390 75 270 835 80 1410 55 610 400 1020 990 770 1230 65 850 430 840 600 650 670 340 890 665 490 70 200 1460 40 1000 280 380 1130 340 550 260 55 a) Klassindela materialet. Välj klassindelningen 0 200, 201 400, 401 600, b) Rita ett histogram över fördelningen. c) Beräkna medelvärde och spridning. Statistik - 25

G7.4 Resultatet av en kontrollvägning av räkor framgår av diagrammet. a) Hur många räkor vägde mindre än 5,0 gram? b) Hur många procent av räkorna vägde mellan 6,0 och 7,0 gram? c) En förpackning med 500 gram Lyxräkor innehåller 50-70 räkor. Ungefär hur många procent av räkorna som kontrollvägdes kan säljas som Lyxräkor? d) Räkor som väger mindre än 4,5 g används till konservering. Hur stor andel är det ungefär? (NpA ht 96) Statistik - 26

8 Prisjämförelse Teori KPI Konsumentprisindex eller KPI är ett mått på hur priser på olika varor och tjänster ändras med tiden. En noga bestämd korg av varor och tjänster prisundersöks varje månad. I korgen ingår de olika typerna av utgifter med samma andelar som för ett genomsnittligt hushåll. Den största delen är boende som utgör cirka en tredjedel. Livsmedel, transporter och rekreation ingår tillsammans med en tredjedel och den sista tredjedelen upptar bland annat kläder och skor, utemat, inventarier, hälsovård samt alkohol och tobak. Basår för KPI är1980. Index för basåret sätts till 100. Nedanstående tabell upptar årsmedeltalen av KPI för åren 1980 2000. Vi ser där att 100 kr år 1980 har samma köpkraft som 261 kr år 2000. Det är svårt att göra prisjämförelser över lång tid. Det beror på att KPI-korgen justeras varje år. Det görs för att hushållen ändrar sina köpvanor. Det måste man tänka på om man jämför priser över flera tiotal år. År KPI 1980 100,0 1987 167,0 1994 248,8 1981 112,1 1988 176,7 1995 254,9 1982 121,7 1989 188,1 1996 256,3 1983 132,5 1990 207,6 1997 258,0 1984 143,2 1991 227,2 1998 257,3 1985 153,7 1992 232,6 1999 258,5 1986 160,3 1993 243,6 2000 260,8 Statistik - 27

Modell Jämförelse av prisnivå mellan två år Exempel 1 Beräkna ökningen i prisnivå från 1991 till 1993. Lösning De två åren har KPI(1991) = 227,2 och KPI(1993) = 243,6. Kvoten av KPI(1993) 243,6 indextalen beräknas: = = 1, 072. Ökningen i prisnivå KPI(1991) 227,2 var alltså 7,2 %. Exempel 2 Priset på 1 kg ost var 33,40 kr år 1982. Vad skulle 1 kg ost kostat år 2000 om priset följt KPI? Lösning KPI(1982) = 121,7 och KPI(2000) = 260,8. Antag att priset år 2000 enligt KPI är x kr/kg. Kvoten av indextalen är lika med motsvarande KPI(2000) Pr is(2000) kvot av priserna. Alltså =. Det ger ekvationen KPI(1982) Pr is(1982) 260,8 x 260,8 33,40 = x = x 71, 58. Kilopriset på ost 121,7 33,40 121,7 skulle alltså varit 71,60 kr. G8.1 Joakim som är 13 år får 250 kronor i månadspeng år 2000. Hans mamma Annette var 13 år 1980. Hon fick då 150 kr i månadspeng. Vilken månadspeng är högst om man tar hänsyn till KPI? Statistik - 28

Modell Omräkning av löpande penningvärde till fast penningvärde Exempel Tabellen nedan visar hur stora anslag ett skolbibliotek fick för att köpa böcker mellan åren 1995 och 1998. Räkna om tabellen med hjälp av KPI så att anslagen ges i fast penningvärde. År 1992 1993 1994 1995 Anslag (kr) 79000 81000 85000 87000 KPI 232,6 243,6 248,8 254,9 Lösning Bokanslaget höjs under perioden från 79 000 kr till 87 000 kr i löpande penningvärde. Men eftersom kronans värde minskat under perioden måste vi räkna om bokanslagen till fast penningvärde för att kunna avgöra om anslagen stigit eller sjunkit. Man multiplicerar summorna med kvoten av indextalen. En krona år 1993 har samma köpkraft som 0,957 kr år 1992 och för en krona år 1994 kan man köpa lika mycket som för 0,935 kr år 1992. År 1992 1993 1994 1995 Anslag (kr) 79000 82000 85000 87000 KPI 232,6 243,6 248,8 254,9 Förändringsfaktor 232,6 = 232,6 0,955 232,6 1 243,6 = 232,6 0,935 248,8 = 232,6 0,913 254,9 = Anslag i 1992 års penningvärde 79000 1 = = 79000 82000 0,955 = = 78300 85000 0,935 = = 79400 87000 0,913 = = 79400 Vi ser att bokanslagen i stort sett inte ändrats trots att antalet kronor ökat med över 10%. Att ta bort inverkan av ändringen i penningvärde med denna beräkning kallas deflatering. Statistik - 29

G8.2 Priset på en vara ökade från 300 kronor år 1990 till 470 kronor år 1998. Beräkna den procentuella prisförändringen i fast penningvärde (dvs. beräknat med hänsyn till KPI). Svara med två gällande siffror. G8.3 Ett glasbruk har tillverkat en viss typ av vas i över 60 år. 1951 kostade vasen 84 kronor att köpa och 1993 var priset 895 kronor. Beräkna med hjälp av KPI värdet av 1993 års pris i 1951 års priser. KPI(1951) = 117 och KPI(1951) = 1388 (basår 1949). G8.4 Sven är missnöjd med sin löneutveckling (återges i tabellen nedan). Hjälp Sven att finna argument genom att räkna om timlönen för 1993 1997 i 1993 års penningvärde (enligt KPI). År 1993 1994 1995 1996 1997 Timlön (kronor): 83,00 86,50 89,00 92,00 95,30 G8.5 Konsumentprisindex före 1980 hade år 1949 som basår. Vad skulle en lön som var 3500 kr/mån år 1973 motsvara år 2000 om lönen följt KPI? KPI(1973) = 287 och KPI(1980) = 571, båda indextalen med basår 1949. V8.6 Rita ett diagram som visar den allmänna prisutvecklingen under tiden 1925 2000. Använd nedanstående tabeller och tabellen över KPI. KPI (Basår 1914) 1925 1930 1935 1940 1945 1950 177 163 155 190 233 259 KPI (Basår 1949) 1950 1955 1960 1965 1970 1975 1980 101 133 159 190 236 347 571 Statistik - 30

9 Statistiska undersökningar Teori Populationen och stickprovet Vi ser på några påståenden och funderar över vad dessa har gemensamt. Ett parti fiskkonserver med för höga halter av miljögifter har upptäckts. Den här grönsakssoppan är för salt. Tillgreppsbrotten, det vill säga olika typer av stöld, rån och inbrott är de vanligaste brotten i Sverige och utgör drygt 60 procent av alla anmälda brott. Vitamintillsatsen i fodret medför att kycklingarna ökar snabbare i vikt. Bokstaven e är svenska språkets vanligaste och är 9,9% av bokstäverna i en normal text. I alla fem fallen uttalar man något som man inte absolut säkert kan veta. Alla påståendena bygger på att ett urval ur en större mängd undersökts och man yttrar sig sedan om hela gruppen, man generaliserar. Varningen för miljögifter i konserverna bygger på att innehållet i ett litet antal burkar analyserats. Alla burkar öppnas inte. Det räcker att ta en sked soppa för att avgöra att den är för salt. All soppa behöver inte avsmakas. I det tredje fallet måste vi uppmärksamma att det på ett ställe står vanligaste brotten och på ett annat alla anmälda brott. Det är inte säkert att tillgreppsbrotten är de vanligaste. Uppgiften baseras på de anmälda brotten och de är bara en mindre del av alla brott. Troligen är trafikbrott och narkotikabrott vanligare. När man avgjorde om vitamintillsatsen är effektiv delade man troligtvis in kycklingar slumpvis i två grupper och lät den ena gruppen få tillsatsen och den andra inte. Sedan analyserade man resultatet matematiskt och kom fram till att den snabbare viktökningen i gruppen som fick vitaminer inte berodde på slumpen. Statistik - 31

Uppgiften om språkets vanligaste bokstav bygger naturligtvis inte på analys av all text som skrivits. Man har valt ut representativa textavsnitt och undersökt hur ofta de olika bokstäverna återkommer där. I alla av dessa fall utom ett bygger påståendena på sannolikhetsurval, vilket betyder att alla objekt som undersöks har chans att komma i stickprovet. Undantaget är det tredje fallet. Där yttrar man sig om vilka brott som totalt sett är vanligast på grundval av statistik över anmälda brott. Urvalet är här inget sannolikhetsurval. Statistiska undersökningar har till syfte att få kunskap om populationer. Ordet population kommer från det latinska ordet pópulus, som betyder folk. Det betyder i modern statistik de objekt som studeras. Populationen kan vara så vitt skilda saker som alla svenskar, de sockerpaket som lämnar ett sockerbruk under en viss tid, alla norrländska företag med färre än fem anställda, alla svenska sjöar större än 1 hektar och så vidare. Man skiljer på urvalsundersökning och totalundersökning. Vid en totalundersökning studerar man hela populationen. En sådan är folkoch bostadsräkningen. Ett annat exempel var mönstringarna dit alla artonåriga pojkar kallades. Totalundersökningar gör man annars sällan på stora populationer eftersom de är dyra och tar lång tid. I stället använder man stickprovsundersökningar som är betydligt billigare och där man snabbare kan publicera resultatet. Oftast används någon form av sannolikhetsurval. Det finns olika sätt att bestämma vilka i populationen som ska ingå i stickprovet. Det enklaste sättet är att ge alla objekt samma sannolikhet. Detta kallas obundet slumpmässigt urval (OSU) och görs på samma sätt som lottdragning. I praktiken kan man numrera individerna i populationen och sedan låta en dator alstra slumptal som kopplas till den numrerade listan. I de fall man redan har en numrerat register, till exempel en medlemsförteckning ordnad efter personnummer eller i bokstavsordning, är det lätt att ordna ett slumpmässigt urval. Antag att man vill dra ett urval på cirka 80 av eleverna i en skola med 800 elever. Då tar man en elevförteckning där eleverna står i bokstavsordning, väljer sedan med lottning en startpunkt mellan 1 och 10. Om den blir 4 väljer man sedan elev Statistik - 32

nummer 4, 14, 24, 34,.och fortsätter till slutet på förteckningen. Metoden kallas systematiskt urval. Ytterligare en metod att skaffa ett slumpmässigt urval är att utnyttja vad man vet om populationen och ta hänsyn till det vid urvalet. Vi delar då upp populationen i delpopulationer som kallas strata (ental: stratum). Antag att vi vill ställa frågor till 100 av medlemmarna i en förening som har 2000 medlemmar, varav 1800 är kvinnor och 200 män. Då låter vi männen och kvinnorna i föreningen utgöra var sitt stratum. Vi drar sedan med systematiskt urval 10 män och 90 kvinnor. På så sätt får vårt stickprov de rätta andelarna kvinnor och män. Detta sätt att skapa stickprov kallas stratifierat urval. Exempel I din skola går 450 flickor och 300 pojkar. Uppgiften är att undersöka hur många av dessa som röker. Det är då lämpligt att dela in eleverna i två strata, flickor och pojkar. Därefter gör man ett slumpmässigt urval (OSU eller systematiskt) i vardera gruppen. Resultatet av flickornas och pojkarnas rökvanor kan sedan sammanställas. Med hjälp av stratifieringen kan vi säkrare uttala oss om skillnader i rökvanor mellan pojkar och flickor. Kön Urvalsstorlek Antal rökare Uppskattat antal i hela populationen Flickor 150 50 (33%) 0,33 450 = 149 Pojkar 100 10 (10%) 0,10 300 = 30 Alltså är uppskattningsvis ca 24% av eleverna rökare (179 av 750). Andelen rökare är störst bland flickorna. Flerstegsurval används när man gör undersökningar med stor geografisk spridning. Vill man ställa frågor till elever i Sveriges grundskolor är det mycket opraktiskt att göra ett stickprov direkt på alla elever. Vid undersökningen skulle man bli tvungen att kontakta praktiskt taget alla grundskolor för att ställa frågor till några enstaka elever. Mer praktiskt är det att som första steg välja ett antal skolor slumpmässigt, för att som andra steg välja ett antal klasser i var och en av dessa skolor och slutligen som tredje steg slumpvis välja ett antal elever i varje vald klass. Statistik - 33

Metoden att välja ut objekt i stickprovet är avgörande för resultatet av undersökningen. Om man inte tänker igenom urvalsmetoden noga kan man råka ut för bias (uttalas ba i əs) som är en vanlig beteckning på skevhet i statistiska undersökningar. Vill man undersöka vad eleverna i en skola tycker om programmen på friluftsdagarna är det olämpligt att ställa sig i elevhallen med en bunt svarsblanketter och ropa: Jag har frågor om vad ni tycker om friluftsdagarna! Är det några som vill svara? Fyll i den här blanketten. Resultatet av de svaren kommer inte att visa vad eleverna verkligen tycker. Varför? Diskutera i gruppen. Föreslå bättre metoder att göra urvalet. G9.1 Man vill undersöka vad eleverna på en gymnasieskola tycker om ämnet Idrott och hälsa. Därför planerar man en stickprovsundersökning. Vilket sätt att göra stickprovet är bäst? a) Fråga alla eleverna på en slumpmässigt vald idrottslektion. b) Be en av idrottslärarna låta alla sina elever besvara en enkät. c) Välj ut och fråga var fjärde elev i skolans elevregister. d) Fråga alla elever i skolans idrottsförening. G9.2 Ett bibliotek lånar ut 95 000 böcker per år. Under fem slumpvis valda dagar en månad lånades det sammanlagt ut 1 640 böcker, varav 638 var fackböcker. Hur många utlån av fackböcker sker under ett år? Statistik - 34

G9.3 En politisk förening har 5600 medlemmar. Av dessa är 15% aktiva och resten passiva. Man vill fråga ett urval föreningsmedlemmar om deras inställning i en viss fråga. Föreslå metoder för att skapa ett a) Obundet slumpmässigt urval b) Stratifierat urval c) Systematiskt urval. G9.4 För vilken eller vilka av följande statistiska undersökningar är totalundersökning olämplig? a) Vad tycker Sveriges befolkning om den nuvarande statsministern? b) Vill hyresgästerna i ett hyreshus att huset ska övergå till bostadsrätt? c) Vilken livslängd har en ny typ av lågenergilampor? d) Är de bilister som orsakar bilolyckor under ett år i Sverige drogpåverkade vid olyckstillfället? G9.5 En undersökning ska göras om hur folk kommer att rösta i EMU-folkomröstningen. Vilken av följande metoder är lämpligast? a) Fråga folk slumpmässigt utanför en pub. b) Besöka en gymnasieskola och fråga slumpmässigt valda elever (hälften pojkar, hälften flickor). c) Ringa och fråga slumpmässigt valda personer från telefonkataloger (hälften män, hälften kvinnor). d) Göra en totalundersökning. G9.6 En stickprovsundersökning ska göras för att utröna vilka brister som skolan har med avseende på skoldemokrati. Vilken av följande urvalsmetoder är lämpligast? a) Fråga alla elever som går i årskurs 3. b) Gå in på en slumpmässigt vald samhällskunskapslektion och fråga alla eleverna där. c) Välj ut och fråga var femte elev i skolans elevregister. Statistik - 35

Modell Svarsbortfall Exempel 1 Två stickprovsundersökningar gjordes för att ta reda på andelen rökare i en viss population. Vardera undersökningen omfattade 1000 personer. Vid den första undersökningen avstod 300 från att svara och vid den andra 600. Svarsbortfallet var i den första undersökningen 30% och i den andra 60%. Vi beräknar nu den högsta respektive lägsta andelen rökare om vi antar att alla i bortfallet är icke-rökare respektive rökare. Antal personer i stickprovet Antal svarande Observerad andel rökare Bortfall Lägsta andel rökare Högsta andel rökare 1000 700 40% 30% 28% 58% 1000 400 40% 60% 16% 76% Antalet rökare enligt den första undersökningen var 0,40 700 = 280 personer. Om ingen i bortfallet är rökare fås 280/1000 (=28%) som lägsta andel rökare. Högsta andel rökare bör då vara 580/1000 (=58%). Kontrollera själv den andra raden i tabellen. Vi kan ur tabellen se att skillnaden mellan högsta och lägsta andel rökare är 30 respektive 60 procentenheter. Detta motsvarar precis bortfallets storlek, vilket gäller generellt. Exempel 2 I en kommun med 6000 röstberättigade planerar man att lägga ner optokablar för att kunna erbjuda företag och privatpersoner bredbandsförbindelse. Man bestämde sig för att göra en totalundersökning bland kommuninvånarna. Bortfallet blev hela 2000 personer. Svaren visade att 40% av invånarna ville att kommunen skulle engagera sig i frågan om bredband medelst optokablar. a) Beräkna lägsta och högsta andel som ville att kommunen skulle lägga ned optokablar. b) Genom studier av bortfallets fördelning på ålder och utbildning bedömdes andelen intresserade av bredband till 20%. Statistik - 36

Lösningen till a) görs som Exempel 1. Lösning till b) Andelen som är intresserad av bredband med optokablar 4000 0, 40 + 2000 0, 20 = = 0, 33 = 33% 6000 G9.7 Vid en statistisk undersökning bland sjuksköterskor i ett landsting ställdes frågan: Har du någon gång allvarligt funderat på att byta yrke. Det visade sig att 50% svarade ja på frågan. En dagstidning rubriksatte detta som: Hälften av sjuksköterskorna i landstinget vill byta jobb. Kommentera resultatet om undersökningen gjordes bland 300 sjuksköterskor där 230 av dem svarade på enkäten. Modell En egen statistisk undersökning I detta avsnitt ges kortfattat konkreta tips om hur man kan genomföra en statistisk undersökning, utvärdera resultatet och till sist skriva en rapport. Det är meningen att avsnittet ska vara en inspirationskälla som dessutom ger en del användbara fakta. Hur den egna undersökningen till slut utformas beror givetvis på vad man vill veta, vilka de lokala förutsättningarna är, hur mycket tid man har till sitt förfogande och mycket annat. Utförandet kan varieras i det oändliga, men det finns vissa regler man inte får ge avkall på, vilket framgår av denna beskrivning. I denna beskrivning är den undersökta populationen den egna skolan men den kan lika gärna vara en annan skola i närheten. Klassen delar först in sig i grupper om 2-3 elever. Grupperna funderar sedan. Vad vill vi veta om skolans elever? Vilka frågor kan, vill och bör vi ställa? Diskutera sedan med läraren efter denna inledande fundering. Formulera eventuellt en hypotes som till exempel: Elever i första gymnasieåret läser mer fantasylitteratur än elever i tredje året. eller Pojkarna i skolan spelar mer dataspel än flickorna. Det kan vara Statistik - 37

intressant att undersöka en uppfattning som alla har. Det alla tror sig veta måste inte vara sant. Formulera sedan frågor till ett frågeformulär. Varje elevgrupp bidrar med 3 4 frågor. Detta är en mycket svår del i undersökningen. Här gäller att skynda långsamt och vara eftertänksam. Några råd: Skriv enkelt och kortfattat. Fråga bara om en sak i varje fråga (inte Är du för eller mot djurfabriker och antibiotika i djurfoder? ). Använd neutrala ord (skriv genetiskt modifierad i stället för genmanipulerad ). Använd inte svåra facktermer och främmande ord. Ge frågorna positiv form (inte Har du aldrig rökt? ) Stryk onödiga frågor. Är frågorna för många är det risk att de besvaras slarvigt. Undvik krångliga instruktioner av typen Om du svarat nej eller vet inte på fråga 3.2.b, gå då direkt till fråga 5.1. Slutna frågor innebär att svaren redan är formulerade och att den som tillfrågas väljer det svar som passar bäst. Då blir det lätt att bearbeta svaren i efterhand, men det svar som den tillfrågade helst skulle ge kanske inte finns bland alternativen. Man kan därför ta med ett öppet alternativ där personen får skriva ett eget svar: Annat, nämligen Till öppna frågor skriver den tillfrågade själv svar. De svaren blir arbetsammare att bearbeta. Alla svar måste ges en kod innan de behandlas med dator. Men svaren kan bli mycket mer nyanserade och den som genomför undersökningen kan få veta mycket mer än med fasta svarsalternativ. När frågorna är färdiga läggs de samman till ett textdokument och ges ett enhetligt utseende. Frågor om kön, ålder, gymnasieprogram och inriktning, första, andra eller tredje årets studier och annat som behövs för bearbetningen läggs in först i formuläret. Låt sedan flera kontrolläsa frågorna innan formuläret kopieras. Föreställ dig vad som kommer att hända när frågorna är besvarade. Kommer det då att gå att få ut meningsfull information ur bunten eller fattas det något viktigt? Statistik - 38

De som valts ut måste få veta varför undersökningen görs. Det är en viktig punkt som är avgörande för hur stort bortfallet blir. Diskutera därför igenom vad ni skall säga till dem som ombeds besvara frågeformuläret. När populationen är eleverna på skolan går det utmärkt att göra ett systematiskt urval. Med hjälp av en aktuell elevförteckning görs ett urval så som beskrivs på sid. 32 33. Nästa steg är att söka upp de elever som blivit valda. Förklara syftet med undersökningen, att den är anonym och att alla svar behandlas förtroligt. Var inte påflugen utan uppträd lugnt. Låt den svarande sitta avsides och svara på frågorna utan insyn från kamrater. Lägg sedan formuläret i en låda på ett sådant sätt att det sedan inte går att koppla ihop det med någon speciell person. Eventuellt kan man använda svarskuvert. En sak är speciellt viktig i detta skede: Om en person i urvalet av någon anledning inte kan eller vill svara får ingen annan svara i dennes ställe. Avböj medverkan om någon anmäler sig frivilligt. Det uteblivna svaret ska ingå i bortfallet. Om man har tid kan man senare försöka igen att få svar på frågorna. Men de måste besvaras av den person som blivit utvald. Om så inte sker kan man få bias. Varför? Vid bearbetningen delar man formulären och varje grupp bearbetar sina frågor. Gruppen skriver sedan en rapport där resultatet av gruppens undersökning redovisas. Statistik - 39

Modell Rapportskrivning En viktig länk i arbetet är rapporten. Här föreslås att varje grupp redovisar sin del av undersökningen i en egen rapport. En annan möjlighet är annars att samtliga gruppers resultat sammanställs i ett gemensamt rapporthäfte där hela klassen ansvarar för uppläggningen. Följande beskrivning avser en rapport från en enskild grupp På försättsbladet bör följande uppgifter finnas med: Skolans namn Ämne och kurs När undersökningen utfördes Namnet på handledaren Titel, som gärna kan formuleras som en fråga som väcker nyfikenhet. Namn på den eller dem som gjort undersökningen. En innehållsförteckning där alla delrubriker står bör finnas först. Rapporten kan sedan uppta avsnitt med följande innehåll: 1 Vilket problem avsåg undersökningen att belysa? Vilken eller vilka frågor ville man besvara med hjälp av den? Det är mycket viktigt att problemen är väl avgränsade. Hur avgränsningen gjordes bör motiveras. Det ska klart framgå vilken population som undersöktes. 2 Vilka metoder användes vid undersökningen? Hur gjordes urvalet? Hur samlades svaren in? Vissa begrepp kanske måste förtydligas. Vad menades till exempel med en rökare? Är det både en feströkare som röker en eller ett par cigarretter i månaden och en vanerökare som gör slut på ett paket om dagen? 3 Resultaten redovisas i ett särskilt avsnitt. Skriv kortfattat och tydligt. Var sparsam med diagram och tabeller. Var inte överdrivet noggrann med sifferangivelserna i löpande text. Det är bättre att skriva Var tredje elev jobbar på helgerna än 34,7% av eleverna jobbar på helgerna. Här redovisas också bortfallet och hur det hanterats. En beräkning av konfidensintervallets storlek (se nedan) görs där det är motiverat. Möjliga felkällor och begränsningar redovisas. Statistik - 40