Föreläsning 1 Statistiska metoder 1
Kursens uppbyggnad o 10 föreläsningar Teori blandas med exempel Läggs ut några dagar innan på kurshemsidan o 5 räknestugor Tillfälle för individuella frågor Viktigt att börja räkna på egen hand! o 5 laborationer Datasalar i E-huset, ingång 27 (B-huset) Minitab 16 2
Kursens uppbyggnad o Examination Projekt (inlämning 21 mars) Salstentamen 27 mars Hjälpmedel är formelsamling, tabeller, miniräknare o Kurslitteratur Statistiska metoder (Körner & Wahlgren) Kompendium på kurshemsida (Kursinformation) 3
Introduktion 4
Introduktion 5
Statistiska undersökningar Olika typer av undersökningar Statistiska undersökningar kan delas upp i två olika typer, beroende på vad målet är med undersökningen. o Beskrivande undersökningar Målet är att beskriva någonting o Analytiska undersökningar Målet är att djupare analysera någonting 6
Statistiska undersökningar Datainsamling I en statistisk undersökning kan data samlas in på olika sätt. o Genom experiment Klassiskt exempel: läkemedelstest o Totalundersökning Alla enheter i en population undersöks o Urvalsundersökning En del av hela populationen undersöks, och utifrån denna del dras slutsatser om hela populationen 7
Statistiska undersökningar Definiera termer När en statistisk undersökning ska genomföras brukar dessa olika termer definieras. o Målpopulation Den population man vill undersöka o Rampopulation Den population som man kan undersöka o Urvalsram Ev. register över rampopulationen o Stickprov (Slumpmässigt) urval av enheter från populationen o Urvalsenhet De enheter som blivit utvalda i stickprovet (observationer) 8
Statistiska undersökningar Urvalsfel När en urvalsundersökning genomförs kan två typer av fel förekomma: o Övertäckning En enhet som inte tillhör målpopulationen kommer med i stickprovet o Undertäckning En enhet som tillhör målpopulationen har ingen möjlighet att komma med i stickprovet 9
Statistiska undersökningar Exempel En undersökning ska göras bland studenter vid Linköpings universitet, och det fokuseras enbart på studenter på Campus Valla. Urvalet sker genom ett så kallat på-stan - urval, där slumpmässigt valda studenter i rörelse på Campus Valla intervjuas. Definiera: Målpopulation Rampopulation Ev. urvalsram Ev. övertäckning Ev. undertäckning 10
Variabler Indelning och skalor En variabel är något som observeras hos en enhet och denna kan variera från enhet till enhet. Först och främst brukar det anges om variabel är kvalitativ eller kvantitativ. o Kvalitativ (kategorivariabel) T.ex. ögonfärg, partitillhörighet o Kvantitativ (numerisk variabel) Diskret Antar enbart heltal Kontinuerlig Kan anta ett oändligt antal decimaler 11
Variabler Indelning och skalor Variablerna är också på olika skalor. o Nominalskala (kvalitativa variabler) Enheterna kan delas i grupper o Ordinalskala Enheterna kan sorteras/rangordnas o Intervallskala Skillnader mellan observationer kan beräknas Absolut nollpunkt saknas o Kvotskala Alla fyra räknesätt kan användas Det finns en absolut nollpunkt 12
Variabler Exempel Data har samlats in i undersökningen bland studenter på Campus Valla och presenteras i nedanstående tabell. De olika variablerna är i kolumner och en rad representerar en urvalsenhet (person). Person Kön Ålder Parti Tränar 1 Man 22 S Ofta 2 Kvinna 19 Mp Mycket ofta 3 Kvinna 23 Kd Ibland Ange vilka variabler som är kvantitativa respektive kvalitativa samt vilka skalor de olika variablerna är på. 13
Tabeller och diagram Kvalitativ variabel Datamaterialet som har samlats in brukar ofta sammanställas i tabeller och visas visuellt i olika diagram. En kvalitativ variabel brukar visas i ett stapel- eller cirkeldiagram. Procent är alltid att föredra vid urvalsundersökningar! Parti Antal Procent Socialdemokraterna 559 33,6 Vänsterpartiet 77 4,6 Miljöpartiet 150 9 Moderaterna 488 29,3 Centerpartiet 53 3,2 Folkpartiet 103 6,2 Kristdemokraterna 75 4,5 Sverigedemokraterna 152 9,1 Övriga 7 0,4 Total 1664 100 14
Tabeller och diagram Kvalitativ variabel Cirkeldiagram ska dock användas med försiktighet, speciellt de med 3D-effekt. Väljarbarometern januari 2013 Socialdemokraterna Vänsterpartiet Miljöpartiet Moderaterna Centerpartiet Folkpartiet Kristdemokraterna Sverigedemokraterna Övriga Väljarbarometern januari 2013 Socialdemokraterna Vänsterpartiet Miljöpartiet Moderaterna Centerpartiet Folkpartiet Kristdemokraterna Sverigedemokraterna 15
Tabeller och diagram Kvalitativ variabel, korstabell Ofta vill man undersöka två variabler samtidigt, då kan så kallade korstabeller skapas. Åldersgrupp Tränar Tränar inte Totalt Yngre 142 87 229 Äldre 28 34 62 Totalt 170 121 291 Som vanligt är det mer intressant att använda sig av de relativa frekvenserna (procent) än de absoluta frekvenserna (antal). Men vilka procentberäkningar är meningsfulla? 16
Tabeller och diagram Kvalitativ variabel, korstabell Det är alltså mest meningsfullt att beräkna procent inom åldersgrupperna. Dessa relativa frekvenser kan visas i ett stapeldiagram. 17
Tabeller och diagram Kvalitativ variabel, korstabell Tänk på att inte kapa diagram! 18
Tabeller och diagram Kvantitativ variabel Kvantitativa variabler kan presenteras i frekvenstabeller och stolpdiagram (om få olika värden, diskret variabel) eller histogram (många olika värden, kontinuerlig variabel). Nedan presenteras åldersfördelningen vid en undersökning på Campus Valla. Ålder (x) Antal (f) 19 4 20 13 21 36 22 27 23 13 24 5 25 1 26 1 19
Tabeller och diagram Kvantitativ variabel Om en undersökning har gjorts där åldrarna är mycket mer varierande rekommenderas histogram. Åldersgrupp Antal 17 eller yngre 3 18-22 4 23-27 6 28-32 8 33-37 19 38-42 17 43-47 19 48-52 13 53-57 3 58-62 6 63 eller äldre 2 20
Beskriva variabler Förutom att visa variabler i olika tabeller och diagram brukar man med hjälp av olika mått beskriva variablerna. o Lägesmått Typvärde Median Medelvärde o Spridningsmått Variationsområde, variationsvidd Kvartiler Standardavvikelse 21
Beskriva variabler Lägesmått Typvärde Det vanligaste värdet, fungerar på alla skalor Median Det mittersta värdet när värdena har sorterats i storleksordning. Vid ojämnt antal observationer är det värdet i mitten, men om det är jämnt antal observationer är det medelvärdet av de två mittersta värdena. Förutsätter minst ordinalskala. Medelvärde Summan av alla värden dividerat med antalet observationer. Förutsätter minst intervallskala. x = x n eller: x = (f x) n 22
Beskriva variabler Spridningsmått Variationsområde Intervallet mellan det lägsta och det största värdet Variationsvidd Det största värdet minus det lägsta värdet Standardavvikelse Mått på spridningen kring ett medelvärde s = x x 2 n 1 = x 2 x 2 n n 1 s = f x 2 n 1 f x 2 n 23
Beskriva variabler Spridningsmått Kvartiler Med hjälp av kvartilerna delas datamaterialet upp i fyra lika stora delar. Under första kvartilen (Q1) finns 25 % av datamaterialet och kan ses som medianen på den undre halvan av datamaterialet Under andra kvartilen (Q2) finns 50 % av datamaterialet och är medianen Under tredje kvartilen (Q3) finns 75 % av datamaterialet, och kan ses som medianen på den övre halvan av datamaterialet Kvartilerna brukar användas tillsammans med medianen och de tillsammans beskriver datamaterialet i ett lådagram (boxplot). 24
Beskriva variabler Spridningsmått Outlier Första kvartil Andra kvartil (median) Tredje kvartil 25
Beskriva variabler Exempel För enkelhetens skull antar vi att en undersökning innehållande 11 personer har genomförts, och deras åldrar var följande: 20, 21, 21, 26, 20, 24, 37, 22, 20, 22, 22 Beräkna: Typvärdet Medianen samt första och tredje kvartil Variationsområde och variationsvidd Medelvärde och standardavvikelse 26
Beskriva variabler Exempel Vi återgår till undersökningen på Campus Valla. Beräkna medelvärde och standardavvikelse för variabeln ålder med hjälp av frekvenstabellen. Ålder (x) Antal (f) 19 4 20 13 21 36 22 27 23 13 24 5 25 1 26 1 27
Normalfördelningen Normalfördelningen är en så kallad sannolikhetsmodell, och de flesta beräkningar vi kommer att använda i denna kurs bygger på denna fördelning. 28
Normalfördelningen Mellan gränserna x s och x + s ligger ungefär 68 % av observationerna. Mellan gränserna x 2s och x + 2s ligger ungefär 95 % av observationerna. Som regel för hyfsat symmetriska material brukar man säga att variationsvidden ska vara fyra standardavvikelser (4s). Detta kan användas för att undersöka om standardavvikelsen har beräknats korrekt, genom att dividera variationsvidden med fyra och se om detta blir ungefär samma som standardavvikelsen. I verkligheten blir i princip aldrig en variabel perfekt normalfördelad, så ibland får man anstränga sig för att kunna anta att en variabel är normalfördelad. 29
Tack för idag! Nästa tillfälle: Föreläsning 2, tisdag 26/2 13-15, sal A34 30