Lektionsanteckningar 1: Introduktion



Relevanta dokument
Statistikens grunder. Mattias Nilsson Benfatto, Ph.D

Föreläsning G60 Statistiska metoder

Föreläsning 2 Deskription (forts). Index Deskription: diagram som stapeldiagram, histogram mm (tex spridningsdiagram, Mera om mätnivåer

Hur går en statistisk undersökning till?

Statistiska undersökningar

Statistikens grunder HT, dagtid Statistiska institutionen

Vad är statistik? Kapitel 1 handlar om. Praktisk statistik kapitel 1. Vad är statistik? Grundbegrepp

Kvantitativ metod. Föreläsning Kristin Wiksell

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

Föreläsning 1: Introduktion. Vad är statistik?

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Att välja statistisk metod

Föreläsning G70 Statistik A

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Statistik 1 för biologer, logopeder och psykologer

Kvantitativ forskning C2. Viktiga begrepp och univariat analys

Provmoment: Tentamen 2 Ladokkod: 61ST01 Tentamen ges för: SSK06 VHB. TentamensKod: Tentamensdatum: Tid:

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Kvantitativa metoder en introduktion. Mikael Nygård, Åbo Akademi, vt 2018

Slumpmässiga resp ickeslumpmässiga. urval. Olika feltyper i en undersökning. Förra gången (F6)

Tentamen vetenskaplig teori och metod, Namn/Kod Vetenskaplig teori och metod Provmoment: Tentamen 1

Repetitionsföreläsning

EXAMINATION KVANTITATIV METOD vt-11 (110204)

KVANTITATIV FORSKNING

732G01/732G40 Grundläggande statistik (7.5hp)

F1 Introduktion. Statistisk undersökning. Vad är statistik? Vad är en statistisk undersökning? Klassificering efter mål eller syfte med undersökningen

Lektionsanteckningar 11-12: Normalfördelningen

Undersökningsplanering Datakällor: officiell statistik, olika databaser, registerstatistik

EXAMINATION KVANTITATIV METOD

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Population. Antal tänder. Urval

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 23 e mars Ten 1, 9 hp

Hur skriver man statistikavsnittet i en ansökan?

import totalt, mkr index 85,23 100,00 107,36 103,76

KVANTITATIV FORSKNING

Välkomna till Statistik och kvantitativa undersökningar Lars Bohlin Syfte: Lärandemål. Lärandemål forts.

Urval. Varje element i populationen skall ha en känd sannolikhet (chans) som är större än 0 att bli utvald

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Biostatistik: Begrepp & verktyg. Kvantitativa Metoder II: teori och tillämpning.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Li#eratur och empiriska studier kap 12, Rienecker & Jørgensson kap 8-9, 11-12, Robson STEFAN HRASTINSKI STEFANHR@KTH.SE

Statistikens betydelse och nytta för samhället

OMNIBUSRAPPORT VG REGIONEN

Laboration 3: Urval och skattningar

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

2 Dataanalys och beskrivande statistik

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

STOCKHOLMS UNIVERSITET VT 2008 Statistiska institutionen Linda Wänström

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Konfidensintervall i populationsbaserade studier varför behövs de? Therese Andersson Sandra Eloranta

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 10 e januari Ten 1, 9 hp

Laboration 3: Urval och skattningar

Vetenskaplig Metod och Statistik. Maja Llena Garde Fysikum, SU Vetenskapens Hus

Läs noggrant informationen nedan innan du börjar skriva tentamen

Vad beror benägenheten att återvinna på? Annett Persson

Statistikens grunder (an, 7,5 hsp) Tatjana Nahtman Statistiska institutionen, SU

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

OBS! Vi har nya rutiner.

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 9 e juni Ten 1, 9 hp

Föreläsning G60 Statistiska metoder

Rapport till Vara kommun om biblioteksundersökning år 2009

Metod1. Intervjuer och observationer. Ex post facto, laboratorie -, fältexperiment samt fältstudier. forskningsetik

Kvantitativ strategi viktiga begrepp II. Wieland Wermke

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

Introduktion till statistik för statsvetare

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

17/10/14. Kvantitativ metod och grundläggande statistik. Varför. Epidemiologi

Kort om mätosäkerhet

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Vetenskaplig metod och Statistik

Statistiska Institutionen Gebrenegus Ghilagaber (docent) Skriftlig tentamen i FINANSIELL STATISTIK, grundnivå, 7,5 hp, HT08. Torsdagen 15 januari 2009

Hundrarutor, markörer, penna och miniräknare. På följande sidor finns hundrarutor för kopiering.

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Enkätmetodik felkällor. Kandidatprogrammet i folkhälsovetenskap, HT -11

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Studietyper, inferens och konfidensintervall

Föreläsning 6. Korstabeller (Tvåvägstabeller) Kap Korstabeller

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Introduktion Olika typer av undersökningar Kritiskt förhållningssätt (kap. 1, 2.1, 2.2) Kursupplägg

Betygsgränser: Tentan kan ge maximalt 77 poäng, godkänd 46 poäng, väl godkänd 62 poäng

36 poäng. Lägsta poäng för Godkänd 70 % av totalpoängen vilket motsvarar 25 poäng. Varje fråga är värd 2 poäng inga halva poäng delas ut.

Uppföljningsundersökning. Lärare. Teknisk rapport

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Provmoment: Ladokkod: Tentamen ges för: Tentamen VVT012 SSK05 VHB. TentamensKod: Tentamensdatum: Tid:

Hur gör de egentligen?

1(6) Datum Anna Björkesjö Klara Jakobsson. Nedskräpning i stadens centrala gatumiljö. - Nyköping Metod- och kvalitetsrapport

Fråga nr a b c d 2 D

Föreläsning G60 Statistiska metoder

Vetenskaplig metod och statistik

Finns det vissa typer av människor som du inte gillar?

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Johan Andersson

Planering av en undersökning Olika datainsamlingsmetoder Olika slag av variabler. Förra gången (F1) Siffror i tabeller och diagram Metoder Begrepp

Statistik vad är det?

Transkript:

Lektionsanteckningar 1: Introduktion 1.1 Vad är statistik? Statistik används som hjälpmedel när vi ska fatta beslut i situationer då något är oförutsägbart eller slumpartat. Vi känner flera möjliga konsekvenser, men vi vet inte säkert vilken konsekvens vårt beslut kommer att medföra. Besluten måste fattas även om det råder osäkerhet. I ämnet statistik får vi lära oss metoder som gör att vi fattar bra beslut i situationer med fenomen och företeelser som förändras eller är slumpmässiga. 1

1.2 Syfte med statistik Ett av statistikens huvudsyften är att göra dig till en kompetent mottagare av statistik information. Kan resultaten ha någon annan förklaring än den som påstås? Media påverkas av många aktörer som har politiska eller ekonomiska baktankar med sina budskap. Tänk alltid på vad de är ute efter och vem som finansierat, gjort försöken och publicerat försöksresultaten. There are three kinds of lies: lies, damned lies, and statistics. (Mark Twain, 1907). 2

1.3 Exempel på användningsområden Innan nya läkemedel släpps ut på marknaden måste tillverkarna bevisa att medlen verkar och att de har begränsade biverkningar. Därför görs kontrollerade försök, först på djur och sedan på människor som har förklarat sig villig att delta i försöken. Statistiska metoder kan hjälpa forskarna att planera ett bra försök och sedan analysera resultaten. Vad är sannolikheten för att få cancer? Påverkas denna sannolikhet av bestämda riskfaktorer som rökning, asbest, radonstrålning, kaffedrickande, chips och lightläskedrycker? Här kan statistisk hypotesprövning vara ett hjälpmedel för att ta reda på om vissa riskfaktorer verkligen har en effekt på att få cancer. Hur många felaktiga artiklar finns det i ett parti varor? Hur många enheter måste vi testa? Hur många fel kan vi godta i stickprovet och ändå acceptera varupartiet? Sannolikhetsberäkningar kan bidra till att ge vägledande svar. 3

Ett företag som säljer bilar lämnar en garantitid på 6 månader på de bilar som säljs. Av företagets statistik över tidigare sålda bilar framgår att den tid som det tar innan bilarna behöver repareras. Försäljningschefen vill se över försäljningsvillkoren. Han föreslår därför bl.a. att man skall ändra garantitiden så att högst 5 % av bilarna kräver reparation under garantitiden. Hur lång garantitid föreslår du att företaget ska lämna på sina försålda bilar? Sannolikhetsberäkningar kan bidra till att ge vägledande svar. Besökarantalet i en kommunal ishall som är öppen året runt varierar kraftigt vilket medför att det kan vara problem med att dimensionera personalstyrkan under olika perioder. Ledningen vill nu utvärdera hur besöksfrekvensen har förändrats under de tre senaste åren. Sannolikhetsberäkningar kan bidra till att ge vägledande svar. 4

Ett undersökningsföretag planerar att göra en urvalsundersökning där man inom en viss region bl.a. vill skatta den procentuella andelen anställda inom restaurangbranschen som upplever att deras arbete är monotont. Statistik ger svar på hur många som bör efterfrågas och hur säkra resultaten från undersökningen är. Flera undersökningar visar på ett växande intresse för ursprungsmärkning av våra varor. Men hur är det med livsmedelsbranschen? Branschen har riktlinjer för ursprungsmärkning men är kunderna verkligen nöjda med märkningen av mat? För att ta reda på kundernas inställning skall en undersökning genomföras bland kunder med kundkort, vilka kan uppfattas som trogna kunder. Statistik ger svar på hur många som bör efterfrågas och hur säkra resultaten från undersökningen är. Trafiken ökar på våra vägar. För att uppskatta hur stor trafikvolym som kan tänkas passera en viss vägkorsning studerar man antalet bilar som passerar vägkorsningen under ett antal år. Statistiska metoder kan användas för att göra prognoser om trafikvolymen i framtiden. 5

Underhåll görs vanligen för att minimera driftskostnaderna och för att tillgodose vissa minimikrav när det gäller säkerhet. För att kunna bestämma rätt underhållsnivå måste t.ex. elbolagen veta varför felen uppstår och vilka konsekvenser de ger. Det kostar pengar att ha varor i lager genom att kapital binds och utrymme används. Men det kostar också pengar att inte ha varorna i lager när det behövs. Kunskap om kostnader och leveranstider kan tillsammans med statistiska uppgifter ge upphov till regler för optimal lagerhantering. Många tjänsteproducerande företag hanterar en obestämbar kundstock. Ingen vet hur många kunder som kommer nästa dag. Med kunskap om vanliga mönster för kundernas besökstider går det att komma fram till rätt servicenivå. De flesta av oss har fått något frågeformulär eller blivit uppringda av något opinionsinstitut. Frågorna ställs bara till ett urval från populationen. Statistik ger svar på hur många som bör efterfrågas och hur säkra resultaten från undersökningen är. 6

Inom processindustrin sker produktionen vanligen genom att en mängd råvaror blandas. Kvaliteten på slutprodukten avgörs av blandningsförhållanden mellan dessa råvaror, ordningsföljden vid blandningen, temperatur, tryck, luftfuktighet osv. Med statistik kan vi hjälpa till att planlägga sådana tester och analysera vilka ändringar som leder till högre produktkvalitet. Törs vi satsa 100 kronor för att vinna 750 kronor att England vinner fotbolls VM 2010? Sannolikhetsberäkningar kan hjälpa dig att kombinera dina gissningar systematiskt så att du får fram en sammantagen uppfattning om vilka chanser England har. I många spel måste spelarna fatta beslut under spelets gång. I poker måste du bedöma om du ska lägga dig, satsa vidare eller gå all-in. Om vi ska spela blackjack i Las Vegas, vilket Kasino har de bästa reglerna för spelarna och således ger störst sannolikhet att vinna? I dessa situationer kan du med hjälp av sannolikhetsberäkningar fatta bra beslut. 7

1.4 Några viktiga begrepp Avsikten med statistiska undersökningar är ofta att skaffa kunskap om individer, företag, länder osv. Alla individer med en gemensam egenskap utgör tillsammans en population, t.ex. alla företag inom en viss bransch eller studenter registrerade på grundkursen i statistik 1 vid Handelshögskolan i Göteborg. Istället för att undersöka samtliga individer, företag eller länder som ingår i populationen väljer vi oftast ut ett slumpmässigt urval eller stickprov av individer, företag eller länder osv. Utifrån svaren som vi får från detta urval försöker vi säga något om enheterna i hela populationen. Anledningen till att vi inte väljer hela populationen är att det går snabbare, blir billigare att genomföra och bearbeta, samt att man kan ställa flera och mera detaljerade frågor. 8

Varje individ, företag eller länder kan beskrivas med värdet av en eller flera variabler, till exempel ålder, vikt, utbildning, hushållets inkomst, omsättning, vinst, bruttonationalprodukt, inflation och arbetslöshet. Variabler som man mäter vid en viss tidpunkt, kallas för ett tvärsnitt. Exempel på ett tvärsnitt kan vara hushållens inkomster under 2008, eller hur många anställda företagen i Sverige hade den första februari 2009. Många variabler ändras med tiden. Flera mätningar av samma variabler, gjorda efter varandra, kallas en tidsserie. Inflation, arbetslöshet, och utvecklingen på Stockholmsbörsen har mätvärden som ändras över tiden och är exempel på tidsserier. 9

1.5 Olika slag av variabler De egenskaper som vi studerar i en statistisk undersökning kallas för variabler. Det finns tre typer av variabler. Kategoriska variabler är kvalitativa variabler som inte naturligt kan beskrivas med siffror, men tillhör en bestämd kategori eller grupp med samma egenskaper, till exempel kön, civilstånd, hårfärg, social status, partitillhörighet, samt inställning till global uppvärmning, med sina ickenumeriska variabelvärden. Diskreta variabler är kvantitativa variabler som bara kan anta speciella siffervärden på skalan för den aktuella egenskapen, t.ex. skostorlek och antal barn per hushåll. Varje gång vi räknar antalet av något, t.ex. frånvarodagar på en arbetsplats, personer med körkort, arbetsskador i Göteborg, får vi en diskret kvantitativ variabel. Det är alltså en variabel av stort praktiskt intresse. 10

Kontinuerliga variabler är kvantitativa variabler som kan anta alla värden inom ett givet intervall för att beteckna en egenskap. Alla tänkbara decimaltal inom intervallet är alltså tillåtna. Ålder, kroppslängd, vikt och inkomst är exempel på kontinuerliga kvantitativa variabler. 11

1.6 Skaltyp När vi mäter en kategorivariabel säger vi att vi har en nominalskala. Någon skala i den betydelsen att vi bedömer storleken eller att gör en storleksjämförelse är det inte frågan om. Mätningen innebär enbart att vi anger de olika individernas klass- eller grupptillhörighet efter den egenskap eller variabel vi studerar. Man kan enbart klassificera observationerna efter sina variabelvärden och beräkna frekvensen för varje värde. När vi mäter kvantitativa variabler förekommer det tre skalor; ordningskala, intervallskala, och kvotskala. Antag att vi vill mäta kroppslängden på Patrik Sjöberg och Stefan Holm. En mycket enkel mätning innebär att vi konstaterar att Patrik Sjöberg är längre än Stefan Holm. Vi kan naturligtvis också säga att Stefan Holm är kortare än Patrik Sjöberg, vilket ger exakt samma information. Mätningen innebär att vi gör en rangordning av individerna, i detta fall efter individernas längd. 12

Beroende på från vilket håll man gör rangordningen blir antingen Patrik Sjöberg eller Stefan Holm nummer 1. Rangordning av individer förekommer i många sammanhang och är ibland det enda sättet att mäta en variabel. Man rangordnar till exempel fem sökande till en tjänst. Betyg, många attitydskalor, svensktoppen och de rankinglistor som förekommer bl. a. inom tennis och boxning är ytterligare exempel på användning av ordningsskala eller ordinalskala. Typiskt för denna skala är att man kan avgöra om det ena variabelvärdet är större (längre, tyngre, bättre, etc.) eller mindre (kortare, lättare, sämre) än det andra. Däremot kan man inte säga något om skillnaden mellan olika mätvärden. Frågor av typen Hur mycket vackrare är Brad Pitt än Johnny Depp? går inte att besvara. Mätvärdenas summa eller differens och inte heller kvoten mellan två mätvärden ger någon meningsfull information. 13

Vi kan inte använda de fyra räknesätten; addition, subtraktion, multiplikation och division vid denna typ av mätvärden. Detta är en viktig slutsats. Både nominalskale- och ordinalskalevariabler ger man ofta olika siffervärden. En femgradig attitydskala som sträcker sig från mycket dåligt till mycket bra kan t.ex. ges de positiva heltalen 1, 2, 3, 4, 5. Däremot kan man inte uttala sig om att differensen mellan de olika skalstegen är lika stor, dvs. att ökningen i positiv attityd är densamma över hela intervallet. Informationen från variabelvärdena har alltså inte blivit större i och med att de fått siffervärden. 14

Patrik Sjöberg är 18 cm längre än Stefan Holm. Detta är ett exempel på en intervallskala, vilket innebär att vi kan ange skillnaden mellan olika mätvärden. Det innebär också att det är möjligt att både addera och subtrahera mätvärden. Temperatur mätt i Celsiusgrader är exempel på en intervallskala. På ett meningsfullt sätt kan vi ange skillnaden mellan två mätvärden. 15

Patrik Sjöberg är 199 cm lång och Stefan Holm är 181 cm lång. Vi visste redan att Patrik Sjöberg är 18 cm längre än Stefan Holm. Nu kan vi också bilda kvoten 199/181 = 1,1 eller 18/181 = 0,10, vilket innebär att Patrik Sjöberg är 10 procent längre än Stefan Holm. Kroppslängd i centimeter är liksom vikt och ålder i år exempel på en kvotskala. När man arbetar med kvantitativa uppgifter är det alltid en god regel att börja med att fastställa vilken nivå mätvärdena ligger på. Det resultatet man kommer fram till blir sen avgörande för hur den fortsatta bearbetningen ska ske. Det är meningslöst att använda metoder, för vilka grundförutsättningarna inte är uppfyllda. 16

1.7 Datakvalitet Kvaliteten på våra analyser blir aldrig bättre än kvaliteten på de data vi samlar in. Är urvalet tillräckligt stort? Är urvalet representativt för hela populationen? Har mätningarna pågått tillräckligt länge? Har observatören påverkat mätningarna? Är variabler och egenskaper entydiga och klokt formulerade? Är mätningarna noggranna? 17

1.8 Enkätundersökningar Objektiva mätningar är normalt bättre än subjektiva påståenden. Det är bättre att mäta telefonväxelns svarstid elektroniskt än att fråga den som ringer om han/hon fått vänta lite, länge eller mycket länge. Svaren i undersökningen måste vara representativa. Frågeformuläret måste skickas till ett representativt urval och ett representativt urval av dessa måste också svara på formuläret. Frågorna i frågeformuläret måste vara precisa, förståliga och så lite ledande som möjligt. Den som fyller i frågeformuläret bör vara anonym. Tidpunkten när mätningarna görs kan ha stor betydelse. Ordningsföljden på frågorna spelar en stor roll eftersom alla frågorna styr tankarna på den som fyller i frågeformuläret. I denna kurs får du lära dig hur svaren på enkätundersökningar kan analyseras. 18

1.9 Vilka individer ska ingå i enkätundersökningen? Man skiljer mellan totalundersökning och urvalsundersökning. När populationen är liten är det i allmänhet möjligt och kanske också mest paraktiskt att studera samtliga individer; man gör alltså en totalundersökning. Ibland är det dock nödvändigt att göra någon form av urval, och så fort populationen omfattar många individer är i allmänhet detta också det enda rationella alternativet. Istället för att undersöka hela populationen nöjer man sig alltså med att studera en del av denna. En urvalsundersökning blir billigare än en totalundersökning. Den kan också utföras snabbare, vilket är en viktig aspekt, speciellt om man vill spegla tillfälliga opinioner, t.ex. en partisympatiundersökning. Oftast gör man någon form av sannolikhetsurval. 19

Det innebär att varje individ i populationen ska ha en sannolikhet, som är större än noll, att komma med i urvalet. Sannolikheten behöver inte vara lika för alla individer, men den ska vara känd. 20

1.10 Fel i undersökningar Fel i undersökningar kan leda till över- eller underskattningar. I princip innebär det att man studerar en annan population än vad man tänkt sig. Bortfall kan medföra problem, eftersom den grupp som inte svarar ofta skiljer sig från resten av populationen i något avseende. Ställer vi känsliga frågor kan vi vara övertygande om att frågorna upplevs som speciellt känslig av många av svarsvägrarna. Det är till exempel bättre att fråga efter individens födelseår än att fråga hur gammal individen är. Bearbetningsfel och mätfel kan också orsaka problem. Till bearbetningsfel räknas de fel som kan uppkomma vid det manuella eller maskinella handhavandet av det insamlade materialet, t.ex. vid kodning, dataregistrering, mm. 21

Man kan få mätfel genom att intervjupersonerna missuppfattar frågor men också genom att intervjuarna feltolkar instruktioner eller missuppfattar intervjupersonen. Vid slumpmässiga fel innebär det att felet inte påverkar resultaten i en viss riktning. Överskattningar förekommer alltså i princip lika ofta som underskattningar. Vid sannolikhetsurval låter man slumpen styra urvalet på olika sätt, vilket innebär att man med hjälp av urvalet kan bedöma urvalsfelets genomsnittliga storlek. 22