Lärare 5 Lärare 1 Binomial och normalfördelning Fel i statistiska undersökningar Att tolka undersökningar Falska samband Att jämföra i tid och rum

Relevanta dokument
Lärare 5. Lärare 1 Binomial och normalfördelning Fel i statistiska undersökningar Att tolka undersökningar Falska samband Jämföra i tid och rum

Lärare 4. Lärare 1 Binomial och normalfördelning Fel i statistiska undersökningar Att tolka undersökningar Falska samband Jämföra i tid och rum

Lärare 1. Lärare 1 Binomial och normalfördelning Fel i statistiska undersökningar Att tolka undersökningar Falska samband Jämföra i tid och rum

Lärare 2. Lärare 1 Binomial och normalfördelning Fel i statistiska undersökningar Att tolka undersökningar Falska samband Jämföra i tid och rum

Studietyper, inferens och konfidensintervall

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Lärare 2. Lärare 1 Binomial och normalfördelning Fel i statistiska undersökningar Att tolka undersökningar Falska samband Jämföra i tid och rum

Föreläsning 7 FK2002

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Lektionsanteckningar 11-12: Normalfördelningen

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Föreläsning G60 Statistiska metoder

Kap 3: Diskreta fördelningar

F3 Introduktion Stickprov

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

1) I följande studier a) och b) identifiera populationen, stickprovet, stickprovs egenskap, rådata och populationsegenskap.

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Föreläsning 5. Kapitel 6, sid Inferens om en population

TMS136. Föreläsning 7

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Jörgen Säve-Söderbergh

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Stockholms Universitet Fysikum Tentamensskrivning i Experimentell fysik för lärare 7.5 hp, för FK2004. Onsdagen den 14 december 2011 kl 9-14.

F6 STOKASTISKA VARIABLER (NCT ) Används som modell i situation av följande slag: Slh för A är densamma varje gång, P(A) = P.

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Binomialfördelning, två stickprov

2. Test av hypotes rörande medianen i en population.

Föreläsning G60 Statistiska metoder

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

F9 SAMPLINGFÖRDELNINGAR (NCT

Hur skriver man statistikavsnittet i en ansökan?

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Kap 2. Sannolikhetsteorins grunder

Vetenskaplig metod och statistik

LKT325/LMA521: Faktorförsök

FK2004. Normalfördelningstabell Formelsamling Provtenta

Vetenskaplig metod och statistik

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Samplingfördelningar 1

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Föreläsning G60 Statistiska metoder

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

TMS136. Föreläsning 4

TMS136. Föreläsning 11

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

4 Diskret stokastisk variabel

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 23 e mars Ten 1, 9 hp

LMA521: Statistisk kvalitetsstyrning

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Hypotestestning och repetition

LMA522: Statistisk kvalitetsstyrning

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Uppgift a b c d e Vet inte Poäng

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

SF1901: Sannolikhetslära och statistik. Mer om Approximationer

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Uppgift 1 (14p) lika stor eller mindre än den förväntade poängen som efterfrågades i deluppgift d? Endast svar krävs, ingen motivering.

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

F9 Konfidensintervall

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

Föreläsning 12: Repetition

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

Föreläsning 7: Punktskattningar

Parade och oparade test

, s a. , s b. personer från Alingsås och n b

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

LMA521: Statistisk kvalitetsstyrning

Vetenskaplig metod och Statistik

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 10 e januari Ten 1, 9 hp

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Föreläsning 7: Punktskattningar

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

7.3.3 Nonparametric Mann-Whitney test

OBS! Vi har nya rutiner.

MVE051/MSG Föreläsning 7

Hypotestest och fortsättning av skattningar och konfidensintervall

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Bilaga 6 till rapport 1 (5)

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

LUNDS UNIVERSITET 1(6) STATISTISKA INSTITUTIONEN Per-Erik Isberg

Välkommen till Matematik 3 för lärare!

Föreläsningsanteckningar till kapitel 8, del 2

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Transkript:

1 Lärare 5 Lärare 1 Binomial och normalfördelning Fel i statistiska undersökningar Att tolka undersökningar Falska samband Att jämföra i tid och rum Lärare 2 Att utföra undersökningar Sneda statistiska underlag Störande faktorer Hypotestester Placebo effekt Blind/dubbelblindtest Lärare 3 Vetenskap och pseudovetenskap Hur man inte ska avfärda Lärare 3 (fort.) Att känna igen pseudovetenskap Poissonfördelning Simulering av vardagliga problem Tillämpnig på trafikflöde Lärare 4 Binomialfördelning: användningsområde Normal fördelning vs binomial Att jämföra två mätningar Signifikans och p-värde Testa medicin / kontrollgrupp Övning Lärare 5 Analys av en statisktisk undersökning Bemöta spådomar om världens undergång Analys av protokollet för ett test av rutgängare Analys av en recension och stickprovmetodik

Analys av en statisktisk undersökning Vi förfogar över statistik om dödorsaker i Sverige mellan 1992 och 2008, se följande tabeller. Vi vill analysera om vissa skillnader mellan år är statistiskt säkerställda och om det finns säkerställda skillnader mellan män och kvinnor. 2

Data för analysen Källor: Dödorsak, Socialstyrelsen http://www.socialstyrelsen.se/statistik/statistikefteramne Befolkningsstatistik, SCB http://www.scb.se/pages/tableandchart 26040.aspx 3

4

5

6

Utdrag ur SCB befolkningsstatistik 7

Frågor och analys 1) Vilken fördelning följer antalet omkomna av en viss orsak? 2) Varför spelar befolkningsmängden roll i analysen? 3) År 1992 dog 11013 män av tumör, medan 11673 år 2008. Kan man tolka detta som att män har större sannolikhet att dö av tumör 2008 jämfört med 1992? Vissa att fördelningen kan approximeras på ett lämplige sätt. 4) Använd tabellerna och kommentera: Antalet män som dog 2008 av tumör i bröstkörtel minskade med 60% jämfört med 2007. Detta beror förmodligen på en ny behandling som kan markant minska dödligheten. Tips: vi antar att vi kan fortsätta använda samma approximation som i fråga 3. 5) Använd tabellerna och kommentera: Män har statistiskt säkerställt högre sannolikhet för att råka illa ut i en transportolycka. Är år 1994 statistikst skild från dem andra åren? 8

Ni får för mer data än vad som behövs, ofta så i verkliga situationer är att hitta just den relevant informationen. På samma sätt får ni här fyra sidor med data, men bara en del är relevant. Det är en del av uppgiften att extrahera den relevanta biten för att lösa uppgiften. 9

Frågor och analys (2) 1) Vilken fördelning följer antalet omkomna av en viss orsak? Sannolikheten är samma för varje individ, det kallar vi p. Motsvarar dragning med återläggning. Ja/nej typ av resultat. En given sannolikhet p (som är orsak beroende). Binomialfördelning 10

Frågor och analys (3) 2) Varför spelar befolkningsmängden roll i analysen? Om befolkningsmängden är större då skulle antalet dödsfall kunna vara större, trots samma sannolikhet för varje individ. Om vi ska jämföra från år till år, så behöver vi ta hänsyn till att befolkningsmängden ändras. 11

Frågor och analys (4) 3) År 1992 dog 11013 män av tumör, medan 11673 år 2008. Kan man tolka detta som att män har större sannolikhet att dö av tumör 2008 jämfört med 1992? Vi vill veta om sannolikheten är samma år 1992 och år 2008. Vi har 2 binomalfördelningar med sannolikhetsvärden: p 1992 och p 2008 Vi har inte tillgång till det sanna värdet av dessa men en mätning p 1992 =11013 /8.692.013=0.001267 p 2008 =11673 /9.256.347=0.001261 12

p 1992 =11013 /8.692.013=0,001267 p 2008 =11673 /9.256.347=0,001261 Vi behöver räkna felen. Kan fördelningen approximeras med normalfördelning? Är np(1-p)>10? T.ex. 1992: n=8.692.013 p=0.001267 np(1-p)=8.692.013 x 1 x 0.001267 = 11012.8 >> 10 13 Skulle vi inte få använda normalfördelning, då blir det svårt att räkna. skulle behöva räkna saker som B n,p (s) = n p s (1 p) n s s och t.ex. 0.001267 11013 vilket blir nästan noll gånger ett väldigt stort tal. ett tecken på att man är på fel spår

Vi approximerar bonomialfördelningen med normalfördelning 14 medelvärde standardavvikelse np σ = np(1 p) 1992 σ = 8.692.013 0,001267 1 =105 2008 σ = 9.256.347 0,001261 1 =108 p 1992 = N 1992 /N(1992,tot) = 0.00127 ± 0.00001 p 2008 = N 2008 /N(2008,tot) = 0.00126 ± 0.00001 Ingen säkerställd signifikans! N 1992 =11013 ±105 N 2008 =11673 ±108 när vi väl räknat felet ser man att de är samma inom felen. Här behöver inte räkna en signifikans, de är ju mindre än en sigma ifrån varandra

Frågor och analys (5) 4) Använd tabellerna och kommentera: Antalet män som dog 2008 av tumör i bröstkörtel minskade med 60% jämfört med 2007. Detta beror förmodligen på en ny behandling som kan markant minska dödligheten. Tips: vi antar att vi kan fortsätta använda samma approximation som i fråga 3. N2007=18 befolkning=9.182.927 N2008=10 befolkning=9.256.347 Vi fortsätter med normalfördelning som approximation enligt texten. 15

N2007=18 befolkning=9.182.927 p(2007)=0.00000196 N2008=10 befolkning=9.256.347 p(2008)=0.00000108 σ = np(1 p) σ(2007) = 9.182.927 0.00000196 1 = 4.2 σ(2008) = 9.256.347 0.00000108 1 = 3.2 N2007=18±4 befolkning=9.182.927 p(2007)=0.00 000 20±0.00 000 05 N2008=10±3 befolkning=9.256.347 p(2008)=0.00 000 11±0.00 000 03 p(2007)=(2.0±0.5) 10-6 p(2008)=(1.1±0.3) 10-6 16

p(2007)=(2.0±0.5) 10-6 p(2008)=(1.1±0.3) 10-6 Beräkna signifikansen t: t= (2.0 1.1)/ (0.5 2 +0.3 2 ) = 1.54 arean mellan -1.54 och +1.54 är 87% alltså det är 13% sannolikhet att få t > 1.54 eller t < -1.54 inte särskilt osannolikt att skillnaden mellan 2007 och 2008 beror på den begränsade statistiken. 17

Frågor och analys (6) 5) Använd tabellerna och kommentera: Män har statistiskt säkerställt högre sannolikhet för att råka illa ut i en transportolycka. 18

Frågan är litet oklar eftersom det finns flera år man kan titta på. Antingen kan man göra medelvärdet på flera år tillsammans för män och kvinnor separat eller jämföra enskilda år. 1994 verkar vara ovanligt. 19

Vi tittar först på 1994 och jämför med dem andra åren. Vi börjar först med att jämföra medelvärdet mellan 1992-2003 eftersom vi har data för det för både kvinnor och män. medelvärdet för kvinnor = 191.3 medelvärdet för män = 467.5 Obs vi ignorerar 2004, 2005 eftersom vi saknar data för kvinnor dessa år, och vill undvika att snedvrida resultatet. Vi börjar med att anta att alla år kommer från samma sannolikhetsfördelning. Från binomialfördelningen kan vi härleda den statistiska osäkerheten för ett enstaka år. Medelsnitt år har 191 fall, så blir felet (Ntot * p (1-p)) ~ (Nolyckor)= 191=13.8 Felet på medelvärdet (12 mätningar) är då 13.8/ 12 = 4 För män =6 20 medelvärdet för kvinnor = 191±4 medelvärdet för män = 467±6

Medelvärdet för kvinnor = 191±4 Medelvärdet för män = 467±6 Vi tittar nu på signifikansen mellan 1994 och andra åren: För kvinnor 479 ± 22 Signifikansen t(kvinnor) =(479-191)/ (22 2 +4 2 ) = 13 För män 635 ± 25 Signifikansen t(män) =(635-467)/ (25 2 +6 2 ) = 6 Det är mycket höga signifikanser- 1994 är inte jämförbar med andra åren. 21

Vi tittar nu på signifikansen mellan män och kvinnor: Medelvärdet för kvinnor = 191±4 Medelvärdet för män = 467±6 Signifikansen t(kvinnor- män) =(191-467)/ (4 2 +6 2 ) = 38 Det är mycket hög signifikans Skillnaden mellan män och kvinnor är statistiskt säkerställd. 22

Bemöta spådomar om världens undergång Världens undergång förutspås nästa varje år! Det finns flera webbplatser som håller reda på dem. Tex. Jordens magnetfält höll på att byta riktning och att detta skulle orsaka världens undergång! Hur kan man bemöta sådana påståenden? 1) Det har ofta sagts att världen skulle gå under men det händer inte. 2) Titta närmare på påståenden När det gäller 21 maj 2011 då var det baserat på numerologiska observationer. 23 Det stämmer att jordens magnetfält byter riktning, det har hänt förrut under geologiska tider. Det sker väldigt långsamt. På samma sätt skulle man i så fall oroa sig för att tex kontinenterna rör sig. Men det gör man inte trots att det händer hela tiden.

Vi kan hitta på vilken betydelse som helst mha numerologi Bygger på handplockade exempel, dvs man kan konstruera det man bestämt sig på ett sätt som passar syftet. Auktoritetstro: den som är tillräcklig insatt kan komma fram till slutsatsen men ingen Det är inte svårt att själv bygga egna spådomar (som slår fel) Låt oss titta på dagens datum: 21 november (11)-2013 Primtalsfaktorisering ger: 21 = 3 x 7, 11, 2013 =3 x 11 x 61 Exempel på att man kan hitta på vilken mening som helst till vilket datum som helst 24

21 november 2013 3 x 7-11 3 x 11 x 61 Exempel på att man kan hitta på vilken mening som helst till vilket datum som helst (fort.) 3= divine, trinity (3 x 11 x 61 ) (http://www.biblestudy.org/bibleref/meaning-of-numbers-in-bible/3.html) 7= mystery / hidden http://www.psychicsuniverse.com/articles/astrology/basic-meaning-numbers-numerology) 3=divine / trinity 11=disorder, disintegration http://www.biblestudy.org/bibleref/meaning-of-numbers-in-bible/11.html) 6 = humanity 1= new beginning 61= auspicous new beginning (http://sacredscribesangelnumbers.blogspot.se/2011/07/angel-number-61.html) 25

21 november 2013 3 x 7-11 3 x 11 x 61 beginning god s mystery god destruction destroy humanity 61= also new beginning God will destroy mankind and this will lead to an auspicious new beginning! and it is going to happen today Exempel på att man kan hitta på vilken mening som helst till vilket datum som helst (fort.) Har hittills lyckats skapa liknande meningar varje år kursen har gått trots att det var olika datum varje gång (både år och dag). 26

Analys av en recension och stickprovmetodik Baserat på 222 Stockholmspojkar. En socialpsykiatrisk undersökning av pojkar i skolåldern av Gustav Jonsson, Anna-Lisa Kälvesten 1964 Stockholmia Förlag: http://www.stockholmia.stockholm.se/bocker.php?author=182& 27

SYFTE

Några av många resultaten som återfinns i boken

Utdrag ur recension i dagspressen: Om man betänker att Gustav Jonssons och Anna-Lisa Kälvestens uppmärksammade undersökning av attityder bland stockholmspojkar, publicerad 1964, byggde på 222 fall får man kanske inte säga något om att den av N.N. offentliggjorda kartläggningen av ett aktuellt konfirmandmaterial i skriften utgår från sammanlagt endast 384 läsbarn, en tämligen blygsam del av de skaror som årligen konfirmeras. Annars kunde man beklaga, att resurerna uppenbarligen inte räckt till för en mer eller mindre total inventering Nu tar man med intresse del av resultaten av undersökningen men står ändå frågande inför värdet av de generella slutsatser man frestas draga. 31 Baserad på materialet på följande sidor: 1) Är 222 ett tillräckligt stort underlag för att dra en slutsats om Stockolmspojkar? 2) Förutom antalet pojkar i undersökningen, vad i metodiken kan påverka resultatet markant? 3) Uttala dig om stickprovsmetodiken i denna undersökning. 4) Är det viktigt att 95% av de tillfrågade familjerna svarade på undersöknigen? Varför? 5) Vad skulla man vinna med en total inventering av konfirmander enligt recensionen?

Utdrag ur recension i dagspressen: Om man betänker att Gustav Jonssons och Anna-Lisa Kälvestens uppmärksammade undersökning av attityder bland stockholmspojkar, publicerad 1964, byggde på 222 fall får man kanske inte säga något om att den av N.N. offentliggjorda kartläggningen av ett aktuellt konfirmandmaterial i skriften utgår från sammanlagt endast 384 läsbarn, en tämligen blygsam del av de skaror som årligen konfirmeras. Annars kunde man beklaga, att resurerna uppenbarligen inte räckt till för en mer eller mindre total inventering Nu tar man med intresse del av resultaten av undersökningen men står ändå frågande inför värdet av de generella slutsatser man frestas draga. Baserad på materialet på följande sidor: 1) Är 222 ett tillräckligt stort underlag för att dra en slutsats om Stockolmspojkar? Hur är detta relevant eller ej? 2) Vilka andra faktorer kan påverka undersökningen förutom storleken för det statistiska underlaget? 32

3) Identifiera populationen 4) Stickprov storlek? 5) Kan man prata om kontrollgrupp och testgrupp? Och i så fall hur skulle man definiera dem? 33

6) Är det ett sannolikhetsurval? 7) för varje adjektiv nedan, argumentera om vi har att göra med ett sådant urval eller ej. Representativt? Snedvridet? Systematiskt? Stratiferiat? 8) Stickprov av 238 pojkar, men endast 222 till slut medverkade. Är det inte onödigt att beskriva i så mycket detalj vilka familjer hittades/ merdverkade eller inte? 9) Är det viktigt att ange siffran att 95% av det urspungliga stickprovet fick vara med? Varför? 34

10) Vad skulla man vinna med en total inventering enligt recensionens förslag? 35

36