Introduktion till statistik för statsvetare

Relevanta dokument
Föreläsning 12, FMSF45 Hypotesprövning

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 5. Kapitel 6, sid Inferens om en population

, s a. , s b. personer från Alingsås och n b

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamen i Matematisk statistik Kurskod S0001M

TAMS65 - Föreläsning 6 Hypotesprövning

Föreläsning G60 Statistiska metoder

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Matematisk statistik för B, K, N, BME och Kemister

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Hur man tolkar statistiska resultat

Tentamen i Matematisk statistik Kurskod S0001M

Övningstentamen 2 Uppgift 1: Uppgift 2: Uppgift 3: Uppgift 4: Uppgift 5: Uppgift 6: i ord

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Tentamen i Matematisk statistik Kurskod S0001M

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

7.5 Experiment with a single factor having more than two levels

Föreläsningsanteckningar till kapitel 9, del 2

2. Test av hypotes rörande medianen i en population.

9. Konfidensintervall vid normalfördelning

Tentamen i Matematisk statistik Kurskod S0001M

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Föreläsning G60 Statistiska metoder

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

7.5 Experiment with a single factor having more than two levels

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

F9 Konfidensintervall

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Avd. Matematisk statistik

Tentamen i Matematisk statistik Kurskod S0001M

TAMS65 - Föreläsning 6 Hypotesprövning

Multipel Regressionsmodellen

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

FÖRELÄSNING 8:

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

8 Inferens om väntevärdet (och variansen) av en fördelning

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Statistik 1 för biologer, logopeder och psykologer

Tentamen i Matematisk statistik Kurskod S0001M

F3 Introduktion Stickprov

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Extrauppgifter - Statistik

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Matematisk statistik KTH. Formelsamling i matematisk statistik

Tentamen i Matematisk statistik Kurskod S0001M

ESS011: Matematisk statistik och signalbehandling Tid: 14:00-18:00, Datum:

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Lufttorkat trä Ugnstorkat trä

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Examinationsuppgifter del 2

SF1901 Sannolikhetsteori och statistik I

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

σ 12 = 3.81± σ n = 0.12 n = = 0.12

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

TMS136. Föreläsning 10

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

Tentamen i Matematisk statistik Kurskod S0001M

TMS136. Föreläsning 13

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Föreläsning G60 Statistiska metoder

Lektionsanteckningar 11-12: Normalfördelningen

Metod och teori. Statistik för naturvetare Umeå universitet

FÖRELÄSNING 7:

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Matematisk statistik TMS064/TMS063 Tentamen

Extrauppgifter i matematisk statistik

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Konfidensintervall, Hypotestest

Tentamen i Matematisk statistik Kurskod S0001M

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Föreläsning 7: Punktskattningar

Tentamen i Matematisk statistik Kurskod S0001M

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson,

Tentamen i Matematisk statistik Kurskod S0001M

Regressions- och Tidsserieanalys - F3

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Transkript:

"Det finns inget så praktiskt som en bra teori" November 2011

Bakgrund Introduktion till test Introduktion Formulera lämplig hypotes Bestäm en testvariabel Bestäm en beslutsregel Fatta ett beslut När det gäller att uttala sig om en eller två parametrar så klarar man sig utmärkt med konfidensintervall, i en eller två dimensioner, men när det gäller fler parametrar så bryter denna teknik ihop. För att klara flera parametrar samtidigt har test-tekniken utvecklats och den fungerar även för en till flera parametrar. Den filosofi som används i denna teknik kan dock kännas abstrakt. Vi pratar här om 4 steg 1 Formulera lämplig hypotes. 2 Bestäm en testvariabel (skattning). 3 Bestäm en beslutsregel. 4 Tag ett stickprov och bestäm ett numeriskt värde på testvariabeln och jämför detta med beslutsregeln.

Exempel från medicinen Introduktion Formulera lämplig hypotes Bestäm en testvariabel Bestäm en beslutsregel Fatta ett beslut Example Vid tillverkning av en viss medicin är det viktigt att mängden av en komponent inte varierar för mycket ty om det är för lite av komponenten är medicinen verkningslös och om det är för mycket blir medicinen ett gift. Den önskade mängden av komponenten per dos är 60 mikrogram och för att testa om produktionsinställningarna ger denna mängd tar man varje dag ett stickprov om 100 piller och mäter komponentens mängd. En dag har man erhållit medelvärdet x = 59.7. Produktionens standardavvikelse är sedan tidigare känd till att vara σ = 0.7. Kan man skicka iväg dagens produktion till apoteken?

Analys Introduktion till test Introduktion Formulera lämplig hypotes Bestäm en testvariabel Bestäm en beslutsregel Fatta ett beslut Fundera lite över vilken sida du står på? Tillverkarens eller brukarens! Själv tar jag tillverkarens parti och resonerar utifrån detta perspektiv. Varför? Tänk nu på domstolarnas problematik: Ingen är skyldig innan skuld är bevisat utom varje rimligt tvivel. Rätten utgår ifrån tesen icke skyldig och det är upp till åklagaren att bevisa att den anklagade är skyldig. En fällande dom innebär däremot inte att den åtalade begått brottet och motsatsen en friande dom innebär inte att den åtalade ej begått brottet. Tillverkaren vill inte slänga produkter som håller sig inom givna gränser. Dennes tes är därför H 0 : µ = 60 Vi kallar H 0 noll-hypotesen (antagandet om noll förändring).

Analys (forts) Introduktion till test Introduktion Formulera lämplig hypotes Bestäm en testvariabel Bestäm en beslutsregel Fatta ett beslut Till varje tes finns en antites och i detta fall är den H 1 : µ = 60 och den kallas den alternativa hypotesen. Därmed är steg 1 klart H 0 : µ = µ 0 H 1 : µ = µ 0 Nästa steg är att bestämma vilken testvariabel som skall användas. Sedan tidigare vet vi att x = 1 n n i=1 x i är en lämplig skattning av µ = 60. Om denna skattning vet vi X N ( ) 0.7 60, 100 eller ekvivalent att Z = X 60 0.7 100 N (0, 1)

Analys (forts) Introduktion till test Introduktion Formulera lämplig hypotes Bestäm en testvariabel Bestäm en beslutsregel Fatta ett beslut Sen kommer det svåra steget hur fattar vi beslut? Vi har två möjligheter: Förkasta H 0 och förkasta ej H 0. När vi förkastar H 0 så har vi ävenså två möjligheter 1) förkasta H 0 givet H 0 sann och 2) förkasta H 0 givet H 0 ej sann För att enklare se de olika möjligheterna sätter vi upp tabellen Testresultat Sanningen Förkasta H 0 Förkasta ej H 0 H 0 är sann Ej korrekt (α) Korrekt H 0 är ej sann Korrekt Ej korrekt (β)

Analys (forts) Introduktion till test Introduktion Formulera lämplig hypotes Bestäm en testvariabel Bestäm en beslutsregel Fatta ett beslut Tillverkaren vill nu hålla sannolikheten α = P(förkasta H 0 givet H 0 sann) så liten som möjligt. Varför? Denna sannolikhet sätts ofta till 5% (detta val är dock helt godtyckligt). Det är också samma α som förekommer i konfidensgraden 1 α. I och med att vi gjort detta val kan en beslutsregel bestämmas. Vi förkastar om Z obs = x 60 0.7 100 > λ 0.025 = 1.96

Analys (forts) Introduktion till test Introduktion Formulera lämplig hypotes Bestäm en testvariabel Bestäm en beslutsregel Fatta ett beslut I vårt fall var x = 59.7 varför 59.7 60 z = 0.7 = 4.29 > 1.96 100 Således måste dagens produktion kastas! Ett något oväntat resultat eller? Vi avslutar med en jämförelse mellan test och konfidensintervall Intervall Symmetriskt P(X < a 1 ) = α 2 och P(X > a 2 ) = α 2 Test H 0 : µ = µ 0 H 1 : µ = µ 0

M och S om det var val idag Example SCB:s partisympatiundersökning maj 2011 (9123 intervjuade, bortfall 32.6%) visade att Ms andel av väljarkåren var 31.1 procent samt att Ss andel var 34.0 procent. Avgör om Ss andel är signifikant större än Ms på 1%-nivån. Solution Vi konstaterar först att 6145 personer svarade på undersökningen. Bortfallets andel var 2978. Därefter anger vi vår modell och eftersom vi är intresserade av att jämföra proportioner börjar vi med, där i = 1, 2,..., 6145, X M i = { 1 om Mröst 0 annars { Xi S 1 om Sröst = 0 annars

M och S om det var val idag Från denna grundläggande bernoullimodellen följer nu X M = 6145 Xi M Bin (6145, p M ) och X S = i=1 6145 Xi S Bin (6145, p S ) i=1 Men centrala gränsvärdessatsen ger att ( ) ( ) X M pm (1 p M ) N p M, och X S ps (1 p S ) N p S, n n (använd WinStats)

M och S om det var val idag De två första stegen blir 1 Vår hypotes är:h 0 : p M p S H 1 : p M < p S 2 Vår testvariabel är: Z = X M X S p(1 p) ( 1 6145 + 1 ) 6145 N (0, 1) där p = 6145 0.311 + 6145 0.34 6145 + 6145 = 0.326

M och S om det var val idag De två sista stegen blir 1 Vårt förkastelsebeslut är: förkasta om Z obs < λ där vi väljer λ så att P(förkasta H 0 givet H 0 sann) = 0.01. Vi har att λ = 2.326 2 Vårt resultat är: 0.311 0.34 0.326(1 0.326) ( 1 6145 + 1 ) = 3.43 < 2.326 6145 Härav sluter vi att Ss andel av väljarkåren är signifikant större än Ms på 1%-nivån

Analysis of variance (ANOVA) Test av en och två parametrar Vi har nu tittat på två exempel som generellt kan skrivas 1 Medicinexemplet X = µ + ɛ ɛ N ( 0, σ 2) Test: H 0 : µ = µ 0 2 Proportionsexemplet X 1 = µ 1 + ɛ 1 X 2 = µ 2 + ɛ 2 Test: H 0 : µ 1 = µ 2

Analysis of variance (ANOVA) Test av två och fler parametrar Vi skulle gärna vilja utvidga vår modell till X 1 = µ 1 + ɛ 1 X 2 = µ 2 + ɛ 2. =. Test: H 0 : µ 1 = µ 2 = = µ k. X k = µ k + ɛ k Hur man gör det är långtifrån självklart och sättet att göra det är ett ytterligare bevis på matematikens praktiska användbarhet.

Analysis of variance (ANOVA) Example Ibland behöver företag minska personalstyrkan på grund av minskad orderingång. Mät stressen hos anställda före annonsering om personalreducering genom att ta ett stickprov om 5 stycken. Därefter mäter vi stressen hos ett nytt stickprov om 5 stycken efter offentliggörande om att personalreduceringar skall ske. Till sist mäts stressen på ett förnyat stickprov, om 5 stycken, när personalreduceringen genomförs. Skiljer sig personalens stressnivå under de tre mättillfällena?

Analysis of variance (ANOVA) Vid ett tillfälle fann man följande nivåer på stresshormonerna Stress Stress Stress 2 10 10 3 8 13 7 7 14 2 5 13 6 10 15 normal offentliggörande avskedande Skiljer sig de förväntade värdena på stresshormoner mellan de tre grupperna på nivån 5%?

Analysis of variance (ANOVA) Vi har nu en modell med tre slumpvariabler - en per grupp X 1 = µ 1 + ɛ 1 ɛ 1 ungefär N ( 0, σ 2) X 2 = µ 2 + ɛ 2 ɛ 2 ungefär N ( 0, σ 2) X 3 = µ 3 + ɛ 3 ɛ 3 ungefär N ( 0, σ 2) För varje parameter µ i antar vi att det finns n (5) observationer, j = 1, 2,..., n (alltså lika många i varje grupp), och vi har att µ i skattas av x i Under antagandet om att H 0 gäller så har vi att alla µ i är lika med µ och därför kan samtliga kn (3 5) observationer användas för att skatta detta gemensamma värde. µ skattas av x

Analysis of variance (ANOVA) Detta innebär att vi nu betraktar modellen X ij = µ + µ i + ɛ ij, i = 1, 2,..., k, j = 1, 2,..., n dvs µ i := µ + µ i (vi har således omdefinierat µ i ) och med denna modell har vi nu testet H 0 : µ 1 = µ 2 = = µ k = 0. Hur skall vi nu finna en testvariabel? Ja det är inte lätt. Man måste skaffa sig helikopterseende! Betrakta den totala variationen! s 2 = = k n i=1 j=1 k n i=1 j=1 (x ij x) 2 = (x ij x i ) 2 + k n i=1 j=1 k n i=1 j=1 (x ij x i + x i x) 2 ( x i x) 2 + 2 k n i=1 j=1 (x ij x i ) ( x i x)

Analysis of variance (ANOVA) Dvs vi har att s 2 = = k n i=1 j=1 k n i=1 j=1 (x ij x i ) 2 + (x ij x i ) 2 + n k n i=1 j=1 k i=1 ( x i x) 2 ( x i x) 2 På svenska säger vi att den totala variationen har delats upp i variationen inom grupper plus variationen mellan grupper. Man kan sedan visa att E E ( ( 1 k 1 1 n k k i=1 k i=1 n j=1 n j=1 ( X i X ) 2 ) (X ij X i ) 2 ) = σ 2 + n k k 1 (µ i µ) 2 i=1 = σ 2

Analysis of variance (ANOVA) Om vi bildar kvoten mellan dessa två uttryck så blir den nära 1 om H 0 sann. Annars större än 1. För att bestämma vad som är större än 1 använder vi testvariabeln F (k 1, kn k) = n k k 1 Vårt förkastelseområde blir k i=1 n j=1 ( X i X ) 2 k i=1 n j=1 (X ij X i ) 2 F obs > F 0.05 (3 1, 15 3) = 3.88

Analysis of variance (ANOVA) Vårt observerade värde blir F obs = 203.3 2 54 12 = 22.6 som ligger till höger om 3.88. Slutsats: Den förväntade mängden stresshormoner, mellan mättillfällena, skiljer sig signifikant åt på nivån 5%. Hur man gör sina beräkningar