SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015



Relevanta dokument
SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

SF1901 Sannolikhetsteori och statistik I

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER OM χ 2 -TEST OCH LIKNANDE. Jan Grandell & Timo Koski

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

χ 2 -test χ 2 -test med skattade parametrar små talens lag (Bortkiewicz) homogenitetstest oberoendetest

Lufttorkat trä Ugnstorkat trä

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

TAMS65 - Föreläsning 12 Test av fördelning

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

TAMS65 - Föreläsning 12 Test av fördelning

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

2. Test av hypotes rörande medianen i en population.

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

TAMS65 - Föreläsning 8 Test av fördelning χ 2 -test

Avd. Matematisk statistik

TAMS65 - Föreläsning 6 Hypotesprövning

Föreläsning 11: Mer om jämförelser och inferens

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Avd. Matematisk statistik

TAMS65 - Föreläsning 6 Hypotesprövning

Avd. Matematisk statistik

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik för STS vt 2014

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Avd. Matematisk statistik

b) Beräkna sannolikheten för att en person med språkcentrum i vänster hjärnhalva är vänsterhänt. (5 p)

F22, Icke-parametriska metoder.

F6 STOKASTISKA VARIABLER (NCT ) Används som modell i situation av följande slag: Slh för A är densamma varje gång, P(A) = P.

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

Jörgen Säve-Söderbergh

Avd. Matematisk statistik

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

Avd. Matematisk statistik

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 5. Kapitel 6, sid Inferens om en population

faderns blodgrupp sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

Avd. Matematisk statistik

Föreläsning 5: Hypotesprövningar

F3 Introduktion Stickprov

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

Statistisk utvärdering av antagningen till Polishögskolan

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

4 Diskret stokastisk variabel

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

, s a. , s b. personer från Alingsås och n b

Tentamen i Matematisk statistik Kurskod S0001M

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Några extra övningsuppgifter i Statistisk teori

Statistik 1 för biologer, logopeder och psykologer

TENTAMEN I STATISTIKENS GRUNDER 2

Föreläsningsanteckningar till kapitel 9, del 2

Samplingfördelningar 1

Introduktion till statistik för statsvetare

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson,

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

SF1901: Övningshäfte

Avd. Matematisk statistik

Faderns blodgrupp Sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Avd. Matematisk statistik

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Formel- och tabellsamling i matematisk statistik

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Föreläsning 12: Repetition

Matematisk statistik KTH. Formel- och tabellsamling i Matematisk statistik, grundkurs

Föreläsning 7. Statistikens grunder.

F9 Konfidensintervall

Föreläsning 7: Punktskattningar

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

cx 5 om 2 x 8 f X (x) = 0 annars Uppgift 4

Hur man tolkar statistiska resultat

Transkript:

SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 14 PASSNING AV FÖRDELNING: χ 2 -METODER. Tatjana Pavlenko 12 oktober 2015

PLAN FÖR DAGENS FÖRELÄSNING Icke-parametsriska metoder. (Kap. 13.10) Det grundläggande χ 2 -metod. Test av given fördelning. Test av fördelning med skattade parametrar. Homogenitetstest. Oberoendetest.

ICKE-PARAMETSRISKA METODER. Idé: I föregående avsnitt studerade vi parametrisk statistisk inferens, dvs inferens om parametrar i för övrig helt kända fördelningar, t ex N(µ, σ), eller Po(λ). Nu ska vi gå igenom ett antal metoder som är av mer allmän natur, vi ska beskriva testsituationer där man är intresserad att specificera vilken fördelningen är. Här är hypoteserna inte bara utsagor om en parameter utan om en hel fördelning: t ex man kan vara intresserad att testa H 0 : X Po(λ) för något λ, mot H 1 : X är inte Poissonfördelad. Vi kommer att behandla ett antal olika fall där så-kallad χ 2 -metod används. Vi inleder med grundläggande idé inom χ 2 -metod.

TEST AV GIVEN FÖRDELNING. Antag att n st. oberoende försök utförs, av vilka vart och en kan utfalla på r olika sätt A 1, A 2..., A r med sannolikheterna respektive P(A 1 ), P(A 2 ),..., P(A r ). Låt vidare x 1, x 2,..., x r vara de absoluta frekvenserna för utfallen A 1, A 2..., A r som erhålls i en viss sådan serie, r i=1 x i = n. Vi vill pröva H 0 : P(A 1 ) = p 1, P(A 2 ) = p 2,..., P(A r ) = p r, där p i är givna (kända) sannolikheter med summa r i=1 p i = 1, mot den alternativa hypothesen H 1 : P(A i ) = p i för minst ett i bland 1..., r. Observera att p i är sannolikhetsfunktion, dvs H 0 ger hypotetsik fördelning. Detta är test av given fördelning. Ibland kallas också ett test av anpassning (engelsk: goodness-of-fit test).

DET GRUNDLÄGGANDE χ 2 -METOD. För att testa H 0 med χ 2 metoden använder man följande: 1. Som testvariabel tar man Q obs. = r (x j np j ) 2. np j=1 j Observera att np j är förväntat antal utfall i A j under H 0. Intuitivt: Låga Q obs. -värden tyder på god överensstämmelse mellan x j och det förväntade np j och då finns det ingen anledning att betvivla nollhypotesen. Avvikelse från H 0 visar sig genom stora Q obs. -värden. 2. Om H 0 är sann (dvs de sannolikheterna p j är rätta) så kan man visa att Q obs. är utfall av en s.v. Q som är approximativt χ 2 (r 1)-fördelad.

TEST AV GIVEN FÖRDELNING (FORTS.) 3. Belutsregel: Förkasta H 0 om Q obs. > χ 2 α(r 1) Förkasta ej H 0 om Q obs. χ 2 α(r 1) Om n är stort får detta test approximativt signifikansnivån α. Villkor: Approximationen med χ 2 -fördelning fungerar tillfredsställande om np j 5, dvs det förväntade antaler obseravtioner i varje kategori får inte vara för litet. Tumregel: np j 5 för alla j = 1,..., r. n måste vara stor. Exempel på tavlan.

TEST AV FÖRDELNING MED SKATTADE PARAMETRAR En mycket vanlig situation är att man vill testa om data kan ses som utfall från en viss parametrisk fördelning, t ex Poisson-fördelning, där man inte vill specificera parametern värde. Här används också χ 2 -metoden. Låt x 1,..., x n vara ett stickprov/data. Med hälp av detta vill vi testa H 0 : P(A 1 ) = p 1 (θ), P(A 2 ) = p 2 (θ),..., P(A r ) = p r (θ), för något θ, där p j (θ) i H 0 är sannolikheterna att få A j under H 0. Okänd parameter (parametrar) skattas med θ = θ (x 1,..., x n ) under antagande att H 0 är sann.

TEST AV FÖRDELNING MED SKATTADE PARAMETRAR (FORTS.) Vidare jämförs x i med de skattade förväntade antalet np j = np j (θ ). Vi får testvariabel Q obs. = r j=1 (x j npj )2 npj. Under H 0 är Q obs. ett utfall av en s.v. Q som är approximativt χ 2 (r k 1)-fördelad där k är antal skattade parametrar. Obs! Man förlorar en frihetsgrad i Q s χ 2 -fördelning för varje skattad parameter i nollhypotesens sannolikhetsfunktion. Exempel på tavlan.

HOMOGENITETSTEST Vi vill testa om s försöksserier är homogena eller lika fördelade i meningen att P(A j ) för varje j är lika stora för samtliga försöksserier. Detta kan också testas med χ 2 -metoden. Användning: man kan t ex undersöka om s stickprov kommer från samma fördelning, se Ex. 13.19, s. 346, Kast med två tärningar. Antag att man erhåller s st. serier av n i st. oberoende obseravtioner i serie nr i, i = 1,..., s och bilda r kategorier. Det är praktiskt att presentera data i form av tabell: A 1 A 2... A r ant. försök Serie 1 x 11 x 12... x 1r n 1 Serie 2 x 21 x 22... x 2r n 2............ Serie s x s1 x s2... x sr n s Summa x 1 x 1... x r n

HOMOGENITETSTEST (FORTS.) Vi vill undersöka om serierna i tabell (det samma som på föregående sida) kan anses vara homogena, dvs testa hypotes H 0 att samma uppsättning av sannolikheterna förekommer i alla serier. p 1 = P(A 1 ), p 2 = P(A 2 ),..., p r = P(A r ) A 1 A 2... A r ant. försök Serie 1 x 11 x 12... x 1r n 1 Serie 2 x 21 x 22... x 2r n 2........ Serie s x s1 x s2... x sr n s Summa x 1 x 2... x r n Sannolikheterna p j är helt ospecificerade.

HOMOGENITETSTEST (FORTS.) För att pröva homogeniteten använder vi χ 2 - metoden och bildar testvariabeln s r (x ij n i pj Q obs. = )2 n i=1 j=1 i pj, där skattaningarna p j av sannolikeheter p j fås med p j = 1 n s x ij = x j n. i=1 Observera att i Q obs. tolkar vi p j som p j obs.. Tolkning: pj är den bästa skattningen av P(A j )-värdet som kan bildas med de sammanslagna observationerna. Om H 0 är sann, dvs homogenitet gäller, kan ju serierna slås samman till en enda.

HOMOGENITETSTEST (FORTS.) Under H 0 är Q obs. utfall av testsvariabel Q som är approximativt χ 2 ((r 1)(s 1)) (se Anm. 13.6 s. 345 för motivering till frihetsgradantalet). Tumregel för god approximation: för alla i, j är n i p j,obs. 5. Beslutsregel blir alltså: Förkasta H 0 om Q obs. > χ 2 α((r 1)(s 1)) Förkasta ej H 0 om Q obs. χ 2 α((r 1)(s 1)), vid approximativ signifikans nivån α. Exempel: För att utvärdera en ny undervisningsmetod delar man upp studentrna på en kurs i två grupper och låret en grupp undervisas traditionellt och en med den nya metoden. Vid examination erhålls följande resultat (gamal betyg):

Vi vill testa hypotes: Metod/Betyg U G Vg Totalt Traditionell 32 46 22 100 Ny 18 52 32 102 Totalt 50 98 54 202 H 0 : Metoderna är likvärdiga (med avseende på resultat) H 1 : Metoderna är inte likvärdiga. Vi använder χ 2 -test där vi jämför de sex observerade frekvenserna med de förväntade frekvenserna under H 0. Vi får Q obs. = (32 100 50 202 )2 100 202 50 + (18 102 50 + 202 )2 102 202 50 + (46 100 98 202 )2 100 202 98 + (52 102 98 202 )2 102 202 98 + (32 102 54 202 )2 102 54 202 (22 100 54 202 )2 100 52 202 = 5.8263.

HOMOGENITETSTEST (FORTS.): EXEMPEL Observera att för att beräkna de förväntade frekvenserna, har vi använt alla marginalvärden i tabellen. För signifikansnivån α = 0.05 bör test/beslutsregel vara: Slutsats: Förkasta H 0 om Q obs. > χ 2 0.05 (2) = 5.9915. Eftersom Q obs. = 5.8263 < χ 2 0.05 (2) = 5.9915 så förkastas inte H 0, dvs det finns inte någon signifikant skillnad mellan metoderna vid approximativ nivån 5%.

TEST AV OBEROENDE (AV TVÅ EGENSKAPER) χ 2 -test kan också användas för att testa om två egenskaper ( t ex A och B) är oberoende. Antag igen att n st. oberoende försök utförs där varje försök kan utfalla på sr olika sätt. Utfall (i, j), bet. med B i A j, där i = 1,..., s, j = 1,..., r inträffar med (okänd) sannolikhet p ij. Låt x ij vara absoluta frekvenser för B i A j. Observera att i j x ij = n och i j p ij = 1 Marginalsannolikheten för varje A j, dvs för något av de s sätten B 1 A j, B 2 A j,..., B s A j blir och motsvarande för varje B i P(A j ) = p j = P(B i ) = p i = s p ij i=1 r p ij. j=1

TEST AV OBEROENDE (FORTS.) Idé: Vi vill testa hypotes att de två egenskaperna, A och B är oberoende, dvs mot H 0 : p ij = P(B i A j ) = P(B i )P(A j ) = p i p j för alla (i, j) H 1 : p ij = p i p för något (i, j) De marginalsannolikheterna p j och p i kan skattas från data som p j = 1 n s x ij i=1 p i = 1 n r x ij. j=1

TEST AV OBEROENDE (FORTS.) Vi bildar testvariabeln s r (x ij npi p j Q obs. = )2 np i=1 j=1 i p j, vilket är utfall av s. v. Q som är χ 2 ((s 1)(r 1))-fördelad under H 0. Samma tumregel som för god approximation: np i p j 5. Skillnaden mellan homogenitetstestet och oberoendetestet är nollhypotesernas formulering och att vid homogenitetstestet är radmarginalerna givna i förväg och kolumnmarginalerna är slumpmässiga, medan vid ett oberoende test alla marginaler är slumpmässiga.

TEST AV OBEROENDE: EXEMPEL Försäkringsbolaget, FörSäkra AB, vill undersöka om risken att råka ut för en trafikolycka är oberoende av förarens ålder. Man valde därför slumpmässigt ut 1000 av sina bilförsäkringar och registrerade personens ålder och antalet trafikolyckor under tiden mellan 2012-01-01 och 2012-12-31. Resultatet: Antal olyckor 18-21 år 22-30 år 31-40 år 41-50 år 51-70 år 0 162 251 179 118 30 1 49 41 22 24 4 2 eller fler 39 28 9 28 16 Undersök med ett lämpligt statistiskt test, på nivån 1% om risken att råka ut för en olycka är beroende av åldern. Ett tydligt svar bör framgå. Svaret och den tillämpade statistiska metoden bör motiveras. (Ex från tenta 130528).