SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Relevanta dokument
SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

SF1901 Sannolikhetsteori och statistik I

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER OM χ 2 -TEST OCH LIKNANDE. Jan Grandell & Timo Koski

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Matematisk statistik KTH. Formelsamling i matematisk statistik

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Avd. Matematisk statistik

Avd. Matematisk statistik

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

TAMS65 - Föreläsning 12 Test av fördelning

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

χ 2 -test χ 2 -test med skattade parametrar små talens lag (Bortkiewicz) homogenitetstest oberoendetest

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

TAMS65 - Föreläsning 8 Test av fördelning χ 2 -test

Lufttorkat trä Ugnstorkat trä

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Föreläsning 11: Mer om jämförelser och inferens

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

Avd. Matematisk statistik

TAMS65 - Föreläsning 12 Test av fördelning

cx 5 om 2 x 8 f X (x) = 0 annars Uppgift 4

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Avd. Matematisk statistik

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Avd. Matematisk statistik

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

TAMS65 - Föreläsning 6 Hypotesprövning

Avd. Matematisk statistik

Avd. Matematisk statistik

faderns blodgrupp sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

2. Test av hypotes rörande medianen i en population.

TAMS65 - Föreläsning 6 Hypotesprövning

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

Föreläsning 5. Kapitel 6, sid Inferens om en population

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik för STS vt 2014

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

b) Beräkna sannolikheten för att en person med språkcentrum i vänster hjärnhalva är vänsterhänt. (5 p)

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Föreläsning 5: Hypotesprövningar

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Matematisk statistik för B, K, N, BME och Kemister

Avd. Matematisk statistik

Föreläsning 12, FMSF45 Hypotesprövning

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Tentamen i Matematisk Statistik, 7.5 hp

Statistik 1 för biologer, logopeder och psykologer

F22, Icke-parametriska metoder.

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Statistisk utvärdering av antagningen till Polishögskolan

Avd. Matematisk statistik

Jörgen Säve-Söderbergh

Avd. Matematisk statistik

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Föreläsningsanteckningar till kapitel 9, del 2

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Faderns blodgrupp Sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

FÖRELÄSNING 8:

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

4 Diskret stokastisk variabel

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

F6 STOKASTISKA VARIABLER (NCT ) Används som modell i situation av följande slag: Slh för A är densamma varje gång, P(A) = P.

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Repetition 2, inför tentamen

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

Avd. Matematisk statistik

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Avd. Matematisk statistik

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson,

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Föreläsning 11, FMSF45 Konfidensintervall

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Thomas Önskog 28/

Introduktion till statistik för statsvetare

Kapitel 10 Hypotesprövning

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Uppgift 1. f(x) = 2x om 0 x 1

Formel- och tabellsamling i matematisk statistik

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Transkript:

SF1922/SF1923: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 14-15 PASSNING AV FÖRDELNING: χ 2 -METODER. Tatjana Pavlenko 14 maj 2018

PLAN FÖR DAGENS FÖRELÄSNING Icke-parametriska metoder. (Kap. 13.10) Det grundläggande χ 2 -metod. Test av given fördelning. Test av fördelning med skattade parametrar. Homogenitetstest. Oberoendetest.

ICKE-PARAMETRISKA METODER. Idé: I föregående avsnitt studerade vi parametrisk statistisk inferens, dvs inferens om parametrar i för övrig helt kända fördelningar, t ex N(µ, σ), eller Po(λ). Nu ska vi gå igenom ett antal metoder som är av mer allmän natur, vi ska beskriva testsituationer där man är intresserad att specificera vilken fördelningen är. Här är hypoteserna inte bara utsagor om en parameter utan om en hel fördelning: t ex man kan vara intresserad att testa H 0 : X Po(λ) för något λ, mot H 1 : X är inte Poissonfördelad. Vi kommer att behandla ett antal olika fall där så-kallad χ 2 -metod används. Vi inleder med grundläggande idé inom χ 2 -metod.

TEST AV GIVEN FÖRDELNING. Antag att n st. oberoende försök utförs, av vilka vart och en kan utfalla på r olika sätt A 1, A 2..., A r med sannolikheterna respektive P(A 1 ), P(A 2 ),..., P(A r ). Låt vidare x 1, x 2,..., x r vara de absoluta frekvenserna för utfallen A 1, A 2..., A r som erhålls i en viss sådan serie, r i=1 x i = n. Vi vill pröva H 0 : P(A 1 ) = p 1, P(A 2 ) = p 2,..., P(A r ) = p r, där p i är givna (kända) sannolikheter med summa r i=1 p i = 1, mot den alternativa hypotesen H 1 : P(A i ) = p i för minst ett i bland 1..., r. Observera att p i är sannolikhetsfunktion, dvs H 0 ger hypotetisk fördelning. Detta är test av given fördelning. Ibland kallas också ett test av anpassning (engelsk: goodness-of-fit test).

DET GRUNDLÄGGANDE χ 2 -METOD. För att testa H 0 med χ 2 metoden använder man följande: 1. Som testvariabel tar man Q obs. = r (x j np j ) 2. j=1 np j Observera att np j är förväntat antal utfall i A j under H 0. Intuitivt: Låga Q obs. -värden tyder på god överensstämmelse mellan x j och det förväntade np j och då finns det ingen anledning att betvivla nollhypotesen. Avvikelse från H 0 visar sig genom stora Q obs. -värden. 2. Om H 0 är sann (dvs de sannolikheterna p j är rätta) så kan man visa att Q obs. är utfall av en s.v. Q som är approximativt χ 2 (r 1)-fördelad.

TEST AV GIVEN FÖRDELNING (FORTS.) 3. Belutsregel: Förkasta H 0 om Q obs. > χ 2 α(r 1) Förkasta ej H 0 om Q obs. χ 2 α(r 1) Om n är stort får detta test approximativt signifikansnivån α. Villkor: Approximationen med χ 2 -fördelning fungerar tillfredsställande om np j 5, dvs det förväntade antalet observationer i varje kategori får inte vara för litet. Tumregel: np j 5 för alla j = 1,..., r. n måste vara stor. Exempel på tavlan.

TEST AV FÖRDELNING MED SKATTADE PARAMETRAR En mycket vanlig situation är att man vill testa om data kan ses som utfall från en viss parametrisk fördelning, t ex Poisson-fördelning, där man inte vill specificera parametern värde. Här används också χ 2 -metoden. Låt x 1,..., x n vara ett stickprov/data. Med hälp av detta vill vi testa H 0 : P(A 1 ) = p 1 (θ), P(A 2 ) = p 2 (θ),..., P(A r ) = p r (θ), för något θ, där p j (θ) i H 0 är sannolikheterna att få A j under H 0. Okänd parameter (parametrar) skattas med θ = θ (x 1,..., x n ) under antagande att H 0 är sann.

TEST AV FÖRDELNING MED SKATTADE PARAMETRAR (FORTS.) Vidare jämförs x i med de skattade förväntade antalet npj = np j (θ ). Vi får testvariabel Q obs. = r j=1 (x j npj )2 npj. Under H 0 är Q obs. ett utfall av en s.v. Q som är approximativt χ 2 (r k 1)-fördelad där k är antal skattade parametrar. Obs! Man förlorar en frihetsgrad i Q s χ 2 -fördelning för varje skattad parameter i nollhypotesens sannolikhetsfunktion. Exempel på tavlan.

HOMOGENITETSTEST Vi vill testa om s försöksserier är homogena eller lika fördelade i meningen att P(A j ) för varje j är lika stora för samtliga försöksserier. Detta kan också testas med χ 2 -metoden. Användning: man kan t ex undersöka om s stickprov kommer från samma fördelning, se Ex. 13.19, s. 346, Kast med två tärningar. Antag att man erhåller s st. serier av n i st. oberoende observationer i serie nr i, i = 1,..., s och bilda r kategorier. Det är praktiskt att presentera data i form av tabell: A 1 A 2... A r ant. försök Serie 1 x 11 x 12... x 1r n 1 Serie 2 x 21 x 22... x 2r n 2........ Serie s x s1 x s2... x sr n s Summa x 1 x 1... x r n

HOMOGENITETSTEST (FORTS.) Vi vill undersöka om serierna i tabell (det samma som på föregående sida) kan anses vara homogena, dvs testa hypotes H 0 att samma uppsättning av sannolikheterna förekommer i alla serier. p 1 = P(A 1 ), p 2 = P(A 2 ),..., p r = P(A r ) A 1 A 2... A r ant. försök Serie 1 x 11 x 12... x 1r n 1 Serie 2 x 21 x 22... x 2r n 2......... Serie s x s1 x s2... x sr n s Summa x 1 x 2... x r n Sannolikheterna p j är helt ospecificerade..

HOMOGENITETSTEST (FORTS.) För att pröva homogeniteten använder vi χ 2 - metoden och bildar testvariabeln s r (x ij n i pj Q obs. = )2 i=1 j=1 n i pj, där skattningarna p j av sannolikheter p j fås med p j = 1 n s x ij = x j i=1 n. Observera att i Q obs. tolkar vi p j som p j obs.. Tolkning: pj är den bästa skattningen av P(A j )-värdet som kan bildas med de sammanslagna observationerna. Om H 0 är sann, dvs homogenitet gäller, kan ju serierna slås samman till en enda.

HOMOGENITETSTEST (FORTS.) Under H 0 är Q obs. utfall av testsvariabel Q som är approximativt χ 2 ((r 1)(s 1)) (se Anm. 13.6 s. 345 för motivering till frihetsgradantalet). Tumregel för god approximation: för alla i, j är n i p j,obs. 5. Beslutsregel blir alltså: Förkasta H 0 om Q obs. > χ 2 α((r 1)(s 1)) Förkasta ej H 0 om Q obs. χ 2 α((r 1)(s 1)), vid approximativ signifikans nivån α. Exempel: För att utvärdera en ny undervisningsmetod delar man upp studenterna på en kurs i två grupper och låret en grupp undervisas traditionellt och en med den nya metoden. Vid examination erhålls följande resultat (gammal betyg):

Vi vill testa hypotes: Metod/Betyg U G Vg Totalt Traditionell 32 46 22 100 Ny 18 52 32 102 Totalt 50 98 54 202 H 0 : Metoderna är likvärdiga (med avseende på resultat) H 1 : Metoderna är inte likvärdiga. Vi använder χ 2 -test där vi jämför de sex observerade frekvenserna med de förväntade frekvenserna under H 0. Vi får Q obs. = (32 100 50 202 )2 100 202 50 + (18 102 50 + 202 )2 102 202 50 + (46 100 98 202 )2 100 202 98 + (52 102 98 202 )2 102 202 98 + (32 102 54 202 )2 102 54 202 (22 100 54 202 )2 100 52 202 = 5.8263.

HOMOGENITETSTEST (FORTS.): EXEMPEL Observera att för att beräkna de förväntade frekvenserna, har vi använt alla marginalvärden i tabellen. För signifikansnivån α = 0.05 bör test/beslutsregel vara: Slutsats: Förkasta H 0 om Q obs. > χ 2 0.05 (2) = 5.9915. Eftersom Q obs. = 5.8263 < χ 2 0.05 (2) = 5.9915 så förkastas inte H 0, dvs det finns inte någon signifikant skillnad mellan metoderna vid approximativ nivån 5%.

TEST AV OBEROENDE (AV TVÅ EGENSKAPER) χ 2 -test kan också användas för att testa om två egenskaper ( t ex A och B) är oberoende. Antag igen att n st. oberoende försök utförs där varje försök kan utfalla på sr olika sätt. Utfall (i, j), bet. med B i A j, där i = 1,..., s, j = 1,..., r inträffar med (okänd) sannolikhet p ij. Låt x ij vara absoluta frekvenser för B i A j. Observera att i j x ij = n och i j p ij = 1 Marginalsannolikheten för varje A j, dvs för något av de s sätten B 1 A j, B 2 A j,..., B s A j blir och motsvarande för varje B i P(A j ) = p j = P(B i ) = p i = s p ij i=1 r p ij. j=1

TEST AV OBEROENDE (FORTS.) Idé: Vi vill testa hypotes att de två egenskaperna, A och B är oberoende, dvs mot H 0 : p ij = P(B i A j ) = P(B i )P(A j ) = p i p j för alla (i, j) H 1 : p ij = p i p för något (i, j) De marginalsannolikheterna p j och p i kan skattas från data som p j = 1 n s x ij pi = 1 r i=1 n x ij. j=1

TEST AV OBEROENDE (FORTS.) Vi bildar testvariabeln s r (x ij npi p j Q obs. = )2 i=1 j=1 npi p j, vilket är utfall av s. v. Q som är χ 2 ((s 1)(r 1))-fördelad under H 0. Samma tumregel som för god approximation: np i p j 5. Skillnaden mellan homogenitetstestet och oberoendetestet är nollhypotesernas formulering och att vid homogenitetstestet är radmarginalerna givna i förväg och kolumnmarginalerna är slumpmässiga, medan vid ett oberoende test alla marginaler är slumpmässiga.

TEST AV OBEROENDE: EXEMPEL Försäkringsbolaget, FörSäkra AB, vill undersöka om risken att råka ut för en trafikolycka är oberoende av förarens ålder. Man valde därför slumpmässigt ut 1000 av sina bilförsäkringar och registrerade personens ålder och antalet trafikolyckor under tiden mellan 2016-01-01 och 2016-12-31. Resultatet: Antal olyckor 18-21 år 22-30 år 31-40 år 41-50 år 51-70 år 0 162 251 179 118 30 1 49 41 22 24 4 2 eller fler 39 28 9 28 16 Undersök med ett lämpligt statistiskt test, på nivån 1% om risken att råka ut för en olycka är beroende av åldern. Ett tydligt svar bör framgå. Svaret och den tillämpade statistiska metoden bör motiveras.

TEST AV OBEROENDE: EXEMPEL (KONT.) Ett oberoendetest (avsnitt 14.3 i formelsamling) med hjälp av χ 2 -metoden. Vi utför n oberoende försök (här: n = 1000) som kan utfalla på sr olika sätt, där i = 1,..., r och j = 1,..., s motsvarar ålderskategori respektive antal olyckor. H 0 : Risken att råka för trafikolycka och ålder är oberoende, mothypotesen H 1 är att H 0 inte gäller dvs att risken att råka för trafikolycka beror av åldern. Vi gör en en kontingenstabell med observerade antal olyckor (nästa sida)

Observerade antal Antal olyckor 18-21 år 22-30 år 31-40 år 41-50 år 51-70 år Total 0 162 251 179 118 30 740 1 49 41 22 24 4 140 2 eller fler 39 28 9 28 16 120 Total 250 320 210 170 50 1000 Under H 0 kan vi skatta marginalsannolikheterna för varje ålderskategori som 250/1000, 320/1000, 210/1000, 170/1000 och 50/1000. Det förväntade antalet trafikolyckor inom varje ålderskategori ges då som 740 0.25 = 185, 140 0.32 = 35 osv. I tabellform: Förväntade antal under H 0 Antal olyckor 18-21 år 22-30 år 31-40 år 41-50 år 51-70 år Total 0 185 236.8 155.4 125.8 37 740 1 35 44.8 29.4 23.8 7 140 2 eller fler 30 38.4 25.2 20.4 6 120 Total 250 320 210 170 50 1000 Alla tal inutitabellen är 5, vilket gör att χ 2 -approximationen är rimlig.

TEST AV OBEROENDE: EXEMPEL (KONT.) Teststorheten blir Q = (162 185)2 185 + (49 35)2 35 + (39 30)2 30 + (4 7)2 (16 6)2 + + = 53.6043. 7 6 Om H 0 är sann så är 53.6043 ett utfall från en stokastisk variabel som approximativt har en χ 2 fördelning med (5 1)(3 1) = 8 fr gr. Eftersom Q = 53.6043 > χ 2 0.01 (8) = 20.1 så kan H 0 förk. på nivån 1%. Data ger belägg för att risken för att råka ut för trafikolyckor beror av åldern. Alternativt kan vi beräkna sannolikheten att en χ 2 -variabel är större än eller lika med 53.6043 (X2cdf på en TI-räknare). Denna sannolikhet, dsv p-värdet för testet, är.2372e-09. Detta p-värde är mycket lågt så vi förkastar H 0. Både teststorheten och p-värdet fås direkt med funktionen 2-Test på en TI-räknare.