Fördelningsfria / icke - parametriska / generella test

Relevanta dokument
Om statistisk hypotesprövning

2. Test av hypotes rörande medianen i en population.

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

7.3.3 Nonparametric Mann-Whitney test

F22, Icke-parametriska metoder.

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning 5: Hypotesprövningar

F3 Introduktion Stickprov

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

TMS136. Föreläsning 13

Föreläsning 12: Regression

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Föreläsningsanteckningar till kapitel 9, del 2

, s a. , s b. personer från Alingsås och n b

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Avd. Matematisk statistik

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 5. Kapitel 6, sid Inferens om en population

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

TENTAMEN I STATISTIKENS GRUNDER 2

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

8 Inferens om väntevärdet (och variansen) av en fördelning

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

SF1901 Sannolikhetsteori och statistik I

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

TAMS65 - Föreläsning 6 Hypotesprövning

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

a) Facit till räkneseminarium 3

Parade och oparade test

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer

TAMS65 - Föreläsning 6 Hypotesprövning

FÖRELÄSNING 8:

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Hur man tolkar statistiska resultat

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Stockholms Universitet Statistiska institutionen Termeh Shafie

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Introduktion och laboration : Minitab

Samplingfördelningar 1


TMS136. Föreläsning 11

Laboration 4: Hypotesprövning och styrkefunktion

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Tentamen i Matematisk statistik Kurskod S0001M

Korrelation och autokorrelation

Avd. Matematisk statistik

Kapitel 10 Hypotesprövning

Repetitionsföreläsning

SF1901: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 12 oktober 2015

Tentamen i Matematisk statistik Kurskod S0001M

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Tentamen i Matematisk statistik Kurskod S0001M

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

4 Diskret stokastisk variabel

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Stockholms Universitet Statistiska institutionen Termeh Shafie

P(ξ > 1) = 1 P( 1) = 1 (P(ξ = 0)+P(ξ = 1)) = ξ = 2ξ 1 3ξ 2

Tentamen i Matematisk statistik Kurskod S0001M

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

Uppgift a b c d e Vet inte Poäng

Lösningsförslag till Matematisk statistik LKT325 Tentamen

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Industriell matematik och statistik, LMA /14

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

TENTAMEN I STATISTIKENS GRUNDER 2

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

(a) på hur många sätt kan man permutera ordet OSANNOLIK? (b) hur många unika 3-bokstavskombinationer kan man bilda av OSANNO-

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 5 och 6.

σ 12 = 3.81± σ n = 0.12 n = = 0.12

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Avd. Matematisk statistik

Tentamen MVE302 Sannolikhet och statistik

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Föreläsning 12, FMSF45 Hypotesprövning

Transkript:

Statistikteori fr F vt 4 4 - - 9 Frdelningsfria / icke - parametriska / generella test I de hypotesprvningssitationer som behandlats hittills har årminstone endera av nedanstående frtsättningar ingått ; Bakomliggande poplation(er) är normalfrdelad(e). () Stickprovet är "någorlnda stort". () I praktiken mter man mången gång sitationer där ingen av () eller () är ppfylld. Stickprovet är "litet" och normalfrdelningsantaganden känns hgst tveksamma. Då är frdelningsfria / icke - parametriska / generella (att ppfattas som synonyma) metoder av intresse. rvning av hypoteser om väntevärdet i en poplation. Inledning Låt, som vanligt, x, x,..., x n vara tfallet av ett slmpmässigt stickprov X, X,.., X n från en poplation F vars väntevärde m och standardavvikelse antas vara okända. Vi intresserar oss fr den sedvanliga hypotesprvningssitationen ; Testa nollhypotesen : m = m med mothypotes H : m m eller m > m. (3) Den andra varianten av enkelsidig mothypotes, m < m, behandlas "helt analogt". Exempel : Låt x, x,..., x n vara differenser fr y - observationer i par x i = y i, efter - y i, fre, i =,,, n, där "fre" och "efter" hänfr sig till någon viss behandling. Vi antar modellen Y i, fre = i + i och Y i, efter = i + m + i, där m = behandlingseffekt och,,..., n och,,..., n är oberoende "brsvariabler". (Här avviker vi från tidigare beteckningsmnster, där differensvärden brkar betecknas med z, men här heter x, och där behandlingseffekten brkar betecknas med, men här heter m.) I den här typen av sitation är den "saklogiska nollhypotesen" oftast ; * : Behandlingen har ingen effekt. (4) Mer tekniskt formlerat medfr (4) dels att - väntevärdet m fr x - observationerna är, dels att och har samma frdelning. Vid testsitationer av typ (3) har vi tidigare använt testvariabeln X m T, där s = stickprovets standardavvikelse. (5) s / n Under frtsättningen () har det kritiska området vid signifikansnivå satts till T / vid dbbelsidig mothypotes (m m ) och till T vid enkelsidig mothypotes (m > m ). Dessa kritiska områden baseras på att när stickprovet är "någorlnda stort" säger centrala gränsvärdessatsen att T med god approximation är N(, ) - frdelad nder. Under frtsättningen () har det kritiska området satts till T t / (n - ) vid dbbelsidig mothypotes (m m ) och till T t (n - ) vid enkelsidig mothypotes (m > m ). Dessa kritiska områden baseras på att när () gäller är T t(n - ) - frdelad nder. N släpper vi båda frtsättningarna () och (), men gr fljande frtsättning. oplationsfrdelningen F har täthet som nder är symmetrisk kring m. (6) Exempel, forts. : I exemplet kommer (6) att vara ppfyllt. Själva nollhypotesen är : m =. Vidare, när och är oberoende och har samma frdelning har - en frdelning som är symmetrisk

kring. (Övning : Visa att så är fallet.) Vi frtsätter att och har kontinerliga frdelningar. Detta ger att (6) är ppfyllt. Exempel, forts. : Vi antar fortsättningsvis att n = och att x - observationerna (satta i storleksordning) är : -., -.,.3, 4., 4.7, 6.7, 8., 9., 9.6,.. De illstreras grafiskt nedan. Figr Vad tänker man, när man ser på figren ovan? Jo, man tycker (väl?) någonting i fljande stil. verkar onekligen skm eftersom de flesta observationerna ligger på pls - sidan, vilket j talar fr att behandlingen lett till hgre värden. En natrlig fråga är ; Är det nder så osannolikt att få ovanstående frdelning av x - observationer att br frkastas? (7) Det finns åtminstone två olika ansatser fr att besvara frågan i (7), teckentest och teckenrangtest. Dessa behandlas i det fljande.. Teckentest (Blom sidor 6-64) Fr enkelhets skll håller vi oss till fallet m =, dvs. att nollhypotesen är : m =. (Fallet när m är något annat kan behandlas "hgst analogt".) Som testvariabel används ; T = antal positiva x - värden i stickprovet. (8) (Om man vill kan man lika gärna använda antalet negativa x - värden som testvariabel.) Vid dbbelsidig mothypotes H : m m framstår som "skm" om T antar antingen ett stort värde (som indikerar att m > ) eller ett litet värde (som indikerar att m < ). Testets kritiska område br därfr vara av typen ; (T k ) (T k ), där k är en ndre kritisk gräns och k en vre kritisk gräns. (9) Det gäller att bestämma k och k så att testet får nskad signifikansnivå / felrisk. Fr detta behvs testvariabelns frdelning nder. Fljande skall vara i stort sett självklart ; Under är testvariabeln T i (8) Bin(n, /) - frdelad. () Bin(n, /) - frdelningen ser t enligt nedan. 3 n - n Vid freskriven signifikansnivå skall k och k väljas så att fljande gäller ; (T k ) + (T k ), men inte verstiger. () Vid bestämning av k och k brkar man så gott som alltid frdela totala felrisken lika i båda ändarna av testvariabelns frdelning. De bestäms då av ; (T k ) / (men inte mer) och k = n - k. () Vid bestämningen gäller det att beräkna binomialfrdelningssannolikheter, vilket j är nmeriskt litet jobbigt. Dock, man kan få hjälp från tabeller. FT - samlingens Tabell 8 ger sådana sannolikheter fr bl.a. p = / (som är det här intressanta p - värdet). När mothypotesen är enkelsidig, m >, är det endast stora värden på testvariabeln T som får nollhypotesen att framstå som skm. Det kritiska området väljs då som med kritisk gräns k, som bestäms av ;

H, men inte verstiger. (3) Exempel forts. : Låt stickprovsvärdena vara enligt ovan i ansltning till Figr, där n =. Låt freskriven signifikansnivå vara 5 %. Nedan anges några sannolikhetsvärden fr en Bin(, / ) - frdelad s.v. T (hämtade från FT - samlingens Tabell 8. (T ) =.98, (T ) =.74, (T ) =.5469, (4) Från () och (4) framgår att det kritiska området vid dbbelsidig testning på 5 % signifikansnivå är (T ) (T 9). Med här aktella T obs = blir sltsatsen alltså att nollhypotesen inte kan frkastas med 5 % felrisk. Från (3) och (4) framgår att det kritiska området vid enkelsidig testning på 5 % signifikansnivå är (T ). Med T obs = blir sltsatsen likaså att nollhypotesen inte kan frkastas med 5 % felrisk..3 Teckenrangtest (Blom sidor 56 och 57) När observationerna faller som i Figr tycker man (kanske?) att teckentestet inte fångar pp all tillgänglig information i observationerna. En sak som gr litet "extra skm" är att de flesta observationerna med stora absoltvärden (= som ligger långt från ) är positva. Det beaktar inte teckentestet, dess testvariabel tar bara fasta på om observationen faller nder eller ver. (Med testvariabeln (5) fångas detta pp av att X blir stort. Men, som sagt, användning av (5) kräver frtsättningar som vi inte gr här.) Man kan dock fånga pp även nyssnämnda aspekt tan att gra frdelningsantaganden, genom att ranga (= rangordna) observationernas absoltvärden. Härvid ges observationen med minst absoltvärde rang, den med näst minst absoltvärde rang, osv., och i sltändan får den med strst absoltvärde rang n (= stickprovsstorleken). Som testvariabel väljs sedan ; T = smman av rangerna fr de negativa observationerna. (5) Man kan också välja T = smman av rangerna fr de positiva observationerna. Det spelar ingen roll vilken av dem man väljer att arbeta med (men det gäller att hålla tngan rätt i mnnen när mothypotesen är enkelsidig). När mothypotesen är H : m m framstår som skm om T i (5) blir antingen markant liten (som indikerar att m < ) eller markant stor (som indikerar att m > ). Det kritiska området väljs därfr av typen ; (T k ) (T k ), med lämpliga kritiska gränser k och k. Vid freskriven signifikansnivå gäller det att finna k och k så att ; (T k ) + (T k ), men inte verstiger. (6) Fr detta behver man, åtminstone i princip, känna frdelningen fr T nder. T har diskret frdelning med mjliga värden,,, 3, osv. t.o.m. + + + n = n (n - ) /. Frdelningen fr T nder ser t enligt nedan. Frdelning fr T nder 3 n (n - ) / Att beräkna frdelningen fr T nder är ett jobbigt kombinatorik - problem. Men man behver inte gra jobbet själv. I FT - samlingens Tabell 7 (på sidan med nmmer ) ges fr = %,.5 % och 5 % fr n = 5, 6,, lsningar k till såväl relationen ; 3

som H H, men inte verstiger, (7), men inte verstiger. (8) Vid dbbelsidig testning på signifikansnivä väljer man k och k så att (T k ) / och (T k ) /. Vid enkelsidig testning väljs den kritiska gränsen k med hjälp av den lämpliga av (7) och (8). Vilken som är den lämpliga beror av mothypotesen och vilken testvariabel man valt. Man får själv tänka t hr det kritiska området skall se t. Exempel forts. : Vi använder teckenrangtestet fr att prva den tidigare hypotesen. I frsta omgången gäller då att ranga observationernas absoltvärden, vilket grs i tablån nedan. Observationernas absoltvärden..3. 4. 4.7 6.7 8. 9. 9.6. Ranger 3 4 5 6 7 8 9 Observationer -..3 -. 4. 4.7 6.7 8. 9. 9.6. Som testvariabel väljs T enligt (5). Vid testning på 5 % signifikansnivå skall, enligt FT - samlingens Tabell 7 (på sidan ), det kritiska området vara (T 8) (T 4). Här blir T obs = smman av rangerna fr de negativa observationerna = + 3 = 4. Det värdet faller i det kritiska området, och sltsatsen blir att nollhypotesen frkastas till frmån fr alternativet m >. I exemplet ger teckentestet "ej signifikant" medan teckenrangtestet ger "signifikans". Detta är ingen motsägelse, och heller ingen tillfällighet. Allmänt gäller att teckenrangtestet har bättre styrka än teckentestet, vilket innebär att teckenrangtestet har strre sannolikhet att "pptäcka" skillnad än teckentestet. Vidare gäller att när normalfrdelningsfrtsättningen () är ppfylld så har t - testet bättre styrka än teckenrangtestet. Likaså gäller att när stickprovet är "någorlnda stort" så har - testet bättre styrka än teckenrangtestet. Sensmoralen blir att så snart någon av fortsättningarna () eller () är ppfylld, skall man använda testvariabeln i (5). Frst när ingen av () eller () freligger tillgriper man ett icke - parametriskt test, och då i frsta hand teckenrangtestet. Kommentar : I såväl Blom som FT - samlingen sägs rätt mycket om att T i (5) är approximativt normalfrdelad N(E(T), D(T)), och formler fr E(T) och V(T) ges. Dock, fr stickprovsstorlekar som omfattas av FT - Tabell 7 skall man inte använda normalapproximation, tan använda kritiska gränser enligt tabellen ifråga. Jämfrelse av två poplationer. Rangsmmetest (Blom 57-6) Här betraktas fljande sitation ; (x, x,..., x n ) är tfallet av ett slmpmässigt stickprov (X, X,.., X n ) från en poplation F med väntevärde m och (y, y,..., y n ) tfallet av ett slmpmässigt stickprov (Y, Y,.., Y n ) från en poplation G med väntevärde m. De två stickproven har dragits oberoende av varandra. Man vill prva nollhypotesen : m = m med mothypotes H : m m. I den hypotesprvningssitationen har vi tidigare avvänt en av nedanstående testvariabler; X Y ( m m T s / n s /n ) eller X Y ( m m T s / n /n p ), (9) den vänstra med kritiskt område T / nder () och den hgra med kritiskt område T t / (n + n - ) nder () med tilläggsvillkor att F och G har samma standardavvikelse. 4

N betraktar vi sitationer där ingen av () eller () kan frtsättas. Även här kan man klara sig rangbetraktningar, åtminstone nder nedanstående (milda) tilläggsfrtsättning. Såväl F som G är kontinerliga frdelningar. () Det s.k. Wilcoxons rangsmmetest tfrs på fljande sätt. Steg : Slå ihop värdena (x, x,..., x n ) och (y, y,..., y n ) till ett dataset, och ranga värdena i detta totala dataset. (Observera : Här handlar det inte om att ranga absoltvärden, tan de rsprngliga värdena.) Steg : Använd endera av nedanstående testvariabler; R x = smman av rangerna fr x - observationerna. R y = smman av rangerna fr y - observationerna. med kritiskt område av formen (R k ) (R k ). (Dvs. frkasta om R antingen blir stort eller litet,) De kritiska gränserna k och k vid signifikansnivå ges av relationerna (R k ) / och (R k ) / () De två variablerna R x och R y bär ekvivalent information, vilket inses av att deras smma R x + R y är given på frhand = + + 3 +. + (n + n ) = (n + n ) (n + n + ) /. Fr att bestämma k och k via () gäller det, åtminstone i princip, att beräkna frdelningen fr R nder nollhypotesen, som innebär att de två stickproven kommer från samma kontinerliga frdelning. Vid litet eftertanke inses att detta medfr att R x kan ses som smman av n på måfå tan återläggning valda värden från den totala psättningen av ranger (,, 3,, n + n ). Att beräkna sannolikheterna i en sådan frdelning är jobbigt, men man slipper ifrån det om man vänder sig till FT - samlingens Tabell 6 på sidan. Kommentar : Ovan behandlas fallet med dbbelsidig mothypotes. Vid enkelsidig testning grs de "natrliga" modifikationerna. Kommentar 3 : Här gäller resltat som är analoga till dem fr teckenrangtestet. När åtminstone endera av () eller () är ppfylld har test med testvariablerna i (9) bättre styrka än rangsmmetestet, och sådana test skall därfr fredras när de kan användas. Kommentar 4 : Det som sägs i Kommentar är (efter natrlig modifikation) tillämpligt även här. 5