parametriska test Mätning Ordinalskala: Nominalskala:



Relevanta dokument
Statistiska undersökningar

Statistik 1 för biologer, logopeder och psykologer

Uppgift

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

Tentamen i matematisk statistik (9MA241/9MA341/LIMAB6, STN2) kl 08-13

2. Test av hypotes rörande medianen i en population.

Grundläggande biostatistik. Jenny Selander

Snabbslumpade uppgifter från flera moment.

Lösningar till Tentamen i Matematisk Statistik, 5p 22 mars, Beräkna medelvärdet, standardavvikelsen, medianen och tredje kvartilen?

Statistik och epidemiologi T5

TT091A, TVJ22A, NVJA02 By, Pu, Ti. 50 poäng

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Föreläsning 9: Hypotesprövning

F22, Icke-parametriska metoder.

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

ATT KUNNA TILL. MA1050 Matte Grund Vuxenutbildningen Dennis Jonsson

Föreläsning 2 Deskription (forts). Index Deskription: diagram som stapeldiagram, histogram mm (tex spridningsdiagram, Mera om mätnivåer

Avd. Matematisk statistik

Datorövning 3: Icke-parametriska test

Statistik Lars Valter

Fråga nr a b c d 2 D

Lathund, procent med bråk, åk 8

Skrivning i statistik med beslutsteori för Brandingenjörer tisdag 26 maj 2009

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

Lunds tekniska högskola Matematikcentrum Matematisk statistik

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Träning i bevisföring

INLÄMNINGSUPPGIFT 2 (Del 2, MATEMATISK STATISTIK) Kurs: MATEMATIK OCH MATEMATISK STATISTIK 6H3000

Facit med lösningsförslag kommer att anslås på vår hemsida Du kan dessutom få dem via e-post, se nedan.

1. Frekvensfunktionen nedan är given. (3p)

Kapitel 6. f(x) = sin x. Figur 6.1: Funktionen sin x. 1 Oinas-Kukkonen m.fl. Kurs 6 kapitel 1

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)

konstanterna a och b så att ekvationssystemet x 2y = 1 2x + ay = b 2 a b

Sundbybergs stad Skolundersökning 2015 Föräldrar förskola Fristående förskolor totalt Antal svar samtliga fristående förskolor: 360 (57 %)

Icke-parametriska/fördelningsfria test. Finansiell statistik, vt-05. Teckentest. Teckentest. Vi gör observationer för =1,, på variablerna.

Ekvationssystem, Matriser och Eliminationsmetoden

DOP-matematik Copyright Tord Persson. Bråktal Läs av vilka tal på tallinjen, som pilarna pekar på. Uppgift nr

Sundbybergs stad Skolundersökning 2015 Föräldrar förskola Stella Nova förskola

HT 2011 FK2004 Tenta Lärare delen 4 problem 6 poäng / problem

Möbiustransformationer.

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

7.3.3 Nonparametric Mann-Whitney test

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 24 januari 2004, kl

Föreläsning 14: Försöksplanering

Datorövning 1 Statistik med Excel

Mätningar på op-förstärkare. Del 3, växelspänningsförstärkning med balanserad ingång.

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Datorövning 2 Diskret fördelning och betingning

Avd. Matematisk statistik

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

För övrigt fullständig överensstämmelse kvalitativt sett för båda proverna. Alla lab som analyserat P-CCP ak på prov 18/D rapporterar ett starkt

STATISTIK. Statistik är: 1. Insamling av data 2. Analys av data 3. Presentation av data.

Tentamen i Programmering grundkurs och Programmering C

Föreläsning 5 och 6.

Datorlaboration 2 Konfidensintervall & hypotesprövning

Vetenskapliga begrepp. Studieobjekt, metod, resultat, bidrag

4-3 Vinklar Namn: Inledning. Vad är en vinkel?

Övningshäfte i matematik för. Kemistuderande BL 05

Innehåll. Normalfördelning och t-test. Vanliga statistiska mått 2/11/2014. Vad är punktskattningar? Figurer somvisarmedelochsd, SE ochki (ellerci)

Icke parametriska metoder för variabler mätta på nominal- eller ordinalskala

Mätning av effekter. Vad är elektrisk effekt? Vad är aktiv-, skenbar- reaktiv- medel- och direkteffekt samt effektfaktor?

Enkätresultat för elever i år 2 i Nösnäsgymnasiet 2 i Stenungsund våren 2014

David Wessman, Lund, 30 oktober 2014 Statistisk Termodynamik - Kapitel 5. Sammanfattning av Gunnar Ohléns bok Statistisk Termodynamik.

Enkätresultat för elever i år 2 i Mega Musik gymnasium hösten Antal elever: 47 Antal svarande: 46 Svarsfrekvens: 98% Klasser: MM13

Enkätresultat för elever i år 2 i Praktiska Skövde i Praktiska Sverige AB hösten 2014

Hypotestestning och repetition

Algebra, polynom & andragradsekvationer en pampig rubrik på ett annars relativt obetydligt dokument

Erfarenheter från ett pilotprojekt med barn i åldrarna 1 5 år och deras lärare

Effekt av balansering 2010 med hänsyn tagen till garantipension och bostadstillägg

SF1625 Envariabelanalys

Institutionen för matematik Envariabelanalys 1. Jan Gelfgren Datum: Fredag 9/12, 2011 Tid: 9-15 Hjälpmedel: Inga (ej miniräknare)

Enkätresultat för elever i åk 9 i Borås Kristna Skola i Borås hösten Antal elever: 20 Antal svarande: 19 Svarsfrekvens: 95% Klasser: Klass 9

Axiell Arena. Samarbeta om bilder Regionbiblioteket i Kalmar län

Att välja statistisk metod

SF1620 Matematik och modeller

4-6 Trianglar Namn:..

3. Olle skriver ned ett visst antal heltal mellan 10 och 25. Talens medelvärde är 18. Hur många är talen? (1) Medelvärdet av de tre första talen som O

Datorövning 2 Statistik med Excel (Office 2007, svenska)

HÖGSTA DOMSTOLENS DOM

Måttbandet nr 236 mars 2014

Kvalster. Korrelation och regression: lineära modeller för bivariata samband. Spridningsdiagram. Bivariata samband

Modul 6: Integraler och tillämpningar

a n = A2 n + B4 n. { 2 = A + B 6 = 2A + 4B, S(5, 2) = S(4, 1) + 2S(4, 2) = 1 + 2(S(3, 1) + 2S(3, 2)) = 3 + 4(S(2, 1) + 2S(2, 2)) = = 15.

MSG830 Statistisk analys och experimentplanering - Lösningar

Statistiska metoder för säkerhetsanalys

Snapphanalegen. Firekángabogena. Spelregler. (4 spelare)

Lathund för att ta ut data/rapporter från databas PPM-Trycksår

SEPARABLA DIFFERENTIALEKVATIONER

Hälsobarometern. Första kvartalet Antal långtidssjuka privatanställda tjänstemän, utveckling och bakomliggande orsaker

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Statsbidrag för läxhjälp till huvudmän 2016

3.1 Linjens ekvation med riktningskoefficient. y = kx + l.

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Ha det kul med att förmedla och utveckla ett knepigt område!

Gamla tentor (forts) ( x. x ) ) 2 x1

Konsten att multiplicera (stora) heltal

Laboration 3: Modellval i multipel regression

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Statistik 1 för biologer, logopeder och psykologer

Repetitionsföreläsning

Transkript:

Icke- parametriska test Icke- parametriska test En avgörande skillnad mellan icke-parametriska och s.k. parametriska test, som t.ex. t-test, är att de icke-parametriska testen kräver färre antaganden Icke-parametriska test lämpar sig ofta i situationer när åtminstone en av följande punkter är uppfylld: Vi har nominalskala. Vi har ordinalskala. Populationens fördelning är okänd. 1 Mätning En tilldelning av tal till undersökningsenheterna på ett sådant sätt att vissa relationer mellan enheterna, med avseende på någon egenskap, avspeglas i relationer mellan talen För att siffrorna ska ha någon betydelse och vara användbara i analys m m måste de genereras efter givna mätregler. Variabler mätta på en viss mätnivå (skalnivå,datanivå) är inte lämpliga att beskrivas med vissa deskriptiva mått eller att illustreras med vissa diagramtyper. (Skal-, Data- ) Mätnivåer Nominal Endast klassificering Ordinal Klassificering och rangordning Intervall Klassificering, rangordning och ekvidistans Kvot Klassificering, rangordning, ekvidistans och absolut nollpunkt 3 4 Nominalskala: Klassificering av enheterna efter variabel- värdena. Variabelvärdena är endast namn (nomina). Av praktiska skäl ges variabelvärdena ofta siffervärden (kodas). Siffervärdena har dock ingen kvantitativ betydelse, d v s uttrycker inte hur mycket av en egenskap enheten har. Typexempel: Kön, civilstånd, bransch Notera! Inte lämplig för matematiska operationer som addition och subtraktion. (Alltså olämpligt att beräkna t ex medelvärde, standardavvikelse...) Ordinalskala: Klassificering och rangordning, i någon storleksordning, av enheterna efter variabel- värdena. Skillnaden mellan variabel-värdena är dock inte lika stora. Siffervärdena har ingen kvantitativ betydelse. Vi kan uttala oss om vilka som har mer av en egenskap än andra men inte hur mycket de har. Typexempel: Klädstorlek (S, M, L, XL), attitydskalor (Bra, Sådär, Dålig), Betyg (U, G, VG) Notera! Inte lämplig för matematiska operationer som addition och subtraktion. 1

Intervallskala: Skillnaden mellan variabelvärdena är lika stora (ekvidistans), men saknar absolut nollpunkt. Typexempel: Temperatur, Kalendertid Notera! Addition och subtraktion är meningsfulla, men inte multiplikation och division. Det är alltså meningsfullt att tala om skillnader mellan variabelvärden men inte förhållanden av typen dubbelt så mycket. Absolut nollpunkt. Kvotskala: Typexempel: Inkomst, Vikt, Längd Notera! Alla räkneoperationer tillåtna. Förhållanden mellan värden av typen dubbelt så mycket är meningsfulla begrepp. Notera! Variabler som till sin natur är på kvot- eller intervallskala kan vara mätta på en lägre nivå. Undvik detta! Informationsförlust. Observera att mätnivån bestäms av vilken typ av information mätningen ger oss. Mätnivån har bl.a. betydelse för vilken typ av beräkningar som är meningsfulla Notera att i boken Statistics for Management and Economics av Keller är de sistnämda nivåerna sammanslagna till en. Han kallar den intervallskala. Wilcoxons rangsummetest Vi vill testa nollhypotesen att två populationsfördelningars läge är lika mot alternativhypotesen att de ej är lika (dubbelsidigt test) eller att den ena populationens fördelningens läge är mindre eller större än den andra populationens läge (enkelsidiga test). Vi har två oberoende sampel. Den variabel vi studerar betraktas som ordninal-, intervall- eller kvotskala 9 10 Hypoteser: Hypoteser H 0 : De två populationerna har samma läge. H A : Läget för population 1 är skiljt ifrån läget för population. (Dubbelsidigt) H A : Läget för population 1 är till vänster (eller höger) om läget för population. (Enkelsidigt) Teststatistika Teststatistika: T = rangsumman för stickprov 1. En observation på teststatistikan beräknas på följande sätt: Rangordna samtliga observationer, från lägsta, som får rangen 1, till högsta. Summera rangerna för stickprov 1. 11 1

Samplingfördelning för T Samplingfördelingen för T kan härledas genom att skriva upp alla möjliga rankningar av observationerna stickproven. Om nollhypotesen är sann är alla rankningar lika sannolika. Se exempel 1.1 i boken, sid 78-79. I och med listan på alla möjliga rankningar för stickprov 1 får man även alla möjliga rangsummor och sannolikheterna för dessa rangsummor, dvs vi får samplingfördelingen för T. Samplingfördelningen för T för vissa kombinationer av stickprovstorlekar, n 1 och n, finns i tabell 9 i Appendix B i boken. 13 14 Om båda samplen består av minst 10 observationer är T approximativt normalfördelad, då nollhypotesen är sann, med väntevärdet n ( 1) ( ) 1 n1 + n + E T = och standardavvikelsen σ T = ( n + n 1) n1 n 1 + 1 Vi kan då använda T E( T ) σt som teststatistika. Den teststatistikan är då standardnormalfördelad då nollhypotesen är sann. 15 16 Exempel (sid 734-735 i boken) Exempel (forts.) Modell: X 1 = Anställningstid för de med buisness - examen, X = Anställningstid för de med nonbuisness -examen. X 1 och X kan ej antas vara normalfördelade. Hypoteser: H 0 : De två populationernas läge är lika H A : De två pop. läge är olika Teststatistika: T = rangsumman för stickprov 1 ( buisness -examen) Samplingfördelning: Eftersom båda stickproven består av fler än 10 observationer är T n1 ( n1 + n + 1) / appr ~ N(0,1) n1 n( n1 + n + 1) 1 om nollhypotesen är sann. 17 18 3

Exempel (forts.) Signifikansnivå: α = 0.05 Kritiskt område: Förkasta H 0 om Z obs är mindre än -1.96 eller om Z obs är större än 1.96. Observation: Efter rangordning av samtliga n 1 +n = 5+0 = 45 observationer blir det observerade värdet på T obs = 463. Det observerade värdet på teststatistikan är Z obs = (463-575)/43.8=-.56 Slutsats: Nollhypotesen förkastas. Fördelningen av anställningstid är olika för de med buisness - examen och de med non-buisness -examen. 19 0 Mann- Whitney Testet är ekvivalent med Wilcoxon s rangsummetest. Teststatistikan U är bara en konstant minus T. ( n 1) n + U = ( n n ) + 1 1 1 T Vi har sett att om båda samplen består av minst 10 observationer är W approximativt normalfördelad, då nollhypotesen är sann. Är W approximativt normalfördelad så är naturligtvis även U approximativt normalfördelad, med väntevärdet n ( ) 1 n E U = och standardavvikelsen σ U = σ T 1 Vi kan då använda U E( U ) σu som teststatistika. Den teststatistikan är då standardnormalfördelad då nollhypotesen är sann. Teckentest (Sign test) Vi skall studera två användningsområden för teckentestet. Det första användningsområdet är vid test av om två populationsfördelningar är lika då vi har parade observationer. 3 4 4

Låt X 1 vara en (kommande) observation ur population 1. Låt X vara den parade observationen ur population. Om populationsfördelningarna är lika gäller att P(X 1 >X ) = 0.5. 5 Nollhypotes: Alternativhypotes vid dubbelsidigt test: Alternativhypotes vid enkelsidigt test: eller H0 : P 1 = H A : P 1 H A : P 1 > H A : P 1 < 6 Teststatistika Bildar en variabel som är 1 om differensen X 1 X är positiv och 0 då differensen är negativ. Så kallade ties elimineras från våra data). Denna variabel är Bernoullifördelad med p = 0.5 om nollhypotesen är korrekt. Låt S vara antalet positiva differenser. S är då binomialfördelad med p = 0.5 och n = antalet par minus antalet ties, om nollhypotesen är korrekt. 7 8 Observera att då antalet par är minst 10 så är både np och n(1-p) minst 5 och S, enligt vår tumregel, approximativt normalfördelad, vilket innebär att vi kan använda teststatistikan S n 0.5 n 0.5 0.5 som, då nollhypotesen är korrekt, är approximativt standardnormalfördelad. Teckentest (som ett test av populationsmedian) Ett annat användningsområde för teckentestet är vid test av en populationsmedian. Låt oss använda beteckningen M för populationsmedianen. 9 30 5

Nollhypotes: H 0 : M = M 0 Alternativhypotes vid dubbelsidigt test: H A : M M 0 Alternativhypotes vid enkelsidigt test: H A : M > M 0 eller H A : M < M 0 31 Bilda för varje observation differensen mellan observerat värde och M 0. (Så kallade ties plockas bort). Låt S vara summan av alla positiva differenser. S är då binomialfördelad med p = 0.5 och n = antalet observationer minus antalet ties om nollhypotesen är korrekt. 3 Observera att då antalet par är minst 10 så är både np och n(1-p) minst 5 och S, enligt vår tumregel, approximativt normalfördelad, vilket innebär att vi kan använda teststatistikan S n 0.5 n 0.5 0.5 som, då nollhypotesen är korrekt, är approximativt standardnormalfördelad. Wilcoxon teckenrangsummetest (signed rank sum test) Det användningsområde som vi skall studera är vid test av om två populationsfördelningars läge är lika då man har parade observationer. 33 34 Har större styrka än teckentestet eftersom man inte bara tittar på differensernas tecken utan även på deras storlek. Man använder alltså mera information. Wilcoxon teckenrangsummetest kräver dock att variablerna är mätta på minst intervallskala. För teckentesten räcker det med ordinalskala. Nollhypotesen är att fördelningarnas läge är lika. Alternativhypotesen kan vara att fördelningarnas läge ej är lika (dubbelsidigt test) eller att någon av fördelningarna är lokaliserad till vänster eller till höger om den andra fördelningen (enkelsidigt test). 35 36 6

Teststatistika: Bilda differenserna X 1 X. Plocka bort differenser lika med noll ( ties ). Låt n= antalet parade observationer som ej är lika med noll. Rangordna absolutbeloppen för differenserna från det minsta, som får rangen 1, till det största, som då får rangen n. Om några differenser är lika använd medelvärdet av rangerna för dem. 37 Sätt tecken, plus eller minus, på rangerna. Tecknet bestäms av tecknet på differensen X 1 -X. Låt teststatistikan T=T + vara summan av de positiva rangerna. 38 Samplingfördelning för T Kritiska värden för Wilcoxons teckenrangsummetest finns i tabell 10 i boken. Om n är minst 30, och nollhypotesen är sann, så kan man anta att T är approximativt normalfördelad med väntevärdet och standardavvikelsen E ( T ) n( n +1) = 4 och σ T = n ( n +1 )( n + 1) 4 Som teststatistika kan vi då använda T E( T ) σt som då är standardnormalfördelad. 39 40 Mera om Wilcoxons teckenrangsummetest Det som ni hittills sett är bokens version av Wilcoxons teckenrangsummetest. Den version som nu kommer är den mest vanligt förekommande (och mer intuitiv ) Allt är som tidigare förutom att som teststatistika T används summan av alla rangerna (dvs både positiva och negativa ranger, alltså T=T + +T - ). Då är väntevärdet för teststatstikan T, E(T)=0, när nollhypotesen är korrekt, eftersom det då (intuitivt) borde bli lika många positiva och negativa ranger och de positiva och negativa differenser borde ta ut varandra. Standardavvikelsen för T blir n( n +1 )( n + 1) σ T = 6 Standardnormalfördelningen är en god approximation för samplingfördelningen för Z=(T- E(T))/σ T redan då n=10 41 4 7