Icke parametriska metoder för variabler mätta på nominal- eller ordinalskala

Relevanta dokument
Repetitionsföreläsning

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

Repetitionsföreläsning

Fråga nr a b c d 2 D

2. Test av hypotes rörande medianen i en population.

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Att välja statistisk metod

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

import totalt, mkr index 85,23 100,00 107,36 103,76

F22, Icke-parametriska metoder.

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

7.3.3 Nonparametric Mann-Whitney test

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Uppgift 1. Produktmomentkorrelationskoefficienten

Parade och oparade test

En kort instruktion för arbete i R Commander

Medicinsk statistik II

Kursens upplägg. Roller. Läs studiehandledningen!! Examinatorn - extern granskare (se särskilt dokument)

Föreläsning G60 Statistiska metoder

En kort instruktion för arbete i SPSS

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

a) Facit till räkneseminarium 3

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Gamla tentor (forts) ( x. x ) ) 2 x1

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 24 e mars Ten 1, 9 hp

Datorövning 5. Statistisk teori med tillämpningar. Lära sig beräkna konfidensintervall och utföra hypotestest för:

F3 Introduktion Stickprov

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 1

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Medicinsk statistik II

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

Hypotestestning och repetition

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Laboration 3 Inferens fo r andelar och korstabeller

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 4 e mars Ten 1, 9 hp

Statistik 1 för biologer, logopeder och psykologer

Icke-parametriska/fördelningsfria test. Finansiell statistik, vt-05. Teckentest. Teckentest. Vi gör observationer för =1,, på variablerna.

Statistik och epidemiologi T5

Föreläsning 5. Kapitel 6, sid Inferens om en population

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

OBS! Vi har nya rutiner.

, s a. , s b. personer från Alingsås och n b

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 10 e januari Ten 1, 9 hp

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Lektionsanteckningar 11-12: Normalfördelningen

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

8 Inferens om väntevärdet (och variansen) av en fördelning

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 9 e juni Ten 1, 9 hp

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Idag. EDAA35, föreläsning 4. Analys. Kursmeddelanden. Vanliga steg i analysfasen av ett experiment. Exempel: exekveringstid

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

Laboration 2. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att utföra multipel regressionsanalys MÄLARDALENS HÖGSKOLA

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Föreläsning G60 Statistiska metoder

7.5 Experiment with a single factor having more than two levels

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsningsanteckningar till kapitel 9, del 2

Syfte: o statistiska test om parametrar för en fördelning o. förkasta eller acceptera hypotesen

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 23 e mars Ten 1, 9 hp

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer

Föreläsning G60 Statistiska metoder

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Hur man tolkar statistiska resultat

Föreläsning 5 och 6.

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Introduktion och laboration : Minitab

EXAMINATION KVANTITATIV METOD vt-11 (110204)

1. Lära sig utföra hypotestest för populationsproportionen. 2. Lära sig utföra test för populationsmedelvärdet

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 16 e januari 2015

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

TMS136. Föreläsning 13

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

Föreläsning 12: Regression

Kapitel 10 Hypotesprövning

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Föreläsning G60 Statistiska metoder

Transkript:

Föreläsningsanteckningar till: F14 icke parametriska metoder F15 icke parametriska metoder Icke parametriska metoder för variabler mätta på nominal- eller ordinalskala Föreläsningarna baseras på kapitel 15 och 16 i Lind et all. (17 och 18 i upplaga 15) Samt Att välja statistisk metod För att göra hypotestest på medelvärde måste variablerna vara mätta på kvotskala. För att använda OLS måste den beroende variabeln vara mätt på intervall eller kvotskala, de oberoende måste antingen vara mätta på intervall eller kvotskala eller göras om till dummyvariabler. På de här båda föreläsningarna ska vi gå igenom metoder som fungerar även på nominal och ordinalskala. Analys av variabler mätta på nominalskala. Om vår variabel är mätt på nominalskala kan vi beräkna andelen som har en visst utfall på variabeln och göra konfidensintervall eller hypotestest på andel. Vill vi använda hela frekvensfördelningen, dvs fördelningen över alla möjliga utfall på variabeln använder vi Chi2 analys. Eller ett konfidensintervall för varje utfalls andel. Vissa av de här metoderna kan i vissa fall vara lämpliga även när vi har kvotskala. Test av andelar Hypotestest avseende andelen i en population som har en viss egenskap. p π z = Andelen i urvalet p π π ( 1 π ) Andelen enligt vår hypotes n Exercise 1 page 537 H 0 : π 0,70 H : π 0,70 p = 0, 75 1 > n = 100 I urvalet var andelen större än 70 %. Men innebär det att vi kan förkasta H 0? Dvs är andelen större än 70 % även i populationen? n urvalsstorleken 1

Exercise 1 page 537 H 0 : π 0,70 n = 100 H : π 0,70 p = 0, 75 1 > I urvalet var andelen större än 70 %. Men innebär det att vi kan förkasta H 0? Dvs är andelen större än 70 % även i populationen? Vi förkastar H 0 om z är större än 1,645 z = p π 0,75 0,70 = π ( 1 π ) 0,70 0,30 n 100 = 0,05 = 0,0021 0,05 0,0458 = 1,09 Vi kan inte förkasta H 0 på 5 % nivån. Därmed kan vi inte dra några slutsatser. Test av andelar från olika populationer Teststatistikan beräknas enligt: Där: p 1 respektive p 2 är andelarna från respektive urval och p c den poolade andelen. X 1 respektive X 2 är antalet från respektive urval som har egenskapen. Test av andelar från olika populationer - exempel Manelli Perfume Company recently developed a new fragrance that it plans to market under the name Heavenly. A number of market studies indicate that Heavenly has very good market potential. The Sales Department at Manelli is particularly interested in whether there is a difference in the proportions of younger and older women who would purchase Heavenly if it were marketed. Samples are collected from each of these independent groups. Each sampled woman was asked to smell Heavenly and indicate whether she likes the fragrance well enough to purchase a bottle. Test av andelar från olika populationer - exempel Steg 1: Sätt upp nollhypotes och mothypotes. (nyckelord: there is a difference ) H 0 : π 1 = π 2 H 1 : π 1 π 2 Test av andelar från olika populationer - exempel Step 4: Formulera beslutsregel. Hitta det kritiska värdet Steg 2: Välj signifikansnivå. 0.05 anges i uppgiften Steg 3: Välj lämplig teststatistika 2

Test av andelar från olika populationer - exempel Step 4: Formulera beslutsregel. Förkasta H 0 om Z > 1.96 eller Z < -1.96 Test av andelar från olika populationer - exempel Steg 5: Välj slumpmässigt ett urval från varje population, beräkna andelarna och fatta ett belut Låt p 1 = andel bland unga kvinnor p 2 = andel bland äldre kvinnor Vad är p-värdet i det här exemplet? p-värdet är sannolikheten att få det här värdet på teststatistikan eller ett värde som avviker ännu mer från noll. Dvs < 2,21 > 2,21 = 2 > 2,21 = 2 0,5 0< < 2,21 Vi förkastar nollhypotesen. Vi kan dra slutsatsen att mothypotesen är sann. Andelen som skulle köpa heavenly är inte lika stor bland unga kvinnor som bland äldre kvinnor. Vad är p-värdet i det här exemplet? p-värdet är sannolikheten att få det här värdet på teststatistikan eller ett värde som avviker ännu mer från noll om nollhypotesen är sann Dvs < 2,21 > 2,21 = 2 > 2,21 = 2 0,5 0< < 2,21 =2 0,5 0,4864 =2 0,0136=0,0272 -värdet är 0,027 Om p-värdet är lägre än signifikansnivån kan nollhypotesen förkastas. 3

Hypotestestning i RCommander - Test på andelar: Kan vi bevisa att andelen restauranger som ligger i New Jersey inte är 75 %? :0,75 : 0,75 Hypotestestning i RCommander - Test på andelar: Välj Proportions / Single samples proportion test i Statistics menyn. Ange vilken variabel du vill testa När vi testar hypotes på andelar i RCommander får vi automatiskt ett konfidensintervall för andelen också Hypotestestning i RCommander - Test på andelar: Välj Proportions / Single samples proportion test i Statistics menyn. Ange andelen enligt nollhypotesen Ange konfidensgrad för konfidensintervallet Ange mothypotes p-värdet är 0,015. Vi kan avslå nollhypotesen på 5 % signifikansnivå. Vi drar slutsatsen att andelen inte är lika 0,75 Hypotestestning i RCommander - Test på andelar: Välj Proportions / Single samples proportion test i Statistics menyn. Vi provar 99 procents konfidensgrad. p-värdet är 0,015. Vi kan avslå nollhypotesen på 5 % signifikansnivå. Men inte på 1 % signifikansnivå. Och 0,75 ingår i konfidensintervallet med 99 % konfidensgrad. 4

Chi 2 test Vi kommer att använda Chi 2 test för två syften. 1. Testa om en fördelning för en kvalitativ variabel följer en förväntad fördelning eller skiljer sig från den. 2. Testa om två variabler mätta på nominalskala är oberoende eller ej. Egenskaper hos Chi 2 fördelningen positivt snedfördelad. Icke negativ. Utseendet beror av antalet frihetsgrader. Chi 2 test: Att jämföra en fördelning med en förväntad fördelning : observerad frekvens : förväntad frekvens Hypoteser H 0 : Det är ingen skillnad mellan den observerade och den förväntade frekvensen. H 1 : Det är skillnad mellan den observerade och den förväntade frekvensen. Exempel på sidan 550 ( 655 i upplaga 15) Erfarenhet av sjukhusvistelse på nationell nivå: 0 gång per år 40 % 1 gång per år 30 % 2 gång per år 20 % 3 eller fler 10 % Erfarenhet av sjukhusvistelse på lokal nivå: Urval av 150 personer: 0 55 1 50 2 32 3 13 Teststatistikan är: Formulera hypoteser H 0 : Det är ingen skillnad mellan den lokala och den nationella frekvensen av sjukhusbesök. H 1 : Det är skillnad mellan den lokala och den nationella frekvensen av sjukhusbesök. Välj signifikansnivå 0.05 som angavs i uppgiften. 2 χ = ( f f ) o f Det kritiska värdet är chi2 fördelat med k-1 frihetsgrader, där k är antalet kategorier. I det här fallet har vi alltså tre frihetsgrader. e e 2 5

Hitta det kritiska värdet ur rätt tabell 3 frihetsgrader. Signifikans = 5% Beräkning av förväntade frekvenser Beräkna värdet på teststatistikan Nationell fördelning Frekvenser observerade i urvalet Förväntade frekvenser i urvalet om fördelningen är lika med den förväntade 2 χ = ( f f ) o f e 2 e Beräkning av f e 0.40 X 150 = 60 0.30 X 150 = 45 0.30 X 150 = 30 0.10 X 150= 15 Beräknadχ 2 1.3723 Det beräknade χ 2 på1.3723 är lägre än det kritiska värdet. Vi kan inte förkasta nollhypotesen. Skillnaderna mot den förväntade frekvenserna kan vara ren slump. Vi kan inte dra några slutsatser om skillnader i erfarenhet av sjukhusvård. Lind, Övning 17 sid 549 (övn. 5 sid 654 upplaga 15) Är tärningen schysst? 2 χ f 0 1 3 5 2 6 5 3 2 5 4 3 5 5 9 5 6 7 5 total 30 30 = ( f f ) o f e 2 e f e 0-2 1-3 -2 4 2 0 0 0.8 0.2 1.8 0.8 3.2 0.8 7.6 6

Hitta det kritiska värdet i tabellen 5 frihetsgrader Sign = 10 % Vi kan inte förkasta H 0 Detta är ett ganska sannolikt utfall även om tärningen är schysst. 2 χ Men anta att vi kastar tärningen tre hundra gånger och får samma relativa fördelning. f 0 1 30 50 2 60 50 3 20 50 4 30 50 5 90 50 6 70 50 total 300 300 = ( f f ) o f e 2 e f e 0-20 10-30 -20 40 20 0 0 8 2 18 8 32 8 76 Hitta det kritiska värdet i tabellen 5 frihetsgrader Sign = 10 % Vi kan förkasta H 0. Om detta mönster upprepar sig så här många gånger kan vi vara ganska säkra på att tärningen är felaktig. Att använda chi 2 för att testa om två kvalitativa variabler är oberoende eller inte. I vår skola var valet av slöjdform och kön beroende variabler. Variablerna var beroende därför att den betingade sannolikheten för val av slöjdform berodde på kön (och tvärt om). Men om det istället hade varit ett urval ur en större population hade vi då kunnat dra slutsatsen att dessa variabler är beroende även i hela populationen? Korstabeller, relativ frekvenser Kolumnsummorna ger den obetingade sannolikheten för de olika slöjdvalen. Genom att dividera varje cell med radsumman får vi de betingade sannolikheterna. Kön Andel elever Flickor 0,29. 0,25. Pojkar 0,21. 0,25. Totalt 0,50. 0,50. Totalt 0,54. 0,46. 1 Korstabeller, relativ frekvenser Om radsummorna är ett har vi de betingade sannolikheterna för slöjdval i de fyra mittersta rutorna. Kön Andel elever Textilslöjd Träslöjd Textilslöjd Träslöjd Flickor 0,53. 0,47. Pojkar 0,46. 0,54. Totalt 1. 1. 7

Korstabeller, relativ frekvenser Om kolumnsummorna är ett har vi de betingade sannolikheterna för kön i de fyra mittersta rutorna. Kön Andel elever Textilslöjd Träslöjd Flickor 0,57. 0,50. Pojkar 0,43. 0,50. 1,00. 1,00. Totalt Kön Född på en söndag Andel svenskar Ej född på en söndag Totalt Flickor 0,07. 0,43. 0,50. Pojkar 0,07. 0,43. 0,50. 0,14, 0,86, 1, Kön Född på en söndag Andel svenskar Ej född på en söndag Totalt Flickor 0,14. 0,86. 1. Pojkar 0,14. 0,86. 1. Kön Född på en söndag Andel svenskar Ej född på en söndag Totalt Flickor 0,50. 0,50.. Pojkar 0,50. 0,50.. 1, 1, Antag att våra 140 elever vore ett urval från en betydligt större population. Låt oss testa om val av slöjdform och kön är beroende även i den stora populationen, med 5 % signifikansnivå. H 0 : Val av slöjdform och kön är oberoende variabler. H 1 : Val av slöjdform och kön är beroende variabler. Vi kan testa detta med chi2 om vi beräknar de förväntade frekvenserna i korstabellen givet att variablerna är oberoende Under H 0 ges de förväntade frekvenserna av: Faktiskt antal elever Textilslöjd Träslöjd Totalt Flickor 40. 35. 75. Pojkar 30. 35. 65. Totalt 70. 70. 140. Förväntat antal elever Textilslöjd Träslöjd Totalt Flickor 37.5. 37.5. 75. Pojkar 32.5. 32.5. 65. Total 70. 70. 140. 8

Under H 0 är sannolikheten att välja träslöjd oberoende av kön. Förväntat antal elever Textilslöjd Träslöjd Totalt Flickor 37.5. 37.5. 75. Pojkar 32.5. 32.5. 65. Total 70. 70. 140. Förväntad relativ frekvens Textilslöjd Träslöjd Totalt Flickor 0,5. 0,5. 1. Pojkar 0,5. 0,5. 1. Total 0,5. 0,5. 1. Vi har nu några observerade och några förväntade frekvenser så vi kan göra en chi 2 test. f 0 f e f 0 - f e f 0 Flickor - textil 40 37.5 2.5 0.17 Flickor - trä 35 37.5-2.5 0.17 Pojkar - textil 30 32.5-2.5 0.19 Pojkar - trä 35 32.5 2.5 0.19 totalt 140 140 0 0.72 f e 2,5 37,5 Vid chi 2 test på korstabeller beräknas frihetsgraderna som ( 1) ( 1) Där R är antalet rader och K antalet kolumner. Frihetsgrader: 1 * 1 = 1 Är variablerna lokalisering och kedjetillhörighet oberoende? Signifikansnivå 5 % Eftersom 0,72 är mindre än 3,84 kan vi inte förkasta H 0. Det kan hända att variablerna är oberoende i hela populationen. Pennsylvania New Jersey Är variablerna lokalisering och kedjetillhörighet oberoende? Pennsylvania New Jersey Gör en hypotestest med 5 % signifikansnivå Korstabell med faktiska frekvenser New jersey Pennsylvania total Burger King 125 30 155 King Fried Chicken 65 12 77 Roy Roger 69 16 85 Wendys 41 15 56 total 300 73 373 9

H 0 : Lokalisering och kedjetillhörighet är oberoende variabler. H 1 : Lokalisering och kedjetillhörighet är beroende variabler. Förväntade frekvenser under H 0 New jersey Pennsylvania total Burger King 124,7 30,3 155 King Fried Chicken 61,9 15,1 77 Roy Roger 68,4 16,6 85 Wendys 45,0 11,0 56 total 300 73 373 56 300 373 f 0 f e f 0 - f e f 0 BK - NJ 125 124.7 0.3 0.001 BK - PENN 30 30.3-0.3 0.003 KFC - NJ 65 61.9 3.1 0.155 KFC - PENN 12 15.1-3.1 0.636 RR - NJ 69 68.4 0.6 0.005 RR - PENN 16 16.6-0.6 0.022 WENDYS - NJ 41 45.0-4 0.356 WENDYS - PENN 15 11.0 4 1.455 totalt 373 373 2.632 f e Hitta det kritiska värdet Frihetsgrader: 3 1 =3 Sign = 5% 7.815 Critical Value Det beräknade χ 2 på 2,632 är lägre än det kritiska värdet. Vi kan inte förkasta nollhypotesen. Skillnaderna mot den förväntade frekvenserna kan vara ren slump. Vi kan inte dra några slutsatser om huruvida variablerna är beroende eller ej. Att använda Chi 2 på korstabeller i RCommander Välj Contingency tables / Two way table i Statistics menyn. Ange vilken variabel du vill ha i raderna Att använda Chi 2 på korstabeller i RCommander Bocka för Chi-square test of independence Bocka för Print expected frequencies Ange vilken variabel du vill ha i kolumnerna. Vi kan prova en korstabell med relativa frekvenser, Bocka för Row percentage 10

f 0 f e f 0 - f e BK - NJ 125 124.7 0.3 0.001 BK - PENN 30 30.3-0.3 0.003 KFC - NJ 65 61.9 3.1 0.155 KFC - PENN 12 15.1-3.1 0.636 RR - NJ 69 68.4 0.6 0.005 RR - PENN 16 16.6-0.6 0.022 WENDYS - NJ 41 45.0-4 0.356 WENDYS - PENN 15 11.0 4 1.455 totalt 373 373 2.632 H 0 : Lokalisering och kedjetillhörighet är oberoende variabler. H 1 : Lokalisering och kedjetillhörighet är beroende variabler. I en uppsats klistrar vi inte in datautskriften utan gör en tabell ungefär så här, p-värdet anges i undertexten till tabellen eller direkt i texten. Förväntade frekvenser under H 0 New jersey Pennsylvania total Burger King 124,7 30,3 155 King Fried Chicken 61,9 15,1 77 Roy Roger 68,4 16,6 85 Wendys 45,0 11,0 56 total 300 73 373 56 300 373 I en uppsats klistrar vi inte in datautskriften utan gör en tabell ungefär så här, p-värdet anges i undertexten till tabellen eller direkt i texten. Begränsningar med Chi 2 test Chi 2 test kan bara användas om de förväntade frekvenserna inte är för små. Om vi har två celler måste varje frekvens vara minst 5. Om Chi 2 analysen hade varit signifikant hade det varit bra med en korstabell med relativa frekvenser, nu är det lite överflödigt eftersom vi inte bevisat några skillnader. Om vi har mer än två celler ska vi inte använda Chi 2 om fler än 20 procent av dessa är lägre än 5. 11

För att göra hypotestest på medelvärde måste variablerna vara mätta på kvotskala. För att använda OLS måste den beroende variabeln vara mätt på intervall eller kvotskala, de oberoende måste antingen vara mätta på intervall eller kvotskala eller göras om till dummyvariabler. På de här båda föreläsningarna ska vi gå igenom metoder som fungerar även på nominal och ordinalskala. Vissa av de här metoderna kan i vissa fall vara lämpliga även när vi har kvotskala. Analys av variabler mätta på ordinalskala. Om vår variabel är mätt på ordinalskala kan vi ordna utfallen i ordning men vi vet inte de exakta avstånden mellan olika utfall. Vi kan intressera oss för samband mellan ordinalskalevariabler, är det samma personer som svarat höga värden på två frågor? Vi kan intressera oss för vilken av två ordinalskalevariabler som har de högsta värdena, vilken fråga har gett högst svar? Vi kan intressera oss för samband mellan en variabel på nominalskala och en variabel på ordinalskala, vilken av 2 eller flera grupper har gett högt svar på en viss fråga? Spearmans rangkorrelationskoefficient I en enkätundersökning om elbesparing ställdes bl a följande frågor Jag har vidtagit följande energibesparande åtgärder. 5a) Jag använder alltid lågenergilampor Rangordna från 1 till 7 där Inte alls (1) Alltid (7) 5b) Släcker alla lampor i rum där ingen är Rangordna från 1 till 7 där Inte alls (1) Alltid (7) Är det samma personer som är noga med att släcka lampor och som använder lågenergilampor? Finns det en korrelation mellan att spara energi med hjälp av lågenergilampor och att spara energi genom att släcka lampor? Vi kan dock inte använda den vanliga korrelationskoefficienten (Pearson) eftersom den kräver intervall eller kvotskala. På ordinaldata används istället Spearmans rangkorrelationskoefficient. Rangtal Man kan jämföra ett rangtal men placering i en tävling. Den som springer fortast i ett hundrameterslopp får placeringen 1, i statistiken ger vi honom rang 1 eftersom hans tid är lägst. Tvåan i hundrametersloppet får placering 2 och vi ger honom rang 2 Det finns dock en viktig skillnad, om tvåan och trean har exakt samma tid säger domaren att de delar andraplatsen. Vi säger att de får rangtalet 2,5 dvs medelvärdet mellan 2 och 3. 12

Analys av ordinaldata - Teckentest Teckentest baseras på skillnaden mellan två relaterade observationer. Exempelvis samma person före och efter en behandling. H 0 : Antalet personer som har högst värde på första variabeln är lika högt som antalet som har högst värde på andra variabeln. H 1 : Antalet personer har högst värde på första variabeln avviker från de som har högst värde på andra variabeln. H 0 : 0,5 H 1 : 0,5 Där andelen som har högst värde på första variabeln. Binomialfördelningen är teststatistika för små urval och standardiserade normalfördelningen, z, för stora urval. Normal Approximation to the Binomial - Example Binomial distribution solution: Analys av ordinaldata - Teckentest Testets utförande Sätt ett tecken på varje par av observationer, + - eller = Räkna antalet användbara par, (alla + och men ta bort observationerna med =.) Jämför antalet + eller - med kritiskt värde från binomialfördelningen (om 10) eller beräkna z värde (om >10). P(X 60) = 0.063+0.048+ + 0.001) = 0.197 Vi fokuserar på urvalsstorlekar på 10 eller mer. Därmed kan vi använda z. Teckentest med användande av normalfördelningen. Om urvalsstorleken är större än 10 kan vi använda normalfördelningen. Samuelsons Chemicals vill utvärdera ett träningsprogram för databasanvändning. Ett urval av chefer får prova träningsprogrammet. Deras färdigheter i databasanvändning betygssätt både före och efter träningsprogrammet. Där X är antalet plus (eller minus), µ är medelvärdet och σ standardavvikelsen för en binomialfördelning med π = 0,5. Dvs 0.5 och 0.5 Teckentest ±... Där X är antalet plustecken eller minustecken i urvalet. (Använd plus om X är mindre än 50 % av urvalsstorleken, annars minus) 13

Utför ett hypotestest för att se om träningsprogrammet förbättrade färdigheterna i databashantering. Använd 10 procent signifikansnivå. Steg 1: Formulera hypoteserna: H 0 : π 0,5 (Ingen förbättring har skett till följd av programmet.) H 1 : π > 0,5 (Programmet har gett en förbättring.) Steg 2: Välj signifikansnivå: Här ska vi ha 0,10 Steg 3: Välj teststatistika: Z beräknad med formeln för teckentest. Steg 4: Formulera en beslutsregel Förkasta H 0 om p värdet är mindre än 0,10 Alternativt om z > 1,282 Steg 5: Beräkna teststatistikan:... =1,87 Vi kan förkasta H 0 eftersom z överstiger det kritiska värdet. Men vi kan också beräkna p värdet.... =1,87 Steg 5: Beräkna teststatistikan:... =1,87 Vi kan förkasta H 0 eftersom z överstiger det kritiska värdet. Men vi kan också beräkna p värdet. p-värde = 0,5 0,4693 = 0,0307 Signifikant på 0,10 procents signifikansnivå eftersom p-värdet är mindre än 10 %. (Skulle varit signifikant även om vi valt 5% signifikansnivå) 14

Exampel 2 Avdelningen för marknadsundersökningar på Cola, Inc., ska undersöka preferenserna för två nyutvecklade läskedrycker A och B. Ett urval av 64 testpersoner fick provsmaka och säga vilken de tyckte var godast. 42 föredrog A medan 22 föredrog B. Använd en 5 procents signifikansnivå för att se om det finns en skillnad i preferenserna för de två smakerna. Steg 1: Formulera hypoteserna: 0 : = 0,5 (Lika många föredrar A som föredrar B). 1 : 0,5 (Den ena varianten är mer populär). Steg 2: Välj signifikansnivå: Här ska vi ha 0,05 Steg 3: Välj teststatistika: ±... Steg 4: Formulera en beslutsregel: Förkasta nollhypotesen om z större än 1,96 eller mindre än 1,96 Steg 5: Beräkna testatistikans värde... = 2,38 Vi förkastar H 0 eftersom 2,38 är större än 1,96 Den ena varianten är populärare. Exercise 29 12 gillade Surgeon 7 gillade Critical Care 1 indifferent Signifikansnivå 10 % 12 0.5 0.5 19 0.5 19 2 2.18 =0.918 Formulera Hypoteserna. H 0 : π =.50 Båda är lika populära. H 1 : π.50 Det finns en preferens för den ena. ±... Exercise 29 12 gillade Surgeon 7 gillade Critical Care 1 indifferent Signifikansnivå 10 % 12 0.5 0.5 19 0.5 19 2 2.18 =0.918 Exercise 29 12 gillade Surgeon 7 gillade Critical Care 1 indifferent Signifikansnivå 10 % 7+0.5 0.5 19 0.5 19 2 2.18 = 0.918 Formulera Hypoteserna. H 0 : π =.50 Båda är lika populära. H 1 : π.50 Det finns en preferens för den ena. Formulera Hypoteserna. H 0 : π =.50 Båda är lika populära. H 1 : π.50 Det finns en preferens för den ena. ±... Vi kan inte förkasta nollhypotesen eftersom 0,918 är mindre än 1,645 ±... Vi kan inte förkasta nollhypotesen eftersom -0,918 är större än -1,645 15

Analys av ordinaldata Wilcoxon teckenrangtest för beroende urval (Signed-Rank Test for dependent samples) En forskare vill undersöka om det går att lindra huvudvärk med hjälp av en ny behandling. Han drar ett slumpmässigt urval av 11 patienter som har sökt för problem med återkommande huvudvärk. Patienterna får ange sina huvudvärksproblem på en skala mellan 1 och 10, där 10 är stora problem och 1 små problem, före respektive efter en tioveckors behandling med den nya metoden. Gör en hypotestest för att se om vi kan bevisa att behandlingen har effekt på huvudvärk. Använd 5 % signifikansnivå. : Behandlingen har ingen effekt på huvudvärk. : Huvudvärken antingen förbättras eller försämras av behandlingen. före efter Diff Absolut diff Rank R+ R- 8 5 5 5 3 2 6 4 4 5 2 3 5 2 4 3 3 3 2 3 8 3 Summa Först noterar vi poängen för de olika personerna före och efter behandlingen. före efter Diff Absolut diff Rank R+ R- 8 5 3 5 5 0 - - - - 3 2 1 6 4 2 4 5-1 2 3-1 5 2 3 4 3 1 3 3 0 - - - - 2 3-1 8 3 5 Summa Därefter beräknas differensen. De som är indifferenta tas bort från analysen. före efter Diff Absolut diff Rank R+ R- 8 5 3 3 5 5 0 - - - - 3 2 1 1 6 4 2 2 4 5-1 1 2 3-1 1 5 2 3 3 4 3 1 1 3 3 0 - - - - 2 3-1 1 8 3 5 5 Summa Gör en kolumn med de absoluta differenserna före efter Diff Absolut diff Rank R+ R- 8 5 3 3 7,5 5 5 0 - - - - 3 2 1 1 3 6 4 2 2 6 4 5-1 1 3 2 3-1 1 3 5 2 3 3 7,5 4 3 1 1 3 3 3 0 - - - - 2 3-1 1 3 8 3 5 5 9 Summa Rangordna de absoluta differenserna före efter Diff Absolut diff Rank R+ R- 8 5 3 3 7,5 7,5 5 5 0 - - - - 3 2 1 1 3 3 6 4 2 2 6 6 4 5-1 1 3 3 2 3-1 1 3 3 5 2 3 3 7,5 7,5 4 3 1 1 3 3 3 3 0 - - - - 2 3-1 1 3 3 8 3 5 5 9 9 Summa 36 9 Placera Rangtalen i två olika kolumner, en för de personer som angett förbättring, än för de som angett försämring. 16

Teststatistikan i ett dubbelsidigt Wilcoxons teckenrangtest är rangsumman i den kolumn som hade lägst rangsumma. Kritiskt värde erhålls från Wilcoxons T-values Nollhypotesen förkastas om den lägsta ranksumman är lägre än det kritiska värdet. Teststatistikan i ett dubbelsidigt Wilcoxons teckenrangtest är rangsumman i den kolumn som hade lägst rangsumma. Kritiskt värde erhålls från Wilcoxons T-values Nollhypotesen förkastas om den lägsta ranksumman är lägre än det kritiska värdet. I vårt exempel är alltså teststatistikan = 9. Eftersom 9 är större än 5 kan vi inte förkasta nollhypotesen. Därmed kan vi inte dra några slutsatser. Wilcoxon teckenrangtest i R Commander Paired Wilcoxon test Välj de variabler vi ska jämföra, i detta fall before and after. 17

Vi kan se att 6 av 9 personer upplevde en förbättring Vi kan se att 6 av 9 personer upplevde en förbättring före efter Diff Absolut diff Rank R+ R- 8 5 3 3 7,5 7,5 5 5 0 - - - - 3 2 1 1 3 3 6 4 2 2 6 6 4 5-1 1 3 3 2 3-1 1 3 3 5 2 3 3 7,5 7,5 4 3 1 1 3 3 3 3 0 - - - - 2 3-1 1 3 3 8 3 5 5 9 9 Summa 36 9 ±... 6 0.5 0.5 9 0.5 9 6 0.5 4.5 0.5 3 1 1.5 =0,67 5 % signifikansnivå ger kritiskt värde 1,96 Vi kan inte förkasta H 0 så vi drar inga slutsatser. Jämförelse med t-test från beroende urval: Man skulle kunna tycka att vi även kunde ha använt t-test från beroende urval: Hypotestest från två beroende urval Där är medelvärdet av differenserna mellan två observationer på samma element och är differensernas standardavvikelse Men det testen kräver intervallskala och normalfördelning. I det här fallet hade vi endast ordinalskala och kan därför inte använda det vanliga t-testet. Låt oss använda Wilcoxon teckenrangtest på exemplet husvärdering från sidan 365 i Lind (393 i upplaga 15). H 0 : Båda firmorna gör likartad värdering H 1 : Värderingarna skiljer sig åt Schadek Bowyer Diff Absolut diff Rank R+ R- 235 228 7 7 8 8 210 205 5 5 5,5 5,5 231 219 12 12 10 10 242 240 2 2 1 1 205 198 7 7 8 8 230 223 7 7 8 8 231 227 4 4 3,5 3,5 210 215-5 5 5,5 5,5 225 222 3 3 2 2 249 245 4 4 3,5 3,5 Summa 45 5,5 18

Kritiskt värde 5% signifikans: 8 Kritiskt värde 1% signifikans: 3 Värdet på teststatistikan var 5.5 På 5 % signifikansnivå kan vi förkasta nollhypotesen. På 1 % signifikansnivå kan vi inte förkasta nollhypotesen. P-värde ca 0.02 Enligt läroboken ger t-test i detta exempel p-värde 0,009. Man kan använda metoder för ordinalskala även på kvotskala men det är ofta ett sämre alternativ. Om det var bättre eller sämre i det här fallet beror på vilket beslut som är rätt, vilket vi inte kan veta eftersom vi inte vet hela populationen. Jämförelse av t-test, teckenrangtest och teckentest när vi har beroende urval. -test från beroende urval är ett starkare test än Wilcoxon teckenrangtest vilket i sin tur är starkare än det vanliga teckentestet. Om vi har intervall eller kvotskala använder vi därför -test från beroende urval. Om vi har ordinalskala, dvs om vi inte kan mäta exakta avstånd mellan värden, men kan rangordna avstånden, använder vi Wilcoxons teckenrangtest. (Vi kan använda Wilcoxon även på intervall och kvotskala om vi tror att populationerna inte är normalfördelade och vårt urval är väldigt litet.) Om vi inte ens kan rangordna intervallen, vi vet bara om ena alternativet är bättre eller sämre än det andra, inget om hur mycket bättre, är teckentest vårt enda alternativ. Jämförelser av två oberoende urval vid ordinaldata: Wilcoxon rangsummetest för oberoende urval (kallas two samples Wilcoxon test i R Commander) (kallas Mann/Whitney i SPSS) När vi testade medelvärden från två olika populationer med hjälp av t-test, var det ett krav att variabeln var mätt på kvotskala. Om variabeln är mätt på ordinalskala kan vi inte använda det testet, ett alternativ är då att använda Wilcoxons rangsummetest. Låt oss ta ett exempel från en enkätundersökning om elbesparing. I en enkätundersökning om elbesparing ställdes bl a följande frågor Hur stor var den uppskattade elförbrukningen för hushållet under år 2009? Här fick man välja mellan ett antal olika förbrukningsmängder men kunde också kryssa i vet ej. Jag har vidtagit följande energibesparande åtgärder. Jag använder alltid lågenergilampor Rangordna från 1 till 7 där Inte alls (1) Alltid (7) Hypoteser: H 0 : De som känner till sin elförbrukning använder lågenergilampor i lika stor utsträckning som de som inte känner till sin elförbrukning. H 1 : De som känner till sin elförbrukning använder lågenergilampor i större eller mindre utsträckning än de som inte känner till sin elförbrukning. Är det så att de som vet hur mycket el de förbrukar använder lågenergilampor i större utsträckning? Om man är intresserad av energibesparing borde man veta hur mycket el man gör åt och man borde använda lågenergilampor 19

Vet sin elförbrukning Vet ej sin elförbrukning lågenergi RANG lågenergi RANG 1 1 2 1 2 2 3 2 3 2 3 2 4 3 4 3 4 3 5 4 5 5 5 5 6 6 6 7 7 7 7 7 7 Vet sin elförbrukning Vet ej sin elförbrukning lågenergi RANG lågenergi RANG 1 2 1 2 2 1 2 2 2 3 2 3 2 3 2 4 3 4 3 4 3 5 4 5 5 5 5 6 6 6 7 7 7 7 7 7 Det finns 3 stycken ettor, dessa ska få rangtalen 1, 2 och 3 men eftersom vi inte kan skilja dem åt får de tvåor alla tre. Vet sin elförbrukning Vet ej sin elförbrukning lågenergi RANG lågenergi RANG 1 2 1 2 2 6,5 1 2 2 6,5 2 6,5 3 12,5 2 6,5 3 12,5 2 6,5 3 12,5 2 6,5 4 17,5 3 12,5 4 17,5 3 12,5 4 17,5 3 12,5 5 22 4 17,5 5 22 5 22 5 22 5 22 6 26 6 26 6 26 7 30,5 7 30,5 7 30,5 7 30,5 7 30,5 7 30,5 summa 314,5 Summa 246,5 Vi betecknar rangsumman med W Vi kan beräkna ett z värde med hjälp av följande formel:, = =,, =,, =1,19 Vad händer om vi tar den andra gruppens rangsumma?, = =,, =,, = 1,19 Vid dubbelsidig test spelar det ingen roll vilken rangsumma vi tar. Vid enkelsidig test ska vi ta rangsumman för den grupp som har störst värde enligt alternativhypotesen. Wilcoxon rangsummetest i RCommander Välj Nonparametric tests / Two-sample Wilcoxon test i Statistics menyn Användning av lågenergilampor Vet sin elförbrukning 20

Wilcoxon rangsummetest i RCommander Välj Nonparametric tests / Two-sample Wilcoxon test i Statistics menyn Jämförelser av flera oberoende urval vid ordinaldata: Kruskal Wallis test, Analysis av variances by ranksg När vi testade medelvärden från flera olika populationer med hjälp av ANOVA-test, var det ett krav att variabeln var mätt på kvotskala. Om variabeln är mätt på ordinalskala kan vi inte använda det testet, ett alternativ är då att använda Kruska Wallis test. Låt oss ta ett exempel från samma enkätundersökning om elbesparing men nu använder vi alla svaren från de som visste sin elförbrukning och delar in dem i tre grupper, låg medel och hög elförbrukning. H 0 : De 3 grupperna använder lågenergilampor i lika stor utsträckning. H 1 : Minst 1 grupp avviker i användningen av lågenergilampor. Kruskal Wallis test i RCommander Välj Nonparametric tests / Kruska Wallis test i Statistics menyn F_5A I vilken utsträckning använder du lågenergilampor? F_6tre Elförbrukning F_5A I vilken utsträckning använder du lågenergilampor? F_6tre Elförbrukning Eftersom p värdet är större än 0,05 kan vi inte förkasta nollhypotesen, de tre fördelningarna kan vara lika. Kruskal Wallis test i RCommander Välj Nonparametric tests / Kruska Wallis test i Statistics menyn Vi kan dela in grupperna efter sysselsättning istället. F_5A I vilken utsträckning använder du lågenergilampor? F_12tre Sysselsättning 21

Kruskal Wallis test i RCommander Välj Nonparametric tests / Kruska Wallis test i Statistics menyn Vi kan testa frågan om att släcka lampor istället. F_5B I vilken utsträckning släcker du alla lampor i rum där ingen är? F_12tre Sysselsättning Att jämföra oberoende urval/populationer Nominalskala Ordinalskala Kvotskala 2 populationer Hypotestest på andelar från två populationer, Chi 2 Wilcoxon rangsummetest Hypotesttest på medelvärde från två populationer Flera populationer Chi 2 i korstabell Kruska Wallis ANOVA testet I en enkätundersökning om elbesparing ställdes bl a följande frågor Jag har vidtagit följande energibesparande åtgärder. 5a) Jag använder alltid lågenergilampor Rangordna från 1 till 7 där Inte alls (1) Alltid (7) Wilcoxon teckenrangtest i RCommander Välj Nonparametric tests / Paired-samples Wilcoxon test i Statistics menyn 5b) Släcker alla lampor i rum där ingen är Rangordna från 1 till 7 där Inte alls (1) Alltid (7) Är de svarande mer eller mindre benägna att använda lågenergilampor, än att släcka lampor när de lämnar rummet? Nu har vi ett urval där vi för varje person har svar på båda frågorna, vi har beroende urval. Vi kan använda teckentest eller wilcoxons teckenrangtest. H 0 : svenska energikonsumenter är lika benägna att använda lågenergilampor som att släcka lampor för att spara energi. H 1 : Svenska energikonsumenter använder i större utsträckning den ena metoden för att spara energi. 22

Enligt Wilcoxons teckenrangtest kan vi förkasta nollhypotesen om att metoderna används i samma utsträckning. Men vilken metod att spara energi är vanligast? Median difference ger ingen ledning. F_5B har högst medelvärde även om medianerna är lika Respondenterna har svarat med högre värden på att släcka lampor än att använda lågenergilampor. ±... 79 0.5 0.5 148 0.5 148 79 0.5 74 0.5 12,16 4,5 6,08 =0,74 79 personer hade högre siffra på släcka lampor, 69 på lågenergilampor. Teckentesten kan inte förkasta nollhypotesen. Teckentesten använder ju inte styrkan i skillnaderna. De som släcker lampor i högre utsträckning har förmodligen större skillnad mellan sina svar i det här fallet. 23