Föreläsning 8 Statistiska metoder 1
Dagens föreläsning o Chi-två-test Analys av enkla frekvenstabeller Analys av korstabeller (tvåvägs-tabeller) Problem med detta test o Fishers exakta test 2
Analys av enkla frekvenstabeller Introduktion med hjälp av exempel I en undersökning med totalt 180 slumpmässigt utvalda personer så frågades vilken matbutik de utvalda handlar på i störst utsträckning. Svaren fick följande fördelning. Matbutik Antal svarande ICA 68 Coop 56 Willys 20 Hemköp 36 3
Analys av enkla frekvenstabeller Introduktion Med hjälp av ett chi-två-test kan frekvenstabeller analyseras djupare. T.ex. kan det undersökas om det finns ett mönster i hur undersökningsdeltagarna har svarat, eller om det kan anses vara slumpmässigt. Chi-två-test är en variant av hypotesprövning, med ett ytterligare steg. 1. Formulera hypoteser 2. Bestäm signifikansnivå 3. Beräkna förväntade frekvenser 4. Beräkna testvariabel 5. Undersök om nollhypotesen kan förkastas eller inte 4
Analys av enkla frekvenstabeller Formulera hypoteser Vid ett chi-två-test så uttryck hypoteserna i ord och inte med hjälp av beteckningar som vi har gjort tidigare. Hypoteserna kan uttryckas olika beroende på vad som undersöks, men grundtanken är att nollhypotesen (H 0 ) ska vara att det t.ex. inte finns ett mönster, att det är slumpmässigt eller liknande. Mothypotesen (H 1 ) säger att det finns ett mönster, att det inte är slumpmässigt etc. 5
Analys av enkla frekvenstabeller Beräkna förväntade frekvenser Efter att hypoteserna har formulerats beräknas de förväntade frekvenserna (E). Dessa förväntade frekvenser är antalet svarande på de olika alternativen, givet att H 0 är sann. Allmänt kan de förväntade frekvenserna uttryckas på följande sätt: E = 1 k n Där k är antalet svarsalternativ (kategorier) och n är antalet i undersökningen. 6
Analys av enkla frekvenstabeller Testvariabel När de förväntade frekvenserna har räknats fram kan testvariabeln beräknas. 2 χ obs = O E 2 E Denna testvariabel jämförs med ett kritiskt värde ur chi-tvåfördelningen (tabell 4). Det kritiska värdet har k 1 frihetsgrader, där k är antalet svarsalternativ (kategorier). H 0 förkastas när testvariabeln är större än det kritiska värdet. 7
Analys av enkla frekvenstabeller Exempel Vi återgår till undersökningen gällande matbutiker. Utred om det finns något mönster i vilken butik kunderna väljer, eller om man kan anse att de väljer butik slumpmässigt. Matbutik Antal svarande ICA 68 Coop 56 Willys 20 Hemköp 36 Totalt 180 8
Analys av korstabeller Introduktion I en korstabell så visas (oftast) två variabler samtidigt. Med hjälp av ett chi-två-test så kan man utreda om det finns något samband eller beroende mellan dessa två variabler. Antag att man i matbutiksundersökningen delade upp de svarande i åldersgrupper (yngre och äldre). Matbutik Åldersgrupp Yngre Äldre ICA 28 40 Coop 21 35 Willys 12 8 Hemköp 24 12 Totalt 85 95 9
Analys av korstabeller Formulera hypoteser Chi-två-test för en korstabell utförs på samma sätt som chi-två-test för en enkel frekvenstabell. Hypoteserna formuleras dock lite annorlunda. Grundtanken är att H 0 säger att det inte finns något samband eller beroende mellan de två variablerna. Mothypotesen H 1 säger då motsatsen, att det finns ett samband/beroende. Så hypoteserna kan exempelvis formuleras enligt: H 0 : Det finns inget samband mellan X och Y H 1 : Det finns ett samband mellan X och Y 10
Analys av korstabeller Förväntade frekvenser, testvariabel Även här beräknas förväntade frekvenser (E), vilket är antalet som bör vara i de olika cellerna givet att H 0 är sann. Dessa beräknas enligt: E = radsumma kolumnsumma totala antalet Dessa används för att beräkna testvariabeln: 2 χ obs = O E 2 Testvariabeln jämförs med kritiskt värde från chi-två-fördelningen. Detta kritiska värde har (r 1)(k 1) frihetsgrader, där r är antalet rader och k är antalet kolumner. H 0 förkastas om testvariabeln är större än det kritiska värdet. E 11
Analys av korstabeller Exempel Undersök om det finns ett beroende mellan matbutik och åldersgrupp med hjälp av ett chi-två-test. Matbutik Åldersgrupp Yngre Äldre ICA 28 40 Coop 21 35 Willys 12 8 Hemköp 24 12 Totalt 85 95 12
Chi-två-test Problem med detta test För att kunna genomföra ett chi-två-test ska dessa två förutsättningar vara uppfyllda: o Max 20 % av de förväntade frekvenserna får vara mindre än 5 o Ingen förväntad frekvens får vara mindre än 1 Om dessa förutsättningar inte uppfylls så ska man inte genomföra ett chi-två-test. För att komma runt detta problem kan man ibland använda sig av logisk sammanslagning. Det innebär att man, om möjligt, slår ihop två eller fler kategorier till en kategori. 13
Chi-två-test Logisk sammanslagning, exempel Vid en undersökning så fick de tillfrågade betygssätta en viss variabel på en skala 1-5. De tillfrågade delades upp på variabeln kön. 1 2 3 4 5 Kvinnor 1 7 30 6 7 Män 4 9 41 4 2 1-2 3 4-5 Kvinnor 8 30 13 Män 13 41 6 14
Fishers exakta test Om det inte är möjligt att använda sig av logisk sammanslagning kan man använda sig av Fishers exakta test. I kursboken finns exempel på hur beräkningar för detta test görs vid en korstabell med fyra celler (två rader, två kolumner). Det går även att tillämpa detta på större korstabeller, men det är väldigt tunga beräkningar och vi överlåter till datorerna att göra detta. 15
Tack för idag! Nästa tillfälle: Laboration 4, onsdag 13/3 10-12, PC1-2 16