DATORÖVNING 3: MER OM STATISTISK INFERENS. START Logga in och starta Minitab. Se till att du kan skriva Minitab-kommandon direkt i Session-fönstret (se föregående datorövning). CENTRALA GRÄNSVÄRDESSATSEN Enligt Centrala gränsvärdessatsen (CGS) skall en summa av slumpvariabler bli ungefär normalfördelad om antalet variabler i summan är tillräckligt stort. Vidare gäller att dessa variabler skall vara av samma sort, man brukar säga likafördelade, och inte bero av varandra. Det enklaste exemplet på detta är att man gjort ett urval om n observationer. Var och en av dessa är som regel oberoende tagna. Detta gäller om populationen är oändligt stor eller åtminstone mycket stor. Varje enskild observation är ju när den skall göras ett oskrivet kort och detta brukar modelleras med att det värde man får är en observation av en slumpvariabel, som gäller enbart just för denna observation. Antag t ex att vi skall göra ett urval av n personer bosatta i Sverige och undersöka hur många syskon de har. För varje utvald person är antalet syskon en slumpvariabel och det innebär att vi har totalt n slumpvariabler i vårt urval. Innan vi har frågat respektive person om antalet syskon vet vi ju inte hur många de är och det gör denna storhet till en slumpvariabel. Om vi nu vill göra en bedömning av det totala antalet angivna syskon i vårt urval kan vi skriva detta som där X 1, X 2,,X n är antalet syskon hos var och en av de n personerna. Denna summa är nu enligt CGS ungefär normalfördelad med väntevärde n och standardavvikelse n där och är medeltal och standardavvikelse för antalet syskon i hela populationen, dvs bland antalet bosatta i Sverige, om n är tillräckligt stor. (Vi bryr oss i detta fall inte om det faktum att två eller flera personer i populationen kan vara syskon och därmed ha lika många syskon, vilket egentligen komplicerar det hela men kan bedömas vara ett mindre problem eftersom populationen är så stor.) Vidare gäller att urvalsmedeltalet av antalet syskon, dvs X 1 n n X i i 1 blir ungefär normalfördelad med väntevärde och standardavvikelse. Man kan (och ska) naturligtvis lita på dessa resultat, eftersom det handlar om ganska lång tids forskning och matematiskt ovedersägliga resultat, men det är ändå nyttigt att empiriskt studera hur bra denna approximation är och vad ett stort n kan vara. 1
Börja med att mata in värdena 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 och 10 i kolumn C1 i Minitab. Antag att detta är det antal syskon som kan förekomma i en viss population, dvs ingen i populationen har fler än 10 syskon, och det finns de som inte har några syskon alls. Antag vidare att följande proportioner gäller: Antal syskon Frekvens i populationen 0 16% 1 35% 2 29% 3 10% 4 6% 5 2% 6 0,5% 7 0,5% 8 0,4% 9 0,4% 10 0,2% Med hjälp av denna frekvenstabell, räkna för hand ut medeltalet,, och standardavvikelsen,, i populationen av antalet syskon. Notera dessa värden. Lägg nu proportionerna som decimaltal i kolumnen C2, dvs. mata in värdena 0,16, 0,35 etc. i C2. Antag nu att vi skall göra ett urval om 10 personer från populationen och bestämma hur många syskon var och en av dessa har. Via slumpvariabelbegreppet kan detta utföras genom att slumpmässigt generera 10 observationer från den slumpvariabel som antar värdena i C1 med sannolikheter motsvarande värdena i C2. Praktiskt kan vi göra detta med kommandot random enligt följande: MTB > random 10 c3; SUBC> discrete c1 c2. Kommandot innebär att vi slumpar 10 observationer från kolumnen C1 och lägger dessa i C3 och att slumpningen görs så att varje värde dras med en sannolikhet som motsvarar värdet i C2. Ni bör därför få observationer i C3 som till större delen är något av värdena 0, 1, 2, 3 och 4, eftersom dessa värden har betydligt högre sannolikheter än de övriga (motsvarar högre frekvenser i populationen). 2
Beräkna sedan medelvärdet av värdena i C3 och lagra detta i första raden av C4 med följande kommando: MTB > let c4(1)=mean(c3) Stämmer detta medelvärde någorlunda överens med medeltalet i populationen? Borde det göra det? För att se hur väl CGS stämmer måste vi på något sätt uppskatta samplingfördelningen hos detta urvalsmedeltal och då krävs att vi upprepar urvalsförfarandet ett stort antal gånger. Kunde vi till exempel skapa 10000 urval av detta slag borde motsvarande urvalsmedeltal ge en hyfsad bild över hur ett urvalsmedeltal kan variera. Nu är det ganska arbetskrävande att upprepa ovanstående 10000 gånger varför det åter är dags för ett makro. Öppna Notepad (Start All programs Accessories Notepad) och skriv in följande rader: gmacro syskon_cgs do k20=1:10000 let c5(1)=k20 random 10 c3; discrete c1 c2. let c4(k20)=mean(c3) enddo endmacro Studera raderna i detta makro och försök förstå dem. Vad gör till exempel raden let c5(1)=k20? Var framgår det att det är 10000 urval som skall göras? Var beräknas medeltalet? I vilken kolumn sparar vi de 10000 medeltalen? Spara makrot (välj Save as type: All files ) med namnet syskon_cgs.mac på din hemarea (Z:\). Se till att Minitabs arbetsmapp är din hemarea genom att ge kommandot cd z: (detta behöver du bara göra en gång under en och samma Minitab-session). Kör nu makrot med kommandot %syskon_cgs. Det tar en liten stund för Minitab att göra alla 10000 urval. När makrot är klart ska du ha 10000 medeltal i C4. Gör ett histogram över dessa. Ser histogrammet ut att motsvara en normalfördelning? Beräkna vidare medelvärdet och standardavvikelsen av värdena i C4 med hjälp av kommandona mean och stdev. Verkar medelvärdet överensstämma någorlunda med populationsmedeltalet? Verkar standardavvikelsen överensstämma någorlunda med 10 3? Teorin säger ju att dessa överensstämmelser skall finnas, och detta gäller oavsett om populationen är normalfördelad eller ej.
Redigera makrot så att du i tur och ordning får urvalsstorlekarna a) 30 observationer b) 50 observationer c) 100 observationer Kör makrot för varje fall och jämför fördelningsform, medelvärde och standardavvikelse med motsvarande värden i den teoretiska normalfördelningen. Försök säga något om från och med vilken urvalsstorlek CGS verkar fungera. MATCHADE PAR, PARAT T-TEST Följande data beskriver mätningar av ett visst ämne upp- och nedströms om ett utsläpp. Tidpunkt Uppströms Nedströms 1 3,7 3,9 2 5,8 5,7 3 4,2 4,4 4 1,7 1,8 5 4,0 4,0 6 5,3 5,5 7 3,6 3,7 8 3,0 2,9 9 4,5 4,8 10 2,9 3,1 Vi vill avgöra om det finns en signifikant höjning av ämnet efter utsläppet. Mata in dessa data i Minitab så att mätvärdet uppströms hamnar i kolumn C2 och mätvärdet nedströms hamnar i kolumn C3. Välj Stat Basic statistics Paired t för att få fram följande dialogruta: 4
Välj C2 till fältet First sample och C3 till fältet Second sample. Klicka på Options så får du fram följande dialogruta. Confidence level kan stå som det står. Fundera över vad som skall stå i fälten Test mean respektive Alternative. Tänk på vilka differenser som bildas. Fyll i och klicka sedan på OK. Klicka gärna på Graphs för att se vilka grafer du kan få fram. Klicka slutligen på OK i huvudrutan. Du bör erhålla följande i Session-fönstret: MTB > Paired C2 C3; SUBC> Alternative -1. Paired T-Test and CI: C2; C3 Paired T for C2 - C3 N Mean StDev SE Mean C2 10 3,870 1,193 0,377 C3 10 3,980 1,197 0,379 Difference 10-0,1100 0,1370 0,0433 5
95% upper bound for mean difference: -0,0306 T-Test of mean difference = 0 (vs < 0): T-Value = -2,54 P-Value = 0,016 Vad kan du säga om höjningen av ämnet? JÄMFÖRELSER AV MEDELTAL I TVÅ OLIKA POPULATIONER Antag att vi har ett stickprov från var och en av två populationer och att vi vill jämföra medeltalen i dessa. Stickproven är: Stickprov 1 Stickprov 2 12,8 14,5 13,7 13,8 11,6 14,1 14,0 dvs. vi har ett stickprov med fyra observationer och ett med tre. Naturligtvis behöver vi inte ha tillgång till Minitab för att hantera så här små problem, men det blir snabbare hantering i denna övning och illustrationen fungerar lika bra. Mata in det första stickprovet i kolumn C4 och det andra i C5. Välj Stat Basic statistics 2- Sample t för att få upp följande dialogruta: Här kan man ha data lagrade på två sätt. Det ena (som är ganska vanligt i andra Minitabapplikationer) är att ha samtliga värden i en kolumn och en andra kolumn som för varje värde i den första anger vilket stickprov det kommer från. Detta kan med fördel användas vid 6
datainsamling då man för varje observation noterar värde och härkomst. Du ska dock använda den andra varianten här eftersom du har matat in de båda stickproven i var sin kolumn. Markera därför rutan Samples in different columns och välj C4 till fältet First och C5 till fältet Second. Klicka sedan i rutan Assume equal variances. Klicka på Options för att få upp följande ruta: Välj vad som ska utgöra nollhypotes i fältet Test difference. Det vanligaste är att välja defaultvärdet 0,0. Detta innebär att du testar nollhypotesen H 0: 1 = 2 1 2 = 0 I vissa situationer kanske du istället vill testa H 0: 1 2 = d 0 där d 0 är ett tal 0 och då anger du förstås detta värde i fältet Test difference. I detta exempel vill vi avgöra om medeltalen skiljer sig åt. Vi har inte gjort några antaganden om att en eventuell differens mellan medeltalen är åt något visst håll. Välj därför att låta det stå som det står ovan och klicka på OK (två gånger). Kan vi med detta test påvisa någon skillnad? Hur stort blir antalet frihetsgrader för testvariabeln? Hur har de bestämts? (När dialogrutan för detta test är öppen kan man klicka på Help. Det går där att få reda på hur frihetsgraderna har beräknats. Detta beskrivs under see also Methods and formulas) JÄMFÖRELSER AV PROPORTIONER I TVÅ OLIKA POPULATIONER Vi ska nu också jämföra proportioner. Vi utgår från följande exempel: I en kommun undersöks invånarnas inställning till bensinskattelagstiftningen. Man gör därvid ett OSU om 200 tätortsbor och ett OSU om 150 glesbygdsbor. Bland tätortsborna är 114 positiva till bensinskattelagstiftningen och bland glesbygdborna är det 59 positiva. Frågan är om vi med dessa data kan påvisa att andelen positiva skiljer sig mellan tätortsbor och glesbygdsbor. Välj Stat Basic statistics 2 Proportions för att erhålla följande dialogruta: 7
Det finns tre sätt att mata in data här. De första två motsvarar de sätt vi matade in data vid jämförelse av två medeltal. I dessa fall skall vi alltså mata in binära data, t.ex. ettor och nollor eller Ja och Nej eller Man och Kvinna etc. Det tredje sättet är att mata in summerade data i form av antal försök (antal element i ett urval), och antal lyckade försök, dvs. i vårt fall antal positiva bland de svarande. Detta görs förstås för vart och ett av urvalen. Välj det tredje alternativet och mata in ovanstående värden på lämpligt sätt. Klicka på Options så kommer följande dialogruta upp: Markera rutan Use pooled estimate of p for test. Låt resten stå som det står och klicka på OK (två gånger). Utskriften bör bli följande: MTB > PTwo 200 114 150 59; SUBC> Pooled. 8
Test and CI for Two Proportions Sample X N Sample p 1 114 200 0,570000 2 59 150 0,393333 Difference = p (1) - p (2) Estimate for difference: 0,176667 95% CI for difference: (0,0726534; 0,280680) Test for difference = 0 (vs not = 0): Z = 3,27 P-Value = 0,001 Fisher's exact test: P-Value = 0,001 Studera åter det kommando som genereras och följ upp det med help. Det är ganska uppenbart att proportionerna skiljer sig åt i detta exempel. Vi gör nu antagandet att den verkliga skillnaden mellan p 1 och p 2 är 0,1. Detta kan formuleras i en nollhypotes: H 0: p 1=p 2+0,1 p 1 p 2 =0,1 Vi nöjer oss med en dubbelsidig alternativhypotes. Välj åter Stat Basic statistics 2 Proportions Data i den första dialogrutan bör finnas kvar sedan tidigare. Klicka därför direkt på Options Ändra denna gång i fältet Test difference till värdet 0.1 eftersom det är detta värde som nollhypotesen anger. Kan H 0 förkastas? Blir konfidensintervallet detsamma som tidigare? Bör det bli det? 2-TEST Vi utnyttjar åter det exempel vi hade ovan (om bensinskattelagstiftningen). Mer detaljerat ser sammanställda data ut på följande sätt: Tätortsbor Glesbygdsbor Positiv 114 59 Negativ 55 61 Ingen åsikt 31 30 Använd de tomma kolumnerna C6 och C7 och mata in tabellen i dessa kolumner så att värdena 114, 55 och 31 hamnar i kolumn C6 och värdena 59 och 61 och 30 hamnar i kolumnen C7. Välj Stat Tables Chi-Square Test för att få upp följande dialogruta: 9
Här efterfrågas som vilka kolumner som innehåller den aktuella tabellen. Välj förstås C6 och C7 och klicka sedan på OK. Studera utskriften och notera det genererade kommandot som faktiskt blir ganska enkelt för ett sådant här test. Notera att du får beräknade förväntade frekvenser uträknade i tabellen. Notera även att beräkningen av den observerade χ 2 -summan redovisas term för term. Liksom i andra testapplikationer beräknas ett p-värde. Vad innebär detta p-värde här? Hur ser nollhypotesen ut? Färdiga tabeller kan alltså matas in i kolumner i Minitab och ett 2 -test av oberoende kan snabbt utföras. I andra situationer har vi snarare ett datamaterial vilket vi vill sammanställa i en tvåvägsindelad tabell, som sedan analyseras med 2 -test. Skapa därför ett datamaterial som innehåller informationen som sammanställts i korstabellen. Vi vill alltså ha två kolumner, en som talar om huruvida man är tätortsbo eller glesbygdsbo, och en som talar om vilken åsikt man har i frågan om bensinskattelagstiftningen. Välj nu Stat Tables Cross Tabulation and Chi-Square för att få upp följande dialogruta: 10
Som Categorical variables, välj kolumnen med information om åsikt om bensinskattelagstiftningen till fältet For rows och kolumnen med information om var man bor till fältet For columns. Klicka på rutan Chi-Square för att få upp följande dialogruta: Markera rutorna Chi-Square analysis, Expected cell counts och Each cell s contribution to the Chi-Square statistic. Avsluta med att klicka OK (två gånger). Jämför utskriften med den du fick tidigare då du körde Chi-square-applikationen direkt. Likheter och skillnader? För att ett 2 -test av detta slag ska vara giltigt krävs att alla förväntade frekvenser är 1 och att max 20% av dem är 5. Om så inte skulle vara fallet ges en varning i utskriften och om någon av de förväntade frekvenserna understiger 1 skrivs inget p-värde ut. En möjlig lösning på problemet är att slå samman en eller flera rader eller kolumner i tabellen. Man testar fortfarande ett oberoende, men med en mer sparsam kategorisering av svarsalternativen. 11
I ovanstående fall är testet giltigt, men skulle det inte ha varit det kan man t.ex. slå samman svarskategorierna Negativ och Ingen åsikt till en kategori. Avsluta alla program och logga ut från systemet. 12