DATORÖVNING 3: MER OM STATISTISK INFERENS. START Logga in och starta Minitab. STATISTISK INFERENS MED DATORNS HJÄLP Vi fortsätter att arbeta med datamaterialet från datorävning 2: HUS.xls. Som vi sett tidigare avser datamaterialet försäljning av bostadshus i en stad i USA år 2002, och man var främst intresserad av att se samband mellan försäljningspriserna och ett antal variabler som beskriver huset och dess omgivning. I filen ingår följande variabler i tur och ordning. 1. Löpnummer (identifikationsnummer) 2. Försäljningspris (dollar) 3. Bostadsyta (kvadratfot) 4. Antal sovrum 5. Antal badrum 6. Förekomst av luftkonditionering, 1 = luftkonditionering finns, 0 annars 7. Antal bilar som garaget är konstruerat för 8. Förekomst av pool, 1 = pool finns, 0 annars 9. Byggår 10. Byggkonstruktionens kvalitet, 1 = hög, 2 = medium, 3 = låg 11. Tomtstorlek (kvadratfot) I Minitab, under Basic Statistics, hittar du 1-Sample t, som kan användas för att testa hypoteser. Under förra datorövningen beräknade vi konfidensintervall här. UPPGIFT 1 a) Vi vill undersöka om det förväntade försäljningspriset kan vara 250 000 eller inte. Testet vill vi göra på signifikansnivån 1%. Använd 1-Sample t. Studera testresultatet som kommer ut. Hur tolkar du testvariabelns värde? b) Vi vill göra om testet med en enkelsidig mothypotes, nämligen att medelvärdet är större än 250 000. Genomför ett sådant test på signifikansnivån 1%, genom att göra lämplig justering under Options. Hur tolkar du testvariabelns värde? 1
UPPGIFT 2 Vi går nu över till att göra hypotesprövning för andelar. Vi är intresserade av förekomsten av pool och vill se om andelen hus med pool är mindre än 10%. Åter är det Basic Statistics som kan utnyttjas och under den 1 Proportion. Låt signifikansnivån vara 1%. Tolka resultaten som erhålls i utskriften. MATCHADE PAR, PARAT T-TEST Följande data beskriver mätningar av ett visst ämne upp- och nedströms om ett utsläpp. Tidpunkt Uppströms Nedströms 1 3,7 3,9 2 5,8 5,7 3 4,2 4,4 4 1,7 1,8 5 4,0 4,0 6 5,3 5,5 7 3,6 3,7 8 3,0 2,9 9 4,5 4,8 10 2,9 3,1 Vi vill avgöra om det finns en signifikant höjning av ämnet efter utsläppet. Mata in dessa data i Minitab så att mätvärdet uppströms hamnar i kolumn C2 och mätvärdet nedströms hamnar i kolumn C3. Välj Stat Basic statistics Paired t för att få fram följande dialogruta: 2
Välj C2 till fältet First sample och C3 till fältet Second sample. Klicka på Options så får du fram följande dialogruta. Confidence level kan stå som det står. Fundera över vad som skall stå i fälten Test mean respektive Alternative. Tänk på vilka differenser som bildas. Fyll i och klicka sedan på OK. Klicka gärna på Graphs för att se vilka grafer du kan få fram. Klicka slutligen på OK i huvudrutan. Du bör erhålla följande i Session-fönstret: MTB > Paired C2 C3; SUBC> Alternative -1. Paired T-Test and CI: C2; C3 Paired T for C2 - C3 N Mean StDev SE Mean C2 10 3,870 1,193 0,377 C3 10 3,980 1,197 0,379 Difference 10-0,1100 0,1370 0,0433 95% upper bound for mean difference: -0,0306 T-Test of mean difference = 0 (vs < 0): T-Value = -2,54 P-Value = 0,016 Vad kan du säga om höjningen av ämnet? JÄMFÖRELSER AV MEDELTAL I TVÅ OLIKA POPULATIONER Antag att vi har ett stickprov från var och en av två populationer och att vi vill jämföra medeltalen i dessa. Stickproven är: Stickprov 1 Stickprov 2 12,8 14,5 13,7 13,8 11,6 14,1 14,0 3
dvs. vi har ett stickprov med fyra observationer och ett med tre. Naturligtvis behöver vi inte ha tillgång till Minitab för att hantera så här små problem, men det blir snabbare hantering i denna övning och illustrationen fungerar lika bra. Mata in det första stickprovet i kolumn C4 och det andra i C5. Välj Stat Basic statistics 2- Sample t för att få upp följande dialogruta: Här kan man ha data lagrade på två sätt. Det ena (som är ganska vanligt i andra Minitabapplikationer) är att ha samtliga värden i en kolumn och en andra kolumn som för varje värde i den första anger vilket stickprov det kommer från. Detta kan med fördel användas vid datainsamling då man för varje observation noterar värde och härkomst. Du ska dock använda den andra varianten här eftersom du har matat in de båda stickproven i var sin kolumn. Markera därför rutan Samples in different columns och välj C4 till fältet First och C5 till fältet Second. Klicka sedan i rutan Assume equal variances. Klicka på Options för att få upp följande ruta: 4
Välj vad som ska utgöra nollhypotes i fältet Test difference. Det vanligaste är att välja defaultvärdet 0,0. Detta innebär att du testar nollhypotesen H 0: 1 = 2 1 2 = 0 I vissa situationer kanske du istället vill testa H 0: 1 2 = d 0 där d 0 är ett tal 0 och då anger du förstås detta värde i fältet Test difference. I detta exempel vill vi avgöra om medeltalen skiljer sig åt. Vi har inte gjort några antaganden om att en eventuell differens mellan medeltalen är åt något visst håll. Välj därför att låta det stå som det står ovan och klicka på OK (två gånger). Kan vi med detta test påvisa någon skillnad? JÄMFÖRELSER AV PROPORTIONER I TVÅ OLIKA POPULATIONER Vi ska nu också jämföra proportioner. Vi utgår från följande exempel: I en kommun undersöks invånarnas inställning till bensinskattelagstiftningen. Man gör därvid ett OSU om 200 tätortsbor och ett OSU om 150 glesbygdsbor. Bland tätortsborna är 114 positiva till bensinskattelagstiftningen och bland glesbygdborna är det 59 positiva. Frågan är om vi med dessa data kan påvisa att andelen positiva skiljer sig mellan tätortsbor och glesbygdsbor. Välj Stat Basic statistics 2 Proportions för att erhålla följande dialogruta: Det finns tre sätt att mata in data här. De första två motsvarar de sätt vi matade in data vid jämförelse av två medeltal. I dessa fall skall vi alltså mata in binära data, t.ex. ettor och nollor eller Ja och Nej eller Man och Kvinna etc. Det tredje sättet är att mata in summerade data i 5
form av antal försök (antal element i ett urval), och antal lyckade försök, dvs. i vårt fall antal positiva bland de svarande. Detta görs förstås för vart och ett av urvalen. Välj det tredje alternativet och mata in ovanstående värden på lämpligt sätt. Klicka på Options så kommer följande dialogruta upp: Markera rutan Use pooled estimate of p for test. Låt resten stå som det står och klicka på OK (två gånger). Utskriften bör bli följande: MTB > PTwo 200 114 150 59; SUBC> Pooled. Test and CI for Two Proportions Sample X N Sample p 1 114 200 0,570000 2 59 150 0,393333 Difference = p (1) - p (2) Estimate for difference: 0,176667 95% CI for difference: (0,0726534; 0,280680) Test for difference = 0 (vs not = 0): Z = 3,27 P-Value = 0,001 Fisher's exact test: P-Value = 0,001 Tolka utskriften. 6
2-TEST Vi utnyttjar åter det exempel vi hade ovan (om bensinskattelagstiftningen). Mer detaljerat ser sammanställda data ut på följande sätt: Tätortsbor Glesbygdsbor Positiv 114 59 Negativ 55 61 Ingen åsikt 31 30 Använd de tomma kolumnerna C6 och C7 och mata in tabellen i dessa kolumner så att värdena 114, 55 och 31 hamnar i kolumn C6 och värdena 59 och 61 och 30 hamnar i kolumnen C7. Välj Stat Tables Chi-Square Test för att få upp följande dialogruta: Här efterfrågas som vilka kolumner som innehåller den aktuella tabellen. Välj förstås C6 och C7 och klicka sedan på OK. Studera utskriften och tolka värdena. Vad blev resultatet av testet? Notera att du får beräknade förväntade frekvenser uträknade i tabellen. Notera även att beräkningen av den observerade χ 2 - summan redovisas term för term. Liksom i andra testapplikationer beräknas ett p-värde. Vad innebär detta p-värde här? Hur ser nollhypotesen ut? Färdiga tabeller kan alltså matas in i kolumner i Minitab och ett 2 -test av oberoende kan snabbt utföras. I andra situationer har vi snarare ett datamaterial vilket vi vill sammanställa i en tvåvägsindelad tabell, som sedan analyseras med 2 -test. 7
Nu ska du återigen använda datamaterialet hus cch testa om det finns något samband mellan att ha pool och att ha luftkonditionering. Välj nu Stat Tables Cross Tabulation and Chi-Square för att få upp följande dialogruta: Som Categorical variables, välj kolumnen med information om pool till fältet For rows och kolumnen med information om luftkonditionering till fältet For columns. Fundera över om det kan vara bra att under display välja exempelvis Column percents. Klicka på rutan Chi-Square för att få upp följande dialogruta: Markera rutorna Chi-Square analysis och Expected cell counts. Avsluta med att klicka OK (två gånger). Tolka utskriften. Hur ser hypoteserna ut? Vad är resultatet av testet? För att ett 2 -test av detta slag ska vara giltigt krävs att alla förväntade frekvenser är 1 och att max 20% av dem är 5. (Är de det i detta fall?) Om så inte skulle vara fallet ges en varning i utskriften och om någon av de förväntade frekvenserna understiger 1 skrivs inget p-värde ut. En 8
möjlig lösning på problemet är ibland att slå samman en eller flera rader eller kolumner i tabellen. Man testar fortfarande ett oberoende, men med en mer sparsam kategorisering av svarsalternativen. I detta fall har vi bara två alternativ för pool och två alternativ för luftkonditionering, så i detta fall kan vi inte slå ihop några kategorier. Avsluta alla program och logga ut från systemet. 9