STOCKHOLMS UNIVERSITET Statistiska institutionen VT 2009 Tatjana Pavlenko och Bertil Wegmann OBLIGATORISK INLÄMNINGSUPPGIFT STATISTISK TEORI, GK 10 och GK 20:2, heltid, VT 2009 Den obligatoriska inlämningsuppgiften, som består av två deluppgifter, skall utföras som ett grupparbete med 2-3 personer per arbetsgrupp. Inlämning av lösningar skall ske enligt: Del 1 tillsammans med förberedelsefrågor skall lämnas in senast vid övningstillfälle 4 (Ö4) och återlämnas vid övningstillfälle 5 (Ö5). (OBS Vid D2 lämnas datafiler till deluppgift 2 ut.) Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare. Lösningarna kan lämnas in antingen på Statistiska institutionen på plan 7 i B-huset (i svarta brevlådan framför hissarna), eller direkt till övningslärare. Inlämnat lösningshäfte skall ha ett försättsblad, som delas ut av övningslärarna, och som innehåller uppgift om kurs, grupp, lärare, deluppgiftens nummer och namn på personerna i arbetsgruppen. För godkänt resultat på uppgiften som helhet krävs att alla deluppgifter är nöjaktigt behandlade. Den som inte godkänns på hela inlämningsuppgiften under kursens gång kan inte tillgodoräkna sig eventuellt avklarade deluppgifter kommande terminer. 1
Obligatorisk uppgift, del 1: Samplingfördelning och Konfidensintervall. Förberedelsefrågor 1.1 Givet är ett stickprov x 1,...,x n från N(µ,σ 2 ) där µ och σ 2 är okända. a) Hur skattar man µ? b) Vilken fördelning har skattningen av µ? Hur påverkar stickprovsstorlek, n väntevärdesskat tningarna egenskaper, t ex fördelning av skattningen? c) Hur skattas σ? d) Hur bildas ett 95% konfidensintervall för µ? e) Hur påverkar stickprovsstorleken konfidensintervall? f) Antag att 2000 simulerade stickproven från N(µ,σ 2 ) används för att göra 2000 95% konfidensintervall för µ. Hur många intervall ska enligt teorin i genomsnitt missa µ? 1.2. Givet är ett stickprov från x 1,...,x n1 från N(µ 1,σ 2 ) och ett stickprov y 1,...,y n2 från N(µ 2,σ 2 ) där µ 1, µ 2 och σ 2 är okända. Hur kan du med hjälp av konfidensintervall undersöka om µ 1 och µ 2 skiljer sig åt? Laborationsuppgift Uppgiften går ut på att genom simulering illustrera innebörden av begreppen samplingfördelning och konfidensintervall. Med hjälp av SAS Enterprise Guide skall sammanlagt 200 stickprov om vardera 25 oberoende observationer dras från en normalfördelning med väntevärdet µ = 100 och standardavvikelsen σ = 5. För varje stickprov beräknas dels ett stickprovsmedelvärde, dels ett konfidensintervall för µ. De erhållna resultaten skall sedan kommenteras. Uppgiften redovisas i form av en kort rapport skriven i ordbehandlingsprogrammet Word. Gör följande: 1. Rita täthetsfunktionen f(x) för en normalfördelad slumpvariabel som har väntevärdet µ = 100 och standardavvikelsen σ = 5. OBS! Nästan hela normalfördelningen finns inom gränserna µ ± 3σ. Om du vill ha med en bit av normalfördelningens svansar kan du låta diagrammet visa f(x) värden för x i intervallet fr o m µ 4σ t o m µ + 4σ. Skriv in nedanstående kod för att erhålla kolumner x och y. data egtask.normalpdf; do x = 80 to 120 by 0.5; y = pdf( normal,x,100,5); output; 2
end; run; Döp om kolumn y till f(x) : Lås upp skrivskyddet (Data/Skrivskydd) och ändra genom att markera aktuell kolumn, högerklicka och välj egenskaper. Rita diagram över täthetsfunktionen: Diagram/Spridningsplott-Spridningsplott2D,-Uppgiftsrollerhorisontellt och vertikalt. Överför diagrammet till rapporten. 2. Generera 200 stickprov av storlek n = 25 från N(100, 5). Vi vill att varje stickprov skall utgöras av en kolumn i datamatrisen. De 200 stickproven skall alltså bli 200 kolumner och varje kolumn skall innehålla de 25 observerade värdena i resp. stickprov. Kan åstadkommas på följande sätt: Skriv in nedanstående kod för att generera slumptal från en normalfördelning. data egtask.normaldata; array normaltal(200); do i = 1 to 25; do j = 1 to 200; normaltal(j) = rand( normal,100,5); end; output; end; run; 3. Beräkna medelvärde och standardavvikelse för varje stickprov. Beskriv/Statistiköversikt-Uppgiftsroller-normaltal som analysvariabler -Statistik-Välj endast medelvärde och standardavvikelse -Resultat-Spara statistik i SAS-tabell-Välj namn Measures Skapa två rader med medelvärden respektive standardavvikelser genom att klippa och klistra och infoga rader. Transponera till kolumner: Data/Transponera-Uppgiftsroller-Välj normaltal som transponeringsvariabler,- Resultat-Spara fil som MeasuresTransposed Döp om de nya kolumnerna till Medelvärde respektive Standardavvikelse. 3
4. Gör ett histogram som visar de 200 stickprovsmedelvärdenas fördelning. Skriv in nedanstående kod för att bilda histogrammet. proc univariate data=egtask.measurestransposed; var Medelvärde; histogram; run; Alternativt, skapa histogram med menysystemet: Analysera/Kapabilitetsanalys/Histogram-Uppgiftsroller-Välj Medelvärde som analysvariabel -Fördelningar-Översikt-Välj Normal. 5. Beräkna för varje stickprov ett 95 % konfidensintervall för µ. Vid beräkning av konfidensintervall antas att σ 2 är okänt. Konfidensintervallets gränser beräknas alltså såsom x ± t s n där lämpligt t-värde hämtas från tabell över t-fördelningen. Lägg för varje stickprov in konfidensintervallets undre och övre gräns i tabell. Kan göras på följande sätt: Data-Filter och fråga, Frågenamn: Konfidensintervall, Output-namn: Konfidensintervall -Beräknade kolumner-ny-skapa uttryck-skriv in uttrycket för den undre konfidensgränsen. Ändra namn från Calculation1 till Undre Konfidensgräns. På samma sätt för den övre konfidensgränsen. 6. Ta reda på hur många av de 200 konfidensintervallen som innehåller det sanna värdet på µ. Vi kan låta SAS göra detta. Skapa först en indikatorvariabel som för varje stickprov anger om konfidensintervallet innehåller µ eller ej (Värdet 1 skall alltså betyda att konfidensintervallet innehåller µ, och värdet 0 skall betyda att konfidensintervallet inte innehåller µ.) Gör följande: Data-Filter och fråga, Frågenamn: Indikatorer för konfidensintervall, Output-namn: Indikatorer -Beräknade kolumner-ny-skapa uttryck-undre Konfidensgräns <= 100 AND Övre Konfidensgräns >= 100. Ändra namn från Calculation1 till Indikatorvärden. 4
Data-Filter och fråga-beräknade kolumner-ny-skapa uttryck -sum(indikatorvärden),-mean(indikatorvärden). 7. Skriv färdig rapporten. Rapporten skall vara på högst tre sidor. Den skall innehålla: a) Ett diagram över den normalfördelning som stickproven dragits från. b) Ett histogram som visar de erhållna stickprovsmedelvärdenas fördelning. c) Kommentar till detta histogram. Vad skulle man ha väntat sig? Blev resultatet som väntat? d) De erhållna konfidensintervallens täckningsgrad. Kommentar till detta. Vad skulle man ha väntat sig? Blev resultatet som väntat? Diagrammen i rapporten skall ha begripliga rubriker och sorter på axlarna. Bifoga till rapporten en fullständig utskrift från datorkörningen. 5
Obligatorisk uppgift, del 2: Regressionsanalys. Förberedelsefrågor 2.1 a) Ange modellen för enkel linjär regression med normalfördelade fel. b) Hur skattar man β 0, β 1 och σ ǫ? c) Hur tolkas skattningarna b 0 och b 1? d) Residualanalys är ett centralt moment i all regressionsanalys. Hur bör residualerna se ut vid en korrekt regressionsanalys? Ange några tekniker för att kontrollera detta. 2.2 Antag att givet är talpar (x i,y i ). i = 1,...,10 där man anser att sambandet mellan x och y är linjärt. Modellen är y i = β 0 +β 1 x i +ǫ i där ǫ i är oberoende observationer från N(0,σ 2 ǫ). a) För ett nytt värde på x, x n+1 är man ofta intresserad av det förväntade värdet för y, E[y x = x n+1 ]. Ange formeln för ett 95% konfidensintervall för E[y x = x n+1 ] i ovanstående modell. b) För ett nytt värde på x, x n+1 är man ofta intresserad av det predikterade värdet för y, y n+1. Ange formeln för ett 95% prediktionsintervall för y n+1 i ovanstående modell. c) Vad är skillnaden mellan konfidensintervallet och prediktionsintervallet i de föregående uppgifterna? Använd gärna ett konkret exempel för att klargöra skillnaden. d) Hur kan man testa huruvida linjens lutning är 0? Laborationsuppgift Uppgiften (som har okänt ursprung) är en övning i regressionsanalys med hjälp av programpaketet MINITAB. Förutsättningarna tänks vara följande. En marknadsledande tillverkare av tvättmedel vill veta hur försäljningen av dess största produkt påverkas av marknadsföringsinsatser och eget pris i förhållande till konkurrenternas priser. Företaget har 650 återförsäljare, alla med ungefär samma försäljningsvolym. Till huvudkontoret rapporteras från återförsäljarna (som har en egen pris- och marknadsföringspolitik) värden på följande fem variabler för en viss vecka: Antal sålda förpackningar. Genomsnittligt pris (kr) per förpackning för den egna produkten. Genomsnittligt pris (kr) per förpackning för konkurrerande produkter. Utgifter för marknadsföring (kr) av den egna produkten i butikerna (Denna typ av marknadsföring antas främst ha kortsiktiga effekter på konsumtionsmönstret för den aktuella produkten.). Uppgift om extraerbjudande eller ej (1 = extraerbjudande och 0 = ej extraerbjudande). Analysen skall göras med hjälp av data för dessa fem variabler från ett slumpmässigt urval 6
av 30 återförsäljare. Din tilldelade datafil ligger i katalogen m:/gk/teori. Filen heter regrx.mtw där X ersätts med ett tal 1-30. Läraren bestämmer vilket tal just din arbetsgrupp skall tilldelas. Innan du sätter igång med själva analysarbetet, gör följande: Kontrollera att du har 30 observationer i var och en av kolumnerna c1-c5. Bilda en ny variabel c6 som visar differensen mellan den egna produktens genomsnittliga pris och det genomsnittliga priset för konkurrenternas produkter. MINITAB-tips: Calc > Calculator... Sätt rubriker på kolumnerna. Spara materialet i en MINITAB-fil på din diskett. Nu kommer uppgifterna. Tabeller och diagram skall redovisas i den skriftliga rapporten (se uppgift 12 nedan): 1. Beräkna korrelationsmatrisen för samtliga variabler i datamatrisen. MINITAB-tips: Stat > Basic Statistics... Variables: cl-c6 2. Gör spridningsdiagram. Plotta variablerna c2, c3, c4, c5 och c6 i tur och ordning mot c1. MINITAB-tips: Graph > Scatterplot... 3. Välj en bästa regressionsmodell. Med ledning av resultaten i 1 och 2 ovan, välj den bästa regressionsmodellen med c1 som beroende variabel och en enda oberoende (förklarande) variabel. Motivera valet av oberoende variabel. Varför anser du att just denna modell är den bästa? 4. Anpassa den bästa regressionsmodellen. Anpassa den enkla regressionsmodell, som du i uppgift 3 tyckte var bäst. Tolka värdena på a och b i termer av de aktuella variablerna. MINITAB-tips: Stat > Regression > Regression... 5. Beräkna ett 95%-igt konfidensintervall för b. Beräkna (med utnyttjande av utskriften från uppgift 4) ett 95% konfidensintervall för regressionskoefficienten b. Tolka resultatet i ord. Vilka förutsättningar måste vara uppfyllda för att konfidensintervallet skall ha den angivna konfidensgraden? 7
6. Plotta residualerna i din modell mot den oberoende variabeln. Finns det fog för att ifrågasätta den valda modellen? Motivera! MINITAB-tips: Stat > Regression > Regression... Välj därefter Graphs... 7. Välj den bästa multipla regressionsmodellen. Vilken kombination av oberoende variabler väljer du? Motivera! MINITAB-tips : Stat > Regression > Best Subsets... Eftersom c2, c3 och c6 är starkt korrelerade måste man först välja bort någon av dem, t ex c3. Response: c1 Free Predictors: c2 c4-c6 8. Anpassa den bästa multipla regressionsmodellen. Anpassa den multipla regressionsmodell som du i uppgift 7 tyckte var bäst. Tolka också värdena på a,b 1,b 2 i termer av de aktuella variablerna. 9. Beräkna 95% konfidensintervall för var och en av regressionskoefficienterna β 1, β 2,. Utnyttja utskriften från uppgift 8. Tolka intervallen i ord. Vilka förutsättningar måste vara uppfyllda för att konfidensintervallen skall ha den angivna konfidensgraden? 10. Är regressionen som helhet signifikant? Undersök om den i uppgift 7 valda modellen är signifikant förklarande, dvs. undersök om regressionen som helhet är signifikant. Ställ upp hypoteser och gör sedan en hypotesprövning på signifikansnivån 1%. Vilken blir din slutsats? Anta att förutsättningarna enligt uppgift 9 är uppfyllda. 11. Prognos. Hur många förpackningar kommer en enskild återförsäljare att sälja en vecka då det genomsnittliga priset för den egna produkten är 25,60 kr, det genomsnittliga priset för konkurrerande produkter är 28.50 kr, utgifterna for marknadsföring av den egna produkten ar 6250 kr och extraerbjudande inte förekommer (extraerbjudande = 0)? Gör prognoser för försäljningen enligt de valda modellerna i uppg. 3 och 7, dels punktprognoser, dels prediktionsintervall, som har tillförlitligheten 95%. Jämför och tolka resultaten. Anta att förutsättningarna enligt uppgift 9 är uppfyllda. MINITAB-tips: Stat > Regression > Regression... 8
Välj Options: Prediction intervals for new observations Fyll här i de numeriska värdena på de valda oberoende variablerna. 12. Gör en skriftlig rapport. Uppgifterna 1-11 skall besvaras. Text plus tabeller och diagram. Glöm inte tabellerna i uppgifterna 1, 4, 7, 8 och 11 samt diagrammen i uppgifterna 2 och 6. 9