Karlstads universitet Institutionen för informationsteknologi Avdelningen för Statistik Tentamen i Statistik, STA A/STA A4 (8 poäng) 5 augusti 4, klokan 8.5-3.5 Tillåtna hjälpmedel: Bifogad formelsamling (med approimationsshema) oh tabellsamling (dessa skall returneras). Egen miniräknare. Ansvarig lärare: Övrigt: Leif Rukman För att få maimala poäng på en uppgift krävs att antaganden oh motiveringar noga anges samt att lösningen även i övrigt är så utförlig att den utan svårighet kan följas! För betyget Godkänd krävs minst 4 poäng, för betyget Väl Godkänd krävs minst 6 poäng. Uppgift a Förklara begreppen målpopulation, rampopulation, undertäkning oh övertäkning samt vad dessa begrepp har med begreppet bias att göra. Ge gärna ett eempel för att tydliggöra det hela. b Förklara vad som menas med stugsittarurval oh problemet med dessa. Ge helst ett eempel. För att skatta medelvärdet i en population använder man ofta medelvärdet i stikprovet. Det finns dok några andra skattningstekniker, bland annat så kallade kvotskattningar. Förklara med hjälp av ett litet numeriskt eempel (t.e. med n4) vad det är som gör att en kvotskattning ibland fungerar myket bättre än det vanliga stikprovsmedelvärdet. Uppgift I nedanstående tabell redovisas hushållens konsumtionsutgifter (i miljarder kronor) tillsammans med KPI (konsumentprisinde) för åren 99, 995 oh. år 99 995 KPI 8 55 6 Hushållens konsumtionsutgifter 69 865 78 a KPI ovan har 98 som basår. Byt basår till 99. b Redovisa hushållens konsumtionsutgifter som en indeserie med 99 som basår. Redovisa hushållens konsumtionsutgifter i 99 års penningvärde. d Ta fram en indeserie över hushållens konsumtionsutgifter i fasta priser. Använd 99 som basår.
Uppgift 3 Ett företag skall köpa in en ny kopieringsmaskin oh väljer bland tre olika, A, B oh C. Ett välkänt problem med denna typ av maskiner är att de ibland drabbas av papperstopp. Man får möjlighet att vid några tillfällen testa de olika maskinerna oh noterar vid varje tillfälle antal minuter maskinen är i aktiv drift utan att pappersstopp inträffar. Genomför under normalfördelningsantagande ett hypotestest för att utreda om maskinerna är likvärdiga med avseende på genomsnittlig tid innan de drabbas av pappersstopp. Maskin A: 5 7 4 9 Maskin B: 8 5 7 Maskin C: 8 3 5 4 7 Uppgift 4 (fortsättning på föregående uppgift) Som föregående uppgift men du får nu inte anta normalfördelning. Uppgift 5 Ett företag tror att de timlöner de betalar ut följer en normalfördelning. För att testa om detta antagande är rimligt vill man genomföra ett hypotestest oh väljer därför slumpmässigt ut 3 av företagets arbetare (se nedan). Genomför ett lämpligt test på % signifikansnivå. X Timlön i kronor Frekvens 55 < 65 65 < 75 54 75 < 85 3 85 < 95 68 95 < 5 8 Summa 3 Uppgift 6 Tekentest, Wiloon tekenrangtest, Wiloon rangsummatest oh Kruskal-Wallis test förkommer i boken. Förklara vad dessa test går ut på oh vilka motsvarigheter testen har bland de parametriska testen.
Uppgift 7 En mäklare har nio hus inne till försäljning i ett visst område. Några data gällande dessa hus redovisas nedan. Hus nr (antal rum) (boarea i m ) y (pris i kronor) 45 6 4 5 5 3 4 5 445 4 5 45 39 5 4 495 6 3 47 7 5 4 4 8 4 7 9 3 8 35 7a Mäklaren har läst en del statistik oh tänker anpassa en modell av typen Y α + βx + ε till materialet. Frågan är nu vilken av X-variablerna som är det bästa valet i denna modell? Hjälp mäklaren välja X-variabel. Motiver ditt val (använd förslagsvis lämpliga grafer att motivera med). Anpassa sedan modellen till datamaterialet, d.v.s. ta fram den skattade linjen Y ' a + bx. Räknehjälp: 34, Σ 96, y 335, Σ i Σ i i Σ i 36, Σ 37, y 5775, i Σ i Σ 377, Σ 45, Σ 35655 i i i yi i yi 7b Anta att mäklaren får in ytterligare ett hus som har 4 rum oh kvadratmeters bostadsyta men att du inte vet något mer om detta hus. Vad anser du vore ett rimligt pris på detta hus? Motivera! 7 Konstruera ett intervall som med irka 95 % säkerhet innehåller priset på huset som kom in till mäklaren i 7b. 7d Räkna ut modellens förklaringsgrad. Hur tolkas förklaringsgraden? 7e Räkna ut den justerade förklaringsgraden. Förklara tanken bakom den justerade förklaringsgraden.
Uppgift 8 (fortsättning på uppgift 7) Plötsligt slog det mäklaren; varför nöja sig med en X- variabel när man kan ha med båda två i modellen? Sagt oh gjort, mäklaren lät SPSS anpassa modellen Y α + β X + β + ε oh fik då följande utskrifter: X Model Summary Model R R Square Adjusted R Square Std. Error of the Estimate,84(a),79,6 65,676 a Preditors: (Constant), AREA, RUM ANOVA(b) Model Sum of Squares df Mean Square F Sig. Regression 639,46 3546,3 7,34,5(a) Residual 5879,76 6 433,94 Total 8897, 8 a Preditors: (Constant), AREA, RUM b Dependent Variable: PRIS Coeffiients(a) Unstandardized Coeffiients Standardized Coeffiients Model B Std. Error Beta t Sig. (Constant) 69,5 9,899,9,7 RUM -3,38 4,489 -,95 -,43,5 AREA 4,667,7,437 3,67, a Dependent Variable: PRIS 8a Besvara fråga 7b med denna modell som utgångspunkt. 8b Tolka regressionskoeffiienterna i ord. 8 Ta fram ett konfidensintervall med 95 % konfidensgrad för parametern β. Förklara hur intervallet ska tolkas, d.v.s. innebörden av intervallet. 8d I tabellen i mitten, kolumnen längst till höger står det,5(a). Förklara vad denna siffra innebär. 8e I tabellen längst ner, kolumnen längst till höger, på raden RUM står det,5. Förklara vad denna siffra innebär. 8f Tyker du mäklaren ska använda modellen med en X-variabel eller den med båda X-variablerna? Motivera ditt val genom att helt kort jämföra fördelar oh nakdelar.
Svar/lösningsskisser till tentamen i statistik STAA oh STAA4 485. Uppgift. Se Dahmströms bok. Uppgift. år 99 995 KPI 8 55 6 Hushållens konsumtionsutgifter 69 865 78 a) År 99 995 KPI 99 55 6.6 5. 48 8 8 b) År 99 995 Hushållens 865 78 konsumtionsutgifter 3.36 56. 3 69 69 Inde ) År 99 995 Hush 69 865 8 78 8 kons.utg. 865 75.57 78 859..6 55.548 6 99 års penningv. d) År 99 995 Hush kons.utg. 75.57 859. fasta priser, inde.6 4. 5 69 69 Uppgift 3 H : µ A µ B µ C Testa H : ej _ H på (förslagsvis) α 5 % signifikansnivå med hjälp av envägs-anova-testet. Beslutsregel: Förkasta nollhypotesen om F (.5) 3. 8. I vårt fall fik vi F obs F obs 4.7 (se ANOVA-tabellen nedan), dvs. nollhypotesen förkastas. Vi kan alltså (med 5 % felrisk ) påstå att maskinerna skiljer sig åt.,3
Anmärkning: En av testets förutsättningar är att alla populationerna har samma standardavvikelse, dvs. att σ A σ B σ C. Jämför vi skattningarna s,,, 3 nedan så verkar detta åtminstone inte orimligt. Numeriskt: Maskin observationer n T s j s j, j,,...,n n A 5, 7, 4, 65 4 6.5 7. 49.67 9 B 8, 5,, 3 6 88.3 6 3 6.4 696.67 7,, C 8, 3, 5, 89 6 48.3 34 7 3. 536.67 4,, 7 sum 67 n 6 458 SS tot SST, j j T n, j, j n n j j T j j 67 458 6 65 4 89 +... + 6 543.75 67 6 j 49.8 ANOVA-tabell: källa SS df MSSS/df F behandling SST 49. 8 k 45 F 4. 7 slump SSE SStot SST 764. 67 n k 3 587.8 total SS 543. 75 n 5 tot obs Uppgift 4 (fortsättning på föregående uppgift) Om fördelningen för maskinerna är lika så när som på att de eventuellt är förskjutna i sidled i förhållande till varandra (dvs. de har åtminstone samma form ), så kan vi formulera nollhypotesen enligt nedan. H : µ µ B H : ej _ H A µ C Vi använder den ike-parametriska motsvarigheten till envägs-anova, Kruskal- Wallis-test. Med α 5 % signifikansnivå får vi beslutsregeln förkasta nollhypotesen H χ.5 5.. om ( ) 99 obs
I vårt fall fik vi (se nedan) H obs 5. 54, dvs. nollhypotesen kan inte förkastas. Vi har inte tillräkligt med bevis för att med högst 5 % felrisk kunna påstå att maskinerna skiljer sig åt. Det är med andra ord myket möjligt att maskinerna är likvärdiga. Anmärkning: (.) 4. 65 Numeriskt: χ så p-värdet är någonstans mellan 5 % oh %. sort Σ Ri n i A: 4 5 7 9 3.5 6 9 3 ΣR 3. 5 4 B: 5 7 8 6 9.5 4 5 6 ΣR 7. 5 6 C: 3 4 5 7 8 3.5 6 9.5 ΣR 33 6 summa n( n + ) ( ΣR ) ( ΣR ) k H obs ( + ) ( ) +... + + 3 n n n n nk 3.5 7.5 33 3( 6 + ) 5. 54 6( 6 ) + + 4 6 6 + 3 + +... + n 36 n 6 Uppgift 5 För att kunna genomföra ett hi-två-test av fördelning måste först µ oh σ skattas. X Timlön Frekvensf Klassmitt f f i kronor 55 < 65 6 6 6 7 65 < 75 54 7 378 646 75 < 85 3 8 4 83 85 < 95 68 9 6 558 95 < 5 8 8 8 Summa 3 43 9994 f 43 8kr n 3 s ( f) f n n 43 9994 3 99 4.34.
4 Frequeny 8 6 4 6 7 8 9 Lön Cases weighted by f Mean 8 Std. Dev.,99 N 3 X Frekvens ff o Sannolikhetsarea i klass f e ( f f ) fe 7.46.37 < 65 X µ 65 8 P( X < 65) P σ. P( Z.57).58 65 < 75 54.94 65.8.3 75 < 85 3.374.3.84 85 < 95 68.63 78.9.56 95 8.853 5.59.7 Summa 3. 3 7.4 H : Lönerna är normalfördelade H : Lönerna är inte normalfördelade Signifikansnivå: α% o e Testfunktion: sann. ( f f ) o e χ χ är χ -fördelad med 5-- fg om H är fe Kritiskt område: Förkasta nollhypotesen om det observerade värdet på teststatistikan är större än tabellvärdet, 4.65.
Resultat: χ 7.4 > 4.65. Nollhypotesen förkastas. Slutsats: De observerade frekvenserna avviker för myket från vad som kan förväntas då observationerna kommer från en normalfördelning oh nollhypotesen förkastas på % signifikansnivå. Uppgift 6 Se Lind Marhal Mason. Uppgift 7 a) 5, 45, 4, Pris 35, 3, 5,,,,5 3, 3,5 4, 4,5 5, Antal rum
5, 45, 4, Pris 35, 3, 5,, 4, 6, 8,,, 4, 6, Area Area oh pris uppvisar det största linjära sambandet. Model (Constant) Area a. Dependent Variable: Pris Unstandardized Coeffiients Coeffiients a Standardized Coeffiients B Std. Error Beta t Sig. 4,56,5,4,98,,933,65,63,58 Y 4.3 +.X b) Y 4.3 +.. 35.3. Ett rimligt pris för huset är utifrån modellen a 35:- ) y a y b n y s y 5775 4.56 335. 35655 7 85.6
Prediktionsintervall 96 ( ) 9 Y ' ± t s 35.3.36 85.6 y + + ± + + n ( ) 9 96 37 n 9 35.3 ± 3 Med 95% säkerhet kommer försäljningspriset för detta hus ligga mellan 39:- oh 565:- d) SSR 37593,989 Förklaringsgraden (se tabellerna nedan) R.43 är andelen SStot 8897, av variationen i Y som förklaras av att X- varierar. I vårt fall skulle alltså irka 4 % av variationen i huspriserna hänga samma med att husen är olika stora (olika stor boyta). Resterande 58 % av variationen kan alltså inte förklaras av att boarean varierar. ANOVA(b) Model Sum of Squares df Mean Square F Sig. Regression 37593,989 37593,989 5,,58(a) Residual 5378,33 7 7339,748 Total 8897, 8 a Preditors: (Constant), X_AREA b Dependent Variable: Y_PRIS Model Summary Model R R Square Adjusted R Square Std. Error of the Estimate,65(a),43,34 85,67 a Preditors: (Constant), X_AREA e) Den justerade förklaringsgraden blir R adj MSE MStot SSE / SStot ( n ) /( n ) 5378,33/7 7339,748.66.34 8897,/8.5 Den vanliga förklaringsgraden R ökar automatiskt när vi tar med ytterligare X- variabler i modellen vilket inte R adj gör. Ska vi välja mellan flera olika modeller oh dessa inte har samma antal X-variabler i sig, blir jämförelsen mer rättvis om vi använder R i stället för R som kriterium. adj
Uppgift 8 8a Skattat regressionsplan ( X, X ) a + b X + b X 69.5 3.3X 4. 667X Y ˆ +. För det nyinkomna huset får vi Y ˆ( 4,) 69.5 3.3 4 + 4.667 33, med andra ord irka 33 kronor vore rimligt pris innan vi har ytterligare fakta om huset. 8b Tolkning av b 4. 667 : För två nyinkomna hus som har samma antal rum men det ena huset har m större yta, så skulle det större huset ligga uppskattningsvis irka 47 kronor högre i pris ( b 46. 67 ) än det mindre. Tolkning av b 3. 3 : För två nyinkomna hus som har samma boyta men det ena huset har ett rum mer, så skulle detta hus ligga uppskattningsvis irka 3 kronor lägre i pris än huset med färre antal rum. Detta resultat känns myket konstigt, att ytterligare rum drar ner priset (rummen blir i oh för sig mindre om ytan är given, så huset kanske känns mer trångt). Det verkar i alla fall vara problem med multikollinearitet: se SPSS-utskrifterna nedan. Correlations X_RUM X_AREA Y_PRIS Pearson Correlation Pearson Correlation Pearson Correlation X_RUM X_AREA Y_PRIS,87,36,87,65,36,65 6 4 Vi ser ett tydligt positivt samband i grafen, vilket okså bekräftas av att korrelationskoeffiienten är så hög, r.87, mellan antalet rum X oh boytan X. 8 X_AREA 6 4,5,,5 3, 3,5 4, 4,5 5, 5,5 X_RUM Se även uppgift 8e nedan.
( ˆ ) ( 4.667 ±.45.7) ( 4.667 ± 3.6) (.55,7.783) 8 t ( 3) b σ. ±.5 9 b Intervallet säger att snittpriset för varje ytterligare kvadratmeter vi vill ha, ligger (då antalet rum är givet) någonstans mellan 55 oh 7783 kronor. Detta är ett myket brett intervall men stikprovet är ju okså ganska litet.. 8d p-värdet för test av H : β β är.5 %. Det verkar med andra ord inte troligt att nollhypotesen är sann. Därmed borde alltså åtminstone någon av X-variablerna gör åtminstone någon nytta i modellen. 8e Om X finns i modellen har testet av H : β ett p-värde som är 5. %. Om vi aepterar en felrisk på högst α 5 %, kan vi alltså inte utesluta att X inte behövs i modellen. Det skulle med andra ord vara möjligt att det ganska förvånande värdet på regressionskoeffiienten i 8b, b 3. 3, bara har orsakats av ren slump. 8f Jämför t.e. σˆ i de två modellerna (vilket är ekvivalent med att jämföra R adj ). Man bör okså väga in kompleiteten hos modellerna. Vid multikollinearitet kan vi få konstiga regressionskoeffiienter oh breda konfidensintervall för dessa (men själva skattningarna Y ˆ( X, X ) kan ändå vara bra), se ovan. Med en enda X-variabel kan vi enkelt illustrera samband oh spridning i en graf.