S0004M Statistik 1 Undersökningsmetodik. Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller Till denna laboration ska det angivna datamaterialet användas och bearbetas med den statistiska programvaran Minitab.. Datamaterialet till uppgift 4 finns i Canvasrummet. Ni kan vara två eller högst tre i varje labbgrupp Resultaten av alla uppgifter nedan tillsammans med efterfrågade kommentarer ska sammanställas i en kort skriftlig rapport. Lämna in rapporten i Canvas senast två veckor efter laborationstillfället. Glöm inte att lägga in er labbgrupp i Canvas innan ni lämnar in rapporten. Rapporten ska vara kortfattad och bestå av: Titelblad med en beskrivande rubrik, namn på alla gruppmedlemmar, kurs, kurskod och datum. Inledning/Syfte några meningar om vad laborationen handlar om, vad som undersöks/studeras. Resultat som efterfrågas med kommentarer/diskussion. Sammanfattning vad är de viktigaste resultaten? Ev bilagor. Förberedelser: Läs igenom Kap. 1.4, 2.1 2.7 i kursboken Moore/McCabe/Craig. Titta gärna igenom punkterna 3.1 3.5 i Minitabhandledningen i Canvas. Där finns de instruktioner du behöver i laborationen. Alt kan du använda dig av de tillhörande Minitab tipsen (kursivt i parentes). OBS! Uppgift 1 och uppgift 2 ska även lösas för hand. Gör det innan laborationen. 1
Uppgifter: 1. Normalfördelning Antag att skatteintäkterna för en kommun under ett år är normalfördelade med medelvärdet 3 Miljarder kr (Mkr) och standardavvikelsen 1 Mkr, d.v.s. N(3,1) då enheten är Mkr. I de tre deluppgifter som följer ska först Minitab användas. Beräkna därefter det som efterfrågats för hand och verifiera att du får samma resultat som Minitab. Redovisa både Minitabutskrifter och dina manuella beräkningar. a) Beräkna sannolikheten att kommunens skatteintäkter under ett visst år överstiger 4 Mkr. (Calc/Probability Distributions/Normal/Cumulative probability, Input constant... eller Graph/Probability Distribution Plot /View Probability). b) Bestäm S så att chansen att skatteintäkterna under ett år understiger S kr är 20%. Tolka resultatet. (Calc/Probability Distributions/Normal/Inverse cumulative probability eller Graph/Probability Distribution Plot). c) Man vill göra en utgiftsbudget så att skatteintäkterna under ett år täcker utgiftsbudgeten med sannolikheten 0.9. Hur stor blir den totala utgiftsbudgeten? Ledning: skall utgiftbudgeten vara över eller under 3 miljarder kr? 2. Enkel linjär regressionsan Bensinpris mot avstånd till Stockholm Den 6 februari 2017 observeras följande bensinpriser för några orter på varierande avstånd från Stockholm (bensinpriser.nu) x=avstånd till Stockholm (mil) y=pris att tanka 40 liter (kr) 0 7 17 38 90 530 538 552 555 565 Genomför först beräkningarna för hand, och verifiera sedan dina resultat i Minitab. Redovisa både handräkningar och resultat från Minitab. 2
a) Undersök sambandet mellan avstånd och pris genom att ta fram medelvärden, stickprovsstandardavvikelser, och sedan bestämma korrelationen r. (Stat/Basic Statistics/Correlation) b) Bestäm minstakvadratskattningens regressionslinje y = b0 + b1 x, dvs bestäm b0 och b1, och ange sedan linjens ekvation. Gör en tolkning i ord av hur bensinpriset varierar med avståndet. (Stat/Regression/Regression/Fit Regression Model) c) Beräkna förklaringsgraden R 2. d) Ta fram det förväntade bensinpriset på en ort som är 60 mil från Stockholm. (Stat/Regression/Regression/Predict) 3. Enkel linjär regression Längd, inkomst och kön Finns det något samband mellan längd och inkomst? Beror inkomsten av viken längd du har? En undersökning bland några företagare i en viss bransch gav följande resultat. Längd (cm) Inkomst (kkr/år) 170 560 0 179 508 1 190 532 0 165 465 1 185 505 0 159 473 1 158 532 1 178 532 0 155 465 1 166 513 1 187 588 0 Kön (man=0, kvinna=1) Längd (cm) Inkomst (kkr/år) 184 563 0 174 481 1 156 494 1 191 532 0 163 494 1 168 524 1 188 562 0 175 581 0 193 589 0 184 521 0 166 533 1 Kön (man=0, kvinna=1) 3
a) Mata in datamaterialet i Minitab med respektive variabel i var sin kolumn. Gör därefter ett spridningsdiagram över längd och inkomst (Graph/Scatterplot). Tänk noga efter vilken variabel som är beroende (respons) respektive förklarande variabel. Verkar det finnas något samband mellan variablerna och hur ser det i så fall ut? (positivt/negativt, starkt/svagt, inget samband ) b) Beräkna korrelationen mellan variablerna längd och inkomst med Minitab (Stat/Basic Statistics/Correlation). Hur ska korrelationen tolkas i detta fall? c) Anpassa ett enkelt regressionssamband till datamaterialet över längd och inkomst. Ange först modellen till det enkla linjära sambandet, där alla ev variabelnamn (X, Y) även ska förklaras i ord. Vilket blir det skattade sambandet? (Stat/Regression/Regression/Fit Regression Model). d) Ange och tolka de skattade koefficienterna: konstanten (b0) och rikningskoefficienten (b1). e) Ange och tolka förklaringsgraden (R 2 ). f) Gör en residualanalys. (Stat/Regression/Regression/Fit Regression Model, Graphs. Välj Four in one) (Kommentar: genom att studera residualerna kan man undersöka hur väl datat uppfyller den statistiska modellen. Detta kallas för att göra en residualanalys.) Vad ska du titta efter i residualplotten? Anser du att den statistiska modellen (modellantagandet) går att verifiera? g) Gör ett nytt spridningsdiagram över längd och inkomst, nu grupperat efter kön (Graph/Scatterplot/with regression and groups). Då den förklarande variabeln i detta fall är kategorisk, gör också jämförande lådagram (Graph/Boxplot /..with Groups). Kommentera resultatet. 4. Multipel linjär regression flera förklarande variabler Undersök vilka variabler som inverkar på priserna på bostadsrätter i Solna. Datamaterialet finns i Canvas. 4
Gör om variabeln Balkong till en dikotom variabel med värden 1 eller 0 i stället för JA och NEJ, så kan man använda den som Continuous predictors variabel. (Data/Code/ ) a) Undersök först vilka av variablerna som påverkar responsvariabeln Pris genom att göra spridningsdiagram, (Graph/Scatterplot/Simple). Visa alla spridningsdiagrammen i en bild, ( Multiple Graphs/ In separate panels in the same graph). Kommentera resultatet. b) Beräkna korrelationskoefficienterna mellan Pris och respektive förklarande variabel. (Stat/Basic Statistic/Correlation). Vilka av variablerna visar på starkt resp svagt linjärt samband med Pris? Undersök också sambandet mellan de ingående förklarande variablerna. Kommentarer? c) Välj ut en eller flera variabler som ska förklara priset på bostäderna i området på så bra sätt som möjligt. Motivera ditt val av förklarande variabler. Ange regressionssambandet till den valda modellen (Stat/Regression/Regression/ Fit Regression Model). Tolka regressionskoefficienterna (b0, b1, b2, ) i ord, med rätt enheter. Hur påverkar de priset? Tolka förklaringsgraden. d) För att en modell ska vara bra bör residualerna vara slumpmässiga och normalfördelade. Undersök detta med en residualanalys (Stat/ Regression/ Regression/ Fit Regression Mode. Graphs. Välj Four in one Residuals för plots. Välj Standardized). Kommentera de graferna ni fått. e) Använd modellen du valt för att göra en prognos. Redovisa uträkningen tydligt och tolka den i ord. 5. Korstabeller En konsult anlitades för att ta reda på hur bra personalen trivdes på en viss arbetsplats. 400 anställda valdes ut slumpmässigt och ombads att på en skala från 1 (mycket dåligt) till 10 (mycket bra) ange hur väl de trivdes på arbetsplatsen. En fråga som bedömdes intressant i undersökningen var om det fanns något påvisbart samband mellan arbetstillfredsställelsen och antalet frånvarodagar. Därför ombads 5
de utvalda personerna också uppge hur många frånvarodagar de haft det senaste året. Svaren skulle ges som ett av de tre intervall som ges i tabellen nedan. Fördelningen av svaren på de två frågorna ges i nedanstående tabell: Arbetstillfredsställelseindex: Mindre än 4 Från 4 till 7 Mer än 7 Antalet Mindre än 6 11 61 107 Frånvarodagar: Från 6 till 12 22 81 50 Mer än 12 41 18 9 Beskriv materialet med ett stapeldiagram (Graph/Bar Chart) i Minitab (stapeldiagrammet ska tydligt illustrera hela datamaterialet). Tolka stapeldiagrammet i ord. Tycker du att stapeldiagrammet indikerar något samband mellan variablerna eller verkar variablerna vara oberoende av varandra? Motivera. Tips: Kom ihåg att du inte kan behandla korstabellen (two way table) som ʺrådataʺ (Counts of Unique Values), utan du måste behandla det som en färdig sammanställning (Values From a Table). Datamaterialet kan vara inskrivet i Minitab även på nedanstående sätt: OBS att tabellen nedan bara innehåller de två första av totalt 9 rader: Ant franvaro Arbetstillfredsst index Count 1.Mindre an 6 1.Mindre an 4 11 1.Mindre an 6 2.Fran 4 till 7 61... Alternativt sätt att skriva in datamaterialet i Minitab: Klistra in tabellen i fyra kolumner och tre rader. Använd Graphs/ Bar chart /Values from a Table/ Two way Table. Låt första raden () hamna i de grå fälten. Ett exempel (första två raderna) på hur man fyller datat i Minitab följer nedan. Frånvaro: Mindre än 4 Från 4 till 7 Mer än 7 Mindre än 6 11 61 107 Från 6 till 12 22 81 50 6