Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

Relevanta dokument
Laboration 3: Urval och skattningar

Laboration 3: Urval och skattningar

LABORATION 3 - Regressionsanalys

Föreläsning G60 Statistiska metoder

TVM-Matematik Adam Jonsson

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 6. Korstabeller (Tvåvägstabeller) Kap Korstabeller

Obligatorisk uppgift, del 1

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

LABORATION 3 - Regressionsanalys

InStat Exempel 4 Korrelation och Regression

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Metod och teori. Statistik för naturvetare Umeå universitet

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

10.1 Enkel linjär regression

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

Läs noggrant informationen nedan innan du börjar skriva tentamen

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Sänkningen av parasitnivåerna i blodet

Regressions- och Tidsserieanalys - F4

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Laboration 2 Inferens S0005M VT18

Läs noggrant informationen nedan innan du börjar skriva tentamen

tentaplugg.nu av studenter för studenter

Tentamen i matematisk statistik

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Tentamen i Matematisk statistik Kurskod S0001M

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

tentaplugg.nu av studenter för studenter

Laboration 2 Inferens S0005M VT16

Datorövning 1 Enkel linjär regressionsanalys

Linjär regressionsanalys. Wieland Wermke

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Regressions- och Tidsserieanalys - F7

Läs noggrant informationen nedan innan du börjar skriva tentamen

OBS! Vi har nya rutiner.

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

LABORATION 1. Syfte: Syftet med laborationen är att

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Laboration 4 R-versionen

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

Statistik 1 för biologer, logopeder och psykologer

LABORATIONER. Det finns en introduktionsfilm till Minitab på

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Läs noggrant informationen nedan innan du börjar skriva tentamen

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Läs noggrant informationen nedan innan du börjar skriva tentamen

TAMS 28 DATORÖVNING 2

Regressions- och Tidsserieanalys - F1

Multipel Regressionsmodellen

Att göra före det schemalagda labpasset.

Richard Öhrvall, 1

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Föreläsning G60 Statistiska metoder

Examinationsuppgifter del 2

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

Uppgift 1. Deskripitiv statistik. Lön

Laboration 2 multipel linjär regression

Tentamen i Matematisk statistik Kurskod S0001M

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Regressions- och Tidsserieanalys - F3

STOCKHOLMS UNIVERSITET VT 2007 Statistiska institutionen Johan Andersson

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Statistisk undersökningsmetodik (Pol. kand.)

Regressions- och Tidsserieanalys - F1

OBS! Vi har nya rutiner.

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Föreläsning 4. Kap 5,1-5,3

Tentamen i Matematisk statistik Ämneskod-linje S0001M. Tentamensdatum Poäng totalt för del 2 30 (3 uppgifter) Skrivtid

1 Förberedelseuppgifter

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning G60 Statistiska metoder

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Mata in data i Excel och bearbeta i SPSS

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Läs noggrant informationen nedan innan du börjar skriva tentamen

Skrivning i ekonometri lördagen den 29 mars 2008

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Räkneövning 3 Variansanalys

Tentamen i matematisk statistik

Repetitionsföreläsning

Skrivning i ekonometri torsdagen den 8 februari 2007

Transkript:

S0004M Statistik 1 Undersökningsmetodik. Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller Till denna laboration ska det angivna datamaterialet användas och bearbetas med den statistiska programvaran Minitab.. Datamaterialet till uppgift 4 finns i Canvasrummet. Ni kan vara två eller högst tre i varje labbgrupp Resultaten av alla uppgifter nedan tillsammans med efterfrågade kommentarer ska sammanställas i en kort skriftlig rapport. Lämna in rapporten i Canvas senast två veckor efter laborationstillfället. Glöm inte att lägga in er labbgrupp i Canvas innan ni lämnar in rapporten. Rapporten ska vara kortfattad och bestå av: Titelblad med en beskrivande rubrik, namn på alla gruppmedlemmar, kurs, kurskod och datum. Inledning/Syfte några meningar om vad laborationen handlar om, vad som undersöks/studeras. Resultat som efterfrågas med kommentarer/diskussion. Sammanfattning vad är de viktigaste resultaten? Ev bilagor. Förberedelser: Läs igenom Kap. 1.4, 2.1 2.7 i kursboken Moore/McCabe/Craig. Titta gärna igenom punkterna 3.1 3.5 i Minitabhandledningen i Canvas. Där finns de instruktioner du behöver i laborationen. Alt kan du använda dig av de tillhörande Minitab tipsen (kursivt i parentes). OBS! Uppgift 1 och uppgift 2 ska även lösas för hand. Gör det innan laborationen. 1

Uppgifter: 1. Normalfördelning Antag att skatteintäkterna för en kommun under ett år är normalfördelade med medelvärdet 3 Miljarder kr (Mkr) och standardavvikelsen 1 Mkr, d.v.s. N(3,1) då enheten är Mkr. I de tre deluppgifter som följer ska först Minitab användas. Beräkna därefter det som efterfrågats för hand och verifiera att du får samma resultat som Minitab. Redovisa både Minitabutskrifter och dina manuella beräkningar. a) Beräkna sannolikheten att kommunens skatteintäkter under ett visst år överstiger 4 Mkr. (Calc/Probability Distributions/Normal/Cumulative probability, Input constant... eller Graph/Probability Distribution Plot /View Probability). b) Bestäm S så att chansen att skatteintäkterna under ett år understiger S kr är 20%. Tolka resultatet. (Calc/Probability Distributions/Normal/Inverse cumulative probability eller Graph/Probability Distribution Plot). c) Man vill göra en utgiftsbudget så att skatteintäkterna under ett år täcker utgiftsbudgeten med sannolikheten 0.9. Hur stor blir den totala utgiftsbudgeten? Ledning: skall utgiftbudgeten vara över eller under 3 miljarder kr? 2. Enkel linjär regressionsan Bensinpris mot avstånd till Stockholm Den 6 februari 2017 observeras följande bensinpriser för några orter på varierande avstånd från Stockholm (bensinpriser.nu) x=avstånd till Stockholm (mil) y=pris att tanka 40 liter (kr) 0 7 17 38 90 530 538 552 555 565 Genomför först beräkningarna för hand, och verifiera sedan dina resultat i Minitab. Redovisa både handräkningar och resultat från Minitab. 2

a) Undersök sambandet mellan avstånd och pris genom att ta fram medelvärden, stickprovsstandardavvikelser, och sedan bestämma korrelationen r. (Stat/Basic Statistics/Correlation) b) Bestäm minstakvadratskattningens regressionslinje y = b0 + b1 x, dvs bestäm b0 och b1, och ange sedan linjens ekvation. Gör en tolkning i ord av hur bensinpriset varierar med avståndet. (Stat/Regression/Regression/Fit Regression Model) c) Beräkna förklaringsgraden R 2. d) Ta fram det förväntade bensinpriset på en ort som är 60 mil från Stockholm. (Stat/Regression/Regression/Predict) 3. Enkel linjär regression Längd, inkomst och kön Finns det något samband mellan längd och inkomst? Beror inkomsten av viken längd du har? En undersökning bland några företagare i en viss bransch gav följande resultat. Längd (cm) Inkomst (kkr/år) 170 560 0 179 508 1 190 532 0 165 465 1 185 505 0 159 473 1 158 532 1 178 532 0 155 465 1 166 513 1 187 588 0 Kön (man=0, kvinna=1) Längd (cm) Inkomst (kkr/år) 184 563 0 174 481 1 156 494 1 191 532 0 163 494 1 168 524 1 188 562 0 175 581 0 193 589 0 184 521 0 166 533 1 Kön (man=0, kvinna=1) 3

a) Mata in datamaterialet i Minitab med respektive variabel i var sin kolumn. Gör därefter ett spridningsdiagram över längd och inkomst (Graph/Scatterplot). Tänk noga efter vilken variabel som är beroende (respons) respektive förklarande variabel. Verkar det finnas något samband mellan variablerna och hur ser det i så fall ut? (positivt/negativt, starkt/svagt, inget samband ) b) Beräkna korrelationen mellan variablerna längd och inkomst med Minitab (Stat/Basic Statistics/Correlation). Hur ska korrelationen tolkas i detta fall? c) Anpassa ett enkelt regressionssamband till datamaterialet över längd och inkomst. Ange först modellen till det enkla linjära sambandet, där alla ev variabelnamn (X, Y) även ska förklaras i ord. Vilket blir det skattade sambandet? (Stat/Regression/Regression/Fit Regression Model). d) Ange och tolka de skattade koefficienterna: konstanten (b0) och rikningskoefficienten (b1). e) Ange och tolka förklaringsgraden (R 2 ). f) Gör en residualanalys. (Stat/Regression/Regression/Fit Regression Model, Graphs. Välj Four in one) (Kommentar: genom att studera residualerna kan man undersöka hur väl datat uppfyller den statistiska modellen. Detta kallas för att göra en residualanalys.) Vad ska du titta efter i residualplotten? Anser du att den statistiska modellen (modellantagandet) går att verifiera? g) Gör ett nytt spridningsdiagram över längd och inkomst, nu grupperat efter kön (Graph/Scatterplot/with regression and groups). Då den förklarande variabeln i detta fall är kategorisk, gör också jämförande lådagram (Graph/Boxplot /..with Groups). Kommentera resultatet. 4. Multipel linjär regression flera förklarande variabler Undersök vilka variabler som inverkar på priserna på bostadsrätter i Solna. Datamaterialet finns i Canvas. 4

Gör om variabeln Balkong till en dikotom variabel med värden 1 eller 0 i stället för JA och NEJ, så kan man använda den som Continuous predictors variabel. (Data/Code/ ) a) Undersök först vilka av variablerna som påverkar responsvariabeln Pris genom att göra spridningsdiagram, (Graph/Scatterplot/Simple). Visa alla spridningsdiagrammen i en bild, ( Multiple Graphs/ In separate panels in the same graph). Kommentera resultatet. b) Beräkna korrelationskoefficienterna mellan Pris och respektive förklarande variabel. (Stat/Basic Statistic/Correlation). Vilka av variablerna visar på starkt resp svagt linjärt samband med Pris? Undersök också sambandet mellan de ingående förklarande variablerna. Kommentarer? c) Välj ut en eller flera variabler som ska förklara priset på bostäderna i området på så bra sätt som möjligt. Motivera ditt val av förklarande variabler. Ange regressionssambandet till den valda modellen (Stat/Regression/Regression/ Fit Regression Model). Tolka regressionskoefficienterna (b0, b1, b2, ) i ord, med rätt enheter. Hur påverkar de priset? Tolka förklaringsgraden. d) För att en modell ska vara bra bör residualerna vara slumpmässiga och normalfördelade. Undersök detta med en residualanalys (Stat/ Regression/ Regression/ Fit Regression Mode. Graphs. Välj Four in one Residuals för plots. Välj Standardized). Kommentera de graferna ni fått. e) Använd modellen du valt för att göra en prognos. Redovisa uträkningen tydligt och tolka den i ord. 5. Korstabeller En konsult anlitades för att ta reda på hur bra personalen trivdes på en viss arbetsplats. 400 anställda valdes ut slumpmässigt och ombads att på en skala från 1 (mycket dåligt) till 10 (mycket bra) ange hur väl de trivdes på arbetsplatsen. En fråga som bedömdes intressant i undersökningen var om det fanns något påvisbart samband mellan arbetstillfredsställelsen och antalet frånvarodagar. Därför ombads 5

de utvalda personerna också uppge hur många frånvarodagar de haft det senaste året. Svaren skulle ges som ett av de tre intervall som ges i tabellen nedan. Fördelningen av svaren på de två frågorna ges i nedanstående tabell: Arbetstillfredsställelseindex: Mindre än 4 Från 4 till 7 Mer än 7 Antalet Mindre än 6 11 61 107 Frånvarodagar: Från 6 till 12 22 81 50 Mer än 12 41 18 9 Beskriv materialet med ett stapeldiagram (Graph/Bar Chart) i Minitab (stapeldiagrammet ska tydligt illustrera hela datamaterialet). Tolka stapeldiagrammet i ord. Tycker du att stapeldiagrammet indikerar något samband mellan variablerna eller verkar variablerna vara oberoende av varandra? Motivera. Tips: Kom ihåg att du inte kan behandla korstabellen (two way table) som ʺrådataʺ (Counts of Unique Values), utan du måste behandla det som en färdig sammanställning (Values From a Table). Datamaterialet kan vara inskrivet i Minitab även på nedanstående sätt: OBS att tabellen nedan bara innehåller de två första av totalt 9 rader: Ant franvaro Arbetstillfredsst index Count 1.Mindre an 6 1.Mindre an 4 11 1.Mindre an 6 2.Fran 4 till 7 61... Alternativt sätt att skriva in datamaterialet i Minitab: Klistra in tabellen i fyra kolumner och tre rader. Använd Graphs/ Bar chart /Values from a Table/ Two way Table. Låt första raden () hamna i de grå fälten. Ett exempel (första två raderna) på hur man fyller datat i Minitab följer nedan. Frånvaro: Mindre än 4 Från 4 till 7 Mer än 7 Mindre än 6 11 61 107 Från 6 till 12 22 81 50 6