Datorövning 1 Enkel linjär regressionsanalys

Relevanta dokument
Datorövning 5 Exponentiella modeller och elasticitetssamband

Datorövning 2 Multipel regressionsanalys, del 1

DATORÖVNING 5: SANNOLIKHETSFÖRDELNINGAR FÖR

DATORÖVNING 2: TABELLER OCH STANDARD-

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Laboration 2 multipel linjär regression

10.1 Enkel linjär regression

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

TAMS 28 DATORÖVNING 2

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F1

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010

DATORÖVNING 2: STATISTISK INFERENS.

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Regressions- och Tidsserieanalys - F1

LABORATION 3 - Regressionsanalys

DATORÖVNING 3: MER OM STATISTISK INFERENS.

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Regressions- och Tidsserieanalys - F4

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Datorövning 1 Introduktion till Minitab och Excel

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Datoro vning 1-2 Statistisk analys av kodade svar

2.1 Minitab-introduktion

Laboration 4 R-versionen

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Föreläsning 4. Kap 5,1-5,3

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel

Laboration med Minitab

Statistik 1 för biologer, logopeder och psykologer

Regressions- och Tidsserieanalys - F3

InStat Exempel 4 Korrelation och Regression

DATORÖVNING 3: EXPERIMENT MED

Grundläggande statistik kurs 1

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Statistiska samband: regression och korrelation

TVM-Matematik Adam Jonsson

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Laboration 4 Regressionsanalys

Statistik B Regressions- och tidsserieanalys Föreläsning 1

DATORÖVNING 6: CENTRALA GRÄNSVÄRDES-

TAMS28 DATORÖVNING VT1

Idiotens guide till. Håkan Lyckeborgs SPSS-föreläsning 4/ Av: Markus Ederwall, 21488

DATORÖVNING 4: DISKRETA

FACIT (korrekta svar i röd fetstil)

tentaplugg.nu av studenter för studenter

Datorövning 1 Calc i OpenOffice 1

Datorövning 1 Statistik med Excel (Office 2010, svenska)

Regressions- och Tidsserieanalys - F7

Obligatorisk uppgift, del 1

Metod och teori. Statistik för naturvetare Umeå universitet

*****************************************************************************

Richard Öhrvall, 1

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Föreläsning G60 Statistiska metoder

LABORATION 3 - Regressionsanalys

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

DATORÖVNING 3: MER OM STATISTISK INFERENS.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Inledning till OpenOffice Calculator Datorlära 2 FK2005

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Begrepp Uttryck, värdet av ett uttryck, samband, formel, graf, linje, diagram, spridningsdiagram.

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Kvadratisk regression, forts.

Laboration: Brinntid hos ett stearinljus

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Laboration: Att inhägna ett rektangulärt område

Laboration: Grunderna i Matlab

DATORÖVNING 2: BESKRIVANDE STATISTIK. SANNOLIKHETSLÄRA. STATISTISK INFERENS.

Introduktion till Word och Excel. 14 september 2008

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

Laboration 2: Styrkefunktion samt Regression

Examinationsuppgifter del 2

Läs noggrant informationen nedan innan du börjar skriva tentamen

Intro till SPSS Kimmo Sorjonen (0811)

Datainmatning TÄNKTA BETECKNINGAR. Variabelnamn/kolumnbeteckning, Dummyvärden, som matas in beroende på aktuellt svarsalternativ

Introduktion till Word och Excel

Marknadsinformationsmetodik Inlämningsuppgift

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Ett enkelt Kalkylexempel - Fruktaffären

Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.

Valresultat Riksdagen 2018

Handledning för konstruktion av tabeller och diagram med Excel

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Medicinsk statistik II

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Datorövning 1 Statistik med Excel (Office 2007, svenska)

TAMS65 DATORÖVNING 2

Laboration 3 Inferens fo r andelar och korstabeller

Attila Szabo Niclas Larson Gunilla Viklund Mikael Marklund Daniel Dufåker. GeoGebraexempel

Kort manual till SPSS 10.0 för Mac/PC

Transkript:

Datorövning 1 Enkel linjär regressionsanalys Datorövningen utförs i grupper om två personer. I denna datorövning skall ni använda Excel och Minitab för att 1. få en visuell uppfattning om vad ett regressionssamband är 2. studera hur olika observationer kan tänkas påverka ett regressionssamband 3. skatta regressionssamband och tolka komponenter i utskrifter 4. beräkna konfidensintervall, prognosintervall och göra test i regressionsanalyser Start Logga in på systemet Excel Starta Excel. Mata in nedanstående tal kolumnerna A och B: 1 2 2 2 3 3 4 5 5 6 6 4 7 7 8 10 9 8 10 12 Markera området med talen, klicka på Insert-menyn och välj där ett punktdiagram (Scatter). Ni har nu fått diagrammet inklistrat på kalkylbladet. Ni skall nu låta Excel anpassa en rät linje till punkterna. 1

Klicka på någon av punkterna i diagrammet, välj menyn Layout och alternativet Trendline. Välj här alternativet Linear Trendline. Studera den linje ni får. Vad finns det att säga om de vertikala avstånden från respektive punkt till linjen? I kolumn B, ändra det första värdet från 2 till 10. Vad händer med den inritade linjen? Tänk på att skalan på y-axeln kan ändras. Ändra sedan tillbaka till värdet 2. I kolumn B, ändra det sista värdet från 12 till 4. Vad händer med linjen då? Ändra sedan tillbaka värdet. Ändra så det sjätte värdet från 4 till 4. Vad händer med linjen? Ändra sedan tillbaka värdet. Kan ni säga något generellt om hur punkter på olika platser i punktsvärmen påverkar linjens utseende? Ändra nu det sista värdet i kolumn A från 10 till 30 och det sista i kolumn B från 12 till 20. Studera hur linjen förändras. Ni har med denna handling spridit ut punktsvärmen längs x-axeln. Ändra nu det sista värdet i kolumn B från 20 till 12. Påverkas linjen mer denna gång än när ni tidigare ändrade från 12 till 4 (8 steg även denna gång alltså). Tänk på att skalan på y-axeln förändras. Ändra tillbaka från 12 till 20 och ändra sedan det näst sista värdet i A från 9 till 27 och det näst sista i B från 8 till 18. Pröva sedan att åter ändra det sista värdet i B från 20 till 12. Blir linjens förändring annorlunda denna gång jämfört med tidigare? Om så är fallet vad kan detta bero på? Fundera lite på om ni kan säga något allmänt om olika punkters betydelse för regressionslinjen (s k influens). Låt värdena kvarstå efter den sista ändringen. Klicka någonstans utanför diagrammet och välj menyn Data och alternativet Data Analysis (om ni inte har detta alternativ, säg till handledaren!). Gå ned med rullningslisten tills ni hittar alternativet Regression, välj detta och klicka på OK. Ni får då en ny dialogruta med följande utseende: 2

Sätt markören i det översta fältet (för Y-variabeln) och markera sedan alla värden i kolumn B. Flytta sedan markören till nästa fält (för X) och markera alla värden i kolumn A. Markera i rutan Confidence level (Konfidensnivå) och låt "95%" stå kvar. Klicka i rutan för Output Range (Utdataområde) och sätt markören i fältet därefter. Markera en tom ruta på kalkylbladet. Klicka sedan på OK. Ni får nu en utskrift över den gjorda regressionsanalysen. För att se all text, dubbelklicka i gränserna mellan de kolumner i vilka utskriften har hamnat. Studera utskriften. Den innehåller en del komponenter som vi ej tagit upp, men många av dem är bekanta. a. Fundera över vad det är för regressionsmodell ni har anpassat b. Vilka värden har b 0 och b 1 i den anpassade modellen? c. Vilka värden har SST, SSE och SSR? d. Hur stor är förklaringsgraden? Kan ni hitta detta värde direkt i utskriften? e. Vilket värde har korrelationskoefficienten? 3

f. Vilket värde får testfunktionen F? Kan man se av utskriften om hypotesen H 0 : =0 kan förkastas eller ej? g. Vad blir det 95% konfidensintervallet för? h. Vilket värde får testfunktionen t och var ser man om H 0 : =0 kan förkastas på basis av detta test? Minitab Starta Minitab. Klistra över kolumnerna A och B från Excel-dokumentet till Worksheet-fönstret i Minitab (eller mata in dem för hand). Kom ihåg att den grå listen överst i Worksheet-fönstret är till för rubrik: här ska alltså inga siffror matas in. Gör Session-fönstret aktivt och välj alternativet Enable commands från menyn Editor. Prompten MTB>dyker nu upp i Session-fönstret. Vi börjar med att rita ett punktdiagram. Öppna menyn Graph och välj alternativet Scatterplot Välj det redan förmarkerade alternativet. Klicka på OK. 4

I första fältet under Y variables, välj kolumnen C2 och i första fältet under X variables, välj kolumnen C1. Klicka på OK. Studera diagrammet och jämför med det punktdiagram ni ritade i Excel. Studera också vilket kommando som genererades i Session-fönstret. Det bör ha blivit MTB > Plot C2*C1; SUBC> Symbol. Underkommandot (SUBC> ) har med förinställda alternativ (defaults) att göra och behöver egentligen inte anges. Pröva därför att ge följande kommando efter den sista prompten (följt av Enter) plot c2*c1 Blir det någon skillnad i det genererade diagrammet? Öppna nu menyn Stat, välj undermenyn Regression och i denna alternativet Fitted Line Plot 5

I fältet Response (Y), välj kolumnen C2 och i fältet Predictor (X) välj kolumnen C1. Låt övrigt vara som det står och klicka på OK. Ni får nu dels en utskrift i Session-fönstret, dels ett diagram också innehållande utskrifter. Jämför diagrammet och utskrifterna med de motsvarigheter ni fick i Excel. Stämmer de överens? Gå igenom frågorna a)-h) ovan och notera vilka ni kan hitta i Minitab-utskriften och vilka ni inte kan hitta. Detta är nu inte det normala förfarandet när man vill göra regressionsanalys med Minitab. Öppna åter menyn Stat, välj undermenyn Regression och denna gång alternativet Regression 6

Detta är ett generellt kommando för regression som möjliggör regression av en vald beroende variabel (Y) mot en eller flera förklaringsvariabler (predictors). Nu skall ni i fältet för Response välja kolumnen C2 och i fältet för Predictors välja kolumnen C1. Klicka sedan på OK. Ni får nu bara en utskrift i Session-fönstret. Denna ser nästan ut som den tidigare med undantag för några rader på slutet. Studera vilket kommando som genererats. Det bör ha blivit MTB > Regress C2 1 C1; SUBC> Constant; SUBC> Brief 2. De två underkommandon Constant; och Brief 2. behövs egentligen inte utan är "defaults". Pröva nu att ge följande kommando efter den sista prompten (inklusive Enter) regress c2 1 c1 Jämför utskriften med den tidigare. Kommandostrukturen för detta är att efter ordet regress följer den kolumn som utgör responsvariabel (C2). Ettan anger att regression skall göras på en förklaringsvariabel och efter denna etta följer kolumnen med förklaringsvariabeln (C1). Hade ni här haft fler än en förklaringsvariabel, t ex 3 stycken, hade ni angett en trea istället för ettan och sedan de tre kolumner som skulle ha innehållit förklaringsvariablerna. Observera att ni inte behöver använda stor bokstav någonstans. Att kommandot ekas med sådana, när ni använder menyerna, är bara en layout-detalj. Vidare gäller att alla kommandon kan anges enbart med de fyra första inledande bokstäverna (ibland räcker det med färre). Dessa definierar unikt varje enskilt kommando i Minitab. Det går naturligtvis bra att bara använda menygenererade körningar i denna kurs, men det går i allmänhet fortare att använda kommandon och skall man köra många liknande analyser är det litet tidsödande att alltid öppna menyalternativet och klicka. Ni bör märka att ni här inte får några konfidensintervall för parametrarna. Det kanske känns knepigt, eftersom Minitab är ett statistikprogram, men man har här valt att inte redovisa dem, eftersom de enkelt kan konstrueras med hjälp av utskriften. Ett konfidensintervall för erhålls som b 1 t s b1 7

där s b1 är uttrycket för den skattade standardavvikelsen hos b. Vi har hittills gett ett beräkningsbart uttryck för detta, men här finns det faktiskt direkt i utskriften under kolumnen "SE Coeff". Leta därför upp ett värde i t-tabell och beräkna själva konfidensintervallet med 95% konfidensgrad. Om ni inte vill använda tabellen, skriv då in följande kommando i Session-fönstret: MTB > invc 0.975; SUBC> t 8. Ni skall förstås inte skriva in MTB> resp. SUBC> Dessa är promptar som genereras av Minitab. Skriv bara in den text (inklusive den sista punkten)som står i detta typsnitt och ge Enter efter den första raden. I utskriften skall ni nu på lämpligt ställe kunna läsa av tabellvärdet. För att konstruera konfidensintervall för E(y 0 )=μ y x0 resp. prognosintervall för y 0 gör man på följande sätt: Öppna åter menyn för regression (Stat->Regression->Regression ) (Observera att de val ni senast gjorde står kvar. ) Klicka på knappen Options. 8

I fältet under Prediction intervals for new observations skall man skriva in värdet på x 0. Här kan ni t ex välja värdet 5.5 eftersom detta inte fanns med bland mätvärdena och ändå ligger inom ramen för hela datamaterialet. Skriv alltså in 5.5 på denna rad och klicka på OK. Klicka sedan på OK i den första rutan och studera utskriften i Session-fönstret. Vad blir konfidensintervallet resp. prognosintervallet? Korrelation Korrelationskoefficienten är som sagt närbesläktad med linjär regression. Skillnaden ligger i att korrelationen mäter graden och riktningen av linjärt samband utan att specifikt tala om hur det ser ut. Antag t ex att för två variabler gäller det perfekta sambandet y=2+3x, dvs det antas inte finnas några slumpavvikelser utan alla punkter ligger exakt på den räta linjen. Korrelationskoefficienten blir i detta fall lika med 1, pekande på ett exakt linjärt samband. Den skulle dock fortstätta att vara ett om sambandet ändrades till y=1756.5+349.91x. Observera att dessa två samband är helt skilda från varandra, men de har samma korrelation. Skulle sambandet ändras till t ex y=0.7-12.3x blir dock korrelationen lika med 1 eftersom riktningen nu har ändrats. Öppna menyn Stat, välj undermenyn Basic Statistics och i denna alternativet Correlation 9

Här kan ni nu välja för vilka variabler korrelationer skall beräknas. Välj därför både C1 och C2 i fältet under Variables och klicka på OK. Studera utskriften i Session-fönstret. Ni får den beräknade korrelationskoefficienten uttryckt som Pearson correlation som är den fullständiga engelskspråkiga termen. Ni får även P-value utskrivet men ni kan observera att i dialogrutan ovan kan man välja att avstå från denna beräkning. Detta värde kan användas för att avgöra om korrelationskoefficienten i populationen är skild från 0. Om ni t ex testar på 5% nivå skall P-värdet vara lägre än 0.05 för att ni skall kunna påstå detta (dvs förkasta en nollhypotes som säger att korrelationen är 0). Väljer ni nivå 1% skall P-värdet vara lägre än 0.01 etc. I Session-fönstret syns även vilket kommando som har genererats och detta kan förstås användas istället för meny-alternativet (och då förkortat till corr c1 c2). Övningsuppgift Använd nu datamaterialet till uppgift 2.12 i AJÅ, sidan 80, och genomför regressionsanalyser i Excel och Minitab. Jämför era utskrifter med de som finns i boken. Eftersom ni förmodligen behandlat denna uppgift på lektion, bör ni kunna göra bra jämförelser. Avslutning Avsluta alla program och logga ut från systemet. 10