Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.



Relevanta dokument
Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Uppgift 1. Deskripitiv statistik. Lön

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Kort manual till SPSS 10.0 för Mac/PC

Marknadsinformationsmetodik Inlämningsuppgift

19. Skriva ut statistik

Resultatet läggs in i ladok senast 13 juni 2014.

Richard Öhrvall, 1

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Marknadsinformationsmetodik Inlämningsuppgift

Matematikcentrum 1(12) Matematisk Statistik Lunds Universitet. SPSS (PASW) 18 for Windows - a guided tour

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Mata in data i Excel och bearbeta i SPSS

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning G60 Statistiska metoder

Intro till SPSS Kimmo Sorjonen (0811)

InStat Exempel 4 Korrelation och Regression

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Laboration 2 multipel linjär regression

Idiotens guide till. Håkan Lyckeborgs SPSS-föreläsning 4/ Av: Markus Ederwall, 21488

Sänkningen av parasitnivåerna i blodet

Lösningar till SPSS-övning: Analytisk statistik

Linjär regressionsanalys. Wieland Wermke

Seriehantering. [En enkel guide för hur du som serieadministratör använder SVEMO TA.]

Laboration: Att inhägna ett rektangulärt område

Obligatorisk uppgift, del 1

Datorövning 1 Statistik med Excel (Office 2007, svenska)

TVM-Matematik Adam Jonsson

Variansanalys med SPSS Kimmo Sorjonen ( )

Statistik och epidemiologi T5

ÖVNINGSUPPGIFTER KAPITEL 9

Datorövning 1 Statistik med Excel (Office 2007, svenska)

Faktoranalys, Cronbach s Alpha, Risk Ratio, & Odds Ratio

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

Datorövning 1 Statistik med Excel (Office 2010, svenska)

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Laboration 4 R-versionen

Logga in. Elevöversikt. Kolumner. Godkänna. Urval. Hantera inflytt och byte. Sök. Familjebild. Utskriftsrutin Om pengen

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Multipel regression och Partiella korrelationer

Regressionsanalys av huspriser i Vaxholm

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Uppdaterad Enkel manual tävlingsanmälan i friidrottens nya IT- system.

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Dekomponering av löneskillnader

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

CSN-rapportering, gymnasiet

SPSS En guidad tur. Vad ska jag göra idag? Följ instruktioner som följer, om du behöver hjälp det är bara att fråga en lärare!

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Del 2 tillsammans med förberedelsefrågor - tid för inlämning och återlämning meddelas senare.

PM NÄTAVGIFTER Sammanfattning.

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

10.1 Enkel linjär regression

Avd. Matematisk statistik

Att fylla i schema på barnomsorg på webben

Tentamen i Matematisk statistik Kurskod S0001M

Instruktion för suggringsnav

Datorövning 5 Exponentiella modeller och elasticitetssamband

Laboration 4 Regressionsanalys

Genomförande av Hälsokurvan

Statistisk undersökningsmetodik (Pol. kand.)

8-4 Ekvationer. Namn:..

Läs detta innan du fortsätter, eller skriv ut det, klicka runt lite och läs samtidigt.

1 Förberedelseuppgifter

Laboration 2: Styrkefunktion samt Regression

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Lumbago - Förord. Välkommen till Journalprogrammet Lumbago.

Datorlaboration 2 Konfidensintervall & hypotesprövning

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

IdrottOnline-appen Du kan installera appen från Google Play store för Android och Appstore för iphone. Sök på IdrottOnline så bör den komma fram.

Resultat. Principalkomponentanalys för alla icke-kategoriska variabler

Programmering A C# VT Ett kompendie över Programmering A (50p) i c# Stefan Fredriksson

Datorövning 1 Enkel linjär regressionsanalys

Inledning. Att bli medlem

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

B = Bokad tid. T = Tillfälligt bokad tid. L = Ledig tid. X = Spärrad tid

Semester och arbetstidsförkortning

Här kan du välja befintligt upplägg eller skapa ett nytt. Klicka på edit uppe till höger för att redigera och/eller skapat nytt.

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet. Laboration 4. Regressionsanalys

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

F14 Repetition. Måns Thulin. Uppsala universitet Statistik för ingenjörer 6/ /15

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Multipel Regressionsmodellen

Lär dig sökmöjligheterna i Disgen 8

VAD TYCKER DE ÄLDRE OM ÄLDREOMSORGEN? - SÄRSKILT BOENDE I HÖGANÄS KOMMUN 2013

Lathund Spåra ändringar

Från sömnlös till utsövd

lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten.

a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Höftledsdysplasi hos dansk-svensk gårdshund

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Transkript:

Laboration 5 Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter. Deluppgift 1: Enkel linjär regression Övning Under denna uppgift ska enkel linjär regressionsanalys användas. Använd materialet yield som ligger upplagt på kurshemsidan, vilket innehåller observationsnummer, reaktionstemperatur och yield (utfall) från 25 slumpmässigt utvalda kemiska processer. Det man vill undersöka är om reaktionstemperaturen påverkar yield från den kemiska processen. Börja med att göra ett spridningsdiagram (Graphs Chart Builder Scatter/Dot). Hur ser sambandet ut? Är det linjärt? Starkt? Positivt eller negativt? Regression görs via Analyze Regression Linear. Välj Yield som beroende och Temperatur som oberoende variabel. Klicka på OK och tolka utskriften. Denna utskrift kan ni klara av att tolka om ni bara sätter er ner en stund och kollar igenom den. Vilka är skattningarna på α och β? Är lutningen signifikant? Hur hög är förklaringsgraden? En prediktion ska göras för temperatur = 78 grader. Då måste ni först lägga till det värdet längst ner i kolumnen för temperatur i datamaterialet (lämna tomt på kolumnerna Observation och Yield). Gå därefter samma menyväg som tidigare, klicka på Save och bocka där i rutan Unstandardized under Predicted values samt rutorna Mean och Individual under Prediction intervals. Klicka på Continue och därefter OK, prediktionen dyker upp i datamaterialet. Finns det ett samband mellan frövikt och skottlängd? En student använde sitt exjobb till att undersöka om det finns något samband mellan groddplantors frövikt (i mg) och hur lång skottlängd (i mm) dessa groddplantor uppnår i mörker. Frön för 43 olika groddplantor planterades, och deras skottlängd mättes efter tre veckor. Dessa siffror finns sammanställda i filen groddplantor. Börja med att undersöka sambandet med hjälp av ett spridningsdiagram, frövikten förklarar plantornas skottlängd. Som synes är det två plantor som har mycket högre frövikt än de andra. Testa att göra en enkel linjär regression med dessa två plantor och en utan dessa två och undersök hur stor skillnaderna blir mellan dessa två regressionsanalyser. Deluppgift 2: Ökar skördar för tre olika grödor över tid? Denna deluppgift handlar om hur regression kan tillämpas på observationer över tid. I filen skörd finns siffror över hur stora skördar man har haft (i kg per hektar) i Östergötlands län under tidsperioden 1965 2011. Börja med att visuellt undersöka sambandet mellan de olika grödorna och år. När observationer över tid ska analyseras brukar en räknande kolumn skapas, som består av värden från 1 och upp till antalet tidpunkter som observeras. I SPSS finns det ingen smidig funktion för att skapa en sådan kolumn (vad jag vet), så för att göra detta kan Transform Compute Variable

användas. Under Target Variable skriver ni in vad den räknande kolumnen ska heta (ex. Tid), och som Numeric Expression skriver ni år-1964. Använd nu den skapade kolumnen som förklaringsvariabeln och skapa tre stycken regressioner (en för varje gröda). Ökar skördarna signifikant och är det några intressanta skillnader mellan dessa ökningar? Deluppgift 3: Åldersbestämmelse av ekar I denna uppgift kommer vi in på multipel regression med två förklaringsvariabler. Undersökningen handlar om att kunna åldersbestämma ekar med hjälp av deras diameter (i meter) i brösthöjd och djup på barksprickor (i mm). 116 ekar har observerats, och man har tagit reda på deras riktiga ålder för att kunna undersöka om de två variablerna kan förklara åldern bra eller inte. Siffrorna finns i ekar. Börja som vanligt med att göra spridningsdiagram och undersök sambanden mellan diameter och år samt barksprickdjup och år. Gör därefter en multipel regression där diameter och barkspricksdjup förklarar åldern på eken. Kan man använda ekarnas diameter och barksprickdjup för att åldersbestämma dem? Deluppgift 4: Vad kan förklara betakaroten i blodplasma? I denna uppgift kommer vi in på regression med ett stort antal förklarande variabler, och även hur man kan skapa så kallade indikationsvariabler. Datamaterialet Datamaterialet diet som ligger på kurshemsidan innehåller värden på 12 variabler, vilka är observerade på 315 personer. Hämta hem detta och öppna det i SPSS. Variablerna är: Betakaroten: Koncentration betakaroten i blodplasma (nanogram/ml) Ålder: Personens ålder i år Kön: 1 = man, 2 = kvinna Rökning: 1 = aldrig rökt, 2 = tidigare rökare, 3 = nuvarande rökare BMI: Vikt/(längd i m^2) Vitamin: Äter vitamintillskott (1 = ofta, 2 = sällan, 3 = aldrig) Kaloriintag: Antalet konsumerade kalorier per dag Fettintag: Gram fett konsumerat per dag Fiberintag: Gram fibrer konsumerat per dag Alkoholintag: Antal standardglas alkohol konsumerade per vecka Kolesterolintag: Milligram kolesterol konsumerat per dag Betakarotenintag: Mikrogram betakaroten konsumerat per dag Om en person har en låg koncentration av betakaroten i blodplasma löper denna större risk för att drabbas av cancer. Betakaroten finns naturligt i vissa grönsaker, som t.ex. morötter och grönkål. För att undersöka vilka variabler som leder till att koncentrationen blir låg har man observerat ovanstående variabler och vill undersöka om någon av dessa påverkar koncentrationen signifikant.

Uppgift 1: Transformering På grund av vissa problem som uppstår med residualerna (vilket vi inte går in på här), är det bra att logaritmera den beroende variabeln (Y), vilket är koncentrationen av betakaroten. Gå tillbaka till laboration 2 om ni inte kommer ihåg hur ni logaritmerade en kolumn. Uppgift 2: Visuell analys och outliers En god rutin är som sagt att börja med att visuellt undersöka vilka samband den beroende variabeln har med var och en av de oberoende variablerna. Detta innebär att 11 olika spridningsdiagram ska göras, vilket smidigast görs med hjälp av Graphs Chart Builder Scatter/Dot. Innan detta görs måste dock alla variabler ställas in på Scale under Measure i Variable View (längst ner till vänster vid datamaterialet). Pga att SPSS har lite begränsningar i diagramskapande kan man som mest ha 5 variabler samtidigt i denna så kallade spridningsdiagramsmatris, så de logaritmerade koncentrationerna får plottas mot 4 variabler i taget. I spridningsdiagramsmatriserna som skapas är det raden med den beroende variabeln som är av intresse, för där finns de spridningsdiagram vi söker. Hur ser de olika sambanden ut? Uppgift 3: Indikatorvariabler För att genomföra multipel linjär regression bör variablerna kön, rökning och vitamin göras om till indikatorvariabler. Mitt förslag är att nedanstående variabler skapas: 1 om man Man = { 0 om kvinna 1 om nuvarande rökare Rökare = { 1 om tidigare rökare Tidrökare = { 1 om personen äter vitaminer ofta Vitaminofta = { 1 om personen äter vitaminer sällan Vitaminsällan = { Som synes behövs det bara göras en indikatorvariabel när grundvariabeln har två nivåer och två indikatorvariabler när grundvariabeln har tre nivåer. För t.ex. vitamin så blir båda indikatorvariablerna 0 när personen aldrig äter vitaminer. Dessa indikatorvariabler skapas med hjälp av Transform Recode into different variables. T.ex. görs indikatorvariabeln Tidrökare enligt nedanstående rutor:

Rökning klickas in, och därefter döper man indikatorvariabeln under Name. För att ange omkodningen går man in på Old and New Values: Under Old Value skrivs värdet på den ursprungliga variabeln in, och under New Value skrivs det in vilket värde indikatorvariabeln ska ha för det ursprungliga värdet, klicka därefter på Add. Skapa de fem indikatorvariablerna och ge de lämpliga namn.

Uppgift 4: Analys Efter alla dessa förberedelser så är det då dags att analysera materialet med hjälp av multipel linjär regression. Använd Analyze Regression Linear, klicka in de logaritmerade koncentrationerna som Dependent och de nu 13 oberoende variablerna som Independents. Välj bara in indikatorvariablerna för kön, rökning och vitamin, inte grundvariablerna! Tolka utskriften, är regressionen signifikant? Hur hög är förklaringsgraden? Tolka de skattade regressionskoefficienterna, ignorera just nu faktumet att en del inte är signifikanta. Som ni säkerligen lagt märke till är några av regressionskoefficienterna inte signifikanta. Det man kan göra då är att ta bort den koefficient med högst p-värde och därefter anpassa en ny regression. Detta fortsätter man med tills att alla koefficienter är signifikanta. Observera att om en av indikatorvariablerna för samma grundvariabel inte är signifikant ska båda behållas eller båda tas bort ur analysen. Gör detta, vilka variabler påverkar signifikant koncentrationen av betakaroten i blodplasma? Uppgift 5: Prediktion En man som... är 52 år gammal röker har ett BMI på 26,3 aldrig äter vitaminer får i sig 2300 kalorier per dag äter 73 gram fett om dagen har ett fiberintag på 10 gram om dagen dricker 12 standardglas alkohol i veckan har ett kolesterolintag på 354 milligram per dag och ett betakarotenintag på 2500 mikrogram per dag ska undersökas. Hur hög koncentration av betakaroten i blodplasma förväntas denna man ha med 99% säkerhet? Vilket intervall ska användas? Använd den modell ni kom fram till i uppgift 4, vilket kan leda till att ni kanske inte har med alla variabler som rabblades upp om denna man. Prediktionen görs genom att man lägger till dessa värden på raden längst ner i datamaterialet. Gå därefter in till regressionsanalysen som vanligt, gå in under Save och bocka för rutan Unstandardized under Predicted Values och välj det korrekta intervallet under Predicition Intervals. Glöm inte att ändra konfidensnivån! Antilogga intervallet ni får i kolumnerna i datamaterialet och tolka därefter intervallet.