Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet. Laboration 4. Regressionsanalys



Relevanta dokument
Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Laboration 4 R-versionen

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet. Laboration 3. Variansanalys

Laboration 4 Regressionsanalys

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

Kvalster. Korrelation och regression: lineära modeller för bivariata samband. Spridningsdiagram. Bivariata samband

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Vi skall skriva uppsats

Laboration 5 Regressionsanalys

Tentamen i matematisk statistik (9MA241/9MA341/LIMAB6, STN2) kl 08-13

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Population. Observationsenhet. Stickprov. Variabel Ålder Kön. Blodtryck 120/80. Värden. 37 år. Kvinna

Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 HT Laboration P3-P4. Statistiska test

InStat Exempel 4 Korrelation och Regression

Lathund, procent med bråk, åk 8

Datorövning 2 Statistik med Excel (Office 2003, engelska)

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 HT11. Laboration. Statistiska test /16

Uppgift 1. Deskripitiv statistik. Lön

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Föreläsning 14: Försöksplanering

Statistik och epidemiologi T5

Lösningar till SPSS-övning: Analytisk statistik

Två konstiga klockor

Linjär regressionsanalys. Wieland Wermke

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet. Laboration 2. Statistiska test

Datorövning 3: Icke-parametriska test

Nedlagd studietid och olika kurskarakterisika en anspråkslös analys baserad på kursvärderingsdata. Fan Yang Wallentin

10.1 Enkel linjär regression

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Regression med kvalitativa variabler. Jesper Rydén

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Föreläsning 9: Hypotesprövning

Lathund till Annonsportalen

Linjära system av differentialekvationer

Handbok Ämnesprov 2016 Lärarinmatning I Dexter Åk 3. Uppdaterad: /HL Version: IST AB

1. Frekvensfunktionen nedan är given. (3p)

Att koda en magnetremsa i plastkortskrivare med inbyggd magnetkodare.

Stimulated recall En forskningsmetod

Avsikt På ett lekfullt sätt färdighetsträna, utveckla elevers känsla för hur vårt talsystem är uppbyggt samt hitta mönster som uppkommer.

BibliotekMitt.se. Riktlinjer för Boktips, Artiklar, Arrangemang, Utställningar Arrangemang mm

ELEV- HANDLEDNING (Ansökan via webben)

Algebra, polynom & andragradsekvationer en pampig rubrik på ett annars relativt obetydligt dokument

Utveckla arbetsmiljö och verksamhet genom samverkan

SEPARABLA DIFFERENTIALEKVATIONER

Systematiskt kvalitetsarbete

Statistik 1 för biologer, logopeder och psykologer

Laboration 3: Modellval i multipel regression

Ekvationssystem, Matriser och Eliminationsmetoden

4-6 Trianglar Namn:..

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Figur 1: R e g r e s s i o n A n a l y s i s : S k u l d v e r s u s t. The r e g r e s s i o n e q u a t i o n i s S k u l d = 2,94 0,861 t

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Uppgift

Menys webbaserade kurser manual för kursdeltagare. Utbildningsplattform: Fronter

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Disclosure. SOMP-I skapades av Kristina Persson. SOMP-I ägs av Barnens rörelsebyrå Kristina Persson & Kine Johansen är delägare i företaget

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

D A B A D B B D. Trepoängsproblem. Kängurutävlingen 2012 Benjamin

konstanterna a och b så att ekvationssystemet x 2y = 1 2x + ay = b 2 a b

Erfarenheter från ett pilotprojekt med barn i åldrarna 1 5 år och deras lärare

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Innehåll. Normalfördelning och t-test. Vanliga statistiska mått 2/11/2014. Vad är punktskattningar? Figurer somvisarmedelochsd, SE ochki (ellerci)

Enkätresultat för elever i åk 9 i Borås Kristna Skola i Borås hösten Antal elever: 20 Antal svarande: 19 Svarsfrekvens: 95% Klasser: Klass 9

Grundläggande biostatistik. Jenny Selander

a n = A2 n + B4 n. { 2 = A + B 6 = 2A + 4B, S(5, 2) = S(4, 1) + 2S(4, 2) = 1 + 2(S(3, 1) + 2S(3, 2)) = 3 + 4(S(2, 1) + 2S(2, 2)) = = 15.

Axiell Arena. Samarbeta om bilder Regionbiblioteket i Kalmar län

Virkade tofflor. Storlek & By: Pratamedrut. pratamedrut.se/blog/virkade tofflor 1

Träning i bevisföring

Alumniundersökning av studenter utexaminerade från dietistprogrammet vid Göteborgs Universitet år

Institutionen för matematik Envariabelanalys 1. Jan Gelfgren Datum: Fredag 9/12, 2011 Tid: 9-15 Hjälpmedel: Inga (ej miniräknare)

HT 2011 FK2004 Tenta Lärare delen 4 problem 6 poäng / problem

Övningshäfte Algebra, ekvationssystem och geometri

Begrepp Variabel, parameter, linjär funktion, koordinater, skärningspunkt, värde (mätvärde), spridningsdiagram (punktdiagram).

Tentamen i Programmering grundkurs och Programmering C

Enkätresultat för elever i år 2 i Nösnäsgymnasiet 2 i Stenungsund våren 2014

Avgifter i skolan. Informationsblad

LABORATION 3 - Regressionsanalys

Enkätresultat för elever i år 2 i Mega Musik gymnasium hösten Antal elever: 47 Antal svarande: 46 Svarsfrekvens: 98% Klasser: MM13

Enkätresultat för elever i år 2 i Praktiska Skövde i Praktiska Sverige AB hösten 2014

Laborativ matematik som bedömningsform. Per Berggren och Maria Lindroth

Snabbslumpade uppgifter från flera moment.

Frågor och svar angående de nya nationella övergångsbestämmelserna. Fråga 1: Får en amatör byta förening fler gånger på en säsong?

Göm ninjorna. Det här projektet kommer att bygga på din kunskap om CCS-kung fu.

Enkätresultat för vårdnadshavare till elever i Centralskolan Söder 4-9 i Grästorp hösten Antal svar: 50

OBS! Skriv e-postadress på tentan om du vill ha resultatet innan jul. Tentamensgenomgång måndagen den 9/ kl i MC413.

Kampanj kommer från det franska ordet campagne och innebär att man under en tidsbegränsad period bedriver en viss verksamhet.

Föreläsning 5: Rekursion

Modul 6: Integraler och tillämpningar

Sammanfattning på lättläst svenska

Instruktion när NE-bilagan har lämnats via e-tjänsten Filöverföring

Tentamen i Linjär algebra (TATA31/TEN1) ,

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

TT091A, TVJ22A, NVJA02 By, Pu, Ti. 50 poäng

När du som vårdpersonal vill ta del av information som finns hos en annan vårdgivare krävs det att:

Transkript:

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet Laboration 4 Regressionsanalys HT 2007

2 Syftet med laborationen är att vi skall bekanta oss med lite av de funktioner som finns i SPSS vad det gäller korrelations- och regressionsanalys. Den första delen av laborationen är en introduktion och behöver inte redovisas. Däremot skall den andra delen (Inlämningsuppgifter) redovisas i en skriftlig rapport som skall vara inlämnad senast fredagen den 18 januari 2008 Introduktion - Regressionsanalys i SPSS Genom hela introduktionen ställs frågor i anslutning till analyserna. Kortfattade svar finns i slutet på introduktionen. Vi skall börja med att göra en regressionsanalys på följande datamaterial: Datamaterial: För 6 torskar har vi värden på variablerna Längd (cm) och Ålder (år). Längd (cm) Ålder (år) 15 1 30 2 35 3 50 4 55 5 60 6 Kan vi påvisa något samband (linjärt) mellan längd och ålder? 1. Inläsning av data. Börja med att mata in data till SPSS. Lägg in värdena i två kolumner: Längd och Ålder. Datamaterialet skall alltså innehålla 2 kolumner med 6 värden i varje kolumn. a) Beskrivning av data. Börja nu med en grafisk beskrivning av sambandet genom att använda Graphs>Scatter>Simple>Define. Lägg in Längd på Y Axis och Ålder på X Axis. b) Korrelationer. Vi börjar med att beskriva sambandet mellan variablerna med hjälp av korrelationskoefficienter. Beräkna nu både den vanliga korrelationen (Pearson) och rangkorrelationen (Spearman). Analyze>Correlate>Bivariate. Tyder resultaten på att det finns något samband mellan Längd och Ålder?

3 c) Enkel linjär regression. Vi skall nu undersöka hur sambandet mellan variablerna ser ut genom att anpassa en rät linje till data. Ge Analyze>Regression>Linear och lägg in Längd som Dependent och Ålder som Independent. Gör analysen. Identifiera följande mått i utskriften: r korrelationskoefficienten, r 2 förklaringsgraden, s residualspridningen, de skattade koefficienterna med standardfel och t-test. d) Prognoser och konfidensintervall. Om man vill använda sin regressionsmodell för att göra prognoser så kan detta enkelt göras som en del av analysen. Gå då in under Analyze>Regression>Linear följt av Save. Vill man ha prognoser markerar man här Predicted Values Unstandardized. Gör detta. Markera även Mean och Individual under Prediction Intervals. Passa även på att spara residualerna (Unstandardized) (de behövs i nästa deluppgift). Gör analysen. Titta sedan i datamaterialet. Det bör finnas sex nya kolumner. pre_1 - Prognoser res_1 - Residualer lmci_1 - Undre gräns för ett KI för medelvärdet på Y givet olika X umci_1 - Övre gräns för ett KI för medelvärdet på Y givet olika X lici_1 - Undre gräns för ett PI * för ett enskilt Y givet olika värden på X uici_1 - Övre gräns för ett PI * för ett enskilt Y givet olika värden på X * PrognosIntervall Alla värden och KI är räknade för de värden på X som finns i datamaterialet. Vill man ha prognoser/intervall för ett annat värde på X så lägger man till detta värde i X-kolumnen på en ensam rad sist i datamaterialet och gör om analysen. Detta värde kommer inte med i analysen (det finns ju inget Y-värde), men man får prognoser/intervall i alla fall. Ta nu bort de sex nya kolumnerna och lägg till värdet 7 på rad 7 i X-kolumnen (Ålder). Gör sedan om analysen. Vad blir prognosen för längden för en sju år gammal torsk? Vad blir prognosintervallet? e) Kontroll av förutsättningar. Vi skall nu kontrollera två av de antagande som finns i analysen. För det första antagandet om normalfördelning och för det andra antagandet om lika varianser. Undersök nu om residualerna är normalfördelade genom att göra ett test (Analyze>Nonparametric Tests>1-Sample K-S). Ange residualerna på Test Variable List. Tyder det på att data avviker från en normalfördelning? Antagandet om lika varianser (konstant spridning kring linjen) kan vi undersöka genom att plotta residualerna mot antingen Ålder eller de skattade värdena (pre_1). (Graphs>Scatter). Gör båda.

4 Svar: 1. b) Ja! r p = 0,982 => p=0,000 / r s = 1,000 => p<0,01 Det finns ett samband c) r = 0,982 / r 2 = 0,964 / s = 3,651 / a=9,333 (3,399) / b=9,000 (0,873) t=10,311 => p=0,000 d) Prognos vid åldern 7 år = 72,33 / PI 58,5-86,2 e) NF: Nej! p=0,990 / Konstant varians: Ej helt lätt att bedöma (få värden) Sammanfattning SPSS Graphs>Scatter Spridningdiagram Analyze>Nonparametric Tests>1-Sample K-S Test av Nf Analyze>Correlate>Bivariate Analyze>Regression>Linear Korrelationer Linjär regression

5 Inlämningsuppgifter Dessa uppgifter skall redovisas i form av en skriftlig rapport som skall vara inlämnad senast fredagen den 18 januari 2008. På kursens hemsida http://www.maths.lth.se/matstat/kurser/masb01/ hittar du de datafiler som behövs för att lösa uppgifterna. Skriv din redovisning som den skulle publicerats i en vetenskaplig rapport, bara mer kortfattat. Det vill säga strukturerad enligt följande: a) Introduktion (inklusive hypoteser) b) Material och metoder (speciellt statistiska metoder) c) Resultat (tolkningar och slutsatser) 1. Green (1997) studied the ecology of red land crabs on Christmas Island and examined the relationship between the total biomass of red land crabs and the density of their burrows within 25 m 2 quadrats (sampling units) at five forested sites on the island. We are analyzing two of these sites: 10 quadrats at Lower Site (LS) and 8 quadrats at Drumsite (DS). Use dataset Green. Calculate parametric and non-parametric correlations between total biomass and density of burrows for the total material and for each site separately. Make a graphical presentation of your results. Analyze the relationship by fitting a simple linear regression to each site separately. Are their any evidences of a linear relationship between total biomass and density? Reference: Green, P.T. (1997) Red crabs in rain forest on Christmas Island, Indian Ocean: activity patterns, density and biomass. Journal of Tropical Ecology 13: 17-38. 2. Peake & Quinn (1993) investigated the relationship between the number of species of macroinvertebrates, the total abundance of macroinvertebrates and area of clumps of mussels on a rocky shore in Southern Australia. The variables of interest are clump area (dm 2 ), number of species and number of individuals. Use dataset Peake. a) Number of species against clump area. Graph the relationship between the two variables. Calculate a linear regression. Plot the residuals from the analysis against the predicted values. Investigate if the fit of the model is improved if we use the 10- logarithm of clump area as the independent variable. Plot the residuals from this analysis against the predicted values. Which model do you prefer?

6 b) Number of individuals against clump area. Graph the relationship between the two variables. Calculate a linear regression. Make an interpretation of the estimated coefficients. Plot the residuals from the analysis against the predicted values. Investigate if the fit of the model is improved if we use the 10-logarithm of clump area as the independent variable. Plot the residuals from the analysis against the predicted values. Investigate if the fit of the model is improved if we use log-scales for both variables. Plot the residuals from the analysis against the predicted values. Which model do you prefer? Reference: Peake, A.J. & Quinn, G.P. (1993) Temporal variation in species-area curves for invertebrates in clumps of an intertidal mussel. Ecography 16: 269-277. General reference: Datasets in exercises 1-2 comes from Quinn, G.P. & Keough, M.J. (2002) Experimental Design and Data Analysis for Biologists, Cambridge University Press. Sammanfattning SPSS Data>Select Cases Data>Split File Graphs>Scatter Graphs>Q-Q plot Analyze>Nonparametric Tests>1-Sample K-S Analyze>Correlate>Bivariate Analyze>Regression>Linear Urval av individer Dela upp materialet i grupper Spridningdiagram Q-Q plot Test av Nf Korrelationer Linjär regression