Statistiska samband: regression och korrelation

Relevanta dokument
Arbeta med normalfördelningar

Föreläsning G60 Statistiska metoder

Höftledsdysplasi hos dansk-svensk gårdshund

InStat Exempel 4 Korrelation och Regression

Stora talens lag eller det jämnar ut sig

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Repetition kapitel 1, 2, 5 inför prov 2 Ma2 NA17 vt18

Medelvärde, median och standardavvikelse

Sänkningen av parasitnivåerna i blodet

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Statistik 1 för biologer, logopeder och psykologer

Korrelation och autokorrelation

Valresultat Riksdagen 2018

Räta linjens ekvation & Ekvationssystem

Attila Szabo Niclas Larson Gunilla Viklund Mikael Marklund Daniel Dufåker. GeoGebraexempel

Föreläsning 12: Regression

Exponentialfunktioner och logaritmer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Fler uppgifter på andragradsfunktioner

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Lektionsanteckningar 11-12: Normalfördelningen

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Lösa ekvationer på olika sätt

Linjär regressionsanalys. Wieland Wermke

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Regressions- och Tidsserieanalys - F1

Kompletterande lösningsförslag och ledningar, Matematik 3000 kurs B, kapitel 2

Ma B - Bianca Övning lektion 1. Uppgift nr 10. Uppgift nr 1 Givet funktionen f(x) = 4x + 9 Beräkna f(6) Rita grafen till ekvationen.

Regressions- och Tidsserieanalys - F1

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Grundläggande matematisk statistik

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

varandra. Vi börjar med att behandla en linjes ekvation med hjälp av figur 7 och dess bildtext.

Grundläggande statistik kurs 1

10.1 Enkel linjär regression

Attila Szabo Niclas Larson Gunilla Viklund Mikael Marklund Daniel Dufåker. GeoGebraexempel

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

vux GeoGebraexempel 2b/2c Attila Szabo Niclas Larson Gunilla Viklund Mikael Marklund Daniel Dufåker

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Funktioner. Räta linjen

Matematik CD för TB. x + 2y 6 = 0. Figur 1:

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Experimentella metoder, FK3001. Datorövning: Finn ett samband

Laboration 4 R-versionen

Datorövning 1 Enkel linjär regressionsanalys

y y 1 = k(x x 1 ) f(x) = 3 x

Begrepp Uttryck, värdet av ett uttryck, samband, formel, graf, linje, diagram, spridningsdiagram.

Uppgift 1-9. Endast svar krävs. Uppgift Fullständiga lösningar krävs. 120 minuter för Del B och Del C tillsammans. Formelblad och linjal.

Finansiell statistik

UPPGIFTER KAPITEL 2 ÄNDRINGSKVOT OCH DERIVATA KAPITEL 3 DERIVERINGSREGLER

Matematik 3 Digitala övningar med TI-82 Stats, TI-84 Plus och TI-Nspire CAS

Kravgränser. Provet består av Del B, Del C, Del D samt en muntlig del och ger totalt 63 poäng varav 24 E-, 21 C- och 18 A-poäng.

Laboration: Brinntid hos ett stearinljus

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

SVÄNGNINGSTIDEN FÖR EN PENDEL

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Studieplanering till Kurs 2b Grön lärobok

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Beskrivande statistik

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

ANDREAS REJBRAND NV1A Matematik Linjära ekvationssystem

STOCKHOLMS UNIVERSITET FYSIKUM

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

4 Fler deriveringsregler

Arbeta med verkliga data.

Labbrapport svängande skivor

Komposanter, koordinater och vektorlängd Ja, den här teorin gick vi igenom igår. Istället koncentrerar vi oss på träning inför KS3 och tentamen.

Fria matteboken: Matematik 2b och 2c

Kan du det här? o o. o o o o. Derivera potensfunktioner, exponentialfunktioner och summor av funktioner. Använda dig av derivatan i problemlösning.

Kompletterande lösningsförslag och ledningar, Matematik 3000 kurs A, kapitel 4. b) = 3 1 = 2

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

3.8 Känslighetsanalys av modell. Introduktion. Hans Larsson och Olof Hellgren, SLU

14 min 60 s min 42 s 49m 2 =18 s m 2, alltså samma tid. Vi kan säga att den tid som mamman behövde åt dammsugning var beroende av husets storlek.

En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart:

16. Max 2/0/ Max 3/0/0

Blandade problem från elektro- och datateknik

DOP-matematik Copyright Tord Persson. Gränsvärden. Uppgift nr 10 Förenkla bråket h (5 + h) h. Uppgift nr 11 Förenkla bråket 8h + h² h

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

F13 Regression och problemlösning

Tentamen för kursen. Linjära statistiska modeller. 17 februari

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Gamla tentemensuppgifter

NpMa3c vt Kravgränser

Utforska cirkelns ekvation

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Multipel Regressionsmodellen

Introduktion till Word och Excel

NpMa2b ht Kravgränser

Institutionen för matematik och datavetenskap Karlstads universitet. GeoGebra. ett digitalt verktyg för framtidens matematikundervisning

Övningsuppgifter till Originintroduktion

Den räta linjens ekvation

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Bedömningsanvisningar

Laboration 4 Regressionsanalys

Transkript:

Statistiska samband: regression och korrelation Vi ska nu gå igenom något som kallas regressionsanalys och som innebär att man identifierar sambandet mellan en beroende variabel (x) och en oberoende variabel (y). Olika tester utnyttjas sedan för att avgöra hur pass bra modellen är. Om modellen anses tillfredsställande, kan den s.k. regressionsekvationen användas för att förutsäga värdet på den beroende variabeln för olika värden för den oberoende variabeln Linjär regressionsmodell I en enkel linjär regressionsmodell kan sambandet mellan den beroende (y) och oberoende variabeln (x) skrivas som y ax b För att uppskatta värdena på parametrarna a och b använder man en metod som kallas minstakvadrat-metoden. Titta på figuren nedan där i blått markerat avståndet i vertikal led mellan data och linjen y ax b. Om vi kallar avstånden d1, d 2 osv så ska summan d 2 2... 1 d 2 bli så liten som möjligt. Minstakvadrat-metoden Om vi har n punkter har med koordinater ( x, y ) till ( x, y ).och x och y är medel- 1 1 n n värdena av x- respektive y-koordinaterna så går regressionslinjen genom punkten ( x, y ) med lutningen eller k-värdet x y x y nx y 1 1 n n 2 2 2 x1 xn nx Eftersom vi vet att linjen går igenom ( x, y ) så kan vi skriva ekvationen som y kx m vilket ger m y kx På räknaren finns en inbyggd funktion för att göra dessa beräkningar men vi ska nu kontrollera mot de uttryck för k och m som vi har ovan. Dags för ett exempel alltså. Här är nu våra datapunkter: X y 1 2,0 2 3,1 3 5.8 4 8.9 5 12,0 Vi skriver in den i räknarens statistikeditor och plottar dem i ett spridningsdiagram: Vi går inte igenom i detalj hur beräkningarna går till utan visar bara hur värdena på a och b kan beräknas. a motsvarar ju linjens lutning och brukar betecknas med bokstaven k och b är skärningen med y-axeln och betecknas hos oss med bokstaven m. 1

Vi kan först beräkna medelvärdena x och y i räknarens grundfönster. Tryck på och välj alternativet MA. I menyn väljer man sedan 3:medel( och trycker på, Då inkopieras instruktionen till grundfönstret. Punkten (3, 6,36) kommer att ligga på linjen. Här har vi hela beräkningsuttrycket på inmatningsraden. Tryck på för att slutföra beräkningen. Nu sätter vi igång att räkna ut k-värdet enligt formeln i vänstra spalten. Vi upprepar formeln: x y x y nx y 1 1 n n 2 2 2 x1 xn nx I täljaren: Vi ska först räkna ut produkten x y för de fem talparen och summera dessa produkter: x1y1 xnyn Sedan ska vi subtrahera det värdet med nx y : 5 3 6,36. Vi får värdet 25.8 Vi gör nu på liknande sätt för uttrycket i nämnaren: Vi gör nu detta på räknaren. Instruktionen sum inkopieras på inmatningsraden om du trycker på och väljer MA i menyn högst upp. Här finns nu ett antal beräkningsverktyg som du kan använda på data i listor. 2

Vi trycker på : Nu fyller vi in vilka listor vi har och var regressionsekvationen ska sparas. För att lägga in Y1 trycker du först på tangenten, väljer Y-VAR och sedan funktion. Väljs sedan Y1 t.ex. k-värdet är nu kvoten mellan dessa tal, alltså 2,58. För att beräkna m-värdet, dvs. skärningen med y-axeln, så kan vi nu bara sätta in värden vi känner till i uttrycket för en rät linje: y kx m. Markera Beräkna och tryck på. Vi vet ju att punkten (3, 6,36) ligger på linjen och att k-värdet är 2,58. Vi får 6,36 2,58 3 m Vi får m 6,36 2,58 3 1.38 D en bäst anpassade räta linjen är alltså: y 2,58x 1,38 Vi testar nu om det stämmer med räknarens inbyggda verktyg för linjär regression. Tryck på och väljs BERÄK i menyn. Här finns nu att ett antal regressionsverktyg för olika modeller. Välj nu 4:LinReg(ax+b). Vi får samma resultat. Om du tittar i listan med funktioner (tryck på ) så ligger nu vår regressionsekvation där och vi kan plotta punkterna och linjen i samma diagram. 3

Vi ser att vi har en mycket god anpassning. Punkten (3, 6,36) ligger på linjen om vi spårar. Vi måste också se till att vi har ett bra fönster för att kunna visa alla punkter. Vi tar ett exempel till: Tabellen nedan visar det uppmätta trycket vid olika djup under havsytan. Djup (m) 10 13 35 40 100 Tryck (kpa) 198 228 442 490 1074 Undersök om trycket är en linjär funktion av djupet. Nu kan vi göra beräkningen och plotta den beräknade linjen. Ta reda på trycket på 150 m djup och vid havsytan. Till sista ska du ta reda på vid vilket djup trycket är 300 kpa. Vi matar först in data i statistikeditorn Vi gör nu precis som i första exemplet. Ställer in diagramplottningen: Vi ser att den beräknade räta linjen nästan perfekt går igenom datapunkterna. 4

I uppgiften skulle vi undersöka om trycket var en linjär funktion av djupet. På den frågan kan vi naturligtvis svara ja! Av grafen att döma ligger datapunkterna nästan precis på den beräknade räta linjen. Sedan skulle vi ta reda på trycket på 150 m djup och vid havsytan, dvs. när djupet är 0 m. Vi spårar i den räta linjen med. En korrelation säger ingenting om orsakssamband, eller kausalitet. För att ta ett exempel, säg att vi vill uttrycka sambandet mellan rikedom och lycka, och att vi har lyckats mäta dessa företeelser i en numerisk skala. En stark positiv korrelation, till exempel 0,9, betyder då att ju rikare man är, desto lyckligare är man. Det kan även uttryckas omvänt; ju lyckligare man är, desto rikare är man. I det första exemplet ovan säger en stark positiv korrelation alltså inte att man är lycklig på grund av att man är rik. Det kan lika gärna vara så att man är rik på grund av att man är lycklig, eller att en tredje variabel (till exempel social bakgrund) orsakar både lycka och rikedom. (Wikipedia) Korrelationskoefficienten mäter alltså bara graden av linjära samband mellan två variabler. Några slutsatser om en relation mellan orsak och verkan kan man inte dra. Trycker vid havsytan är naturligtvis ca 101kPa. Till sist skulle vi beräkna vid vilket djup trycket var 300 kpa. Detta ger ekvationen 300 = 9,73x + 101. Vi får x = 20,5. I de exemplet med uppmätt tryck under vattenytan så är det naturligtvis så att ett större vattendjup orsakar ett större tryck. Vi ska nu bestämma hur starkt sambandet är i exemplet med trycket på olika vattendjup. Vi fick ju fram det här resultatet: I båda dessa exempel har passningen varit nästan perfekt. Man kan bestämma ett mått på hur pass bra passningen är, korrelationen, är med något som kallas för korrelationskoefficient. Den betecknas med bokstaven r. Korrelation Korrelationskoefficienten är ett mått på hur starkt det linjära sambandet är mellan två variabler. Värden för korrelationskoefficienten är alltid mellan -1 och + 1. Ett positivt värde på korrelationskoefficienten r anger att k-värdet för linjen är positivt och linjen lutar uppåt. Ett negativt värde på r innebär att k- värdet är negativt och linjen lutar nedåt. Om vi går till räknarens lägesinställningar (tryck på ) så ska du se till att STAT- DIAGNOSTIK är PÅ. 5

Om vi gör samma beräkning en gång till: Ett tämligen starkt samband mellan resultat på matematik- och fysikprovet alltså. Vi får att r blir nästan 1. Ett nästan perfekt samband alltså. Vi tar ett exempel till Man kan också vända på axlarna och göra samma beräkningar. Ovan hade vi matematikpoäng på den x-axeln och fysikpoängen på y-axeln. Det handlar alltså om resultat på ett matematik-och ett fysikprov för ett antal elever. Mata nu in dessa i räknarens statistikeditor och beräkna regressionsekvationen och korrelationskoefficienten. Medelvärdet i matematikprovet var 17 poäng och på fysikprovet 30 poäng. Vi ser att punkten (17, 30) ligger på regressionslinjen. Vad är orsak och verkan här? 6

Till slut: nedan har vi 4 par av data: Medelvärdet för x är 9 för alla 4 paren Medelvärdet för y är 7,50 för alla 4 paren Regressionsekvationen är y = 0,500x +3,00 för alla fyra paren Korrelationskoefficienten är 0,816 för alla fyra paren Analysera nu detta närmare genom att mata in och plotta alla fyra datauppsättningarna. Vad upptäcker du? x1 y1 x2 y2 x3 y3 x4 y4 10 8.04 10 9.14 10 7.46 8 6.58 8 6.95 8 8.14 8 6.77 8 5.76 13 7.58 13 8.74 13 12.74 8 7.71 9 8.81 9 8.77 9 7.11 8 8.84 11 8.33 11 9.26 11 7.81 8 8.47 14 9.96 14 8.1 14 8.84 8 7.04 6 7.24 6 6.13 6 6.08 8 5.25 4 4.26 4 3.1 4 5.39 19 12.5 12 10.84 12 9.13 12 8.15 8 5.56 7 4.82 7 7.26 7 6.42 8 7.91 5 5.68 5 4.74 5 5.73 8 6.89 7