Statistik 1 för biologer, logopeder och psykologer



Relevanta dokument
Statistik 1 för biologer, logopeder och psykologer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Höftledsdysplasi hos dansk-svensk gårdshund

Föreläsning G60 Statistiska metoder

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Statistiska samband: regression och korrelation

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Regressions- och Tidsserieanalys - F1

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Regressions- och Tidsserieanalys - F1

InStat Exempel 4 Korrelation och Regression

10.1 Enkel linjär regression

LABORATION 3 - Regressionsanalys

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Laboration 2: Styrkefunktion samt Regression

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Datorövning 1 Enkel linjär regressionsanalys

Laboration 4 R-versionen

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistik 1 för biologer, logopeder och psykologer

OBS! Vi har nya rutiner.

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Statistisk undersökningsmetodik (Pol. kand.)

Föreläsning 12: Regression

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Linjär regressionsanalys. Wieland Wermke

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Medicinsk statistik II

ÖVNINGSUPPGIFTER KAPITEL 4

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Laboration 4 Regressionsanalys

Regressions- och Tidsserieanalys - F4

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Sänkningen av parasitnivåerna i blodet

Instruktioner till Inlämningsuppgift 1 och Datorövning 1

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Laboration 2 multipel linjär regression

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Statistik 1 för biologer, logopeder och psykologer

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Regressions- och Tidsserieanalys - F7

LABORATION 3 - Regressionsanalys

Gamla tentor (forts) ( x. x ) ) 2 x1

Grundläggande matematisk statistik

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Repetitionsföreläsning

Kravgränser. Provet består av Del B, Del C, Del D samt en muntlig del och ger totalt 63 poäng varav 24 E-, 21 C- och 18 A-poäng.

Föreläsning 12: Linjär regression

Regressionsanalys av lägenhetspriser i Spånga

Föreläsning 13: Multipel Regression

Att välja statistisk metod

Läs noggrant informationen nedan innan du börjar skriva tentamen

ÖVNINGSUPPGIFTER KAPITEL 3

Begrepp Uttryck, värdet av ett uttryck, samband, formel, graf, linje, diagram, spridningsdiagram.

Matematisk statistik, Föreläsning 5

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Finansiell statistik. Multipel regression. 4 maj 2011

Läs noggrant informationen nedan innan du börjar skriva tentamen

F13 Regression och problemlösning

Blandade problem från elektro- och datateknik

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Instruktioner till Frivillig Inlämningsuppgift 2 och Datorövning 3-4. Fortsättningskurs i statistik, moment 1, Statistisk Teori, 10 poäng.

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

3.6 Generella statistiska samband och en modell med för sockerskörden begränsande variabler

Föreläsning G60 Statistiska metoder

NpMa2b ht Kravgränser

Ett exempel från fysikalisk kemi. Föreläsning 13: Multipel Regression. Enkel linjär regression. Mätningar från laborationer 2014

TVM-Matematik Adam Jonsson

Metod och teori. Statistik för naturvetare Umeå universitet

Multipel Regressionsmodellen

tentaplugg.nu av studenter för studenter

Attila Szabo Niclas Larson Gunilla Viklund Mikael Marklund Daniel Dufåker. GeoGebraexempel

Uppgift 1. Deskripitiv statistik. Lön

F19, (Multipel linjär regression forts) och F20, Chi-två test.

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

Regressions- och Tidsserieanalys - F3

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

January 3, Statistiska metoder vid kvantitativa. undersökningar. Jan-Olof Johansson

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 10, del 1: Icke-linjära samband och outliers

Analys av lägenhetspriser i Hammarby Sjöstad med multipel linjär regression

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Transkript:

Innehåll 1 Korrelation och regression

Innehåll 1 Korrelation och regression

Spridningsdiagram Då ett datamaterial består av två (eller era) variabler är man ofta intresserad av att veta om det nns ett samband mellan variablerna. Om variablerna är kvantitativa kan man bilda sig en uppfattning om ett eventuellt samband genom att graskt märka ut observationerna i ett koordinatsystem. En sådant diagram kallas kallas spridningsdiagram eller scatter plot.

Spridningsdiagram Exempel. Ett spridningsdiagram som visar sambandet mellan ålder och längd hos ett antal individer. Vi ser ett klart linjärt samband mellan variablerna.

Korrelation Korrelation anger styrkan och riktningen av sambandet mellan två variabler. Om vi anpassar en rät linje genom punkterna i ett spridningsdiagram anger korrelationen hur stor eller liten spridningen kring linjen är. Fast inte alla samband är linjära, ger korrelationen ändå ofta (men inte alltid!) en god uppfattning om huruvida ett samband nns eller inte.

Pearson's korrelationskoecient Pearson's korrelationskoecient denieras som r = n i=1 (x i x)(y i y) (n 1) s x s y, där s x är standardavvikelsen av talen x i, s y är standardavvikelsen av talen y i och n är antalet observationspar. Korrelationskoecienten r får ett värde mellan 1 och 1: om r = 1, benner sig alla punkter på en linje med negativ lutning om r = 0, nns inget linjärt samband mellan variablerna om r = 1, benner sig alla punkter på en linje med positiv lutning.

Pearson's korrelationskoecient

Regression Ett samband mellan två variabler kan vidare granskas genom regressionsanalys. Regression är en allmän benämning på modeller där värdet på en sk. beroende variabel förklaras med hjälp av en eller era sk. förklarande variabler. Den vanligaste formen av regression är linjär regression, där sambandet mellan variablerna antas vara linjärt.

Enkel linjär regression Aningen förenklat kan ekvationen för enkel linjär regression (linjär regression med en förklarande variabel) skrivas som y = a + b x, där y är den beroende variabeln och x är den förklarande variabeln. Konstanterna a (skärningspunkten med y -akseln) och b (riktningskoecienten) skattas från datamaterialet men hjälp av minsta kvadrat-metoden.

Regressionskoecienten Riktings- eller regressionscoecienten b talar om för oss hur mycket den beroende variabeln y ändras då den förklarande variabeln x ökar med 1. T.ex. i den linjära modellen y = a + b x = 1.70 + 0.62x leder en ökning av enhetslängd i variabeln x till en ökning av 0.62 i variabeln y.

Förklaringsgrad Förklaringsgraden anger vilken andel (ofta i procent) av den beroende variablens värde i en regressionsmodell som kan förklaras med den förklarande variabeln. Förklaringsgraden betecknas R 2 och denieras som R 2 = r 2 100%, där r är korrelationskoecienten. Om korrelationen är 1 eller 1, blir R 2 = 100%. Då kan datamaterialets y -värden fullständigt förklaras med x. Om korrelationen är 0 blir R 2 = 0%. Då kan datamaterialets y -värden över huvudtaget inte förklaras med x.

En del vanliga misstolkningar Även om y delvis kan förklaras med x kan vi inte säga att y förorsakas av x. Ett synbarligen starkt samband mellan två orelaterade variabler kan uppstå om båda påverkas av en tredje variabel: t.ex. kan man påvisa ett positivt samband mellan glassförsäljning och antalet drunkningsolyckor. Fast variablerna är totalt orelaterade påverkas de båda av årstiden.

Partiell korrelation och justering Ibland kan ett samband mellan två variabler x och y på något sätt förvrängas av en tredje variabel z. Såväl korrelations- som regressionskoecienten kan då få felaktiga värden. En korrelationskoecient mellan x och y där inverkan av z har beaktats, kallas partiell korrelation och betecknas r xy z (se denition samt exempel http://faculty.vassar.edu/lowry/ch3a.html). Regressionsmodellen y = a + bx justeras för inverkan av z genom att man lägger till z som förklarande variabel i modellen. I den nya modellen y = a + bx + cz får koecenten b ett värde där inverkan av z har beaktats.

Rangkorrelation Pearson's korrelationskoecient (dvs. vanlig korrelation) lämpar sig endast för intervall- och kvotskalevariabler. För ordinalskalevariabler kan man i stället andvända sig av Spearman's rangkorrelationskoecient r s = 1 6 n i=1 d i 2 n(n 2 1) där d i är dierensen mellan rangtalen av observationerna för individ i och n är antalet observationspar (individer). Ett motsvarande rangkorrelationsmått är Kendall's tau, se http://en.wikipedia.org/wiki/kendall_tau_rank_ correlation_coefficient.,

Spearman's rangkorrelation Exempel. Två vinsmakare A och B ordnar sex vinprover i rangordning från den bästa (1) till den sämsta (6). Hur väl stämmer åsikterna överens? vinprov rang d i di 2 A B a 5 3 2 4 b 2 1 1 1 c 1 2 1 1 d 4 4 0 0 e 3 5 2 4 f 6 6 0 0 Rangkorrelationen blir då r s = 1 6 10 6(36 1) = 1 2 7 0.71.