En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart:

Relevanta dokument
Forskningsmetodik Lektion 6 Korrelation och kausalitet Per Olof Hulth hulth@physto.se. Tvådimensionella histogram

Att välja statistisk metod

Sänkningen av parasitnivåerna i blodet

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Statistiska samband: regression och korrelation

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

1.1 Diskret (Sannolikhets-)fördelning

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Medicinsk statistik II

Lektionsanteckningar 11-12: Normalfördelningen

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

7. NÅGRA SPECIELLA DISKRETA SANNOLIKHETSFÖRDELNINGAR

EXAMINATION KVANTITATIV METOD

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Gränsvärdesberäkningar i praktiken

Korrelation och autokorrelation

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Föreläsning 8. Kapitel 9 och 10 sid Samband mellan kvalitativa och kvantitativa variabler

OBS! Vi har nya rutiner.

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Föreläsning 4. Kap 5,1-5,3

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Föreläsning 12: Regression

Föreläsning G60 Statistiska metoder

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

1.1 Diskret (Sannolikhets-)fördelning

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

Översikt. Experimentell metodik. Mer exakt. Människan är en svart låda. Exempel. Vill visa orsakssamband. Sidan 1

OMTENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

OBS! Vi har nya rutiner.

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Repetitionsföreläsning

Härledning av Black-Littermans formel mha allmänna linjära modellen

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 HP. Ten1 9 HP. 19 e augusti 2015

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 23 e mars Ten 1, 9 hp

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Höftledsdysplasi hos dansk-svensk gårdshund

Föreläsning 7: Punktskattningar

Föreläsning 6: Hypotestester (forts.)

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Finansiell statistik

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 16 e januari 2015

InStat Exempel 4 Korrelation och Regression

Armin Halilovic: EXTRA ÖVNINGAR

TAMS79: Föreläsning 6. Normalfördelning

Föreläsning 7: Punktskattningar

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Uppgift 1. Produktmomentkorrelationskoefficienten

Några extra övningsuppgifter i Statistisk teori

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Föreläsning 7: Punktskattningar

Icke-parametriska/fördelningsfria test. Finansiell statistik, vt-05. Teckentest. Teckentest. Vi gör observationer för =1,, på variablerna.

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Lite Kommentarer om Gränsvärden

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Verksamhetsutvärdering av Mattecentrum

oberoende av varandra så observationerna är

import totalt, mkr index 85,23 100,00 107,36 103,76

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

4Funktioner och algebra

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Differentiell psykologi

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Innehåll. Steg 4 Statistisk analys. Skillnader mellan grupper. Skillnader inom samma grupp över tid. Samband mellan variabler

TENTAMEN I STATISTIKENS GRUNDER 1

Kovarians och kriging

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

10.1 Enkel linjär regression

Projektplan. Naturvetenskaps- och tekniksatsningen

Blandade problem från elektro- och datateknik

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Bygga linjära modeller! Didrik Vanhoenacker 2007

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Kap 2. Sannolikhetsteorins grunder

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Regressionsanalys av lägenhetspriser i Spånga

Tentamen Tillämpad statistik A5 (15hp)

Veckoblad 3. Kapitel 3 i Matematisk statistik, Blomqvist U.

Transkript:

En mcket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: För en mätserie som denna är det ganska klart att det finns en koppling mellan -variabeln och -variabeln. Tekniskt så talar man om att det finns en korrelation mellan variablerna. Man skiljer mellan olika tper av korrelation: Positiv korrelation Negativ korrelation Ingen korrelation Icke-linjär korrelation Eemplen ovan är renodlade, normalt ser man oftast fall där det inte är lika klart om det föreligger en korrelation mellan variablerna eller inte. Det är också så att om man väljer och helt slumpmässigt så får man ibland fördelningar som ser mer korrelerade ut än andra, detta är man som vanligt mer känslig för ju färre punkter man betraktar. Figurerna nedan är två av tio stcken plottar där var och en innehåller tio slumpvis fördelade talpar I den högra ser man ingen tdlig korrelation, i den vänstra tcks det finnas en negativ korrelation.8.6.4.2.2.4.6.8.8.6.4.2.2.4.6.8

9 8 7 6 4 3 2 2 2 3 Det finns en uppenbar kvalitativ skillnad mellan dessa bägge datamängder. Hur skaffar vi oss en kvantitativ uppskattning av denna skillnad? 3 2 2 2 3 4 6 7 8 2

Korrelationskoefficienten, r, definieras som: Korrelationskoefficient För variabler som har en linjär relation kommer r att ligga nära ± (idealt eakt lika med ±), linjära relationer med positiv riktiningskoefficient har r = (oavsett storleken på riktningskoefficienten) och samband med negativ riktiningskoefficient har r = -. r = s s s = Â N i = N Â i = ( i - ) i - ( ) ( i - ) 2 i - ( ) 2 Poängen är att vi kan testa hpotesen om ett linjärt samband även om vi inte har någon uppfattning om mätfelen i de enskilda punkterna. Men korrelationskoefficienten har en vidare betdelse än så. r= är ett nödvändigt, men inte tillräckligt, villkor för att två variabler skall vara oberoende. Finner vi r signifikant skilt från noll finns det alltså anledning att tro att variablerna i fråga inte är oberoende. Några eempel: 4 4 3 Y = 3 + 4X 8 Y = X 2 3 2 r = 6 r =.978 2 4 2 2 4 6 8 2 4 6 8 - -2-3 -4 Y = 3 + 4X - X 2 r = -.974-2 4 6 8 - - - -2-2 -3-3 -4 Y = 3 +4X -X2 r = -.99-4 2 2 3 3

Som vi har sett eempel på ovan så kan även helt okorrelerade variabler ge värden på den linjära korrelationskoefficienten som är skiljt från noll. Man kan beräkna sannolikheten för att en slumpmässig fluktuation skall ge en linjör korrelationskoefficient större än ett visst värde. Som oftast så är sannolikheten för slumpmässiga fluktuationer större om vi har ett litet antal talpar, tittar vi på många par så jämnar fluktuationerna ut sig. Tabeller över denna sannolikhet kan vi använda för att bedöma sannolikheten för att korrelationen i en given datamängd är slumpmässig eller inte. En sådan tabell är tabell 7.3 i läroboken. I denna visas, för varierande antal punkter, hur stort absolutbeloppet av korrelationskoefficienten skall vara för att uppnå två olika signifikansnivåer för korrelationen, % respektive %. Tabellen läses så att om vi t e har 7 punkter så skall absolutbeloppet av korrelationskoefficienten vara större än.74 för att nå en signifikansnivå om % (.87 för % signigikansnivå). Detta innebär att om vi tar ett stort antal icke-korrelerade tal och bildar grupper om 7 stcken i varje och sedan beräknar den linjära korrelationskoefficienten för dessa så kommer absolutbeloppet vara större ån.74 i % av dessa grupper, och större än.87 för % av dessa grupper. Har vi 7 talpar och en korrelationskoefficient med absolutbelopp större än.87 så är alltså sannolikheten att detta är en statistisk flukutation och att de sju talparen är okorrelerade mindre än %. Med så låg sannolikhet för en statistisk fluktuation väljer man ofta att tolka detta som att en korrelation faktiskt föreligger. Nu har vi kvantitativa verktg för att analsera de data vi såg tidigare: Sannolikheten att par av okorrelerade variabler har r >. är 73% => det verkar relativt sannolikt att första bokstaven i gatunamnet inte har något att göra med de två sista siffrorna i telefonnummret. 4

Sannolikheten att 2 okorrelerade par av variabler har r >.7 är mindre än.% => vi kan utesluta (med mer än 99.9% sannolikhet) att breddgrad inte påverkar årsmedeltemperatur Det är viktigt att minnas att även saker med så låga sannolikheter som % kommer i genomsnitt att inträffa en gång på. Betraktar vi ett tillräckligt stort antal parametrar och letar efter korrelationer mellan dessa så kommer vi att hitta till snes korrelerade variabler enbart på grund av slumpmässiga variationer. variabler kan kombineras på över sätt, så väljer vi att leta efter korrelationer mellan dessa så kommer statistiska fluktuationer ner mot %-nivån att uppträda! Allmänt så kan ett högt värde på korrelationskoefficienten bero på en av tre saker: : slumpmässiga fluktuationer. Sannolikheten för dessa kan beräknas och finns listad i tabeller som 7.3 i läroboken. 2: bägge variablerna påverkas av en gemensam faktor. Att sjukskrivningar för vård av sjukt barn är mcket vanliga kring månadsskiftet augusti-september beror inte först och främst på att det är särskilt lätt att bli sjuk just denna tid på året, utan på att terminen i skola och förskola börjar då. 3: en variabel beror av den andra, vi säger då att det finns ett kasualt samband. Ett viktigt sätt att försöka avgöra vilket som är fallet är att försöka hitta en model för kasualiteten, en modell som har förankring i något man tidigare observerat i andra sammanhang. Detta sätt att resonera har en mcket stark förankring inom naturvetenskapen.