En mcket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: För en mätserie som denna är det ganska klart att det finns en koppling mellan -variabeln och -variabeln. Tekniskt så talar man om att det finns en korrelation mellan variablerna. Man skiljer mellan olika tper av korrelation: Positiv korrelation Negativ korrelation Ingen korrelation Icke-linjär korrelation Eemplen ovan är renodlade, normalt ser man oftast fall där det inte är lika klart om det föreligger en korrelation mellan variablerna eller inte. Det är också så att om man väljer och helt slumpmässigt så får man ibland fördelningar som ser mer korrelerade ut än andra, detta är man som vanligt mer känslig för ju färre punkter man betraktar. Figurerna nedan är två av tio stcken plottar där var och en innehåller tio slumpvis fördelade talpar I den högra ser man ingen tdlig korrelation, i den vänstra tcks det finnas en negativ korrelation.8.6.4.2.2.4.6.8.8.6.4.2.2.4.6.8
9 8 7 6 4 3 2 2 2 3 Det finns en uppenbar kvalitativ skillnad mellan dessa bägge datamängder. Hur skaffar vi oss en kvantitativ uppskattning av denna skillnad? 3 2 2 2 3 4 6 7 8 2
Korrelationskoefficienten, r, definieras som: Korrelationskoefficient För variabler som har en linjär relation kommer r att ligga nära ± (idealt eakt lika med ±), linjära relationer med positiv riktiningskoefficient har r = (oavsett storleken på riktningskoefficienten) och samband med negativ riktiningskoefficient har r = -. r = s s s = Â N i = N Â i = ( i - ) i - ( ) ( i - ) 2 i - ( ) 2 Poängen är att vi kan testa hpotesen om ett linjärt samband även om vi inte har någon uppfattning om mätfelen i de enskilda punkterna. Men korrelationskoefficienten har en vidare betdelse än så. r= är ett nödvändigt, men inte tillräckligt, villkor för att två variabler skall vara oberoende. Finner vi r signifikant skilt från noll finns det alltså anledning att tro att variablerna i fråga inte är oberoende. Några eempel: 4 4 3 Y = 3 + 4X 8 Y = X 2 3 2 r = 6 r =.978 2 4 2 2 4 6 8 2 4 6 8 - -2-3 -4 Y = 3 + 4X - X 2 r = -.974-2 4 6 8 - - - -2-2 -3-3 -4 Y = 3 +4X -X2 r = -.99-4 2 2 3 3
Som vi har sett eempel på ovan så kan även helt okorrelerade variabler ge värden på den linjära korrelationskoefficienten som är skiljt från noll. Man kan beräkna sannolikheten för att en slumpmässig fluktuation skall ge en linjör korrelationskoefficient större än ett visst värde. Som oftast så är sannolikheten för slumpmässiga fluktuationer större om vi har ett litet antal talpar, tittar vi på många par så jämnar fluktuationerna ut sig. Tabeller över denna sannolikhet kan vi använda för att bedöma sannolikheten för att korrelationen i en given datamängd är slumpmässig eller inte. En sådan tabell är tabell 7.3 i läroboken. I denna visas, för varierande antal punkter, hur stort absolutbeloppet av korrelationskoefficienten skall vara för att uppnå två olika signifikansnivåer för korrelationen, % respektive %. Tabellen läses så att om vi t e har 7 punkter så skall absolutbeloppet av korrelationskoefficienten vara större än.74 för att nå en signifikansnivå om % (.87 för % signigikansnivå). Detta innebär att om vi tar ett stort antal icke-korrelerade tal och bildar grupper om 7 stcken i varje och sedan beräknar den linjära korrelationskoefficienten för dessa så kommer absolutbeloppet vara större ån.74 i % av dessa grupper, och större än.87 för % av dessa grupper. Har vi 7 talpar och en korrelationskoefficient med absolutbelopp större än.87 så är alltså sannolikheten att detta är en statistisk flukutation och att de sju talparen är okorrelerade mindre än %. Med så låg sannolikhet för en statistisk fluktuation väljer man ofta att tolka detta som att en korrelation faktiskt föreligger. Nu har vi kvantitativa verktg för att analsera de data vi såg tidigare: Sannolikheten att par av okorrelerade variabler har r >. är 73% => det verkar relativt sannolikt att första bokstaven i gatunamnet inte har något att göra med de två sista siffrorna i telefonnummret. 4
Sannolikheten att 2 okorrelerade par av variabler har r >.7 är mindre än.% => vi kan utesluta (med mer än 99.9% sannolikhet) att breddgrad inte påverkar årsmedeltemperatur Det är viktigt att minnas att även saker med så låga sannolikheter som % kommer i genomsnitt att inträffa en gång på. Betraktar vi ett tillräckligt stort antal parametrar och letar efter korrelationer mellan dessa så kommer vi att hitta till snes korrelerade variabler enbart på grund av slumpmässiga variationer. variabler kan kombineras på över sätt, så väljer vi att leta efter korrelationer mellan dessa så kommer statistiska fluktuationer ner mot %-nivån att uppträda! Allmänt så kan ett högt värde på korrelationskoefficienten bero på en av tre saker: : slumpmässiga fluktuationer. Sannolikheten för dessa kan beräknas och finns listad i tabeller som 7.3 i läroboken. 2: bägge variablerna påverkas av en gemensam faktor. Att sjukskrivningar för vård av sjukt barn är mcket vanliga kring månadsskiftet augusti-september beror inte först och främst på att det är särskilt lätt att bli sjuk just denna tid på året, utan på att terminen i skola och förskola börjar då. 3: en variabel beror av den andra, vi säger då att det finns ett kasualt samband. Ett viktigt sätt att försöka avgöra vilket som är fallet är att försöka hitta en model för kasualiteten, en modell som har förankring i något man tidigare observerat i andra sammanhang. Detta sätt att resonera har en mcket stark förankring inom naturvetenskapen.