Kvalster. Korrelation och regression: lineära modeller för bivariata samband. Spridningsdiagram. Bivariata samband



Relevanta dokument
Föreläsning 9: Hypotesprövning

Datorövning 2 Statistik med Excel (Office 2007, svenska)

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Föreläsning 14: Försöksplanering

Tentamen i matematisk statistik (9MA241/9MA341/LIMAB6, STN2) kl 08-13

Statistik 1 för biologer, logopeder och psykologer

Datorövning 2 Statistik med Excel (Office 2003, engelska)

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

Erfarenheter från ett pilotprojekt med barn i åldrarna 1 5 år och deras lärare

HT 2011 FK2004 Tenta Lärare delen 4 problem 6 poäng / problem

Sundbybergs stad Skolundersökning 2015 Föräldrar förskola Stella Nova förskola

Sundbybergs stad Skolundersökning 2015 Föräldrar förskola Fristående förskolor totalt Antal svar samtliga fristående förskolor: 360 (57 %)

Nedlagd studietid och olika kurskarakterisika en anspråkslös analys baserad på kursvärderingsdata. Fan Yang Wallentin

Vi skall skriva uppsats

Grundläggande biostatistik. Jenny Selander

Ekvationssystem, Matriser och Eliminationsmetoden

Höjd arbetsgivaravgift för unga. Konsekvenser för detaljhandeln

Lathund, procent med bråk, åk 8

Lösningar till Tentamen i Matematisk Statistik, 5p 22 mars, Beräkna medelvärdet, standardavvikelsen, medianen och tredje kvartilen?

STOCKHOLMS UNIVERSITET Sociologiska institutionen

Svenska Du kan med flyt läsa texter som handlar om saker du känner till. Du använder metoder som fungerar. Du kan förstå vad du läser.

Får nyanlända samma chans i den svenska skolan?

ANVÄNDARHANDLEDNING FÖR

Enkätresultat för elever i år 2 i Nösnäsgymnasiet 2 i Stenungsund våren 2014

TT091A, TVJ22A, NVJA02 By, Pu, Ti. 50 poäng

Enkätresultat för elever i år 2 i Mega Musik gymnasium hösten Antal elever: 47 Antal svarande: 46 Svarsfrekvens: 98% Klasser: MM13

Enkätresultat för elever i år 2 i Praktiska Skövde i Praktiska Sverige AB hösten 2014

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Uppgift 1. Deskripitiv statistik. Lön

Kapitel 6. f(x) = sin x. Figur 6.1: Funktionen sin x. 1 Oinas-Kukkonen m.fl. Kurs 6 kapitel 1

Effekt av balansering 2010 med hänsyn tagen till garantipension och bostadstillägg

Laborativ matematik som bedömningsform. Per Berggren och Maria Lindroth

EN BÄTTRE KREDITAFFÄR

Skriva B gammalt nationellt prov

Sammanfattning på lättläst svenska

Enkätresultat för elever i åk 9 i Borås Kristna Skola i Borås hösten Antal elever: 20 Antal svarande: 19 Svarsfrekvens: 95% Klasser: Klass 9

Statistik och epidemiologi T5

4-6 Trianglar Namn:..

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Anhörigas upplevelser av en hjärtstoppssituation och att själv bli omhändertagen ett vårdande förhållningssätt inom ambulanssjukvård

Index vid lastbilstransporter

Datorövning 3: Icke-parametriska test

Vetenskapliga begrepp. Studieobjekt, metod, resultat, bidrag

Algebra, polynom & andragradsekvationer en pampig rubrik på ett annars relativt obetydligt dokument

Något om permutationer

SOLCELLSBELYSNING. En praktisk guide. Råd & Tips SOLENERGI LADDA MED. Praktiska SÅ TAR DU BÄST HAND OM DIN SOLCELLSPRODUKT

Test Virkesmarknad och Lagerteori

TIMREDOVISNINGSSYSTEM

Rapport uppdrag. Advisory board

Referensvärden samtliga undergrupper

Referensvärden samtliga resultatenheter

Facit med lösningsförslag kommer att anslås på vår hemsida Du kan dessutom få dem via e-post, se nedan.

Lågt socialt deltagande Ålder

Om erbjudandet för din pensionsförsäkring med traditionell förvaltning.

4-3 Vinklar Namn: Inledning. Vad är en vinkel?

Energi & Miljötema Inrikting So - Kravmärkt

För övrigt fullständig överensstämmelse kvalitativt sett för båda proverna. Alla lab som analyserat P-CCP ak på prov 18/D rapporterar ett starkt

Skövde kommun Medarbetarundersökning 2015 Totalresultat

Bild Engelska Idrott

Delaktighet och inflytande Skolmiljö Kunskap och lärande Bemötande

Kvinnor som driver företag pensionssparar mindre än män

Begreppet delaktighet inom rättspsykiatrisk vård

Observera att alla funktioner kan ritas, men endast linjära funktioner blir räta linjer.

Mätningar på op-förstärkare. Del 3, växelspänningsförstärkning med balanserad ingång.

Väljaropinion i samarbete med Metro Oktober 2011

Gruppenkät. Lycka till! Kommun: Stadsdel: (Gäller endast Göteborg)

Systematiskt kvalitetsarbete

Varför är det så viktigt hur vi bedömer?! Christian Lundahl!

Uppgift

Väljaropinion i samarbete med Metro. Oktober 2015

Resultat från nationella prov i årskurs 3, vårterminen 2014

Partnerskapsförord. giftorättsgods görs till enskild egendom 1, 2. Parter 3. Partnerskapsförordets innehåll: 4

Laboration 3: Modellval i multipel regression

Statistiska synpunkter på politiska opinionsundersökningar

Innehåll. Normalfördelning och t-test. Vanliga statistiska mått 2/11/2014. Vad är punktskattningar? Figurer somvisarmedelochsd, SE ochki (ellerci)

Pesach Laksman är lärarutbildare i matematik och matematikdidaktik vid Malmö högskola.

Hammarlands kommun PM juni 2016

Anpassning av sjukpenninggrundande inkomst (SGI) efter löneutvecklingen inom yrkesområdet för arbetslösa

Väljaropinion i samarbete med Metro. Maj 2016

Regression med kvalitativa variabler. Jesper Rydén

912 Läsförståelse och matematik behöver man lära sig läsa matematik?

Institutionen för matematik Envariabelanalys 1. Jan Gelfgren Datum: Fredag 9/12, 2011 Tid: 9-15 Hjälpmedel: Inga (ej miniräknare)

Förskolan Vårskogen, Svaleboskogen 7. Plan mot diskriminering och kränkande behandling

Särskilt stöd i grundskolan

Avgifter i skolan. Informationsblad

BRUK. bedömning reflektion utveckling kvalitet

Nationella prov i årskurs 3 våren 2013

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik för STS vt 2014

Systematiskt kvalitetsarbete

Bemanningsindikatorn Q1 2015

Väljaropinion i samarbete med Metro. April 2016

Möbiustransformationer.

Tränarguide del 1. Mattelek.

Linjär regressionsanalys. Wieland Wermke

Välkommen till Arbetsförmedlingen! Information till dig som är arbetssökande

a n = A2 n + B4 n. { 2 = A + B 6 = 2A + 4B, S(5, 2) = S(4, 1) + 2S(4, 2) = 1 + 2(S(3, 1) + 2S(3, 2)) = 3 + 4(S(2, 1) + 2S(2, 2)) = = 15.

För dig som är valutaväxlare. Så här följer du reglerna om penningtvätt i din dagliga verksamhet INFORMATION FRÅN FINANSINSPEKTIONEN

David Wessman, Lund, 30 oktober 2014 Statistisk Termodynamik - Kapitel 5. Sammanfattning av Gunnar Ohléns bok Statistisk Termodynamik.

SANNOLIKHET. Sannolikhet är: Hur stor chans (eller risk) att något inträffar.

Utdrag ur protokoll vid sammanträde

Transkript:

Kvalster och regression: lineära modeller för bivariata samband Matematik och statistik för biologer, 10 hp En viss sorts kvalster (Demodex folliculorum) trivs bra i människors hårsäckar. Enligt en studie från 1976 förekommer de hos de flesta vuxna människor. Fredrik Jonsson Januari 2012 I följande datamaterial undersöktes tio personer i olika åldrar. Antal observerade kvalster noterades bland 50 undersökta ögonbryn: Ålder 3 6 9 12 15 18 21 24 27 30 Antal 5 13 16 14 18 23 20 32 29 28, vt12 (1 : 31), vt12 (2 : 31) Spridningsdiagram Bivariata samband Följande spridningsdiagram indikerar att det finns ett klart samband mellan de två variablerna. Två faktorer, x och y. Data: ett urval parvisa observationer (x 1, y 1 ),..., (x n, y n ). Relevanta frågor: Samverkar eller motverkar faktorerna av varandra? Är de oberoende av varandra? Vad kan stickprovet säga om det allmänna sammanhanget? Är x och y korrelerade? Finns det något kausalt samband mellan x och y?, vt12 (3 : 31), vt12 (4 : 31)

, kausalitet och oberoende Exempel Begreppet korrelation syftar på i vilken grad och riktning två faktorer samverkar. Man kan tänka sig flera förklaringar till vad som orsakar en korrelation. Ett annat ord för orsakssamband är kausalitet. Att två faktorer är okorrelerade brukar oftast tolkas som att de inte samverkar, dvs. att de inverkar oberoende av varandra. KOMMENTAR: syftar för det mesta på graden av lineär samverkan. Det betyder att det kan finnas icke-lineära beroenden som klassas som icke-korrelation. Man kan på olika sätt observera en markant korrelation mellan rökning och lungcancer. Beror det på att rökning orsakar lungcancer? Eller beror det på att rökare ofta står utomhus på vintern och drar i sig kall luft, vilket i sin tur orsakar lungproblem? Hur ofta drabbas rökare respektive icke-rökare? När klassas man som rökare?, vt12 (5 : 31), vt12 (6 : 31) skoefficient Exempel Räknar man ut syftar på olika mått på graden av samverkan mellan två faktorer. Vi ska här enbart behandla så kallad Pearson-korrelation, vilket även kallas Produkt-moment korrelation. Denna korrelationskoefficient definieras: r = (x i x)(y i ȳ) (x i x) 2 (y i ȳ) 2 r = (x i x)(y i ȳ) (x i x) 2 (y i ȳ) 2 för föregående exempel med x 3 6 9 12 15 18 21 24 27 30 y 5 13 16 14 18 23 20 32 29 28 finner man: r = 0.93 ( x = 16.5, ȳ = 19.8), vt12 (7 : 31), vt12 (8 : 31)

Positiv och negativ korrelation Signifikant korrelation Den givna definitionen uppfyller följande matematiska egenskaper: 1 r 1 r = 1 precis då y = a + bx med b > 0 r = 1 precis då y = a + bx med b < 0 Ej väldefinierad om endera x eller y uppvisar total brist på variation. Även om två faktorer är totalt oberoende av varandra så blir den observerade korrelationen i allmänhet endera positiv eller negativ. Detta till följd av slumpmässighet orsakad av de begränsade urvalet. Man brukar skilja på: Positiv korrelation: r > 0 (samverkande faktorer) Statistisk programvara brukar därför rapportera p-värden i samband med beräkningar av korrelationskoefficienter. Negativ korrelation: r < 0 (motverkande faktorer) Okorrelerat samband: r = 0, vt12 (9 : 31), vt12 (10 : 31) och p-värden Nytt spridningsdiagram skoefficienten r = 0.93 i föregående exempel med kvalster brukar i allmänhet klassas som hög, dvs. nära det maximala värdet 1. Antag nu att vi kastar om ordningen i åldrarna i föregående exempel enligt följande beskrivning: I detta fall blir motsvarande p-värde 0.000. Detta indikerar att vi kan känna oss förhållandevis säkra i slutsatsen om positiv korrelation, trots att urvalet var begränsat. Motsvarande korrelationskoefficient blir då: r = 0.52, vt12 (11 : 31), vt12 (12 : 31)

Icke-signifikant korrelation sanalys I exemplet med r = 0.52 råder fortfarande en positiv tendens. Den är dock mindre tydlig jämfört med r = 0.93. Motsvarande p-värde är 0.12. sanalys går ut på att anpassa ett lineärt samband y = a + bx med hänsyn till att y inte bara förklaras av x, utan även påverkas av slumpmässig variation. a och b kallas för anpassade koefficienter. Närmare bestämt, a brukar kallas för intercept och b för lutningskoefficient. Med andra ord är vi inte lika säkra längre på att det verkligen råder en positiv korrelation. TOLKNING: Givet noll-korrelation och 10 observationer är det cirka 12% sannolikhet att observera r 0.52., vt12 (13 : 31), vt12 (14 : 31) sanalys: modell Varför regressionsanalys? Modellen vi utgår ifrån brukar beskrivas: y i = α + βx i + ε i, i = 1,..., n, där ε i syftar på regelbundna, slumpmässigt normalfördelade effekter med samma variation. De erhållna koefficienterna a och b brukar kallas för skattade parametrar. Ett enkelt sätt att få en kvantitativ bild över hur de två variablerna är relaterade. Om x är lätt att mäta men inte y så kan det vara värdefullt att känna till sambandet. Om man har en idé om att det bör finnas ett samband mellan x och y så kan det vara bra att göra analysen för att: bekräfta, åskådliggöra och få mer evidens. Möjlighet till prediktion: Om x = x 0 vad blir då y?, vt12 (15 : 31), vt12 (16 : 31)

Vad regressionsanalysen primärt åstadkommer 1. Att anpassa intercept och lutning 1. Lämpliga skattningar a och b av parametrarna α och β. 2. Ett mått på modellens anpassning/den slumpmässiga effektens betydelse, så kallad förklaringsgrad. Görs med den så kallade minsta-kvadrat-metoden (). Den erhållna linjen kan illustreras grafiskt: 3a. Två p-värden motsvarande frågorna huruvida α och β är nollskilda. 3b. Möjlighet till prediktion och så kallade prediktionsintervall. I detta fall är a = 5.7 och b = 0.85., vt12 (17 : 31), vt12 (18 : 31) Minsta-kvadrat-metoden 2. Förklaringsgrad Idén bakom minsta-kvadrat-metoden är att välja koefficienter a och b som ger den bästa anpassningen i termer av att minimera följande kvadratsumma: n ( yi (a + bx i ) ) 2 skoefficienten i kvadrat, r 2, brukar i samband med regression kallas för motsvarande förklaringsgrad, och anges i procent. Svaret blir: b = (x i x)(y i ȳ) (x i x) 2 a = ȳ b x I detta fall är r 2 = 86%., vt12 (19 : 31), vt12 (20 : 31)

Förklaringsgrad: tolkning Förklaringsgraden r 2 brukar tolkas på följande sätt: Höga procentvärden: god anpassning av den lineära modellen. Ett lågt procentvärde kan indikera att den slumpmässiga variationen har en stor inverkan. Ett lågt procentvärde kan även indikera att sambandet mellan x och y är icke-lineärt. EXEMPEL: r 2 = 86% är en klart godkänd förklaringsgrad. Spridningsdiagrammet visar att den slumpmässiga variationen har en viss inverkan, men inga tydliga tecken på icke-linearitet., vt12 (21 : 31) Exempel: ändrad ordning i data Med den omkastade ordningen får vi istället följande regressionsanalys: I detta fall blir a = 11.8, b = 0.48 och r 2 = 0.27. p-värden motsvarande de två koefficienterna är p = 0.05 och p = 0.12., vt12 (22 : 31) Jämförelse: ordnad/oordnad data a b r 2 V 5.7 0.85 0.86 H 11.8 0.48 0.27 Lutningen är mer markant till vänster. Förklaringsgraden är avsevärt högre till vänster, med bättre anpassning av den lineära modellen och mindre variation., vt12 (23 : 31) 3a. Huruvida α och β är nollskilda Motsvarande p-värden beräknas med en metod som är en direkt utveckling av t-testen som vi studerade mer noggrant tidigare i kursen. I detta fall är motsvarande p-värden väldigt små, vilket innebär stor säkerhet i att lutningen är positiv och att linjen skär y-axeln i det övre halvplanet., vt12 (24 : 31)

t-test för nollskilda koefficienter 3b. Prediktionsintervall Givet modellen: y i = α + βx i + ε i blir den skattade lutningen: b = (x i x)(y i ȳ) (x i x) 2 n = β + (x i x)(ε i ε) (x i x) 2 Den slumpmässiga tillskottet b β beter sig därmed som ett viktat medelvärde av oberoende slumpvariabler, och det går att tillämpa samma idéer som när man analyserar osäkerheten i stickprovsmedelvärde. Om x = x 0 vad blir då y? PRELIMINÄRT SVAR: y = a + bx 0 TOLKNING AV SVARET: Det finns två möjliga tolkningar av detta svar. Antingen ser vi y som en skattning av parametern α + βx 0 (genomsnittligt y-värde då x = x 0 ) Eller så ser vi y som en prediktion av responsvariabeln då x = x 0. PREDIKTIONSINTERVALL/KONFIDENSINTERVALL: Konfidensintervall fångar den korrekta parametern med 95% säkerhet. Prediktionsintervall fångar responsvariabeln med 95% säkerhet., vt12 (25 : 31), vt12 (26 : 31) Exempel: Prediktionsintervall Förutsättningar: sanalys Hur många kvalser har man vid 29 års ålder? Modellen vi utgår ifrån brukar beskrivas: Motsvarande y-värde blir 30.46. Det genomsnittliga värdet fångas med ett 95 % KI: [26.2, 34.7]. Motsvarande predktionsintervall blir: [21.7, 39.2]., vt12 (27 : 31) y i = α + βx i + ε i, i = 1,..., n. Denna modell bygger på en del antaganden, exempelvis: Linjäritet. Är sambandet mellan x och y någorlunda linjärt? Varianshomogenitet. Är det rimligt med ε i N(0, σ 2 ) Normalfördelning hos felen. Finns det markanta skevheter eller avvikande värden (outliers)? En välskriven rapport innehåller diskussion och ev. grafisk illustration av dessa punkter., vt12 (28 : 31)

: korrelation : regression Givet parvisa observationer (x 1, y 1 ),..., (x n, y n ) beräknas motsvarande korrelationskoefficient: r = (x i x)(y i ȳ) (x i x) 2 (y i ȳ) 2 Vi har sett exempel på hur man tolkar denna i termer av grad och riktning av lineär samverkan. Vi har även sett exempel på motsvarande p-värden och tolkning i termer av att utesluta/ej utesluta så kallad noll-korrelation. Givet parvisa observationer (x 1, y 1 ),..., (x n, y n ) anpassas ett lineärt samband y = a + bx med den så kallade minsta-kvadrat-metoden. Vi har sett exempel på hur denna anpassning kan tolkas i termer av en statistisk modell med okända parametrar α och β. Begreppet förklaringsgrad har introducerats, som ett mått på graden av anpassning mellan observationerna (x 1, y 1 ),..., (x n, y n ) och det erhållna sambandet. Konfidensintervall och p-värden rörande: specifika parametervärden samt prediktionsintervall rörande responsvariabeln., vt12 (29 : 31), vt12 (30 : 31) Parvisa observationer hanteras lämpligast genom att mata in stickproven bredvid varandra i två separata kolumner. Beräkning av korrelationskoefficient och motsvarande p-värde: Stat Basic Statistics Corr sanalys: Stat... Prediktionsintervall hittar man under: Options..., vt12 (31 : 31)