Ett exempel från fysikalisk kemi. Föreläsning 13: Multipel Regression. Enkel linjär regression. Mätningar från laborationer 2014

Relevanta dokument
Föreläsning 13: Multipel Regression

Föreläsning 14: Försöksplanering

Föreläsning 12: Linjär regression

Föreläsning 12: Regression

Föreläsning 11: Mer om jämförelser och inferens

Höftledsdysplasi hos dansk-svensk gårdshund

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Föreläsning 7: Punktskattningar

Bestämning av hastighetskonstant för reaktionen mellan väteperoxid och jodidjon

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Föreläsning 7: Punktskattningar

Föreläsning 8: Konfidensintervall

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 7: Punktskattningar

Matematisk statistik för D, I, Π och Fysiker

Föreläsning 15: Faktorförsök

MVE051/MSG Föreläsning 14

Matematisk statistik för B, K, N, BME och Kemister

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Statistik 1 för biologer, logopeder och psykologer

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 15, FMSF45 Multipel linjär regression

oberoende av varandra så observationerna är

1 Förberedelseuppgifter

Statistiska metoder för säkerhetsanalys

Lektionsanteckningar 11-12: Normalfördelningen

Härledning av Black-Littermans formel mha allmänna linjära modellen

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Laboration 2: Styrkefunktion samt Regression

Matematisk statistik, Föreläsning 5

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

10.1 Enkel linjär regression

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Statistiska samband: regression och korrelation

Regressions- och Tidsserieanalys - F1

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Statistik B Regressions- och tidsserieanalys Föreläsning 1

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

F11. Kvantitativa prognostekniker

Laboration 4: Lineär regression

Enkel och multipel linjär regression

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Regressions- och Tidsserieanalys - F1

Grundläggande matematisk statistik

F13 Regression och problemlösning

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Medicinsk statistik II

LMA201/LMA521: Faktorförsök

Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland

Föreläsning G60 Statistiska metoder

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Att välja statistisk metod

FÖRELÄSNING 8:

Finansiell statistik. Multipel regression. 4 maj 2011

Föreläsning 7. Statistikens grunder.


Föreläsning G60 Statistiska metoder

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Tentamen i Matematisk statistik Kurskod S0001M

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

import totalt, mkr index 85,23 100,00 107,36 103,76

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Tentamen i Matematisk statistik Kurskod S0001M

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

SF1901: Sannolikhetslära och statistik

TAMS65 - Seminarium 4 Regressionsanalys

Jämförelse av två populationer

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Vektorgeometri för gymnasister

Konfidensintervall i populationsbaserade studier varför behövs de? Therese Andersson Sandra Eloranta

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Föreläsning 10, del 1: Icke-linjära samband och outliers

Tentamen för kursen. Linjära statistiska modeller. 22 februari

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Repetitionsföreläsning

Transkript:

Ett exempel från fysikalisk kemi Föreläsning 3: Multipel Regression Matematisk statistik Chalmers University of Technology Oktober 5, 28 Hastigheten för en kemisk reaktion ökar ofta då temperaturen höjs. En grov tumregel är att hastigheten fördubblas för varje ökning av temperaturen med K. Hastighetskonstantens temperaturberoende kan för en reaktion i de flesta fall modelleras med Arrhenius ekvation k = Ae Ea/(RT ) där E a är den så kallade (skenbara) aktiveringsenergin, R är den allmänna gaskonstanten och T är temperaturen. Aktiveringsenergin kan bestämmas experimentellt genom att man mäter k vid ett antal temperaturer och ansätter: log(k i ) = log(a) E a R T i + " i Med Y i = log(k i ) och x i = Ti ser vi att detta är en regressionsmodell! Linjär regression Exempel Enkel linjär regression Vi har gjort mätningar av en responsvariabel Y för fixerade värden på en förklarande variabel x, som kan väljas utan fel. Vi ansätter en linjär modell för (Y i,x i ),i=,...,n: Y i = + x i + " i () Mätningar från laborationer 24.5 där " i är oberoende N(, 2 ) slumpvariabeler som beskriver mätfelet och och är parametrar som beskriver det linjära sambandet. Ett annat sätt att skriva upp modellen på är alltså att log(k).5 2 2.5 Y i N( + x i, 2 ), det vill säga att vi har ett linjärt samband som bestämmer väntevärdet hos Y och en viss mätfelsvarians 2 som beskriver de enskilda observationernas variation kring väntevärdet + x. Linjär regression 3 3.26 3.28 3.3 3.32 3.34 3.36 3.38 3.4 3.42 3.44 3.46 3 /T x I kursen Fysikalisk kemi ingår en laboration om bestämning av hastighetskonstant för reaktionen mellan väteperoxid och jodidjon. Ovan ses datan från alla sju grupper från höstterminen 24. Linjär regression Exempel

Resultat log(k).5.5 2 Multipel linjär regession Vi har gjort mätningar av en responsvariabel Y för fixerade värden på förklarande variabler x,...,x p, som kan väljas utan fel. Vi ansätter en linjär modell för (Y i,x,i,...,x p,i ),i=,...,n: Y i = + x,i +...+ p x p,i + " i (2) där " i är oberoende N(, 2 ) slumpvariabeler som beskriver mätfelet och i är parametrar som beskriver beroendet. Vi kan formulera modellen på matrisform som 2.5 Y = X + E 3 3.26 3.28 3.3 3.32 3.34 3.36 3.38 3.4 3.42 3.44 3.46 3 /T x Baserat på datan får vi = log(a) = 25.626 samt = E a R = 87. Alltså är A =.34 och Ea = 67kJ/mol. där Y B Y = @. Y n C A X = x, x p, B @...... x,n x p,n C A E = " B @. " n C A = B @. p C A Linjär regression Exempel Extrapolering En mycket viktig komponent i en regressionsanalys är validering av modellen, det är också viktigt att inse att vi inte kan vara säkra på att den linjära modellen stämmer för x utanför mätområdet. Parameterskattning Sats Givet att X T X är inverterbar fås minstakvadrat-skattningen av som =(X T X) X T Y. Skattningarna är väntevärdesriktiga och vi har V ( i )= 2 (diagonalelement nummer i+ i (X T X) ). Vidare är s 2 = Q /(n p ) där nx Q = (y i x,i... i= px p,i ) 2 = Y T Y T X T Y. Sats Med µ Y (x )= + x, + + px,p är V(µ Y (x )) = 2 x T (X T X) x Linjär regression Modellvalidering

Polynomregression Kolinearitet 25 2 5 5 5 8 6 4 2 2 4 6 8 Vi har gjort mätningar av en responsvariabel Y för fixerade värden på en förklarande variabel x. Ansätt modellen Y i = + x i + 2 x 2 i +...+ p x p i + " i (3) Specialfall av multipel regerssion med x k = x k. Om alla observationer nästan ligger på en linje i (x,x2)-planet blir skattningen av planets lutning i riktningen ortogonalt mot linjen mycket osäker. Kolinearitet Exempel: skatting av längd Även om två förklarande variabler inte är linjärt beroende så kan vi få att kolumnerna i X blir linjärt beroende på grund av hur vi gör mätningarna. Om alla observationer ligger på en linje i (x,x2)-planet blir kolumnerna i X linjärt beroende. Om vi vet hur långa ben en person har bör vi kunna göra en bra skattning av personens längd. Gör mätningar av personers längd samt benlängder för att kunna skatta ett regressionssamband.

Vad gick fel? Låt Y vara personens längd, x` längden av det vänstra benet, och x r längden av det högra. Ansätt modellen Y i = + x`,i + 2 x r,i + " i Det finns ett tydligt samband, men på grund av kolinearitet mellan variablerna kan modellen inte avgöra om det är vänster ben, höger ben, eller en kombination som förklarar längden. Lösning: Använd bara vänster (eller höger) ben som prediktor: Y i = + x`,i + " i =.953, I =(.9283,.2624). Förklaringsgrad Skattningar: = 88.67, = 3.984, 2 =5.79. Konfidensintervall I =( 52.58, 44.62),I 2 =( 43.52, 53.67). Märkliga skattningar och ingen signifikant parameter!

Korrelation och kausatilitet Randomiserade studier Korrelation och regression säger inget om orsakssamband. Exempel: Dagar med hög glassförsäljning tenderar att ha fler drunkningsolyckor. Dags att förbjuda glass? Kausala frågor handlar om mekanismer som genererar datan eller prediktioner om vad som kommer ske efter någon åtgärd. Tex: Förändras antalet drunkingsolyckor om vi förbjuder glass? Det finns mänger av kausala påståenden i nyheterna! Ät frukost om du vill minska din risk för kranskärlssjukdomar Vi måste vara försiktiga med kausala påståenden: Om personer som äter frukost tenderar ha färre kranskärlssjukdomar, borde vi därför äta frukost? Ienrandomiseradstudieslumpasdetpåförhandvilkengrupp varje försöksperson ska tillhöra. Om datan för fångarna samlades in via en randomiserad studie, kan vi då svara på om programmet minskar återfallsfrekvensen? Antagligen ja! Men vi kan inte vara helt säkra, tex kan fångvaktarna bete sig olika mot de två olika grupperna. Om möjligt bör experimentet göras double blind Försökspersonerna vet ej vilken grupp de tillhör (motverka placeboeffekt) Forskarna (och fångvaktarna) vet ej vilken grupp varje försöksperson tillhör (motverka bias hos forskarna) Det är inte alltid möjligt, eller etiskt försvarbart, att randomisera Vi kan till exempel inte randomisera vilka som ska röka om vi undersöker effekten rökning har på cancer! Ett klassiskt exempel Observationsstudier och confoundingvariabler Betrakta följande hypotetiska data angående effekterna av ett utbildningsprogram på åter-arresteringar hos före detta fångar: Arresterade Ej arresterade Frekvens Medverkande 4 2% Ej medverkande 5 5 5% Typiska frågor vi kan vilja få svar på: Kan vi skatta risken för att en fånge återfaller i brott givet att den medverkade i programmet? (Icke-kausal) Minskar programmet frekvensen för återfall i brott? (Kausal) Vad vore återfallsfrekvensen om programmet vore obligatoriskt för fångar? (Kausal) Vilka frågor kan vi svara på? Det beror på hur datan samlats in! Ienobservationsstudieskerurvalethosdetvågrupperna genom att försökspersonerna själva väljer vilken grupp de ska tillhöra. Forskarna observerar endast resultaten. Om datan för fångarna samlades in via en observationsstuie, kan vi svara på om programmet minskar återfallsfrekvensen? Nej! skillnaderna kan bero på systematiska skillnader i beteendet hos de som väljer att delta. Tex vilka typer av brott de begått eller deras motivation att återintegreras i samhället. Motivation hos fångarna är ett exempel på en confoundingvariabel, dvs en faktor som Influerar utfallet hos försöket och är relaterad till den förklarande variabeln. Om båda dessa villkor är uppfyllda kan vi inte skilja effekten från den förklarande variabeln från confoundingvariabeln. Vi kan inte förklara vad som orsakar effekten i utfallet!

Confoundingvariabel för fängelseexemplet Socialdemokrater och Skandinaver Motivation till återanpassning till samhället är en confoundingvariabel: Den influerar chansen att återfalla i brott. Den är relaterad till deltagande i utbildningsprogrammet, eftersom folk som deltar är motiverade. Vi har alltså att De fångar som är motiverade och deltog i programmet återfaller sällan i brottslighet. De fångar som inte är motiverade deltog inte i programmet och återfaller ofta i brottslighet. Vi kan alltså inte veta om återfallsfrekvensen beror på motivation eller deltagande, dessa två effekter mixas samman (confounded på engelska) Datan visar alla valdistrikt i Malmö. X = andel av populationen som kommer från Skandinavien Y=andelavpopulationensomröstadepå Socialdemokraterna i förra valet. =.859938, R 2 =.73. Analys av data från observationsstudier Medianlön en confounder? Finns det inget vi kan göra för att analysera kausala frågor med hjälp av data från observationsstudier? Jo, men det kräver mer arbete! Blockindelning/stratifiering: Ett sätt är att undersöka homogena delpopulationer och göra jämförelser inom varje delpopulation. Jämför motiverade och omotiverade fångar för sig. Ett problem är att det kan vara svårt att veta att vi kontrollerat för varje relevant confoundingvariabel. Ett annat problem är att det kan vara svårt att få tillgång till data för confoundingvariabler. Ta med även medianlön i distrikten som förklarande variabel i en multipel regressionsmodell. Y = + X scand + 2 X salary + " =.89, fortfarande signifikant (p <2 6 ). R 2 =.75.

Modellval Stegvis regression (II) Fortsätt iterera stegen i modellvalet: Som vi sett är en viktig fråga är hur vi väljer vilka förklarande variabler som ska ingå i en multipel regressionsmodell. För att undersöka om x p bör tas med kan vi utföra hypotestest H : p = H : p 6= genom att bilda teststorheten p/d( p) med kritiskt område C = {T : T >t /2 (n p )}. Steg m:a Aktuell modell är (, i ). Välj (, i, i k+ ) där i k+ = arg min i Q (, i, i). Om ik+ är signifikant, gå till Steg m:a, annars välj (, i ) som modell och avsluta modellval. Steg m:b Testa om någon parameter j är icke-signifikant i (, i, i k+ ). Om så är fallet, välj bort den med lägst värde på teststorheten, annars behåll alla parametrar. Gå till Steg (m + ) : a. Stegvis regression (I) Massignifikans Låt (, i, j) beteckna modellen Y = + i x i + j x j + " och låt Q (, i, j) vara residualvariationen för modellen. Steg Välj (, i ) där i = arg min i Q (, i). Om i är signifikant, gå till Steg 2a, annars välj ( ) som modell och avsluta modellval. Vi måste vara försiktiga när vi gör försök som kräver flera tester. Till exempel är stegvis regression lite problematiskt eftersom valet av i testerna i viss mån godtyckligt eftersom vi gör upprepade tester. Detta brukar kallas massignifikansproblemet: Steg 2a Välj (, i, i 2 ) där i 2 = arg min i Q (, i, i). Om i2 är signifikant, gå till Steg 2b, annars välj (, i ) som modell och avsluta modellval. Steg 2b Testa om i är signifikant i (, i, i 2 ). Behåll modellen om så är fallet, annars välj (, i 2 ). Gå till steg 3a.