Linjär Regressionsanalys. Centrum för allmänmedicin Henrik Källberg

Storlek: px
Starta visningen från sidan:

Download "Linjär Regressionsanalys. Centrum för allmänmedicin Henrik Källberg"

Transkript

1 Linjär Regressionsanalys Centrum för allmänmedicin Henrik Källberg

2 Linear regression(dag 1) Upplägg Dag 1 Kort repetition - Deskriptiv statistik - t-test - Typ I och Typ II fel - Problem Korrelation - Kovarians - Korrelation, (Pearson, Spearman) ANOVA (Analysis of Variance) - Motivation - Kvadratsummor - Antaganden Henrik Källberg, 2013

3 Linjär Regressionsanalys(Dag 1) Mål - Snabb Repetition av grundläggande statistik, t-test - ANOVA (analysis of variance) - Veta när ANOVA är applicerbart och veta vad kvadratsumma är. - Veta vilka antaganden som krävs. - Samvariation och kovarians. - Korrelation, kunna beräkna och tolka korrelation - Beskriva en enkel regressionsmodell med hjälp av graf. Och veta vad de olika komponenterna i en modell beskriver.

4 Skalor och datanivåer Datanivåer Datanivå Klassindelning Rangordning Ekvidistans Kvoter Ja Nej Nej Nej Nominal- Skala Ordinal- Skala Intervall- Skala Kvot- Skala Ja Ja Nej Nej Ja Ja Ja Nej Ja Ja Ja Ja

5 Beteckningar Population - µ (medelvärde) Förklaring symboler 2 - (Varians) Prov, Urval x - (medelvärde) - S 2 (Varians) - 2 (Standardavvikelse) Population 2 Urval Inferens - S S 2 (Standardavvikelse) x S 2 Stickprov

6 Repetition, Konfidensintervall Urvalsfördelning (Skål med sifferlappar!) Urvalsfördelning för X ca 2.5% av urvalen hamnar utanför denna sidan av gränsen (under) n x x x x x μ x x x x x x x n ca 2.5% av urvalen hamnar utanför denna sidan av gränsen (över) ca 95% of all sample means falls within this interval

7 P-värde och olika fel P-värdet anger hur stor sannolikheten är att vi observerar ett extremare värde förutsatt att H O är sann. H O Typ II-fel (β) Signifikansnivå (α) P-värde

8 Beslut Typ I och Typ II fel Verklighet H 0 är falsk H 0 är sann Förkasta H 0 OK Typ I fel (falskt positiv) Förkasta inte H 0 Typ II fel (falskt negativ) OK

9 Uppgift! Beräkna Varians! X X X - (X - ) Summa X n 6 3 s( std. avvikelse ) 2 s 2 s x 2 (var iance ) ( ) x x n 1 x 2?

10 T-test Jämföra två Grupper (t.ex. behandlade (X 1 ) mot obehandlade (X 0 )) Poolad varians: Variansen för de båda grupperna vägs samman enl. formeln: n n S X X t n n S t X X Pool Pool n n ) ( 1) ( n n X X X X n n S n S n S Pool

11 Hypotes T-test Nollhypotesen vid vanligt t-test är: H 0 : X1 X 0 Den alternativa hypotesen är: H 1 : X alt X 0 X1 X, X X

12 Uppgift! Utför ett hypotestest med hjälp av ett t-test för att avgöra om det är signifikant skillnad mellan två grupper (X 1 är gruppen skidåkare som tränat på hög höjd, X 0 är gruppen som ej tränat på hög höjd ) med avseende på blodvärde: S 2 Pool = 120, n 1=30, n 0 =40, X 1 = 165, X 0 = 132 t S X 1 2 Pool X 0 1 n1 1 n 2

13 Svar Uppgift! Tolkningen blir att det är en signifikant skillnad mellan gruppernas medelvärde. Höghöjdsträning verkar ha effekt på blodvärdet. t S X 2 Pool 1 n , n1 X 3.94

14 ANOVA (motivering) Två variabler : 1 Kategorisk, 1 Kvantitativ Fråga: Skiljer sig medelvärdet med avseende på den kvantitativa variabeln åt mellan grupperna (Kvalitativ variabel)? Om vi bara har två grupper (baserat på den kvalitativa variabeln): - t-test ANOVA Möjliggör att testa fler grupper samtidigt, tex. Skiljer sig höghöjdsträning, träning och ej träning åt (tre grupper)?

15 ANOVA II (Hypotes) Anta att vi har K stycken oberoende grupper: ANOVA testar Nollhypotesen: H0: μ1 = μ2 = = μk Vilket innebär, Grupperna har lika medelvärde Alternativ hypotes ges av: H1: μi μj för någon av grupperna i,j. (Samma sak som att grupperna har olika medelvärde)

16 days ANOVA III visuell ANOVA utgår från overall medelvärdet och testar de olika grupperna utifrån detta värde. X Om det kombinerade avståndet skiljer sig från overall medelvärdet så förkastas H A B treatment P X

17 ANOVA formler För att kombinera avståndet från overall mean Kvadrera skillnaden Multiplicera med antalet individer I gruppen Summera alla grupper SSB 40 X X 2 35 X X 2 20 X X 2 A B P X * Betecknar medel i respektive grupp (A,B och P) SSB = Sum of Squares Between groups

18 ANOVA fortsättning SSB (sum of square between) måste relateras till någon annan Sum of Square Mean square Error (MSE), talar om hur stor den kombinerade variationen är, med hänsyn till respektive grupp 1 2 MSE x ij X j N K j i N är antalet individer, K är antalet grupper och x ij är den i th observationen i den j th gruppen

19 Implant Height Error (mm) ANOVA (MSE) Implant Height Error by Guide Width MSE 1 N K j i x ij X j 2 Samma grupper som innan men nu visas individuella värden, N är antalet individer, K är antalet grupper och x ij är den i th observationen i den j th gruppen, x j är medel i respektive grupp 4mm 6mm 8mm A B P Guide Width Treatment

20 ANOVA beräkningar Ide! Jämföra medel Variation mellan (MSB) mot medel Variation inom (MSE). F SSB ( K 1) MSE N ( X 1 K 1) x ij X j Detta F-värde följer F-fördelningen med K-1 och N-K frihetsgrader (N är totalt antal observationer, K är antalet grupper) J j X ) /( K i 2

21 ANOVA Summering SST SSE SSB SSE obs obs obs SSB ( x ( x ( x i ij ij x) x i x) ) 2 SST; Lägg märke till 2 s MS s grupper n grupper ( DFT ) i 2 i ( x SS DF ( df i i ; ) x) F 2 att den totala variansen (SST) är summan av SSB och SSE. 2. Lägg märke till att SSE är kopplat till variansen 3. ANOVA för endast två grupper = t-test MSB MSE

22 ANOVA Tabell, uppgift I de flesta statistikprogram presenteras en ANOVA tabell mellan Grupper Inom Grupper Sum of Squares df Mean Square F Sig Totalt Frågor!: Var finns följande värden I tabellen? Sum of Squares Between (SSB) Mean Square Error (MSE) F Statistic p value

23 ANOVA antaganden!! Naturligtvis så krävs ett antal antaganden för att beräkningarna skall vara valida! Dessa är: * Att individerna i respektive grupp är oberoende slumpmässigt utvalda. * Varje grupp är ungefär normalfördelad med avseende på testvariabeln. (Kollas enklast via histogram eller dylikt) * Standardavvikelsen (std) är ungefär lika stor för de olika grupperna. Tumregel: Kvoten mellan högsta och lägsta skall vara mindre än 2.

24 Kovarians (cov) Kovarians är ett mått på samvariation mellan två stokastiska variabler Obs! cov(x,x)=var(x)

25 Kovarians Kovariansen kan tolkas på följande sätt: 1. cov(x,y) > 0 innebär att x och y är positivt korrelerade 2. cov(x,y) = 0 innebär att x och y är okorrelerade (oberoende) 3. cov(x,y) < 0 innebär att de är omvänt korrelerade (negativt korrelerade)

26 Korrelationskoefficienten r (pearson, kontinuerliga var.) Fråga! Finns det något linjärt samband mellan längd och vikt? Genom att använda varians (var) och kovarians (cov) så kan vi skatta korrelationskoefficienten (r). r = cov(x, y) var(x) var(y) Korrelationskoefficienten, r (Pearson): Har ingen enhet. Är ett mått på hur starkt linjärt förhållande det är mellan två variabler Kan anta värden mellan -1 och 1. r = 0 innebär att det inte finns något linjärt samband mellan variablerna r = 1 innebär att det är ett perfekt positivt linj. samband mellan variablerna r = -1 innebär att det är ett perfekt negativt linj. Samband mellan variablerna.

27 Korrelationskoefficient (r) Y r = -1 Y r = -.6 Y r = 0 X X r = +1 r = 0 X r = +.3 X

28 Spearmans rangkorrelation (Kontinuerliga, diskreta och ordinal var.) Fråga! Finns det något samband mellan betyg (x) och IQ (y)? r = 1 6 d i 2 n(n 2 1) n = antal, d i = differens i rangordning mellan variablerna Betyg (x) IQ (y) Rang x Rang y d i (rang x-rang y) d i ,5 = (3+4)/2 3 0,5 0, ,5 4-0,5 0,

29 Uppgift! Beräkna r (Spearman) r = 1 6 d i 2 n(n 2 1) Svar : r = 1-6*0,5/5*(25-1) = 0,975 Betyg (x) IQ (y) Rang x Rang y d i (rang x-rang y) ,5 = (3+4)/2 3 0,5 0, ,5 4-0,5 0, d i 2

30 Signifikanstest r. Två sätt: 1. t-test: t = r n 2 1 r 2 t >,< t n-1,95% 2. Fischer information: F r = 1 2 z = n 3 1,06 F(r) z >,< 1,96 ln 1+r 1 r,

31 Korrelationskoefficient (r) r kan vara: Låg men signifikant (ofta p<0.05). t.ex. r = 0.1 (p<0.01) Hög men inte signifikant t.ex r = 0.9 (p=0.5) Låg och ej signifikant t.ex. r = 0.1 (p=0.5) Hög och signifikant t.ex. r = 0.9 (p<0.01)

32 Sammanfattning dag 1 Repetition (t-test, p-värde etc.) ANOVA (Flera grupper, Kvadratsummor (SS)) Kovarians Korrelation (r (Pearson, Spearman))

33 Linear regression(dag 2) Upplägg Dag 2 Kort repetition Dag 1 - ANOVA - Kovarians - Korrelation Enkel Linjär regression Regressionskoefficienten Test av lutning Kategorivariabler Enkel Linjär regression - Räta linjens ekvation - Prediktion - Antaganden Henrik Källberg, 2013

34 Repetition Dag 1 (ANOVA) Between groups Within groups Sum of Squares df Mean Square F Sig. SSB = n i (y i y.. ) 2 b-1 MSB = SSB b 1 SSE = SST SSB N-b MSE = SSE N b F = MSB MSE Totalt SST = (y i y.. ) 2 N-1

35 Repetition Dag 1 (Kovarians, r) r = cov(x, y) var(x) var(y) Par X Y Total Uppgift!! Beräkna kovarians, och korrelation

36 Svar repetitionsuppgift Cov = Var(x) = 9.67 Var(y) = R = = (9.167/rot(9.67)*rot(8.917)

37 Dag 2 Regressionsanalys Mål Dag 2 Känna till räta linjens ekvation. Veta vad oberoende och beroende variabel är. Veta vad lutningskoefficient och intercept är. Utföra lämpligt test för regressionskoefficient. Veta vilka antaganden som regressionsmodellen bygger på. Tolka en regressionsanalys.

38 Dag 2 Regressionsanalys I regressionanalys pratar man om Beroende (y) och Oberoende (x) variabler. Detta innebär att målet med regressionsanalys ofta är att predicera ett värde på Y med hjälp av en annan variabel X. I korrelationsanalys finns ingen värdering i vad som är oberoende respektive beroende.

39 Dag 2 Regressionsanalys (räta linjens ekvation) Y=kX+B Y k x B

40 Dag 2 Regressionsanalys (räta linjens ekvation, lutning) Vad Innebär k i en linjär ekvationsmodell? - Svarar mot lutningen - Hur mycket Y ökar då X ökar. - T.ex. för varje ökning av X ökar Y med 2 Y=kX+B k

41 Dag 2 Regressionsanalys (Prediktion) Mål: Vi vill förutspå (predicera) ett värde på Y när vi bara har information om X. Jämför med betingade sannolikheter, P(Y X). Jämför med denna ekvation: E( y i / x i ) x i Här är α det samma som B och β det samma som k i föregående slides. Med ett normalfördelat fel i ekvationen: E( y i / x i ) x i i Fixerade effekter, passar den räta linjen Slumpmässigt fel som följer normalfördelning (N(0,1))

42 Dag 2 Regressionsanalys (4 Antaganden) Förhållandet mellan X och Y är linjärt. Y är normalfördelat för varje punkt vid X. Variansen för Y är samma för varje punkt X. Observationerna är oberoende.

43 Dag 2 Regressionsanalys (Sum of squares) y i C A ŷ i x i y A B B y C y i x n n 2 ( yi y) i1 i1 A 2 B 2 C 2 SS total Total variation ( yˆ i y) 2 n i1 SS reg Avstånd mellan regressionslinjen och medel värdet på y ( yˆ i y i ) 2 SS residual Varians omkring regressions linjen R 2 =SS reg /SS total

44 Dag 2 Regressionsanalys (Uppgift!) Jämför kvadratsummorna som används för att skatta regressionskoeffcienterna med Kvadratsummorna i ANOVA! SS total =?, SS REG =?, SS RESIDUAL =? SSB=?,SST=?,SSE=?

45 Dag 2 Regressionsanalys (Prediktion II) Y = max HR X = Ålder Y = *Ålder

46 Dag 2 Regressionsanalys (Prediktion II, Uppgift!) Beräkna DIN maximala Hjärtfrekvens med hjälp av formeln: Max_HR = *Ålder (i år räknat)

47 Dag 2 Regressionsanalys (Koefficient och intercept) Regressionskoefficienten skattas genom Minsta kvadratmetoden. Följande uttryck erhålls: Lutningen: ˆ Cov( x, y) Var( x) Calculate : ˆ Interceptet fås genom: (regressionslinjen går alltid genom x och y) y - ˆx

48 Dag 2 Regressionsanalys (Koefficient, intercept uppgift) Beräkna β och α samt skriv upp regressionsmodellen! Cov(y,x) = 20, var(x)=5, y = 35, x = 22

49 Dag 2 Regressionsanalys * (Koefficient-Korrelation) Korrelations koefficienten (r) har ett samband med regressionskoefficienten (β). Observera att i regression så finns beroende (y) och oberoende variabler (x) rˆ ˆ SD SD x y

50 Dag 2 Regressionsanalys (Koefficient, signifikans) För att avgöra om lutningen (β) är skild från 0, så bör man testa detta. Fördelningen för lutningen β~ T n-2 (β,s.e.(β)) Hypotesen blir följande: H0: β1 = 0 T n-2 = H1: β1 0 s. e.( ˆ ) ˆ 0

51 Dag 2 Regressionsanalys * (Koefficient, Standardavvik.) Standardavvikelse för β s ˆ n i1 ( y i n 2 SS x yˆ i ) 2 s 2 y / x SS x

52 Dag 2 Regressionsanalys (Koefficient, signifikans, uppg.)

53 Dag 2 Regressionsanalys (Dataexempel) Individ Height Weight

54 Dag 2 Regressionsanalys (Koefficient, signifikans, uppg.) Uppgift! 1. Skriv upp regressionsmodellen 2. Avgör med lämpligt test om lutningen är skild från 0.

55 Dag 2 Regressionsanalys (Koefficient, signifikans, Svar)

56 Dag 2 Regressionsanalys (Dataexempel) Individ Grupp (1=behand) LDL

57 Dag 2 Regressionsanalys (Dikotom variabel) T S1 S 2 n 1 1 n ; p.0001 En regressionsmodell med en dikotom variabel (y = x*β + ε) med β= är det samma som ett t-test för differensen mellqn gruppernas medelvärde.

58 Sammanfattning Dag 2 (Regressionsanalys) Räta linjens ekvation (Y=kx + m) E( y Prediktion ( ) Antaganden (Linjärt, NIID) i / x i ) x i i Koefficient och intercept -test av koefficient, Intercept Olika variabeltyper (Dikotom och Kontinuerlig)

59 Dag 3 Regressionsanalys (Flera variabler) Upplägg Dag 3 Kort repetition, Frågor Flera variabler Confounding Interaktion Faror med multivariabla modeller (ev. Välja bästa modellen) Ytterliggare modeller

60 Dag 3 Regressionsanalys (Mål) Mål Dag 3 - Veta hur man infogar fler variabler i en regressionsmodell. - Förstå hur man kontrollerar för Confounding - Interaktion mellan variabler - Veta om faror med multivariata modeller (ev. Undersöka vilken modell som är bäst ) - Veta om att det finns ytterligare regressionsmodeller

61 Dag 3 Regressionsanalys (Repetition dag 2) Skriv upp den generella regressionsekvationen. Ange vilka fyra huvudsakliga antaganden som vi förutsätter vid linjär regressionsanalys. Avgör om koefficienten (β=0.5, SD=0.3) är skiljd från noll.

62 Dag 3 Regressionsanalys (Flera variabler) Linjära regressionsmodeller har fördelen att man kan infoga flera variabler i samma modell. T.ex. E y / x, x,...) x x... ( i Bra för att kunna: Kontrollera för confounders. Hantera interaktion mellan variabler (effektmodifiering) Förbättra prediktionsförmågan. i

63 Dag 3 Regressionsanalys (Flera variabler II) Det finns olika sätt att inkludera ytterligare variabler: 1. Andra oberoende variabler t.ex: E y / x, x,...) x x... ( i i 2. Polynom (om kurva ): 2 2 E( y / x, x,...) x x... i 1 1 (lätt att skapa overfitting!) 1 1 i

64 Dag 3 Regressionsanalys (Confounding) Confounding, Confounding, exempel BMI Y, Blodtryck

65 Dag 3 Regressionsanalys (Confounding, kokbok) En confounder (C) är associerad med beroende (Y) och oberoende (X) variabler (den korrekta metoden!, ofta skippas steg 3 och 4). 1.Kontrollera om Y är associerad med X. E Y X = a 0 + β x X + ε 2. Kontrollera om Y är associerad med X givet C. E Y X, C = a 0,x,c + β x,c X + β c,x C + ε 3. Kontrollera om C är associerad med Y. E Y C = a 0,c + β c C + ε 4. Kontrollera om C är associerad med X. E(C X) = a 0,x + β C,X X + ε Justerat!

66 Dag 3 Regressionsanalys (Confounding, Uppgift)

67 Dag 3 Regressionsanalys (Confounding, Uppgift) 1. Vilken av behandlingarna är förenlig med confounding? 2. Hur många confounders användes? 3. Är koefficienterna signifikanta?

68 Dag 3 Regressionsanalys (Interaktion) Interaktion innebär att effekten av en oberoende variabel beror av en annan oberoende variabel. I artikeln skulle interaktion innebära att kroppssammansättningen skulle bero på genetisk variation (FTO) och Syreupptagningsförmåga. Det vill säga: Man har en extra effekt av syreupptagningsförmågan om man har en särskild genetisk variation.

69 Dag 3 Regressionsanalys (Interaktion) Fasting Insulin (Y) Y = PPARG β PPARG + +BMI β BMI + ε PPARG och BMI i modellen är så kallade main effects. Y = BMI β BMI + ε Två olika modeller en med genetisk faktor och en utan.

70 Dag 3 Regressionsanalys (Interaktion) Fasting Insulin (Y) Y = PPARG β PPARG + +BMI β BMI + PPARG BMI β PPARG BMI + ε Y = BMI β BMI + ε Här är lutningen större än i föregående diagram. PPARG BMI β PPARG BMI Är interaktionseffekten.

71 Dag 3 Regressionsanalys (Interaktion) Interaktion innebär att en signifikant produkt term existerar. Testa om interaktionstermen är skild från noll. Om det finns stark interaktion så är confounding justering onödigt Stratifiera!

72 Dag 3 Regressionsanalys (Interaktion, uppgift) Main effects: FTO ( AA ): 3 (sd=0.9) VO 2 Max: -0.2 (sd=0.05) Interaction effects: FTO*VO 2 Max: -0.1 (sd=0.07) 1. Skriv ut en modell för main effects + en modell med main effects och interaction effects. 2. Avgör vilka koeff. Som är signifikanta.

73 Dag 3 Regressionsanalys (Faror med multip. regression) Multi-collinearity Residual confounding Overfitting

74 Dag 3 Regressionsanalys (Faror, Multi-colinearity) Kolinearitet innebär att två oberoende variabler mäter samma sak. Det finns en stark korrelation mellan dem Tex. Vikt och BMI. Man bör endast inkludera en av dessa variabler i modellen.

75 Dag 3 Regressionsanalys (Faror, Residual confounding) Residual confounding: Är kvarstående confounding trots att man kontrollerar för confounders. Här följer tre varianter: 1. Ytterligare confounders som det ej finns information om (unmeasured confounding) 2. För grov indelning av confoundern som används I analysen. T.ex. Variabel ung-gammal används istället för ålder mätt I antal år. 3. Felklassificering av individer för confoundern I fråga.

76 Dag 3 Regressionsanalys (Faror, Overfitting) Overfitting = Modellen kan passa data perfekt på grund av att man har för många variabler i modellen. Tyvärr är modellen troligtvis värdelös ur prediktionssynpunkt eftersom modellen är starkt kopplad till data som används.

77 Dag 3 Regressionsanalys (Faror, Overfitting) Optimism modellerat för några faktorer, 5 oberoende faktorer i samma modell. Parameter Standard Variable Estimate Error Type II SS F Value Pr > F Intercept Motion sömn obama <.0001 Clinton MatteKär Univariat analys av motion: Parameter Standard Variable Estimate Error T-värde Pr > F Intercept <.0001 Motion

78 Dag 3 Regressionsanalys (Faror, Overfitting) Tumregel: Minst 10 individer per ytterligare infogad variabel i en mult. Reg. modell Brus variabler orsakar bra R 2 värden om modellen är overfitted (Figure 1 from: Babyak, MA. What You See May Not Be What You Get: A Brief, Nontechnical Introduction to Overfitting in Regression-Type Models. Psychosomatic Medicine 66: (2004).)

79 Dag 3 Regressionsanalys (Faror, uppgift) Diskutera med grannen och ge potentiella exempel på: 1. Residual confounding 2. Overfitting 3. Kolinearitet.

80 Dag 3 Regressionsanalys (Välja modell) Genom att undersöka om variabeln tillför ett signifikant tillskott av SS(Dag 1). Stepwise Forward (utöka modellen med ytterligare variabler) Backward (minska modellen med en variabel i taget)

81 Dag 3 Regressionsanalys (Välja modell) Källa:

82 Dag 3 Regressionsanalys (Ytterligare modeller) Är observationerna oberoende eller korrelerade? Utfallsvariabel Oberoende Korrelerade Antagande Kontinuerlig (VAS, längd, konc, etc.) T-test ANOVA Linjär correlation Linjär regression Parat ttest Repeated-measures ANOVA Mixed models/gee modeling Utfallsvariablen är norm.fördel. Linjärt förhållande mellan utfall och oberoende variabel. Binär, kategori (sjuk, ordinalskala) Difference in proportions Relativa risker Chi-2 test McNemar s test betingad logistic regression GEE modeling Chi-2 test antar minst antal I varje cell (>=5) Logistisk regression Tid till händelse (tid till sjukdom) Kaplan-Meier Cox regression n/a Prop.hazard assumption

83 Dag 3 Regressionsanalys (Sammanfattning) Mulivariabel regression Confounding Interaktion Faror Kolinearitet Residual confounding Overfitting Modellval. Ytterligare modeller

84 Dag 4 Regressionsanalys (Diagnostik, Upplägg) Hur bra stämmer våra antaganden? Kort repetition, Frågor (Multi) kolinearitet Residualer - Linearitet - Homoscedasitet - Oberoende Outliers

85 Dag 4 Regressionsanalys (Diagnostik, Mål) Mål Dag 2 Känna till olika diagnostiker för att utvärdera regressionsmodeller. Förstå vad en residual är. Veta hur residualmönster ser ut vid icke,-linearitet, - homoscedasitet, -oberoende. Känna till mått för kolinearitet mellan oberoende variabler. Känna till situationer när outliers är ett problem. Känna till mått för att skatta outliers betydelse

86 Dag 4 Regressionsanalys (Repetition) Multipel regressionsmodell: E ( yi / x1, x2,...) x1 x2 Confounding... i Interaktion Faror Kolinearitet Residual confounding Overfitting

87 Dag 4 Regressionsanalys (Repetition, uppgift!!) Utfallsvariabeln (y = BMI) misstänks vara beroende vikt och aktivitetsnivå (fys). Skriv upp en regressionsmodell för följande: 1. BMI och vikt med justering för confounding från aktivitetsnivå (fys.). 2. BMI och vikt, fys samt interaktion mellan vikt och fys.

88 Dag 4 Regressionsanalys (Multiple Regression, repetition antaganden) Förhållandet mellan X och Y är linjärt. Y är normalfördelat för varje punkt vid X. Variansen för Y är samma för varje punkt X. Observationerna är oberoende.

89 Dag 4 Regressionsanalys ((multi)kolinearitet) Kolinearitet innebär att två variabler mäter samma sak. Kolinearitet mellan två variabler kan medföra: - Instabila estimat! - Falskt för stora standardfel, Nollhypotesen förkastas inte.

90 Dag 4 Regressionsanalys ((multi)kolinearitet) Två mått på kolinearitet är: 1. Tolerance = 1 R J 2, Där R J 2 är korrelation mellan de båda variablerna, ett värde under 0.2 indikerar kolinearitet VIF = 1 R2, VIF = Variance Inflation Factor, ett VIF värde över 5 indikerar J kolinearitet.

91 Dag 4 Regressionsanalys ((multi)kolinearitet, uppgift!!) Estimate Std. Error t value Pr(> t ) (Intercept) 2.33e e e *** x 3.67e e e+15 < 2e-16 *** bm 1.00e e e+15 < 2e-16 *** Modell med kolinearitet: Y = 2.383e *X + 1*bm (OBS!!! bm = x/1.2 + e, e = n(0,1)) Korrelation (r) mellan X och bm = 0.98 Estimate Std. Error t value Pr(> t ) (Intercept) X <2e-16 *** Uppgift! 1. Avgör med lämpligt mått om det föreligger problem med kolinearitet! 2. Skriv upp den mest sannolika regressionsmodellen

92 Dag 4 Regressionsanalys (Residualer) Residual: e i Y i Yˆ i Kom ihåg ˆ Y i X Residualer är skillnaden mellan observerat värde (Y i ) och förväntat värde (Y i ).

93 Dag 4 Regressionsanalys (Residualer, uppgift) Beräkna residualen för x = 20 med regressionsmodellen y = *X. Observerat Y-värde är e i Y i Yˆ i

94 Dag 4 Regressionsanalys (Residualer) Residualer är användbara för att undersöka följande antaganden (m.h.a. plottar): Linearitet Homoscedasitet (variansen är lika för respektive punkt) Oberoende

95 Dag 4 Regressionsanalys (Residualer, plottar) Genom att plotta residualerna på y-axeln mot obeorende variabel(ler) på x-axeln kan ev. mönster synliggöras.

96 residualer residualer Dag 4 Regressionsanalys (Residualer, plottar (linearitet)) Y Y x x x x ej Linjär Linjär Statistics for Managers Using Microsoft Excel 4th Edition, 2004 Prentice-Hall

97 residualer residualer Dag 4 Regressionsanalys (Residualer, plottar, (Homoscedasitet)) Y Y x x x x icke-konstant varians Konstant varians Statistics for Managers Using Microsoft Excel 4th Edition, 2004 Prentice-Hall

98 residuals residuals residuals Dag 4 Regressionsanalys (Residualer, plottar, (Oberoende)) Icke oberoende oberoende X X X Statistics for Managers Using Microsoft Excel 4th Edition, 2004 Prentice-Hall

99 Dag 4 Regressionsanalys (Residualer, plottar, uppgift!!) Uppgift! Försök att avgöra med hjälp av graferna till vänster om det: 1. är ett linjärt förhållande mellan y och x. 2. om det är samma varians. 3. om y-värden är oberoende av varandra

100 Dag 4 Regressionsanalys (Outliers) Även om antaganden håller kan modellen vara dålig T.ex. Outliers-extremvärden Formellt: inflytelserika individer Outliers kan bero på: Datainmatningsfel Extrema individer Representera riktig variation Några få outliers kan påverka lutningen mycket, Särskilt om sampel size är liten.

101 Dag 4 Regressionsanalys (Outliers) Outlier Blå linje (med outlier): Y = *X svart linje (utan outlier): Y = *X

102 Dag 4 Regressionsanalys (Outliers, uppgift!) Var går gränsen för en inflytelserik outlier? - Om en standardiserad (medel=0, sd=1) outlier är större än 3 eller minder än Om cooks distance är större än 1. D i = antal variabler. Uppgift! n j=1 (y j y j i ) 2, y p MSE j = modell med outlier, y j(i) =modell utan outlier, p = Avgör om outliern har någon betydelse för regression modellen om de standarddiserade residualerna har följande fördelning. Min 1Q Median 3Q Max Cooks Distance: Min. 1st Qu. Median Mean 3rd Qu. Max Vad står MSE för i formeln ovanför?

103 Dag 4 Regressionsanalys (Sammanfattning) (Multi) kolinearitet Tolerance, VIF Residualer e - Linearitet (Plottar) - Homoscedasitet (Varians) - Oberoende i Y i Yˆ i Outliers Std. Residualer Cooks distance D i = n j=1 (y j y j i ) 2 p MSE

104 Dag 4 Regressionsanalys (Regressionskokbok) 1. Börja med en modell som passar a priori kunskap. 2. Plotta beroende och oberoende variabel. 3. Kör regressionsmodellen i Kolla hur bra modellen passar data (plotta regressionslinje + punkter) - Kolla residualer efter mönster (Kolinearitet, homoscedasitet, oberoende). - Kolla om outlier(s) finns. Ev. kontrollera hur inflytelserika de är. 5. Inkludera om nödvändigt confounding och/eller interaktion. 6. Kör om från steg 3. tills en modell med bra förklarad varians och så få variabler som möjligt (Occams razor).

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.

Läs mer

Multipel Regressionsmodellen

Multipel Regressionsmodellen Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b

Läs mer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat

Läs mer

Linjär regressionsanalys. Wieland Wermke

Linjär regressionsanalys. Wieland Wermke + Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska

I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Parametriska Icke-parametriska Innehåll I. Grundläggande begrepp II. Deskriptiv statistik III. Statistisk inferens Hypotesprövnig Statistiska analyser Parametriska analyser Icke-parametriska analyser Univariata analyser Univariata analyser

Läs mer

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet 732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris

Läs mer

Medicinsk statistik II

Medicinsk statistik II Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning

Läs mer

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F4 Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1

Läs mer

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3 Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik.

Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik. Viktiga dimensioner vid val av test (och även val av deskriptiv statistik) Biostatistik II - Hypotesprövning i teori och praktik Urvalsstorlek Mätnivå/skaltyp Fördelning av data Studiedesign Frida Eek

Läs mer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer Datorövning 2 Regressions- och tidsserieanalys Syfte 1. Lära sig skapa en korrelationsmatris 2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna mot varandra 3. Lära sig beräkna

Läs mer

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 1 Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 Dessa instuderingsfrågor är främst tänkta att stämma överens med innehållet i föreläsningarna,

Läs mer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då

Läs mer

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik Grundläggande statistik Påbyggnadskurs T1 Odontologisk profylaktik FÖRELÄSNINGSMATERIAL : KORRELATION OCH HYPOTESTESTNING t diff SE x 1 diff SE x x 1 x. Analytisk statistik Regression & Korrelation Oberoende

Läs mer

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1. En rät linje ett enkelt samband Y β 1 Lutning (slope) β 0 Skärning (intercept) 1 Y= β 0 + β 1 X X En rät linje + slumpbrus Y Y= β 0 + β 1 X + brus brus ~ N(0,σ) X Observationspar (X i,y i ) Y Ökar/minskar

Läs mer

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Tobias Abenius February 21, 2012 Envägs variansanalys (ANOVA) I envägs variansanalys utnyttjas att

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet November 4, 2013 Wänström (Linköpings universitet) F1 November 4, 2013 1 / 25 Statistik B, 8 hp

Läs mer

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels 7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet May 4, 2015 Wänström (Linköpings universitet) F1 May 4, 2015 1 / 25 Regressions- och tidsserieanalys,

Läs mer

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Mälardalens Högskola. Formelsamling. Statistik, grundkurs Mälardalens Högskola Formelsamling Statistik, grundkurs Höstterminen 2015 Deskriptiv statistik Populationens medelvärde (population mean): μ = X N Urvalets medelvärde (sample mean): X = X n Där N är storleken

Läs mer

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 Exempel, enkel linjär regressionsanalys Ett företag vill veta

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning

Läs mer

10.1 Enkel linjär regression

10.1 Enkel linjär regression Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot

Läs mer

Medicinsk statistik II

Medicinsk statistik II Medicinsk statistik II Läkarprogrammet T5 HT 2014 Susann Ullén FoU-centrum Skåne Skånes Universitetssjukhus Hypotesprövning Man sätter upp en nollhypotes (H0) och en mothypotes (H1) H0: Ingen effekt H1:

Läs mer

Regressionsanalys med SPSS Kimmo Sorjonen (2010)

Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1 Regressionsanalys med SPSS Kimmo Sorjonen (2010) 1. Multipel regression 1.1. Variabler I det aktuella exemplet ingår följande variabler: (1) life.sat, anger i vilket utsträckning man är nöjd med livet;

Läs mer

Metod och teori. Statistik för naturvetare Umeå universitet

Metod och teori. Statistik för naturvetare Umeå universitet Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån

Läs mer

ANOVA Mellangruppsdesign

ANOVA Mellangruppsdesign ANOVA Mellangruppsdesign Envägs variansanlays, mellangruppsdesign Variabler En oberoende variabel ( envägs ): Nominalskala eller ordinalskala. Delar in det man undersöker (personerna?) i grupper/kategorier,

Läs mer

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4 MÄLARDALENS HÖGSKOLA Akademin för hållbar samhälls- och teknikutveckling Statistik Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp Tillåtna hjälpmedel: Miniräknare (Formelsamling bifogas

Läs mer

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; () Mixed effect models; (3)

Läs mer

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test?

ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test? ST-fredag i Biostatistik & Epidemiologi När ska jag använda vilket test? Mikael Eriksson Specialistläkare CIVA Karolinska Universitetssjukhuset, Solna Grund för hypotestestning 1. Definiera noll- och alternativhypotes,

Läs mer

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data Stat. teori gk, ht 006, JW F16 MULTIPEL LINJÄR REGRESSION (NCT 13.1-13.3, 13.9) Anpassning av linjär funktion till givna data Data med en beroende variabel (y) och K stycken (potentiellt) förklarande variabler

Läs mer

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet 2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys.

Läs mer

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts. Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:

Läs mer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen Finansiell Statistik (GN, 7,5 hp,, HT 8) Föreläsning 7 Multipel regression (LLL Kap 5) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level course,

Läs mer

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistik B Regressions- och tidsserieanalys Föreläsning 1 Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2 Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-23 Faktum är att vi i praktiken nästan alltid har en blandning

Läs mer

TENTAMEN GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

TENTAMEN GRUNDLÄGGANDE STATISTIK FÖR EKONOMER Statistiska institutionen Frank Miller Dan Hedlin Skrivtid: 09.00-14.00 TENTAMEN GRUNDLÄGGANDE STATISTIK FÖR EKONOMER 2014-03-21 Hjälpmedel: Miniräknare utan lagrade formler eller text, bifogade tabeller

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3 Regressions- och Tidsserieanalys - F3 Multipel regressionsanalys kap 4.8-4.10 Linda Wänström Linköpings universitet 7 maj Wänström (Linköpings universitet) F3 7 maj 1 / 26 Lite som vi inte hann med när

Läs mer

Statistik och epidemiologi T5

Statistik och epidemiologi T5 Statistik och epidemiologi T5 Anna Axmon Biostatistiker Yrkes- och miljömedicin Dagens föreläsning Fördjupning av hypotesprövning Repetition av p-värde och konfidensintervall Tester för ytterligare situationer

Läs mer

OBS! Vi har nya rutiner.

OBS! Vi har nya rutiner. KOD: Kurskod: PC1203 och PC1244 Kursnamn: Kognitiv psykologi och metod och Kognitiv psykologi och utvecklingspsykologi Provmoment: Metod Ansvarig lärare: Linda Hassing Tentamensdatum: 2012-11-17 Tillåtna

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x

Läs mer

ANOVA Faktoriell (tvåvägs)

ANOVA Faktoriell (tvåvägs) ANOVA Faktoriell (tvåvägs) Faktoriell ANOVA (tvåvägs) Två oberoende variabel ( tvåvägs ): Nominalskala eller ordinalskala. Delar in det man undersöker (personerna?) i grupper/kategorier, dvs. betingelser.

Läs mer

Sänkningen av parasitnivåerna i blodet

Sänkningen av parasitnivåerna i blodet 4.1 Oberoende (x-axeln) Kön Kön Längd Ålder Dos Dos C max Parasitnivå i blodet Beroende (y-axeln) Längd Vikt Vikt Vikt C max Sänkningen av parasitnivåerna i blodet Sänkningen av parasitnivåerna i blodet

Läs mer

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Analytisk statistik. Mattias Nilsson Benfatto, PhD. Analytisk statistik Mattias Nilsson Benfatto, PhD Mattias.nilsson@ki.se Beskrivande statistik kort repetition Centralmått Spridningsmått Normalfördelning Konfidensintervall Korrelation Analytisk statistik

Läs mer

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser: 1 Uppgiftsbeskrivning Syftet med denna laboration var att utifrån uppmätt data avgöra: (i) Om något samband finnes mellan kroppstemperatur och hjärtfrekvens. (ii) Om någon signifikant skillnad i sockerhalt

Läs mer

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1 Multipel linjär regression l: Y= β 0 + β X + β 2 X 2 + + β p X p + ε Välj β 0,β,β 2,, β p så att de minimerar summan av residualkvadraterna (Y i -β 0 -β X i - -β p X pi ) 2 Geometrisk tolkning Med Y=β

Läs mer

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information

Läs mer

Repetitionsföreläsning

Repetitionsföreläsning Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning

Läs mer

Matematisk statistik, Föreläsning 5

Matematisk statistik, Föreläsning 5 Matematisk statistik, Föreläsning 5 Ove Edlund LTU 2011-12-09 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 1 / 25 Laboration 4 Jobba i grupper med storlek 2 Ove Edlund (LTU) Matematisk

Läs mer

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018 Statistiska analysmetoder, en introduktion Fördjupad forskningsmetodik, allmän del Våren 2018 Vad är statistisk dataanalys? Analys och tolkning av kvantitativa data -> förutsätter numeriskt datamaterial

Läs mer

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015 MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Lösningsförslag till tentamen på Statistik och kvantitativa undersökningar STA100, 15 hp Fredagen den 13 e mars 015 1 a 13 och 14

Läs mer

Föreläsning 12: Linjär regression

Föreläsning 12: Linjär regression Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017 Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera

Läs mer

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet 2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att

Läs mer

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p. Tentamen Linköpings Universitet, Institutionen för datavetenskap, Statistik Kurskod och namn: Datum och tid: Jourhavande lärare: Tillåtna hjälpmedel: Betygsgränser: 732G21 Sambandsmodeller 2009-01-14,

Läs mer

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 6 Statistik; teori och tillämpning i biologi 1 Analysis of Variance (ANOVA) (GB s. 202-218, BB s. 190-206) ANOVA är en metod som används när man ska undersöka skillnader mellan flera olika

Läs mer

Följande resultat erhålls (enhet: 1000psi):

Följande resultat erhålls (enhet: 1000psi): Variansanalys Exempel Aluminiumstavar utsätts för uppvärmningsbehandlingar enligt fyra olika standardmetoder. Efter behandlingen uppmäts dragstyrkan hos varje stav. Fem upprepningar görs för varje behandling.

Läs mer

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression Enkel linjär regression Exempel.7 i boken (sida 31). Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben och höjder på sockeln. De halvledare

Läs mer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

Uppgift 1. Produktmomentkorrelationskoefficienten

Uppgift 1. Produktmomentkorrelationskoefficienten Uppgift 1 Produktmomentkorrelationskoefficienten Både Vikt och Längd är variabler på kvotskalan och således kvantitativa variabler. Det innebär att vi inte har så stor nytta av korstabeller om vi vill

Läs mer

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT Jointly distributed Joint probability function Marginal probability function Conditional probability function Independence

Läs mer

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval Martin Singull Matematisk statistik Matematiska institutionen Innehåll Repetition (t-test för H 0 : β i = 0) Residualanalys Modellval Framåtvalsprincipen

Läs mer

Hypotestestning och repetition

Hypotestestning och repetition Hypotestestning och repetition Statistisk inferens Vid inferens använder man urvalet för att uttala sig om populationen Centralmått Medelvärde: x= Σx i / n Median Typvärde Spridningsmått Används för att

Läs mer

Skrivning i ekonometri lördagen den 29 mars 2008

Skrivning i ekonometri lördagen den 29 mars 2008 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB, Ekonometri Skrivning i ekonometri lördagen den 9 mars 8.Vi vill undersöka hur variationen i antal arbetande timmar för gifta kvinnor i Michigan

Läs mer

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Statistiska analyser C2 Inferensstatistik. Wieland Wermke + Statistiska analyser C2 Inferensstatistik Wieland Wermke + Signifikans och Normalfördelning + Problemet med generaliseringen: inferensstatistik n Om vi vill veta ngt. om en population, då kan vi ju fråga

Läs mer

OBS! Vi har nya rutiner.

OBS! Vi har nya rutiner. KOD: Kurskod: PM2315 Kursnamn: Psykologprogrammet, kurs 15, Metoder för psykologisk forskning (15 hp) Ansvarig lärare: Jan Johansson Hanse Tentamensdatum: 14 januari 2012 Tillåtna hjälpmedel: miniräknare

Läs mer

Laboration 2 multipel linjär regression

Laboration 2 multipel linjär regression Laboration 2 multipel linjär regression I denna datorövning skall ni 1. analysera data enligt en multipel regressionsmodell, dvs. inkludera flera förklarande variabler i en regressionsmodell 2. studera

Läs mer

Lösningar till SPSS-övning: Analytisk statistik

Lösningar till SPSS-övning: Analytisk statistik UMEÅ UNIVERSITET Statistiska institutionen 2006--28 Lösningar till SPSS-övning: Analytisk statistik Test av skillnad i medelvärden mellan två grupper Uppgift Testa om det är någon skillnad i medelvikt

Läs mer

MVE051/MSG Föreläsning 14

MVE051/MSG Föreläsning 14 MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska

Läs mer

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Analytisk statistik. Tony Pansell, optiker Universitetslektor Analytisk statistik Tony Pansell, optiker Universitetslektor Analytisk statistik Att dra slutsatser från det insamlade materialet. Två metoder: 1. att generalisera från en mindre grupp mot en större grupp

Läs mer

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten

Agenda. Statistik Termin 11, Läkarprogrammet, VT14. Forskningsprocessen. Agenda (forts.) Data - skalnivåer. Den heliga treenigheten Agenda Statistik Termin 11, Läkarprogrammet, VT14 I: Grundläggande begrepp och beskrivande statistik II: Exempel på typisk forskning III. Frågestund Martin Cernvall martin.cernvall@pubcare.uu.se Grundläggande

Läs mer

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar:

Flerfaktorförsök. Blockförsök, randomiserade block. Modell: yij i bj eij. Förutsättningar: Flerfaktorförsök Blockförsök, randomiserade block Modell: yij i bj eij i 1,,, a j 1,,, b y ij vara en observation för den i:te behandlingen och det j:e blocket gemensamma medelvärdet ( grand mean ) effekt

Läs mer

Mata in data i Excel och bearbeta i SPSS

Mata in data i Excel och bearbeta i SPSS Mata in data i Excel och bearbeta i SPSS I filen enkät.pdf finns svar från fyra män taget från en stor undersökning som gjordes i början av 70- talet. Ni skall mata in dessa uppgifter på att sätt som är

Läs mer

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012 Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov

Läs mer

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl Karlstads Universitet Avdelningen för Nationalekonomi och Statistik Tentamen i Statistik, STG A0 och STG A06 (3,5 hp) Torsdag 5 juni 008, Kl 4.00-9.00 Tillåtna hjälpmedel: Bifogad formelsamling, approximationsschema

Läs mer

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att

Läs mer

Skrivning i ekonometri lördagen den 25 augusti 2007

Skrivning i ekonometri lördagen den 25 augusti 2007 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA10:3 Skrivning i ekonometri lördagen den 5 augusti 007 1. Vi vill undersöka hur variationen i ölförsäljningen i ett bryggeri i en stad i USA

Läs mer

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet. PM315 HT016 Emma äck Formelsamling Centralmått Typvärde T Median Md ritmetiska medelvärdet Det mest frekventa värdet Det mittersta värdet i en rangordnad fördelning = n Spridningsmått Variationsvidd (Range)

Läs mer

Höftledsdysplasi hos dansk-svensk gårdshund

Höftledsdysplasi hos dansk-svensk gårdshund Höftledsdysplasi hos dansk-svensk gårdshund Sjö A Sjö B Förekomst av parasitdrabbad öring i olika sjöar Sjö C Jämföra medelvärden hos kopplade stickprov Tio elitlöpare springer samma sträcka i en för dem

Läs mer

Skrivning i ekonometri torsdagen den 8 februari 2007

Skrivning i ekonometri torsdagen den 8 februari 2007 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA2:3 Skrivning i ekonometri torsdagen den 8 februari 27. Vi vill undersöka hur variationen i lön för 2 belgiska löntagare = WAGE (timlön i euro)

Läs mer

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng. 1 Att tänka på (obligatorisk läsning) A. Redovisa Dina lösningar i en form som gör det lätt att följa Din tankegång. (Rättaren förutsätter att det dunkelt skrivna är dunkelt tänkt.). Motivera alla väsentliga

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal

Läs mer

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment EDAA35, föreläsning 4 KVANTITATIV ANALYS Idag Kvantitativ analys Kamratgranskning Analys Exempel: exekveringstid Hur analysera data? Hur vet man om man kan lita på skillnader och mönster som man observerar?

Läs mer

F11. Kvantitativa prognostekniker

F11. Kvantitativa prognostekniker F11 Kvantitativa prognostekniker samt repetition av kursen Kvantitativa prognostekniker Vi har gjort flera prognoser under kursen Prognoser baseras på antagandet att historien upprepar sig Trenden följer

Läs mer

Regressionsanalys av lägenhetspriser i Spånga

Regressionsanalys av lägenhetspriser i Spånga Regressionsanalys av lägenhetspriser i Spånga Mahamed Saeid Ali Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2016:11 Matematisk statistik Juni 2016

Läs mer

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING LTH: Fastighetsekonomi 23-24 sep 2008 Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING Hypotesprövning (statistisk inferensteori) Statistisk hypotesprövning innebär att man med hjälp av slumpmässiga

Läs mer

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Analys av medelvärden Jenny Selander jenny.selander@ki.se 524 800 29, plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Jenny Selander, Kvant. metoder, FHV T1 december 20111 Innehåll Normalfördelningen

Läs mer

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt Introduktion Vi har fått ta del av 13 mätningar av kroppstemperatur och hjärtfrekvens, varav på hälften män, hälften kvinnor, samt en studie på 77 olika flingsorters hyllplaceringar och sockerhalter. Vi

Läs mer

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E Innehåll I. Grundläggande begrepp II. Deskriptiv statistik (sid 53 i E) III. Statistisk inferens Hypotesprövnig Statistiska analyser Parametriska analyser Icke-parametriska analyser 1 II. Beskrivande statistik,

Läs mer

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan och att en inblandning mellan 10% och 40% är bra. För att

Läs mer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande

Läs mer

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F7 Regressions- och Tidsserieanalys - F7 Tidsserieregression, kap 6.1-6.4 Linda Wänström Linköpings universitet November 25 Wänström (Linköpings universitet) F7 November 25 1 / 28 Tidsserieregressionsanalys

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 22 augusti STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus

Läs mer

import totalt, mkr index 85,23 100,00 107,36 103,76

import totalt, mkr index 85,23 100,00 107,36 103,76 1. a) F1 Kvotskala (riktiga siffror. Skillnaden mellan 3 och 5 månader är lika som skillnaden mellan 5 och 7 månader. 0 betyder att man inte haft kontakt med innovations Stockholm.) F2 Nominalskala (ingen

Läs mer

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka. y Uppgift 1 (18p) I syfte för att se om antalet månader som man ägt en viss träningsutrustning påverkar träningsintensiteten har tio personer som har köpt träningsutrustningen fått ange hur många månader

Läs mer

Tillämpad statistik Naprapathögskolan. Henrik Källberg www.henrikkallberg.com Henrik.Kallberg@ki.se Tel. 08-5248 74 82

Tillämpad statistik Naprapathögskolan. Henrik Källberg www.henrikkallberg.com Henrik.Kallberg@ki.se Tel. 08-5248 74 82 Tillämpad statistik Naprapathögskolan Henrik Källberg www.henrikkallberg.com Henrik.Kallberg@ki.se Tel. 08-5248 74 82 Mål! Introducera deskriptiv statistik Förklara grundläggande begrepp inom statistik

Läs mer