SAMBANDSANALYS REGRESSION OCH KORRELATION ORIENTERING OM TIDSSERIER CENTRUM SCIENTIARUM MATHEMATICARUM HT Matematikcentrum Matematisk statistik
|
|
- Ann-Sofie Sofia Åström
- för 8 år sedan
- Visningar:
Transkript
1 SAMBANDSANALYS REGRESSION OCH KORRELATION ORIENTERING OM TIDSSERIER HT 22 Matematikcentrum Matematisk statistik CENTRUM SCIENTIARUM MATHEMATICARUM
2
3 Innehåll Innehåll Samband mellan två eller flera variabler 3 2 Enkel linjär regression 5 2. Intressanta frågeställningar Modellantaganden Skattningar av parametrarnaα,β ochσ Konfidensintervall förαochβ Skattning av punkt på linjen Prediktionsintervall för observationer Kalibreringsintervall Modellvalidering Residualanalys Ärβ signifikant? Förklaringsgrad Outliers Linjärisering av några icke linjära samband Jämförelse av två lutningar Multipel linjär regression på matrisform 2 4 Korrelationsanalys Mått på samband Test av samband Var försiktig med korrelationskoefficienten! Anknytning till linjär regression Tidsserier Syftet med analysen Beskrivning av tidsserien Komponentuppdelning Beroende i tidsserien Skattning av autokorrelationsfunktionen Matlabkommandon för skattning av autokorrelationsfunktionen Modeller AR()-processer Simulering av AR()-processer i Matlab Beroende mätningar påverkar analysen Beroende data påverkar trendanalysen! Läsa mer om trendanalys och tidsserier Mer om trendanalys Mann-Kendalls test Skattning av trenden Seasonal Kendall test Appendix: ML- och MK skattningar av parametrarna i enkel linjär regression Några hjälpresultat Punktskattningar Skattningarnas fördelning
4 2 Sambandsanalys
5 Sambandsanalys 3 Samband mellan två eller flera variabler Det är ganska vanligt att man gör mätningar på två eller flera variabler och vill undersöka om det finns något samband mellan dem. Vi presenterar två exempel: Exempel.. För ett slumpmässigt urval av bilar noterar man y-bensinförbrukning i stadskörning (l/ km) och x-vikt (kg). Data beskrivs i figur där y plottats mot x. 6 4 Bensinförbrukning [l/ km] Vikt [kg] Figur : Ett slumpmässigt urval av bilar där y = bensinförbrukning i stadskörning är plottad mot x = vikt. I detta exempel är det rimligt att tänka sig att y-bensinförbrukning påverkas av x-vikt (och inte tvärt om!). Vi kan alltså försöka beskriva y som en funktion av x, analysen måste naturligtvis också ta hänsyn till att mätningarna påverkas av en slumpmässig störning. Vi gör en regressionsanalys där y är responsvariabeln medan x är den förklarande variabeln. Ibland kallas även y för den beroende variabeln medan x är den oberoende variabeln: y = f (x) + slump }{{}}{{}}{{} responsvariabel regressionsfunktion med förklarande variabel x s.v. med fördelning När regressionsfunktionen f (x) är linjär med avseende på sina parametrar har vi linjär regression. Från figuren verkar det rimligt att tänka sig ett linjärt samband mellan x och y som beskriver hur stor bensinförbrukning en medelbil av en viss vikt har. Om man, som i vårt exempel, har enbart en förklarande variabel, x, talar man om enkel linjär regression. Hela nästa avsnitt kommer att behandla denna viktiga situation. Exempel.2. Månadsnederbörden, d.v.s. den totala mängden nederbörd (mm) under en månad, noterades i Göteborg och Lund under åren 25 och 26. I figur 2 markerar varje punkt en månad där Göteborgs nederbörd avläses på y-axeln och Lunds på x-axeln. Här är det inte självklart att någon av de två uppmätta varaiablerna kan beskrivas som en funktion av den andra. Variablerna är likvärdiga eftersom vi lika gärna skulle kunna byta variabel på axlarna och placera Lundamätningarna på y-axeln och Göteborgsmätningarna på x-axeln. I denna situation är det olämpligt att använda regression, man får nöja sig med att beskriva graden av samband i en korrelationsanalys. Vi kommer att studera detta närmare i avsnitt 4.
6 4 Sambandsanalys 9 8 Regnmängd i Göteborg (mm) Regnmängd i Lund (mm) Figur 2: Månadsvisa mätningar av nederbörden (mm) där y = nederbörd i Göteborg är plottad mot x = nederbörd i Lund.
7 Enkel linjär regression 5 2 Enkel linjär regression I enkel linjär regression studerar vi en variabel y som beror linjärt av en variabel x men samtidigt har en slumpmässig störning eller avvikelse: Y i =α+βx i +ε i, därε i är den slumpmässiga avvikelsen från linjen. I detta avsnitt kommer vi illustrera teorin med hjälp av två dataset: mätningarna från exempel. om bensinförbrukning hos bilar samt mätningar av SO 2 -halt i luft. Exempel 2.. Inom miljöövervakningsprogrammet EMEP har man under en lång period mätt årsmedelhalter av SO 2 (μg/m 3 ) i Hoburgen på Gotland. I figur 3 visas halterna under åren 99-2 (källa: IVL Svenska Miljöinstitutet AB, SO2 halt år Figur 3: Mätningar vid Hoburgen på Gotland y = SO 2 -halt (μg/m 3 ) är plottad mot x = år. 2. Intressanta frågeställningar Det finns en mängd frågeställningar kring den beskrivna situationen som är intressanta: Hur ska vi skattaαochβ i regressionslinjen y =α+βx? Lutningenβ beskriver hur mycket y ändras då x ökar med en enhet: hur mycket ökar bensinförbrukningen då vikten hos en bil ökar med ett kg? Speciellt intressant är det att undersöka om β = eftersom det innebär att regressionssambandet då kan reduceras till y =α, d.v.s. att y inte beror av x. I data från Hoburgen innebär ettβ att det finns en trend i SO 2 -halt. Hur stor är variationen kring linjen? Eftersomε i beskriver den slumpmässiga avvikelsen från linjen motsvarar det att undersöka hur stor denna avvikelse tenderar att vara - ett mått på detta är D(ε i ) som vi betecknarσ. Givet ett x, vad är det förväntade värdet på Y? Vi söker alltsåμ =α+β x, linjens läge i punkten x. I bilexemplet kan vi t.ex. vara intresserade av hur stor bensinförbruktingen är i genomsnitt hos bilar som väger 2 kg. I Hoburgsdata vad förväntad SO 2 -halt var 994. Skilj den föregående frågeställningen från följande: Givet ett x, vad är en enstaka observation av Y,Y? Vi vill göra en pediktion av Y -värdet. Det kan t.ex. gälla en prognos av Y för något framtida
8 6 Enkel linjär regression värde på x. Om vi har en bil som väger 2 kg, är vi nu intresserade av hur stor bensinförbrukningen är för detta exemplar. I SO 2 -exemplet kan vi vilja prediktera halten för år 22 - inom vilket intervall är det troligt att kommer den att hamna? Hur bra passar modellen till data? Är det lämpligt att beskriva sambandet med en linjär funktion eller borde vi ansätta något annat? Denna frågeställning bör man studera först - det är naturligtvis viktigt att den antagna modellen stämmer någorlunda till data innan man detaljstuderar den. Hur mycket av den totala variationen i y-led har vi förklarat med modellen? Man kan inte räkna med att modellen ska förklara all variation som finns i mätningarna. Bensinförbrukningen hos en bil beror inte enbart på bilens vikt utan påverkas - förutom av slumpmässig variation - av en mängd andra variabler. Hur stor andel av variation i bensinförbrukning kan beskrivas med hjälp av bilars vikt och hur stor andel av variationen återstår att beskriva? Den återstående variationen kanske delvis kan förklaras med hjälp av andra variabler? För att kunna hantera dessa frågor gör vi vissa antaganden om den linjära modellen och om våra mätningar (x, y ),...,(x n, y n ). 2.2 Modellantaganden Vi använder följande modell där y i är n st oberoende observationer av Y i =α+βx i +ε i, därε i N (,σ), oberoende av varandra så observationerna är Y i N (α +βx i,σ) = N (μ i,σ), dvs de är normalfördelade med väntevärde på den okända regressionslinjenμ(x) =α+βx och med samma standardavvikelseσsom avvikelsernaε i kring linjen har; se figur Observationer Skattad regressionslinje Verklig regressionslinje Fördelning för Yi Figur 4: Sann regressionslinje, observationer och skattad regressionslinje. Residualerna är markerade som de lodräta avstånden mellan observationerna och den skattade regressionslinjen. Modellen ovan är beskriven i kortform, några förklaringar och kommentarer till den: Vi tänker oss att x-värdena är fixa eller uppmätta med ett försumbart mätfel - ofta kan vi själva välja vilka x-värden vi vill studera. Den slumpmässiga variation vi vill modellera finns enbart i y-led. I bilexemplet anses vikten hos en bil inte ha någon större variation; likaså är det uppenbart att x-variablen i Hoburgexemplet - årtalen - är fixa.
9 Enkel linjär regression 7 Tidigare har vi haft modeller där mätningarna är observationer av stokastiska variablerξ i, vilka hade samma väntevärdeμ, men nu är observationernas väntevärde en linjär funktion av x. Beteckningen Y i är också en naturligare beteckning för den stokastiska variabeln. Att de slumpmässiga avvikelserna från linjen,ε,...,ε n är oberoende innebär t.ex. att om en avvikelse råkar bli stor (liten) vid ett visst x-xärde ska det inte påverka hur avvikelsen blir vid något annat x- värde. Om SO 2 -halten år 99 är lägre än vad som förväntades enligt linjens läge vid denna tidpunkt ska detta alltså inte påverka hur halten avviker från linjens läge vid t.ex. år 992. För ett fixt x-värde kommer motsvarande y-mätningar att vara normalfördelade kring linjen och standardavvikelsen i den fördelningen är σ; se figur 4. Om vi t.ex. slumpmässigt väljer ut ett antal bilar som alla har vikt 4 kg och mäter deras bensinförbrukning kommer förbrukningen att fördela sig enligt en normalfördelning med väntevärdeα+β 4 och standardavvikelseσ. Observera att vi tänker oss att spridningen i normalfördelningarna är den samma oavsett värde på x, d.v.s. σ är konstant. Det innebär t.ex. att modellen inte tillåter att spridningen kring linjen ändrar sig då x-värdet ändras. Det är inte ovanligt i många sammanhang att y-mätningarna uppvisar en större spridning med ökande värde på x; för denna situation kan vi alltså inte direkt använda oss av ovanstående modell. 2.3 Skattningar av parametrarnaα,β ochσ För att skatta parametrarna α och β används minsta kvadrat-metoden (MK-metoden). Skattningarna och deras fördelning härleds i appendix i avsnitt 7, här presenteras enbart resultaten. MK-skattningarna av regressionslinjens lutning,β, och intercept,α, ges av β = n i= (x i x)(y i ȳ) n i= (x i x) 2 = S xy S xx, α = ȳ β x. Eftersomβ är en linjär funktion av observationerna Y i (β = c i Y i där c i = (x i x)/s xx ), och även α en linjär funktion avβ och observationerna, är dessa skattningar normalfördelade med väntevärde och standardavvikelse enligt β N (β, σ Sxx ), α N (α,σ n + x2 S xx ). De två skattningarna är dock inte oberoende av varandra. Man kan däremot visa attβ och Ȳ är oberoende av varandra. Då man ska skatta variansenσ 2 visar det sig lämpligt att studera modellens s.k. residualer, r,...,r n där r i = y i (α +β x i ), i =,...,n, är residualen för x i och motsvarar den lodräta avvikelsen mellan det observerade värdet y i och den skattade linjen, se figur 4. Residualen r i är ett närmevärde till den slumpmässiga avvikelsenε i och eftersomσ 2 är ett mått på spridningen hosε i är det rimligt att residualerna kan användas när vi vill skatta variansen. En väntevärdesriktig skattning av variansen ges av (σ 2 ) = s 2 = Q n 2 där Q är residualkvadratsumman n Q = (y i α β x i ) 2 = i= n i= r 2 i = S yy S2 xy S xx. Vi visar inte här attβ och Ȳ är oberoende av varandra, men det faktum att regressionslinjen alltid går genom punkten ( x, ȳ) gör det kanske troligt; omβ över- eller underskattas påverkas inte Ȳ av detta.
10 8 Enkel linjär regression För att räkna ut kvadratsummorna S xx, S yy och S xy för hand kan man ha användning av sambanden S xx = S yy = S xy = n (x i x) 2 = i= n (y i ȳ) 2 = i= n xi 2 ( n ) 2 x i n i= i= n yi 2 ( n ) 2 y i n i= n (x i x)(y i ȳ) = i= i= i= n x i y i ( n )( n x i y i ). n i= i= Naturligtvis har vi även t.ex. om s 2 x är stickprovsvariansen för x-dataserien S xx = (n )s 2 x. 2.4 Konfidensintervall förαochβ Eftersom skattningarna av α och β är normalfördelade får vi direkt konfidensintervall med konfidensgraden a (α är upptagen) precis som tidigare enligt s Sxx I β =β ± t a/2 (f )d(β ) =β ± t a/2 (n 2) I α =α ± t a/2 (f )d(α ) =α ± t a/2 (n 2) s n + x2 S xx. Omσskulle råka vara känd används naturligtvis den i stället för s och då ävenλ- i stället för t-kvantiler. Exempel 2.2. Hoburgsdata i exempel 2. analyserades, med hjälp av rutinenreggui i Matlab, och vi fick följande utskrift och figurer..8 Linear Regression SO ar Residuals Normplot of Residuals Figur 5: Regressionsanalys på materialet från Hoburgen; y = SO 2 -halt är plottad mot x = år.
11 Enkel linjär regression 9 Överst till höger i utskriften ges en mängd information, bl.a. skattningar och konfidensintervall för modellens tre parametrar. För att göra det mer åskådligt sammanställer vi resultaten i en tabell: parameter skattning 95% konfidensintervall α 72.8 (9., 226.5) β.862 (.3,.592) σ.445 Vi ser attαskattas till 72.8μg/m 3 och motsvarande intervall är I α = (9., 226.5). Eftersom α är interceptet med y-axeln motsvarasαidetta exempel av SO 2 -halten vid år! Det går naturligtvis ej att anta att det linjära sambandet sträcker sig så långt bak, skattningen avαger oss alltså inte omedelbart någon användbar information. Desto intressantare är lutningen β eftersom den talar om för oss hur mycket SO 2 -halten ändras under ett år. Från utskriften ser vi att denna förändring skattas till.862μg/m 3 per år. Intervallet I β = (.3,.592) kan användas för att testa hypotesen H :β =, vilket skulle innebära att SO 2 -halt inte påverkas av årtalet (d.v.s. ingen trend i data). Eftersom detta intervall inte täcker över kan vi förkasta hypotesen H :β = och vi har påvisat (95% säkerhet) en nedåtgående trend i SO 2 -halt vid Hoburgen. Vi ser också attσskattas till.445 (något konfidensintervall för denna storhet ges ej i utskriften). Residualkvadratsumman Q är.287 och det gäller som tidigare att (σ 2 ) = s 2 = Q n 2 där n är antalet observerade talpar, d.v.s. n =2. Storheten R2 i utskriften kommenteras nedan i avsnittet om förklaringsgraden. 2.5 Skattning av punkt på linjen För ett givet värde x är Y s väntevärde E(Y (x )) =α +βx =μ, dvs en punkt på den teoretiska regressionslinjen.μ skattas med motsvarande punkt på den skattade regressionslinjen somμ =α +β x. Vi ser direkt att skattningen är väntevärdesriktig samt att den måste vara normalfördelad (linjär funktion av två normalfördelade skattningar). Ett enkelt sätt att bestämma skattningens varians får vi om vi återigen utnyttjar attβ och Ȳ är oberoende av varandra (men inte avα ) V (μ ) = V (α +β x ) = [α = Ȳ β x] = V (Ȳ +β (x x)) = [ober] = ( = V (Ȳ )+(x x) 2 V (β ) = σ2 n + (x x) 2σ2 =σ 2 S xx n + (x x) 2 ) S xx μ N μ,σ n + (x x) 2. S xx = Vi får således ett konfidensintervall förμ med konfidensgraden a som I μ =μ ± t a/2 (f )d(μ ) =α +β x ± t a/2 (n 2)s n + (x x) 2. S xx Exempel 2.3. Från exempel. på sid 3: I ett slumpmässigt urval av bilar avsattes y= bensinförbrukning i stadskörning som funktion av x= vikt i en linjär regressionsmodell Y i =α+βx i + ε i,ε i N (,σ). Parametrarna skattas enligt resultaten i avsnitt 2.3 tillα =.46,β =.76 samtσ =.9. β är ett mått på hur mycket y beror av x, om vikten ökas med ett kg skattas ökningen av bensinförbrukningen medβ =.76 liter per kilometer. Ett 95% konfidensintervall för β blir I β = (.68,.84). Antag att vi är speciellt intresserade av bilar som väger x = 2 kg. En skattning av medelförbrukningenμ för denna typ av bilar blir dåμ =α +β x = 9.57 l/ km. Ett
12 Enkel linjär regression 95% konfidensintervall förμ blir med ovanstående uttryck I μ = (9.32, 9.83]. Detta intervall täcker alltså med sannolikhet 95% den sanna medelförbrukningen för bilar med vikt 2 kg. Observera att intervallet inte ger någon information om individuella 2 kg bilars variation, så det är inte till så mycket hjälp till att ge någon uppfattning om en framtida observation (den 2 kg bil du tänkte köpa?). Till detta behövs ett prediktionsintervall, se nästa avsnitt. I figur 6 är konfidensintervallen förutom för 2 kg bilar även plottat som funktion av vikten. I formeln för konfidensintervallet ser man att det är som smalast då x = x vilket även kan antydas i figuren. Man ser även att observationerna i regel inte täcks av konfidensintervallen för linjen. 6 4 Bensinförbrukning [l/ km] Vikt [kg] Figur 6: Bensinförbrukning enligt exempel.. Skattad regressionslinje ( ), konfidensintervall för linjen som funktion av vikt (- -). Konfidensintervall för linjen då vikten är x =2 kg är markerat ( ). 2.6 Prediktionsintervall för observationer Intervallet ovan gäller väntevärdet för Y då x = x. Om man vill uttala sig om en framtida observation av Y för x = x blir ovanstående intervall i regel för smalt. Omα,β ochσvore kända så skulle intervallet α+βx ±λ a/2 σ täcka en framtida observation Y med sannolikhet a. Eftersom regressionslinjen skattas medμ =α +β x kan vi få hur mycket en framtida observation Y (x ) varierar kring den skattade linjen som V (Y (x ) α β x ) = V (Y (x ))+V (α +β x ) =σ 2 ( + n + (x x) 2 Vi kan alltså få ett prediktionsintervall med prediktionsgraden p för en framtida observation som I Y (x ) =α +β x ± t p/2 (n 2)s + n + (x x) 2. S xx Observera att det bara är ettan i kvadratroten som skiljer mellan prediktionsintervallet och I μ. Exempel 2.4. Ett prediktionsintervall för bensinförbrukningen hos en 2 kg bil enligt exempel. blir (7.6,.6) vilket är betydligt bredare än intervallet för väntevärdet. I figur 7 ses detta intervall och prediktionsintervallen som funktion av x. S xx ).
13 Enkel linjär regression 8 6 Bensinförbrukning [l/ km] Vikt [kg] Figur 7: Bensinförbrukning enligt exempel.. Skattad regressionslinje ( ), konfidensintervall för linjen som funktion av vikt (- -), prediktionsintervall för framtida observationer som funktion av vikt (-.). Prediktionsintervall för en framtida observation då vikten är x =2 kg är markerat ( ). Exempel 2.5. Vi anknyter till exemplet med SO 2 -halterna igen. I figur 8 är både konfidensintervallet för linjens läge (det inre prick-streckade bandet) samt prediktionsintervallet (det yttre streckade bandet) uttritade som funktion av x i Hoburgsdata. 2 Hoburgen SO ar Figur 8: Konfidensintervall för linjens läge (-.) samt prediktionsintervall (- -) för SO 2 -halt (μg/m 3 ). Vad är SO 2 -linjens läge vid år 996, d.v.s vad är förväntad SO 2 -halt detta år? Ett 95% konfidensintervall för linjen beräknas till (.83,.2) (jämför gärna med det inre bandet i figuren vid år 996). Motsvarande prediktionsintervall (yttre band) för detta år är (.59,.26), den uppmätta SO 2 -halten 996 hade alltså, med 95% sannolikhet, kunnat hamna någonstans mellan.59 och.26μg/m 3. På motsvarande sätt kan man använda prediktionsintervallet för att säga att uppmätt SO 2 -halt år 22, med 95% säkerhet, kommer att hamna någonstans i intervallet (.3,.79)μg/m 3 (gör en försiktig extrapolation i figuren).
14 2 Enkel linjär regression 2.7 Kalibreringsintervall Om man observerat ett värde y på y, vad blir då x? Man kan lösa ut x ur y =α +β x och får x = y α β Denna skattning är inte normalfördelad, men vi kan t.ex använda Gauss approximationsformler för att få en skattning av d(x ) och konstruera ett approximativt intervall I x = x ± t a/2 (n 2)d(x) = x + y ȳ s β ± t a/2 (n 2) β + n + (y ȳ) 2 (β ) 2. S xx Ett annat sätt att konstruera kalibreringsintervallet är att dra en linje y = y och ta skärningspunkterna med prediktionsintervallet som gränser i kalibreringsintervallet. Ett analytiskt uttryck för detta blir efter lite arbete I x = x + β (y ȳ) c c = (β ) 2 (t p/2(n 2) s) 2 S xx. ± t p/2(n 2) s c(+ c n )+ (y ȳ) 2 S xx Uttrycket gäller dåβ är signifikant skild från noll annars är det inte säkert att linjen skär prediktionsintervallen. Grafiskt konstrueras detta intervall enligt figur 9..5 Kalibreringsintervall då y = Absorption Kopparkoncentration Figur 9: Kalibreringsintervall konstruerat som skärning med prediktionsintervall. I försöket har man för ett par prover med kända kopparkoncentrationer mätt absorption med atomabsorptionsspektrofotometri. Kalibreringsintervallet täcker med ungefär 95% sannolikhet den rätta kopparkoncentrationen för ett prov med okänd kopparhalt där absorptionen uppmätts till Modellvalidering 2.8. Residualanalys Modellen vi använder baseras på att avvikelserna från regressionslinjen är likafördelade (ε i N(,σ)) och oberoende av varandra vilket medför att även observationerna Y i är normalfördelade och oberoende. Dessa antaganden används då vi tar fram fördelningen för skattningarna. För att övertyga sig om att antagandena
15 Enkel linjär regression 3 är rimliga kan det vara bra att studera avvikelserna mellan observerade y-värden och motsvarande punkt på den skattade linjen, d.v.s. de sedan tidigare definierade residualerna r i = y i (α +β x i ), i =,...,n, eftersom dessa är observationer avε i. Residualerna bör alltså se ut att komma från en och samma normalfördelning samt vara oberoende av dels varandra, samt även av alla x i. I figur visas några exempel på residualplottar som ser bra ut medan de i figur ser mindre bra ut. e 5 5 Residualer 2 3 :n e 5 5 Residualer mot x 2 3 x Probability Normal Probability Plot 5 5 Data Figur : Bra residualplottar. Residualerna plottade i den ordning de kommer, mot x samt i en normalfördelningsplott. De verkar kunna vara oberoende normalfördelade observationer. Residualer, kvadratisk trend Residualer mot x, variansen ökar med x 3 e 5 e :n x Figur : Residualplottar där man ser en tydlig kvadratisk trend i den vänstra figuren och i den högra ser man att variansen ökar med ökat x. Exempel 2.6. Genom att studera graferna i figur 5 kan vi undersöka om den linjära modellen passar bra till Hoburgsdata. Residualplotten (nederst till vänster) visar inte några oroväckande trender och normalfördelningsplotten (nederst till höger) gör det rimligt att avvikelserna (residualerna) är normalfördelade. Sammantaget verkar det linjära modellen med oberoende och normfördelningsantagande vara rimlig i detta fall. Exempel 2.7. I figur 2a) anpassades modellen y i =α+βx i +ε i. Residualplotten i nedre vänstra hörnet säger att residualvärdet beror på x. Sambandet är alltså inte linjärt, snarare kvadratiskt. Om vi istället anpassar modellen y i =α+β x i +β 2 xi 2 +ε i ser residualerna ut som de ska (se figur 2b). Exempel 2.8. Anpassa den kvadratiska modellen y i =β x i +β 2 xi 2 +ε i (se figur 3a). Anpassningen är dålig eftersom residualernas varians ökar med x. För att åtgärda det anpassar vi istället modellen ln y i =α+β x i +β 2 xi 2 +ε i (se figur 3b). Anpassningen är bättre eftersom residualvariansen nu är konstant. Däremot kan vi vara lite tveksamma till en kvadratisk modell eftersom modellen då säger att y ska avta för stora x. Det stämmer inte med observationerna. En bättre transformation är då att istället anpassa modellen ln y i =α+β ln x i +ε i (se figur 3c). Nu ser residualerna ut som de ska.
16 4 Enkel linjär regression.2 Linear Regression.2 Linear Regression y y x Residuals Normplot of Residuals x Residuals Normplot of Residuals Figur 2: (a) Anpassning av linjär modell till kvadratiska data (vänster). (b) Anpassning av kvadratisk modell till kvadratiska data (höger). 3 Linear Regression 6 Linear Regression 25 5 y 2 5 lny x Residuals Normplot of Residuals x Residuals Normplot of Residuals Linear Regression lny lnx Residuals Normplot of Residuals Figur 3: (a) Anpassning av kvadratisk modell (överst till vänster) (b) Anpassning av kvadratisk modell efter logartimering av y (överst till höger) (c) Anpassning av linjär modell efter logartimering av både y och x (underst)
17 Enkel linjär regression 5 Exempel 2.9. Det är inte säkert att det går att hitta en linjär modell eller en enkel tranformation som passar. Anpassa modellen y i = α +β x i β p x p i +ε i (se figur 4). Trots att vi anpassat ett polynom av högt gradtal finns det fortfarande struktur i residualerna och någon enkel transformation som skulle hjälpa är svårt att tänka ut! Antingen är det inte linjärt eller så är det inte oberoende, eller båda, kanske är det en tidsserie 2. Vill man lösa det problemet får man läsa Stationära stokastiska processer. 2 Linear Regression 5 y x Residuals Normplot of Residuals Figur 4: Anpassning av polynom till icke-linjärt samband Ärβ signifikant? Eftersomβ anger hur mycket y beror av x är det även lämpligt att ha med följande hypotestest i en modellvalidering H : β = H : β t.ex. genom att förkasta H om punkten ej täcks av I β. Om H inte kan förkastas har y inget signifikant beroende av x och man kan kanske använda modellen Y i =α+ε i i stället. 2.9 Förklaringsgrad En vanlig teknik när man analyserar data är att man försöker dela upp den variation som ses i mätningarna på olika variationskällor. Vid enkel linjär regression gäller uppdelningen: Total variation = variation förklarad av linjen + oförklarad variation, där total variation = n i= (y i ȳ) 2, d.v.s. den variation som finns i y-värdena utan att vi tar hänsyn till x-värdena variation förklarad av linjen = n i= ((α +β x i ) ȳ) 2, vilket tolkas som den del av variationen i y-led som beskrivs av den linjära modellen oförklarad variation = n i= (y i (α +β x i )) 2, vilket är identiskt med residualkvadratsumman Q och tolkas som den återstående variation vi inte kan förklara med den linjära modellen. 2 Modellen är i själva verket ickelinjär: y i = sin(x i) x 2 i +ε i
18 6 Enkel linjär regression Ett mått på hur väl linjen förklarar data är kvoten mellan variation förklarad av linjen och total variation. Denna kvot är förklaringsgraden R 2 = n i= ((α +β x i ) ȳ) 2 n i= (y i ȳ) 2 som ligger mellan noll och ett. Om R 2 har ett värde nära ett ligger talparen nära en rät linje - data kan därmed förklaras väl av den linjära modellen. Ett R 2 -värde nära noll tyder på att data ej uppvisar ett speciellt linjärt samband och därmed inte förklaras bra av vår linjära modell. Exempel 2.. Vid regressionsanalysen på Hoburgsdata i exempel 2.2. blev R 2 = Huvudparten, 84%, av den variation vi ser i SO 2 -halt kan alltså förklaras med den linjärt avtagande trenden i mätningarna. Förklaringsgraden är identisk med kvadraten på korrelationskoefficienten, se avsnitt Outliers Det är viktigt att vara uppmärksam på outliers, dvs enskilda observationer som ligger misstänkt långt från de övriga och som får ett stort inflytande på skattningen av linjen (se figur 5). Outliers kan vara rena felinmatningar, i så fall bör de korrigeras eller plockas bort, men de kan också bero på naturlig variation i data. Då bör man överväga en modell som kan ta hänsyn till den variationen eller använda en mer robust skattningsmetod (ingår ej i denna kurs). 2 Linear Regression 2 ( ) Linear Regression 5 5 y y x Residuals Normplot of Residuals x Residuals Normplot of Residuals Figur 5: (a) Anpassad modell med en outlier (vänster) (b) Anpassad modell med outliern bortplockad (höger). 2. Linjärisering av några icke linjära samband Vissa typer av exponential- och potenssamband med multiplikativa fel kan logaritmeras för att få en linjär relation. T.ex. fås när man logaritmerar z i = a e βx i ε i ln ln z i }{{} y i = ln a }{{} α +β x i + lnε i }{{} ε i ett samband på formen y i =α +βx i +ε i. Man logaritmerar således z i -värdena och skattarαochβ som vanligt och transformerar till den ursprungliga modellen med a = e α. Observera att de multiplikativa felen
19 Enkel linjär regression 7 ε i bör vara lognormalfördelade (dvs lnε i N (,σ)). En annan typ av samband är z i = a t β i ε i ln ln z i }{{} y i = ln a }{{} α +β ln t }{{} i x i + lnε i }{{} ε i där man får logaritmera både z i och t i för att få ett linjärt samband. I figur 6 ses ett exempel där logaritmering av y-värdena ger ett linjärt samband. Antal transistorer Antal transistorer hos Intelprocessorer 886 Intel386 TM 286 Intel486 TM Intel Pentium II Intel Pentium Intel Itanium 2 Intel Itanium Intel Pentium 4 Intel Pentium III Antal transistorer 5 x Antal transistorer hos Intelprocessorer Lanseringsår Lanseringsår Figur 6: Antal transistorer på en cpu mot lanseringsår med logaritmisk y-axel i vänstra figuren. Till höger visas samma sak i linjär skala. Det skattade sambandet är y = e.35x. 2.2 Jämförelse av två lutningar Ibland har man en situation där man vill undersöka om regressionssambandet kan vara identiskt för olika grupper. Är t.ex. sambandet mellan blodtryck och ålder det samma för både män och kvinnor? Speciellt intressant kan det vara att studera om den årliga blodtrycksökningen är likartad för de båda könen. Om vi som modell använder två linjära regressionssamband (en för kvinnor och en för män) motsvaras problemet av att jämföra lutningarna i de två sambanden, d.v.s. undersöka omβ kvinna =β man. Ett exempel får illustrera metodiken. Exempel 2.. SO 2 -halten bestämdes inte enbart vid Hoburgen på Gotland utan även vid Rörvik i norra Halland (figur 7). Är trenden i SO 2 -halt den samma vid de två mätstationerna eller skiljer den sig åt? Vi tänker oss att för Hoburgen och mätningarna (x, y ),...(x i, y i ),...(x nh, y nh ) har vi modellen y i =α H +β H x i +ε i, ε i N (,σ H ) och för Rörvik och mätningarna (x, y ),...(x j, y j ),...(x nr, y nr ) har vi modellen y j =α R +β R x j +ε j, ε j N (,σ R ). Genom att göra två separata analyser i Matlab får vi för Hoburgen skattningarna (resultaten är hämtade från exempel 2.2). α H = 72.8; β H =.862; σ H =.445
20 8 Enkel linjär regression Hoburgen SO2 halt år Rörvik SO2 halt år SO2 halt år Figur 7: SO 2 -halt vid Hoburgen (överst) samt i Rörvik (mitten). Underst visas mätningarna från båda stationerna med skattade regressionslinjer utritade (heldragen linje för Hoburgen och streckad för Rörvik)
21 Enkel linjär regression 9 medan motsvarande för Rörvik är α R = 24.5; β R =.25; σ R =.436 Nu är vi intresserade av hur storβ R β H är och en skattning av denna storhet kan vi få genom βr β H =.25 (.862) =.344. Vill vi göra konfidensintervall för differensenβ R β H måste vi ha en uppfattning om hur bra denna skattning är, d.v.s. veta variansen förβr β H. Men från tidigare vet vi att V(β R) = σ2 R S Rxx där S Rxx = (x j x) 2 är kvadratsumman på de x-värden som användes vid Rörviksmätningarna. För Hoburgen har vi på motsvarande sätt V(β H) = σ2 H S Hxx där S Hxx är kvadratsumman på de x-värden som användes vid Hoburgsmätningarna. Men eftersom x-värdena består av årtal med start 99 och slut 2 och vi dessutom mäter vid samma år vid de två stationerna gäller att S Hxx = S Rxx = 43. Om vi dessutom kan anta attσ H =σ R (verkar rimligt i detta exempel) kan vi kalla denna gemensamma standardavvikelse förσ. Detta ger V (βr βh) = V (βr)+v (βh) =σ 2 ( + ). S Rxx S Hxx För att beräkna en skattning av den gemensamma standardavvikelsen gör vi en poolning av standardavvikelserna av samma slag som tidigare (observera n-2) σ 2 = (n R 2) σ 2 R + (n H 2) σ 2 H (n R 2)+(n H 2) = (2 2) (2 2) (2 2)+(2 2) =.28. Nu kan vi konstruera ett 95% intervall på välbekant sätt: I βr β H = (β R β H ± t a/2 (n R 2+n H 2)d(β R β H)) = (βr βh ± t a/2 (n R 2+n H 2) σ 2 ( + )) = S Rxx S Hxx (.344±2.9.28( 43 + )) = (.344±.356) = (.7,.2). 43 Eftersom detta intervall täcker över har vi inte påvisat att det finns en skillnad mellan lutningarna. Dessa mätningar tyder alltså inte på att trenden i SO 2 skiljer sig åt vid de två stationerna.
22 2 Multipel linjär regression 3 Multipel linjär regression på matrisform Med matrisnotation kan en allmän linjär regressionsmodell med p st förklarande x-variabler, av typen y i =α+β x i +...+β p x pi +ε i vare sig den är enkel eller multipel, skrivas y = Xβ+e, där de ingående matriserna har följande form: y x... x p α ε y 2 y =., X = x 2... x p , β = β. och e = ε 2.. y n x n... x pn β p ε n Rent allmänt fås minsta-kvadratlösningenβ till ett överbestämt ekvationssystem y = Xβ via de så kallade normalekvationerna X t Xβ = X t y, somβ = (X t X) X t y. Man bör dock i möjligaste mån undvika att lösa utβgenom att invertera matrisen X t X. Om matrisen är illa konditionerad kan man nämligen få en feltillväxt som gör resultatet helt oanvändbart. En numeriskt sett effektivare och mer stabil lösning fås om man i Matlab använder operatorn \ som kan uppfattas som vänsterdivision. Det rekommenderade sättet att lösa matrisekvationen ovan är alltså >> b = X\y Skattningen avσfås genom σ Q = s = n (p+) där Q kan beräknas antingen som Q = y t y β t X t y, eller genom att uttnyttja att Q = n ri 2 = r t r där residualerna r = y Xβ. Den s.k. kovariansmatrisen förβ ges avσ 2 (X t X) vilket innebär att medelfelen d(β ), d(β ), etc, fås som roten ur respektive diagonalelement i s2 (X t X). Den skattade linjen i punkten ( ) ( ) x = x () x (2) ges avμ = x β N μ,σ x (X t X) x t. Exempel 3.. För att undersöka pressningstemperaturens och pressningstryckets inverkan vid tillverkning av en typ av plastkomposit iordningställdes två provbitar för var och en av fem kombinationer av tryck och temperatur. Böjspänningen hos de olika provbitarna av plastkompositen mättes och blev Böjspänning (y) Temperatur (x ) Tryck (x 2 ) (N/mm 2 ) ( C) (kg/cm 2 ) i=
23 Multipel linjär regression 2 Anpassa modellen y i =α+β x i +β 2 x 2i +ε i och gör ett 95 % konfidensintervall för hur mycket böjspänningen ökar då temperaturen ökar med C. Gör också ett 95 % prediktionsintervall för böjspänningen då temperaturen är 2 C och trycket 4 kg/cm 2. Lösning: Skriv om modellen y i =α+β x i +β 2 x 2i +ε i som y = Xβ+e med y = X = 2 35 α 2 35, β = β β Parameterskattningar blir 25.7 α β = X\y =.4 = β.65 β2 och, eftersom Q = r t r = (y Xβ ) t (y Xβ ) = , σ Q = s = n (p+) = (2+) = 5.9. Ökningen i böjspänning då temperaturen ökar en grad ges avβ. För att kunna beräkna konfidensintervall förβ behöver vi också beräkna (X t X) = Sedan kan vi få medelfelet d(β ) = s.5, där vi tagit andra diagonalelementet i (X t X). Det första diagonalelementet gäller juα och det tredjeβ 2. Ett konfidensintervall förβ med konfidensgrad a fås sedan på vanligt sätt som I β = ( β ± t a/2 (n (p+)) d(β ) ) = (.4±t.25 (7) 5.9.5) }{{} 2.36 = (.98,.722) N/mm 2 per C. För att göra ett prediktionsintervall för Y då x () = 2 C och x (2) = 4 kg/cm 2 sätter vi x = ( 2 4 ) och får skattningen av sambandet tillμ = x β = 24.6 med medelfelet d(μ ) = s x (X t X) x t = 5.9. = Eftersom vi vill ha ett prediktionsintervall, inte ett konfidensintervall, ska vi lägga till en etta under rottecknet så att intervallet ges av ( ) I Y (x ) = x β ± t a/2 (n (p+)) s +x t (Xt X) x = (24.6±t.25 (7) ) = (., 39.2) N/mm 2 }{{} 2.36
24 22 Korrelation 4 Korrelationsanalys Regressionsanalysen i föregående avsnitt förutsatte att x-variablerna var fixa i den meningen att de var uppmätta med inget eller försumbart mätfel. Om detta inte är uppfyllt är det lämpligare att göra en korrelationsanalys där man inte försöker anpassa någon regressionsfunktion till data utan enbart mäter graden av samband. Exempel 4.. I exempel.2 på sidan 3 noterades månadsnederbörden, d.v.s. den totala mängden nederbörd (mm) under en månad, i Göteborg och Lund under åren 25 och 26. I figur 8 markerar varje punkt en månad där Göteborgs nederbörd avläses på y-axeln och Lunds på x-axeln. 9 8 Regnmängd i Göteborg (mm) Regnmängd i Lund (mm) Figur 8: Månadsvisa mätningar av nederbörden (mm) där y = nederbörd i Göteborg är plottad mot x = nederbörd i Lund. Från figuren tycks det finnas ett positivt samband mellan nederbördsmätningarna från de två städerna - regnar det mycket en månad i den ena staden tenderar det också att göra det i den andra. 4. Mått på samband Som ett mått på samband mellan två variabler X och Y används kovariansen eller korrelationskoefficienten mellan variablerna. Kovariansen definieras som C(X, Y ) = E[(X μ x )(Y μ y )], därμ x ochμ y är väntevärdena för X och Y. Korrelationskoefficienten,ρ xy är den normerade storheten ρ xy = C(X, Y ) D(X ) D(Y ), där D(X ) = V (X ) är standardavvikelsen för X (och motsvarande för D(Y )). För korrelationskoefficienten gäller alltid att ρ xy. Tolkning av de två storheterna är oftast enklast då man betraktar motsvarande skattningar. Antag att vi har n mätningar vardera av de två variablerna och därmed de n talparen (x, y ),...,(x n, y n ). En skattning av kovariansen är då
25 Korrelation 23 och av korrelationskoefficienten c xy = n n (x i x)(y i ȳ). i= ρ xy = r xy = c xy s x s y = n i= (x i x)(y i ȳ) n i= (x i x) 2 n i= (y i ȳ) 2. Observera att uttrycket n förkortats bort i sista ledet. För r xy gäller att samt att om vi har r xy positiv samvariation (positiv korrelation) mellan X och Y, d.v.s.ρ xy > tenderar r xy > negativ samvariation (negativ korrelation) mellan X och Y, d.v.s.ρ xy < tenderar r xy < ingen samvariation (ingen korrelation) mellan X och Y, d.v.s.ρ xy = tenderar r xy Om r xy = innebär det att x-värdena och y-värdena ligger på en linje med positiv lutning; se figur r=.86 6 r= y 7.5 y x x r=.3 27 r= y 8.5 y x x Figur 9: Figurerna visar olika grad av samband med tillhörande korrelationskoefficient. Observera att om r xy ligger nära tyder det på att det inte finns någon samvariation mellan de två variablerna (de är okorrelerade), däremot följer det inte att x och y är oberoende. Om x-värdena och y- värdena däremot är hämtade från normalfördelning är okorrelerad identiskt med oberoende. 4.2 Test av samband I exemplet med månadsnederbörd från Lund och Göteborg gav beräkningar i Matlab att r xy =.662. Data tyder alltså på en positiv samvariation - men är värdet på r xy tillräckligt stort för att vi ska kunna tro på att det verkligen finns en samvariation och att det observerade resultatet inte bara är ett utslag av slumpen? Om r xy = är en skattning av den korrelation,ρ xy, som finns mellan de s.v. X och Y vill vi alltså undersöka omρ xy är. De intressanta hypoteserna är: H :ρ xy = (inget samband); H :ρ xy (samband). För att testa detta används storheten
26 24 Korrelation t = r xy (n 2)/( r 2 xy). Om data kommer från en bivariat normalfördelning gäller nämligen att t är t-fördelad med n 2 frihetsgrader när H är sann. Exempel 4.2. Med ett värde r xy =.662 i nederbördsdata blir t = r xy (n 2)/( r 2 xy) =.662 (23 2)/( ) = Eftersom 3.95 överstiger t.5 (2) = 3.82 innebär det att korrelationen är signifikant skild från på nivå.. Det finns alltså en positiv samvariation mellan de två städernas månadsnederbörd. 4.3 Var försiktig med korrelationskoefficienten! Det finns en rad fallgropar när man hanterar korrelationskoefficienter. Några exempel: r xy mäter graden av linjärt samband - i figur 2(a) fås ett värde på r xy som är ungefär eftersom den negativa lutningen i figurens vänstra halva tas ut av den positiva lutningen i andra halvan. r xy är känslig för outliers, d.v.s. kraftigt avvikande värden kan starkt påverka värdet på korrelationskoefficenten. Utan outliern i figur 2(b) är r xy =.24, med outliern blir r xy =.64. r xy kan bli missvisande då den används på mätningar som naturligt kan delas upp i två grupper (t.ex. kön) och där genomsnittsvärdena för x och y är olika i de två grupperna. I figur 2(c) verkar det inte finnas någon samvariation inom respektive grupp (eller eventuellt en positiv samvariation för stjärnorna ) men betraktar man hela materialet - och beräknar okritiskt r xy - tyder korrelationskoefficienten på en negativ samvariation mellan X och Y..3 r=.2 6 r=.64 y y x x 8 r=.59 y x Figur 2: Figurerna visar några situationer där korrelationskoefficienten inte okritiskt kan användas. Samtliga dessa fällor kan man förmodligen upptäcka om man alltid tar för vana att plotta sina data och inte bara slentrianmässigt beräknar korrelationskoefficienten. Viktigare är det att komma ihåg att med korrelationskoefficienten mäter vi (och eventuellt påvisar) ett statistiskt samband. Det är därmed inte sagt att det finns ett orsakssamband mellan variablerna!
27 Korrelation 25 Exempel 4.3. Om man för ett antal städer noterar dels antal läkare i staden och dels antalet sjukdagar som stadens innevånare har under ett år kommer man säkert att finna ett positivt samband mellan de två variablerna. Innebär det då att ju fler läkare man har i en stad medför det fler sjukdagar och att vi kan minska antalet sjukdagar genom att minska antalet läkare? Nej, naturligtvis inte; här är det en tredje faktor - antalet invånare i staden - som påverkar de båda undersökta variablerna. 4.4 Anknytning till linjär regression Korrelationskoefficienten mäter det linjära sambandet mellan x och y - alltså borde det kunnna användas även vid linjär regression. I själva verket är kvadraten på korrelationskoefficienten matematiskt identisk med förklaringsgraden som beskrevs i avsnitt 2.9, d.v.s. r 2 xy = R 2. Vid en regressionsanalys - antingen den beskrivs i datorprogram eller i rapporter - anges därför även ofta korrelationskoefficienten. Den är då ett mått på hur stor nytta man har av x-variabeln då man vill förutsäga y. Om r xy är nära (eller ) betyder det att x och y ligger nästan på en linje och därmed kan y nästan förutsägas direkt utifrån x-värdet. Förklaringsgraden R 2 är då också nära. Om däremot värdet på r xy är lågt (vilket ger en låg förklaringsgrad) är sambandet mellan variablerna svagt och y kan näppeligen förutsägas av enbart x. Test av samband, som beskrivs i avsnitt 4.2, visar sig också vara identiskt med att testa att lutningen β = (se avsnitt 2.8.2) i regressionsmodellen. Observera dock - vilket vi redan påpekat - att det finns en skillnad i antagandena om x-värdena när det gäller regressionsanalys respektive korrelationsanalys. För förklaringsgraden R 2 i regressionsanalysen anses x- värdena vara fixa och att vi, i stort sett, kan själva bestämma dess värde. I korrelationsanalysen är däremot x-värdena och y-värdena utbytbara.
28 26 Tidsserier ozonhalt (µg/m 3 ) tid (timmar) Figur 2: Ozonhalt (μg/m 3 ) i Lund under 9 och oktober 2. 5 Tidsserier En tidsserie är en uppsättning mätningar gjorda i tidsföljd, vi har mätningar y, y 2,...,y n vid tidpunkterna t =, 2,...,n. Tidsserien skrivs ibland {y t }. Mätningarna är observationer av slumpvariablerna Y, Y 2,...,Y n som utgör en process {Y t }, ofta sägs tidsserien {y t } vara en realisering av processen {Y t }. Det nya är att slumpvariablerna Y, Y 2,...,Y n nu kan få vara beroende! I avsnitt 2, se t.ex.exempel 2., studerade vi regressionsmodeller där x-variabeln var tiden, mätningarna {y t } var alltså en tidsserie. Då var vi noga med att avvikelserna från linjen, de stokastiska variablerna ε,ε 2,...ε n var oberoende. Detta krav släpper vi alltså nu och tillåter dem att få vara beroende. Exempel 5.. I figur 2 visas halterna av ozon (μg/m 3 ) i Lund under 9 och oktober 2 (källa: Om man anpassar en linjär regressionsmodell till data kommer residualerna att visa ett tydligt mönster - de är kraftigt beroende (se kommande exempel). Exempel 5.2. I figur 22 visas mätningar av kiselhalten (μg/l) i Ljungbyån under dryga 5 år (källa: SLU:s datavärdsbank, info.ma.slu.se/db.html). För tydlighets skull är linjer dragna mellan punkterna. Mätningarna, som är gjorda en gång i månaden, visar ett tydligt säsongsmönster. 5. Syftet med analysen I exemplen ovan ser vi några egenskaper som ofta karakteriserar tidsserier: en mjukt varierande trend, säsongsmönster och en tröghet som tyder på samband mellan i tiden näraliggande mätningar. Ett första steg i analysen är att beskriva tidsserien (grafiskt eller med numeriska mått) för att fånga upp dess karakteristiska drag. En grundläggande idé är att försöka dela upp {y t } i olika komponenter som t.ex. kan beskriva trend, säsong och kvarvarande brus. En annan är att försöka beskriva beroendet mellan näraliggande mätningar, d.v.s. tidsseriens autokorrelation. Mer avancerat är att försöka modellera komponenterna. Man talar t.ex. om deterministiska modeller där processens uppträdande är helt given enligt någon matematisk funktion t.ex. säsong= A sin(φt). Mer fruktbart är oftast att använda en slumpmodell där det finns en slumpmässig variation mellan observationerna, t.ex. säsong= A sin(φt)+e t, där e t är en stokastisk variabel.
29 Tidsserier Si halt (µg/l) tid (manad) Figur 22: Månadsvisa mätningar av kiselhalt (μg/l) i Ljunbyån under dryga 5 år. Ett vanligt syfte vid tidsserieanalys är att man vill kunna förutsäga kommande värden på den uppmätta variabeln. I miljösammanhang studerar man ofta tidsserier för att övervaka och upptäcka förändringar av en miljövariabel. Analys av tidsserier är komplicerat, vill man fördjupa sig i det kan man läsa specialkurser i området. Vi kommer här endast att ge en orientering i ämnet där betoningen ligger på beskrivning av tidsserien samt på en enkel modell för autokorrelationen. 5.2 Beskrivning av tidsserien Vi har tidigare studerat genomsnittsvärdet, väntevärdetμ, för en stokastisk variabel Y. Nu har vi en hel följd av stokastiska varibler {Y t }, och motsvarande genomsnittsvärde, E(Y t ) =μ t, är en funktion av t och kan tolkas som trenden i tidsserien. Om genomsnittsfunktionenμ t är konstantμsäges tidsserien vara stationär Komponentuppdelning En bärande idé i tidsserieanalys är att försöka dela upp {y t } i flera olika komponenter. I sin enklaste form kan uppdelningen beskrivas som Y t =μ t + R t, därμ t är trenden och{r t } en stationär process, d.v.s. genomsnittsvärdet för{r t } är konstant under hela tidsperioden. Med denna uppdelning kan man t.ex. iμ t få en jämn (smooth) komponent som ska fånga upp säsongsmönster och/eller varierande trend och i{r t } en mer brusig komponent. Om trendenμ t tycks vara linjär kan den skattas med metoderna från enkel linjär regression, se avsnitt 2.3. Oftast är trenden emellertid en mera mjuk funktion, då kan man använda ett glidande medelvärde. En utjämning (smoother) av{y t } fås t.ex. genom μ t = y t + y t + y t+. 3 Den resulterande utjämnaren,μ t, har skapats genom ett s.k. glidande medelvärde med fönster 3. Det betyder att man låter ett fönster av tre mätningars bredd glida utmed tidsserien {y t } och att man för varje steg bildar medelvärdet av de observationer som syns i fönstret.
30 28 Tidsserier 7 Linear Regression 6 5 ozonhalt tid Residuals Normplot of Residuals Figur 23: Linjär regressionsmodell anpassad till ozonhalterna. Observera utseendet på residualerna (nederst till vänster). Exempel 5.3. Ozonhalt i Lund. Vi använder metoderna från regressionsavsnittet och anpassar en regressionslinje, *tid (se figur 23) och gör därmed komponentuppdelningen linjär trend + brus. Observera att den linjära modellens residualer (bruset), som plottas nederst till vänster, uppvisar ett tydligt mönster. I följande exempel beskrivs detta ytterligare. Exempel 5.4. En utjämning med fönster 3 används på kiselhalterna,μ t = y t +y t+y t+ 3 som sedan subtraheras från den ursprungliga tidsserien. I figur 24 visas komponentuppdelningen: överst markerar stjärnorna de ursprunliga mätningarna medan utjämnarenμ t är markerad med streck. Underst visas det kvarvarande bruset efter subtraktionen. Observera att det är olika skalor på de två figurernas y-axlar. Trenden μ t består i stort sett av en säsongskomponent. Idén ovan att dela upp processen{y t } i en icke-stokastisk jämn komponentμ t och en stokastisk brusig komponent {R t } är inte problemfri i praktiken. Det finns naturligtvis ingen entydig uppdelning. I exemplet med ozonhalterna kunde vi lika väl använt ett polynom av högre grad eller ett glidande medelvärde (eller något annat) för att skattaμ t. Vad som väljs är ofta av en fråga om vad som råkar vara praktiskt. Denna svaghet hindrar förstås inte att en uppdelning oftast ger värdefull information om den uppmätta tidsserien Beroende i tidsserien I avsnitt 4. studerade vi samband mellan två stokastiska variabler X och Y och definerade kovarians och korrelationskoefficient mellan variablerna. Nu ska vi använda samma mått men på olika stokastiska variabler inom processen{y t }, vi tittar då på autokorrelationen i processen. Antag att vi har en process {Y t } som är stationär, d.v.s. har en konstant genomsnittsnivå. Betrakta två slumpvariabler i processen, Y t k och Y t som är på tidsavstånd k från varandra. De har kovarians C(Y t k, Y t ) och korrelationskoefficient C(Y t k,y t) C(Y t,y t) = C(Y t k,y t) V (Y t). Om kovariansen (och därmed också korrelationskoefficienten) beror enbart på avståndet k och inte på tidpunkten t, sägs processen vara svagt stationär. I kiselhaltexemplet tänker vi oss alltså att när vi undersöker hur beroende en mätning är med en mätning fyra månader framåt, så är beroendet på fyramånadersavstånd det samma oavsett när i tidsserien vi betraktar det.
SAMBANDSANALYS REGRESSION OCH KORRELATION CENTRUM SCIENTIARUM MATHEMATICARUM HT Matematikcentrum Matematisk statistik
SAMBANDSANALYS REGRESSION OCH KORRELATION HT 21 Matematikcentrum Matematisk statistik CENTRUM SCIENTIARUM MATHEMATICARUM Innehåll 1 Innehåll 1 Samband mellan två eller flera variabler 3 2 Enkel linjär
SAMBANDSANALYS REGRESSION OCH KORRELATION CENTRUM SCIENTIARUM MATHEMATICARUM VT Matematikcentrum Matematisk statistik
SAMBANDSANALYS REGRESSION OCH KORRELATION VT 213 Matematikcentrum Matematisk statistik CENTRUM SCIENTIARUM MATHEMATICARUM Innehåll 1 Innehåll 1 Samband mellan två eller flera variabler 3 2 Enkel linjär
Matematisk statistik för D, I, Π och Fysiker
Matematisk statistik för D, I, Π och Fysiker Föreläsning 15 Johan Lindström 4 december 218 Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 1/28 Repetition Linjär regression Modell Parameterskattningar
Matematisk statistik kompletterande projekt, FMSF25 Övning om regression
Lunds tekniska högskola, Matematikcentrum, Matematisk statistik Matematisk statistik kompletterande projekt, FMSF Övning om regression Denna övningslapp behandlar regression och är tänkt som förberedelse
Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression
Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression Anna Lindgren 28+29 november, 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F15: multipel regression 1/22 Linjär regression
Föreläsning 15, FMSF45 Multipel linjär regression
Föreläsning 15, FMSF45 Multipel linjär regression Stas Volkov 2017-11-28 Stanislav Volkov s.volkov@maths.lth.se FMSF45 F15 1/23 Linjär regression Vi har n st par av mätvärden (x i, y i ), i = 1,..., n
Föreläsning 12: Regression
Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är
Föreläsning 12: Linjär regression
Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017 Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera
5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av A.3 Skattningarnas fördelning...
UTDRAG UR FÖRELÄSNINGSANTECKNINGAR I STATISTIKTEORI LINJÄR REGRESSION OCH STOKASTISKA VEKTORER MATEMATISK STATISTIK AK FÖR F, E, D, I, C, È; FMS 012 JOAKIM LÜBECK, SEPTEMBER 2008 Innehåll 4 Enkel linjär
Matematisk statistik för B, K, N, BME och Kemister
Matematisk statistik för B, K, N, BME och Kemister Föreläsning 9 Joakim Lübeck (Johan Lindström 25 september 217 Johan Lindström - johanl@maths.lth.se FMSF7/MASB2 F9 1/23 Repetition Inferens för diskret
Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression
Föreläsning 13, Matematisk statistik 7.5 hp för E, HT-15 Multipel linjär regression Anna Lindgren 14 december, 2015 Anna Lindgren anna@maths.lth.se FMSF20 F13 1/22 Linjär regression Vi har n st par av
Grundläggande matematisk statistik
Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x
5 Stokastiska vektorer 9. 6 Multipel regression Matrisformulering MK-skattning av β... 11
UTDRAG UR FÖRELÄSNINGSANTECKNINGAR I STATISTIKTEORI LINJÄR REGRESSION OCH STOKASTISKA VEKTORER MATEMATISK STATISTIK AK FÖR F, E, D, I, C, Π; FMS 012 JOAKIM LÜBECK, MARS 2014 Innehåll 4 Enkel linjär regression
Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys
Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren Prediktera Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/28 Statistik för modellval
FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD 208-08-26 Sannolikhetsteori Följande gäller för sannolikheter: 0 P(A P(Ω = P(A
Matematisk statistik för B, K, N, BME och Kemister
Matematisk statistik för B, K, N, BME och Kemister Föreläsning 10 Johan Lindström 27 september 2017 Johan Lindström - johanl@maths.lth.se FMSF70/MASB02 F10 1/26 Repetition Linjär regression Modell Parameterskattningar
Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall
LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp
LÖSNINGAR TILL Matematisk statistik, Tentamen: 011 10 1 kl 14 00 19 00 Matematikcentrum FMS 086, Matematisk statistik för K och B, 7.5 hp Lunds tekniska högskola MASB0, Matematisk statistik kemister, 7.5
FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02 Sannolikhetsteori Följande gäller för sannolikheter:
Enkel och multipel linjär regression
TNG006 F3 25-05-206 Enkel och multipel linjär regression 3.. Enkel linjär regression I det här avsnittet kommer vi att anpassa en rät linje till mätdata. Betrakta följande värden från ett försök x 4.0
Matematisk statistik, Föreläsning 5
Matematisk statistik, Föreläsning 5 Ove Edlund LTU 2011-12-09 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 1 / 25 Laboration 4 Jobba i grupper med storlek 2 Ove Edlund (LTU) Matematisk
F13 Regression och problemlösning
1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell
Laboration 4: Lineär regression
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08 Laboration 4: Lineär regression 1 Syfte Denna laboration handlar om regressionsanalys och
Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi
Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad
Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)
Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10 Laboration Regressionsanalys (Sambandsanalys) Grupp A: 2010-11-24, 13.15 15.00 Grupp B: 2010-11-24, 15.15 17.00 Grupp C: 2010-11-25,
oberoende av varandra så observationerna är
Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 1, 1-5-7 REGRESSION (repetition) Vi har mätningarna ( 1, 1 ),..., ( n, n
Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 6 MATEMATISK STATISTIK, AK FÖR I, FMS 120, HT-00 Laboration 6: Regression Syftet med den här laborationen är att du skall bli
Matematisk statistik för B, K, N, BME och Kemister
Matematisk statistik för B, K, N, BME och Kemister Johan Lindström Repetition Johan Lindström - johanl@maths.lth.se FMS86/MASB2 1/44 Begrepp S.V. Fördelning Väntevärde Gauss CGS Grundläggande begrepp (Kap.
Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).
Matematikcentrum Matematisk statistik MASB11: BIOSTATISTISK GRUNDKURS DATORLABORATION 4, 21 MAJ 2018 REGRESSION OCH FORTSÄTTNING PÅ MINIPROJEKT II Syfte Syftet med dagens laboration är att du ska bekanta
10.1 Enkel linjär regression
Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot
F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24
1/24 F12 Regression Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 28/2 2013 2/24 Dagens föreläsning Linjära regressionsmodeller Stokastisk modell Linjeanpassning och skattningar
Regressionsanalys av lägenhetspriser i Spånga
Regressionsanalys av lägenhetspriser i Spånga Mahamed Saeid Ali Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2016:11 Matematisk statistik Juni 2016
Laboration 4 R-versionen
Matematikcentrum 1(5) Matematisk Statistik Lunds Universitet MASB11 VT13, lp3 Laboration 4 R-versionen Regressionsanalys 2013-03-07 Syftet med laborationen är att vi skall bekanta oss med lite av de funktioner
Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen
Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då
FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,
Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9, 8-5-4 EXEMPEL: Hur mycket kunder förlorar vi om vi höjer biljettpriset?
Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012
Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår
Tentamen för kursen. Linjära statistiska modeller. 22 augusti
STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus
Stokastiska processer med diskret tid
Stokastiska processer med diskret tid Vi tänker oss en följd av stokastiska variabler X 1, X 2, X 3,.... Talen 1, 2, 3,... räknar upp tidpunkter som förflutit från startpunkten 1. De stokastiska variablerna
Föreläsning 7: Punktskattningar
Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology April 27, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två numeriska
F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT
Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är
Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari
STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Lösningar till tentamensskrivning för kursen Linjära statistiska modeller 14 januari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se
Föreläsning 13: Multipel Regression
Föreläsning 13: Multipel Regression Matematisk statistik Chalmers University of Technology Oktober 9, 2017 Enkel linjär regression Vi har gjort mätningar av en responsvariabel Y för fixerade värden på
Sänkningen av parasitnivåerna i blodet
4.1 Oberoende (x-axeln) Kön Kön Längd Ålder Dos Dos C max Parasitnivå i blodet Beroende (y-axeln) Längd Vikt Vikt Vikt C max Sänkningen av parasitnivåerna i blodet Sänkningen av parasitnivåerna i blodet
Statistik B Regressions- och tidsserieanalys Föreläsning 1
Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs
EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):
Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF50: Matematisk statistik för L och V OH-bilder på föreläsning 7, 2017-11-20 EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):
Kovarians och kriging
Kovarians och kriging Bengt Ringnér November 2, 2007 Inledning Detta är föreläsningsmanus på lantmätarprogrammet vid LTH. 2 Kovarianser Sedan tidigare har vi, för oberoende X och Y, att VX + Y ) = VX)
MVE051/MSG Föreläsning 14
MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska
Föreläsning 7: Punktskattningar
Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology September 21, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två
Föreläsning 7: Punktskattningar
Föreläsning 7: Punktskattningar Matematisk statistik David Bolin Chalmers University of Technology April 7, 2014 Projektuppgift Projektet går ut på att genomföra ett statistiskt försök och analysera resultaten.
Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3
Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest
Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar
Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar Stas Volkov Stanislav Volkov s.volkov@maths.lth.se FMSF20 F8: Statistikteori 1/20 Översikt Exempel Repetition Exempel Matematisk statistik
förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.
Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF25: MATEMATISK STATISTIK KOMPLETTERANDE PROJEKT DATORLABORATION 2, 6 DECEMBER 2017 Syfte Syftet med den här laborationen är att du ska
Regressions- och Tidsserieanalys - F1
Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet November 4, 2013 Wänström (Linköpings universitet) F1 November 4, 2013 1 / 25 Statistik B, 8 hp
Matematisk statistik KTH. Formelsamling i matematisk statistik
Matematisk statistik KTH Formelsamling i matematisk statistik Vårterminen 2017 1 Kombinatorik ) n n! = k k! n k)!. Tolkning: mängd med n element. ) n = antalet delmängder av storlek k ur en k 2 Stokastiska
SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.
SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt
Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet
Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden
Tentamen för kursen. Linjära statistiska modeller. 17 februari
STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 17 februari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312,
Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II
Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I
Laboration 2: Styrkefunktion samt Regression
Lunds Tekniska Högskola Matematikcentrum Matematisk statistik Laboration 2 Styrkefunktion & Regression FMSF70&MASB02, HT19 Laboration 2: Styrkefunktion samt Regression Syfte Styrkefunktion Syftet med dagens
Examinationsuppgifter del 2
UMEÅ UNIVERSITET Institutionen för Matematik och Matematisk statistisk Statistik för ingenjörer, poäng, Anders Lundquist 7-- Examinationsuppgifter del Redovisas muntligt den / (Ö-vik) samt / (Lycksele).
Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar
Regressions- och Tidsserieanalys - F1
Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet May 4, 2015 Wänström (Linköpings universitet) F1 May 4, 2015 1 / 25 Regressions- och tidsserieanalys,
Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012
Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov
Metod och teori. Statistik för naturvetare Umeå universitet
Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån
732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20
732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 Exempel, enkel linjär regressionsanalys Ett företag vill veta
Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik
Matematisk statistik KTH Formel- och tabellsamling i matematisk statistik Varterminen 2005 . Kombinatorik n = k n! k!n k!. Tolkning: n k mängd med n element. 2. Stokastiska variabler V X = EX 2 EX 2 =
1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5
LÖSNINGAR TILL Matematisk statistik Tentamen: 29 7 kl 8 3 Matematikcentrum FMSF45 Matematisk statistik AK för D,I,Pi,F, 9 h Lunds universitet MASB3 Matematisk statistik AK för fysiker, 9 h. För tiden mellan
Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar
Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar Anna Lindgren (Stanislav Volkov) 31 oktober + 1 november 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F10: Punktskattning 1/18 Matematisk
1 Förberedelseuppgifter
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK LABORATION 2 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMS086 & MASB02 Syfte: Syftet med dagens laborationen är att du skall: bli
Lektionsanteckningar 11-12: Normalfördelningen
Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet
Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13
Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare
Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer
Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer Anna Lindgren 27+28 september 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F6: linjärkombinationer 1/21 sum/max/min V.v./var Summa av
STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.
MATEMATISKA INSTITUTIONEN Tillämpad statistisk analys, GN STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB 2011-04-13 DATORLABORATION 3: MULTIPEL REGRESSION. Under Instruktioner och data på
Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012
Föreläsning 7 Stokastiska Processer och ARIMA Patrik Zetterberg 19 december 2012 1 / 22 Stokastiska processer Stokastiska processer är ett samlingsnamn för Sannolikhetsmodeller för olika tidsförlopp. Stokastisk=slumpmässig
Stokastiska vektorer
TNG006 F2 9-05-206 Stokastiska vektorer 2 Kovarians och korrelation Definition 2 Antag att de sv X och Y har väntevärde och standardavvikelse µ X och σ X resp µ Y och σ Y Då kallas för kovariansen mellan
Lycka till!
Avd. Matematisk statistik TENTAMEN I 5B1503 STATISTIK MED FÖRSÖKSPLANERING FÖR K OCH B MÅNDAGEN DEN 25 AUGUSTI 2003 KL 14.00 19.00. Examinator: Gunnar Englund, 790 7416. Tillåtna hjälpmedel: Formel- och
Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08 Laboration 5: Regressionsanalys Syftet med den här laborationen är att du skall
EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):
Lunds tekniska högskola Matematikcentrum Matematisk statistik Matematisk statistik AK för ekosystemteknik, FMSF75 OH-bilder 2018-09-19 EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):
Tentamen för kursen. Linjära statistiska modeller. 27 oktober
STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 27 oktober 2017 9 14 Examinator: Ola Hössjer, tel. 070/672 12 18, ola@math.su.se Återlämning: Meddelas via kurshemsida
TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval
TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval Martin Singull Matematisk statistik Matematiska institutionen Innehåll Repetition (t-test för H 0 : β i = 0) Residualanalys Modellval Framåtvalsprincipen
Enkel linjär regression
Enkel linjär regression Fäders och söners längder Om man anpassar en linje y=α+βx, så passar y = 86.07+0.51x bäst. Uppenbart räcker inte linjen som förklaring. Det finns slumpmässig variation, som gör
Demonstration av laboration 2, SF1901
KTH 29 November 2017 Laboration 2 Målet med dagens föreläsning är att repetera några viktiga begrepp från kursen och illustrera dem med hjälp av MATLAB. Laboration 2 har följande delar Fördelningsfunktion
AMatematiska institutionen avd matematisk statistik
Kungl Tekniska Högskolan AMatematiska institutionen avd matematisk statistik TENTAMEN I 5B1503 STATISTIK MED FÖRSÖKSPLANERING FÖR B OCH K FREDAGEN DEN 11 JANUARI 2002 KL 14.00 19.00. Examinator: Gunnar
Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ
Inledning till statistikteorin Skattningar och konfidensintervall för μ och σ Punktskattningar Stickprov från en population - - - Vi vill undersöka bollhavet men får bara göra det genom att ta en boll
Statistiska metoder för säkerhetsanalys
F10: Intensiteter och Poissonmodeller Frågeställningar Konstant V.v.=Var Cyklister Poissonmodeller för frekvensdata Vi gör oberoende observationer av de (absoluta) frekvenserna n 1, n 2,..., n k från den
Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12
LINKÖPINGS UNIVERSITET MAI Johan Thim Tentamen i matematisk statistik (9MA21/9MA31, STN2) 212-8-2 kl 8-12 Hjälpmedel är: miniräknare med tömda minnen och formelbladet bifogat. Varje uppgift är värd 6 poäng.
Statistiska samband: regression och korrelation
Statistiska samband: regression och korrelation Vi ska nu gå igenom något som kallas regressionsanalys och som innebär att man identifierar sambandet mellan en beroende variabel (x) och en oberoende variabel
SF1901: Sannolikhetslära och statistik
SF1901: Sannolikhetslära och statistik Föreläsning 5. Kovarians, korrelation, väntevärde och varians för summor av s.v.:er, normalfördelning (del 1) Jan Grandell & Timo Koski 15.09.2008 Jan Grandell &
Laboration 4 Regressionsanalys
Matematikcentrum Matematisk Statistik Lunds Universitet MASB11 VT14, lp4 Laboration 4 Regressionsanalys 2014-05-21/23 Syftet med laborationen är att vi skall bekanta oss med lite av de funktioner som finns
SF1901 Sannolikhetsteori och statistik I
SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 10 27 november 2017 1 / 28 Idag Mer om punktskattningar Minsta-kvadrat-metoden (Kap. 11.6) Intervallskattning (Kap. 12.2) Tillämpning på
Föreläsning G60 Statistiska metoder
Föreläsning 9 Statistiska metoder 1 Dagens föreläsning o Regression Regressionsmodell Signifikant lutning? Prognoser Konfidensintervall Prediktionsintervall Tolka Minitab-utskrifter o Sammanfattning Exempel
TMS136. Föreläsning 10
TMS136 Föreläsning 10 Intervallskattningar Vi har sett att vi givet ett stickprov kan göra punktskattningar för fördelnings-/populationsparametrar En punkskattning är som vi minns ett tal som är en (förhoppningsvis
Medicinsk statistik II
Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning
Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.
Tentamen 2014-12-05 i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder. Tillåtna hjälpmedel: Miniräknare och utdelad formelsamling med tabeller. C1. (6 poäng) Ange för
SF1901 Sannolikhetsteori och statistik I
SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 6 13 november 2017 1 / 29 Idag Förra gången Mer om väntevärden och varianser (Kap. 5.2 5.3) Beroendemått (Kap. 5.4) Summor, linjärkombinationer
TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL
TENTAMEN I SF950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 010 KL 14.00 19.00 Examinator : Gunnar Englund, tel. 790 7416, epost: gunnare@math.kth.se Tillåtna hjälpmedel: Formel-
Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar
Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar Anna Lindgren 25 november 2015 Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 1/17 Matematisk statistik slumpens matematik
SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011
Avd. Matematisk statistik Tobias Rydén 2011-09-30 SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011 Förberedelser. Innan du går till laborationen, läs igenom den här handledningen. Repetera också i
LABORATION 3 - Regressionsanalys
Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik, LP1, HT 2015, Adam Jonsson LABORATION 3 - Regressionsanalys I denna laboration ska du lösa ett antal uppgifter i enkel regressionsanalys
tentaplugg.nu av studenter för studenter
tentaplugg.nu av studenter för studenter Kurskod Kursnamn SM Matematisk statistik Datum LP - Material Laboration Kursexaminator Adam Betygsgränser Tentamenspoäng Övrig kommentar Försättsblad inlämningsuppgift