Kandidatuppsats Statistiska institutionen

Storlek: px
Starta visningen från sidan:

Download "Kandidatuppsats Statistiska institutionen"

Transkript

1 Kandidatuppsats Statistiska institutionen Bachelor thesis, Department of Statistics Nr 2013:1 Prognosmodell för den relativa arbetslösheten i Sverige Forecast model for the relative unemployment rate in Sweden Robin Westerlund och Ashkan Heidari Självständigt arbete 15 högskolepoäng inom Statistik III, vt 2013 Handledare: Göran Rundqvist

2 Sammanfattning Uppsatsens syfte är att studera ett antal olika parametrar för att kunna ta fram en kortsiktig prognosmodell för den relativa arbetslöshetsnivån på den svenska arbetsmarknaden. I första steget har rådata för de potentiellt användbara variabler samlats in, som i sin tur sedan har bearbetats och analyserats med hjälp av en multipel regressionsmodell. Som beroende variabel har Statistiska centralbyråns arbetskraftsundersökning (AKU) använts och som oberoende variabler har officiellt publicerad data för variabler där sambandet med arbetslöshet stöds med ekonomisk teori använts. Förutom inflationen som enligt många ekonomiska teorier påverkar arbetslösheten, har vi även studerat andra variabler som ett index för hur många jobbannonser som är publicerade på internet för tillfället, konjunkturbarometern och varselstatistik. Resultatet har blivit en regressionsmodell med en förklaringsgrad på 79,3% procent, vilket vi anser som relativt hög och motsvarande den nivån vi förväntade oss vid arbetets inledning. Modellen har utvärderats med hjälp av korsvalidering, vilket även det har gett goda resultat. 2

3 Innehållsförteckning 1 lnledning Bakgrund Syfte Disposition Utbud och efterfrågan på arbetsmarknaden Definition av variabler Beroende variabel Oberoende variabler som testats Metodologi Regressionsmodell: Grundläggande antaganden Tidsperiod Tidsförskjutningar Val av variabler Stegvis regression Diagnostik Linjäritet Normalfördelning Outliers Oberoende residualer Homoskedasticitet Multikolinjäritet Utvärdering av modellen Korsvalidering Diskussion och slutsats Förslag på nya uppsatser Referenser Appendix A-E

4 1 lnledning 1.1 Bakgrund Sverige har historiskt sett haft en relativt hög arbetslöshet, något som delvis är en följd av ett högt skattetryck i kombination med en dyr välfärd sedan många decennier tillbaka i tiden. Arbetslösheten är ett av dem största samhällsproblemen, inte bara på grund utav produktionsbortfallet och de ekonomiska skadorna som vållas utan även på grund av sociala problem och de hälsoproblem som uppkommer då det finns en stor risk att de drabbade hamnar utanför samhället. I november 2012 var 8,4 % av den svenska arbetskraften arbetslösa, vilket motsvarar cirka personer. Den totala arbetskraften bestod vid samma tillfälle av cirka personer. Detta är säsongsrensade siffror, vilket vi framöver kommer att använda oss av i uppsatsen. Arbetslösheten är således ett viktigt mått som påverkar den nationella finansmarknaden i hög grad och en prognos av den kan berätta hur både arbetsmarknadsutsikterna och hela den svenska ekonomin kommer att se ut framöver. 1.2 Syfte Syftet med denna uppsats är att skatta en regressionsmodell som kan prognostisera den relativa arbetslösheten för den kommande månaden. Alltså behöver vi hitta variabler som kan påverka sysselsättning på kort sikt. Målet är att skapa en regressionsmodell med så hög förklaringsgrad som möjligt, där större delen av variationen i den beroende variabeln förklaras av en eller flera oberoende variabler samt att alla nödvändiga antaganden är uppfyllda. En prognosmodell som bygger på regression är uppbyggd på historiska samband mellan den beroende variabeln och den eller de oberoende variablerna. Det finns alltså ingenting som säger att dessa samband måste vara lika starka eller se likadana ut i framtiden. I vårt fall måste vi ta hänsyn till att det kan bli extra osäkert i ekonomiskt turbulenta tider likt de som rått under de senaste åren i och med finanskrisen som slog till under år

5 1.3 Disposition Denna rapport har strukturerats så att utbud och efterfrågan på arbetsmarknaden beskrivs i kapitel två. I kapitel tre presenteras den beroende och de oberoende variablerna och hur sambandet mellan dessa bör se ut redogörs. I kapitel fyra diskuteras metodologin för uppsatsen och de grundläggande antagandena för multipel regression presenteras. Vidare testas de oberoende variablerna i ett första steg och stegvis regression, som är vår urvalsprocess för modellen, presenteras och genomförs. I kapitel fem testas modellantagandena samt att en del ytterligare tester genomförs. Modellen utvärderas sedan i kapitel sex och i kapitel sju summeras slutligen uppsatsen. 2 Utbud och efterfrågan på arbetsmarknaden Arbetsmarknaden har som alla andra marknader ett utbud och en efterfrågan. Utbudet utgörs av dem som är kapabla och villiga att ta ett jobb och efterfrågan bestäms av arbetsgivare som skapar jobben och anställer personal. Priset på arbetskraft är lön och sysselsättning och arbetslöshet bestäms av samspelet mellan dessa komponenter. Det finns ett flertal faktorer som förändrar utbud och efterfrågan på arbetsmarknaden. Enligt Olofsson & Wadensjö (2005) har två utvecklingsaspekter på arbetsmarknadens efterfråga presenterats. Den första är ökad internationell handel som är en följd av minskade handelshinder vilket ökar konkurrensen. Den andra är teknologiska förändringar. Teknisk utveckling kan leda till att företagen sparar på kapital eller arbetskraft. En annan orsak till arbetslöshet kan vara att arbetskraftens kompetens inte stämmer överens med arbetsmarknadens efterfråga, så kallad strukturell arbetslöshet. Det tar även tid att matcha arbetarna och jobben, så kallad friktionsarbetslöshet. Geografiska avstånd och tiden som det tar för arbetarna att byta sektorer orsakar också friktionsarbetslöshet. Så länge utbud och efterfrågan på arbetsmarknaden förändras så är friktionsarbetslösheten oundvikligt (Krugman & Obstfeld, 2009). Arbetslösheten kan även bero på att regeringen sätter höga reallöner. Lönereglering kan också driva arbetslösheten, så kallad klassisk arbetslöshet (Olofsson & Wadensjö, 2005). 5

6 3 Definition av variabler 3.1 Beroende variabel Den relativa arbetslösheten i Sverige, mätt i procentenheter: Den relativa arbetslösheten mäter andelen sysselsatta under en viss månad i procentenheter. Andelen arbetslösa beräknas genom antalet arbetslösa personer dividerat med antalet personer i den totala arbetskraften. Den data som vi har använt oss av kommer från Statistiska centralbyråns arbetskraftsundersökning (AKU). Vilken är en stickprovsundersökning som görs med hjälp av telefonintervjuer av slumpvist utvalda personer varje månad. Som sysselsatta räknas de personer (15-74 år) som tillhör arbetskraften och som har arbetat minst en timme under gällande referensvecka. Antingen avlönad eller som medhjälpare till en person som ingår i samma hushåll. Även personer som var tillfälligt frånvarande under referensveckan räknas till arbetskraften, detta oavsett om frånvaron har varit betald eller ej. Den relativa arbetslösheten publiceras av Statistiska centralbyrån i mitten av varje månad. Statistik sedan i Mars 2007 kan ses i figur 1 nedan. Figur 1. 6

7 3.2 Oberoende variabler som testats Nedan går vi igenom variablerna vi har testat för att konstruera vår modell. Vi nämner kort lite bakomliggande fakta kring dem, samt när och av vilka datat för dem publiceras. Spridningsdiagram för samtliga oberoende variabler plottat mot den beroende variabeln finns i Appendix A. Inflation (KPI): Inflation betyder att priset på samtliga varor i ett land ökar i och med att penningvärdet minskar, detta på grund av en ökad penningmängd. Alla prisökningar behöver dock inte bero på inflation utan kan exempelvis även vara så kallade relativprishöjningar. Flaskhalsar och en efterfrågan som överträffar produktionen är exempel på anledningar till dessa (Olofsson & Wadensjö, 2005). Enligt ekonomiska samband minskar arbetslösheten om inflationen ökar. Detta beror på att människor får mer pengar och då har råd att konsumera mera. En ökad konsumtion leder i sin tur till fler arbetstillfällen. Om inflationen å andra sidan sjunker kommer människor att få mindre pengar och då inte ha råd att konsumera i samma utsträckning. Sambandet mellan inflation och arbetslöshet kan visas i modeller som Phillipskurvan (figur 2). Figur 2. Sveriges inflation är för tillfället bland de lägsta i Europa, vilket tyder på en stabil ekonomi. En hög inflation å andra sidan tenderar ofta att vara ojämn vilket leder till osäkerhet i ekonomin. Nackdelen med en låg inflation är däremot att det som vi nämnt tidigare förknippas med en hög arbetslöshet. Detta eftersom det råder en lägre efterfrågan, vilket i 7

8 sin tur leder till en lägre prisnivå och i takt med det en lägre inflation. Det är därför viktigt att inflationen justeras och hålls på en stabil nivå genom finans- och penningpolitik. Riksbanken har till uppgift att hålla inflationen på en nivå runt två procent, detta sköts med hjälp av styrräntan. Eftersom inflationen, genom styrräntan, används som ett verktyg att styra arbetslösheten med tror vi att det kan vara en användbar variabel i vår modell. Vi har valt att kartlägga inflationen i vad som kallas konsumentprisindex (KPI), vilket är det mest användbara måttet för prisutveckling i Sverige och avser att mäta hela den inhemska produktionen och hur priserna för den privata konsumtionen utvecklar sig. Indexet beräknas och publiceras månatligt av Statistiska centralbyrån. Monster Employment Index (MEI): Monster Employment Index mäter hur många lediga arbetstillfällen det finns för tillfället och baseras på en omfattande mätning av antalet platsannonser online. Indexet har publicerats sedan januari år 2007 i Sverige och resultaten publiceras i mitten av varje månad, för föregående månad, av Moster Worldwide Inc. Indexet granskas oberoende av Research America Inc. och redogör för antalet platsannonser på Internet inom olika yrkeskategorier, sektorer och regioner. Vi tittar dock endast på siffrorna generellt för Sverige. Om indexet ökar betyder det att fler annonser är publicerade och att efterfrågan av arbetskraft har ökat. Vi antar att det tyder på att fler arbetsgivare är redo att rekrytera, vilket leder till att den relativa arbetslösheten bör sjunka. Om indexet istället minskar tyder det istället på att behovet av arbetskraft har minskat. Indexet publiceras den andra tisdagen varje månad vilket gör att datumet kan variera en del. För oss är det dock inget problem, då vi vill prognostisera nästkommande månads arbetslöshet. 8

9 Konjunkturbarometern hushåll (CCI): I hushållsbarometern intervjuas varje månad 1500 hushåll med hjälp av telefonintervjuer om deras syn på både deras egna och den svenska ekonomin. Nya urval görs varje månad där man ser till att kön, ålder och olika regioner blir korrekt representerade. Målpopulationen är den svenska allmänheten mellan år och sedan år 1993 har undersökningen publicerats varje månad (Konjunkturinstitutet, ( ). Ett högt index tyder på att hushållen ekonomiskt sett ser positivt på framtiden, medan ett lågt index tyder på att hushållen ser negativt på framtiden. Konjunkturbarometern företag (KBF): I företagsbarometern, även kallad barometerindikatorn, tillfrågas cirka 6000 svenska företag om vad de har för förväntningar på den närmsta framtiden och om deras ekonomiska välmående. Respondenterna uppmanas att bortse från säsongsmässiga variationer i svaren, vilket exempelvis kan vara att försäljningen går ner under sommarmånaderna. Denna korrigering är dock inte alltid tillräcklig, därför säsongsrensas alla tidsserier med undantag för försäljningspriserna (Konjunkturinstitutet, ). Om indexet är högt tyder det på att företagen ser positivt på framtiden och då kommer att ha möjlighet att rekrytera. Ett lågt index å andra sidan visar en tro om negativ utveckling och företagen kommer därmed troligen inte att ha möjlighet att rekrytera. Antal varsel under det senaste året (VAR): Varje månad publicerar arbetsförmedlingen föregående månads inkomna varsel. En arbetsgivare är skyldig att lämna varsel vid nedskärning av minst fem arbetstagare, det vill säga om fyra eller färre medarbetare blir uppsagda tas detta inte med i statistiken. Här har vi valt att testa den relativa arbetslösheten mot antal varslade från den aktuella månad och ett år tillbaka i tiden istället för endast den föregående månaden. Detta eftersom ett högt antal varslade en månad med största sannolikhet kommer att påverka den relativa arbetslösheten ett flertal månader framöver. Denna variabel bör inte ge några större utslag med en så kort tidsförskjutning som två till tre månader. Detta eftersom en arbetsgivare måste meddela om varslet till 9

10 arbetsförmedlingen i god tid innan den eventuella uppsägningen sker. Detta eftersom de ska ha möjlighet att ta upp förhandlingar med facket. År var det cirka 60 % av de varslade som sades upp inom sex månader. Ibland kan förhandlingarna ta ännu längre tid. Med detta i bakhuvudet har vi ändå valt att testa variabeln, men varit förberedda på att behöva testa den med en längre tidsförskjutning. 4 Metodologi Som berörts tidigare är syftet med uppsatsen att prognostisera den svenska arbetslösheten med hjälp av en regressionsmodell, vilken ska uppnå en så hög förklaringsgrad som möjligt. För analys har dataprogrammen IBM SPSS Statistics, SAS (Statistical Analysis Software) och Microsoft Excel använts. 4.1 Regressionsmodell: I en regressionsmodell har vi en beroende variabel som betecknas med Y i. Vi har en eller flera oberoende variabler som betecknas med X i. Dessa oberoende variabler ska förklara variationen i den beroende variabeln (Y). I den enkla linjära modellen har vi endast en förklarande variabel (Xi). I annat fall finns det flera förklarande variabler. En sådan regressionsmodell kan skrivas som Y i = 0 + 1X 1i + + kx ki + i Koefficienten 0 är interceptet (värdet av E (Y i ) när X 1, X k = 0). 1, k är partiella koefficienter. De är förändringshastigheten i E (Y i ) per enhet förändring i X 1i, X ki. Vi skattar regressionskoefficienterna genom minsta kvadratmetoden därför att vi vill ha så små residulaer som möjligt. Denna metod förutsätter att den bästa skattade modellen är modellen som har de minimala kvadrerade avvikelserna från dess sanna värden. Vi försöka alltså att hitta värden för 0, 1 k som minimerar summan av kvadrerade residualerna: = n = i = i - 0-1X 1i - - kx ki ] 2 10

11 4.2 Grundläggande antaganden Antal antaganden om en regressionsmodell varierar beroende på vilken litteratur som refereras till och är oftast 5-9 till antalet. Här går vi igenom de fem grundläggande antaganden som gäller för multipel regression enligt Kleinbaum, Kupper, Nizam & Muller (2008). Senare i kapitlet presenteras även ett par ytterligare tester vi genomfört: 1. För varje specifik kombination av de oberoende variablerna (X 1,, X k ) är Y en slumpmässig variabel med en viss sannolikhetsfördelning och ett ändligt medelvärde och varians. 2. Linjär regressionsmodell: De oberoende variablerna och den beroende variabeln har ett linjärt samband. YIX1, Xk = 0 + 1x kx k Eller Y i = 0 + 1X 1i + + kx ki + i 3. X-värdena ska vara oberoende av feltermen ( 1 ). 4. Variansen för I givet X 1,, X k ska vara konstant för samtliga observationer. Detta är kravet på homoskedasticitet. Var( i X 1,, X k ) = 2 Detta antagande kan verka restriktivt och svåruppfyllt. Dock måste man bara utreda förekomsten av heteroskedasticitet om det klart och tydligt tyder på att datan inte är homoskedastisk. En liten förekomst har inte något större negativ inverkan på resultatet. 5. För varje fix kombination av X 1, X 2,, X k, är variabeln Y normalfördelad. Vilket kan skrivas: Y N( Y X1, X2,, Xk, 2 ) 11

12 4.3 Tidsperiod Data för minst tio år tillbaka i tiden finns tillgängligt för alla våra variabler som vi har valt att testa förutom Monster Employment Index (MEI), som inte började publiceras förrän i januari Vi har således valt detta som startdatum för samtliga variabler då vi anser att det är fullt tillräckligt för vårt ändamål och ger oss 70 månaders observationer. 4.4 Tidsförskjutningar För att modellen ska vara till någon praktisk nytta måste den månatliga statistiken för de oberoende variablerna publiceras före det att värdet för den beroende variabeln publiceras. När detta inte uppfylls får vi istället undersöka om det finns samband mellan variablerna vid en viss tidsförskjutning. Detta har även bejakats när vi valt ut de oberoende variablerna som vi testat. Med andra ord, eftersom januaris data för våra oberoende variabler inte publiceras förrän i februari kan vi då göra en prognos för tidigast mars, den kortaste möjliga tidsförskjutningen blir således två månader. Valet av tidsförskjutning har gjorts genom att studera regressionkoefficienten 1 när den oberoende variabeln förskjuts ett steg i taget för att sedan välja ut den tidsförskjutningen med den högsta förklaringsgraden och det mest signifikanta F- och T-värdet. 12

13 4.5 Val av variabler Variabel Tidsperiod B-värde F-värde T-värde Tidsförskjutning Corr R^2 Sign KPI Mar 07-Nov 12-0,474 60,731-7,793 t-2-0,687 0,472 <0,000 CCI Mar 07-Nov 12-0,049 58,092-7,622 t-12-0,679 0,461 <0,000 0, VAR Mar 07-Nov ,373 9,456 t-5 0,754 0,568 <0,000 KBF Mar 07-Nov 12-0,056 63,001-7,937 t-10-0,693 0,481 <0,000 MEI Mar 07-Nov 12-0, ,661-13,025 t-2-0,845 0,714 <0,000 Kritiska t-värdet på 95% signifikansnivå är 1,994 för ett dubbelsidigt test med 70 frihetsgrader. Vi kan alltså förkasta nollhypotesen på 95% signifikansnivå för samtliga av våra variabler eftersom alla t-värden är mer extrema än -1,994 och 1,994. Vi kan även se att alla p-värden är lägre än 0,05, vilket stärker förkastandet av nollhypoteserna på den givna signifikansnivån. Att våra variabler är signifikanta betyder att vi med 95% säkerhet kan säga att koefficienterna inte är 0, och därmed att samtliga oberoende variabler med 95% säkerhet har effekt på den beroende variabeln. Samtliga variabler kan alltså tas vidare för fortsatta tester. 4.6 Stegvis regression För att välja ut de mest lämpliga variablerna till modellen har stegvis regression använts, vilket är en vanligt förekommande metod för val av bästa modell. Stegvis regression kan sägas vara en kompromiss mellan framåt- och bakåtvalsprincipen där man inkluderar och exkluderar variabler till modellen steg för steg, så länge som man får en relevant ökning av den justerade förklaringsgraden eller tills att inga variabler kan läggas till eller tas bort från modellen. 13

14 Mått som F-värde och medelfel är även värda att studera vid val av modell. Det finns inget absolut mått som säger hur bra modellen är, utan snarare får man göra en avvägning av dem tillsammans. Steg ett i metoden är att välja ut den variabeln med högst korrelation med den beroende variabeln och sedan testa att den är signifikant på den valda signifikansnivån. Skulle den inte vara signifikant kan det fastställas att det inte kan skapas någon tillräckligt bra modell med hjälp av variablerna. Efter att den första variabeln testats väljs variabeln med högst förklaringsgrad av de resterande variablerna ut och adderas till modellen vars observerade F-värde sedan testas mot det kritiska F-värdet. Även denna gång måste den nya modellens F- värde vara signifikant för att variabeln ska inkluderas i modellen. En variabel som tidigt har lagts till i modellen kan senare exkluderas på grund av dess relation till andra variabler som lagts till i modellen efter att variabeln i fråga inkluderades. Därför väljs även en signifikansnivå därvid variabeln exkluderas från modellen om det observerade F-värdet underskrider det kritiska värdet (Kleinbaum et al. 2008). Vi har valt p- värdet 0,05 (α1) som gräns för att inkludera en variabel och 0,10 (α2) som gräns för att exkludera en variabel från modellen. Teststatistikan beräknas som: F obs = F(X k+1, X 1, X k ) = SRR(X k+1, X 1, X k )/ MSE(X 1,, X k,x k+1 ) En variabel inkluderas om: F obs > F (α1) (1, n-k-2) Och exkluderas om: > F (α2) (1, n-k-2) > F obs Fördelen med stegvis regression förutom att det är lätt genomföra är att urvalsprincipen inte tar med icke signifikanta variabler samt även motverkar att variabler som är korrelerade med varandra inkluderas i modellen, vilket minskar risken för multikolinjäritet (Kleinbaum et al. 2008). Risken med stegvis regression är dock att det kan ge en falsk trygghet och skulle alla variablerna vara starkt korrelerade med varandra finns det risk att 14

15 man får ett resultat där alla variabler felaktigt är inkluderade i modellen. Det krävs även noggrannhet vid inkluderandet och exkluderandet av variabler då det kan vara värt att bejaka och göra en individuell bedömning om en variabel precis missat tröskelvärdet. Nedan kan vi studera modellen vi erhållit. I tabell 1a visas att förklaringsgraden för modellen hamnar på 72,5% och i tabell 1b syns att båda variablerna som behålls i modellen är signifikanta på 5% signifikansnivå. Vi kan även notera, genom att studera t-värdet, att MEI är den variabeln som bidrar mest till modellen. Tabell 1a Model R R Square Adjusted R Square Std. Error of the Estimate 1 0,856a 0,733 0,725 0,55063 a. Predictors: (Constant), VAR, MEI b. Dependent Variable: Arb Tabell 1b Model Unstandardized Coefficients Std- Coefficients t Sig. B Std. Error Beta (Constant) 11,063 0,761 14,537 0,000 1 MEI -,0026 0,004-0,666-6,432 0,000 VAR 0, ,000 0,226 2,187 0,032 a. Dependent Variable: Arb 15

16 5 Diagnostik Nedan ska vi presentera ett par tester som hjälper oss att utvärdera vår modell. Om det visar sig att modellen inte uppfyller kraven får åtgärder utföras för att förbättra modellen. 5.1 Linjäritet För att granska linjäritetsantagandet plottar vi den beroende variabeln mot de oberoende variablerna för att bedöma huruvida sambandet är linjärt, kvadratiskt eller annat. Samtliga variabler uppmäter ett approximativt linjärt samband med den beroende variabeln. Dessa figurer hittas i Appendix A. 5.2 Normalfördelning Normalitetsantagandet avser att den beroende variabeln är normalfördelad för varje fix kombination av de oberoende variablerna. Antagandet är inte nödvändigt för att skatta regressionsparametrarna eller om vi ska justera totala variationen. Dock behövs det att detta antagande ska vara uppfyllt för att testa huruvida konfidens- och prediktionsintervaller är signifikanta. Dessutom måste det vara uppfyllt om vi ska använda oss av tester som Durbin- Watson s test, vilket vi har gjort i detta arbete. Det enklaste sättet att undersöka normalitetsantagandet är att studera histogram och QQplot för variabeln. I ett QQ-plot jämförs de observerade värdena med de förväntade värdena från normalfördelningen, och om feltermerna följer en normalfördelning så ska observationerna ligga längs med normalfördelningslinjen. Längre fram går vi igenom ytterligare tester, för bland annat outliers, som kan förbättra normalfördelningen. Q-Q-plot och histogram finns i graf 4 respektive 7 i Appendix B. Det finns inte heller något krav på att de oberoende variablerna ska vara normalfördelade. Däremot medför snedfördelade variabler en ökad risk att residualerna blir snedfördelade, vilket i sin tur leder till att man underskattar modellens osäkerhet. (Montgomery, 2005). I histogrammet i appendix C (Figur D.2) kan vi tydligt se att variabeln varsel är snedfördelad och därmed kan vara i behov av att transformeras. Nedan har vi testat att ta den naturliga 16

17 logaritmen av variabeln, vilket innebär att man komprimerar avståndet mellan värdena högre upp på skalan som i sin tur ofta gör variabeln mer normalfördelad (Montgomery, 2005). Även om variabeln fortfarande är aningen snedfördelad efter transformeringen så är fallet bättre än tidigare. Av tabell 2a till 2c nedan framgår att variabeln fortfarande signifikant med en betydligt högre förklaringsgrad än tidigare både för variabeln individuellt och modellen, vilket gör att vi väljer att fortsätta med den transformerade variabeln istället för med originalvariabeln. Histogram för MEI, Varselstatistik och den logaritmerade varselstatistiken finns i Appendix C. Tabell 2a - Model R R Square Adjusted R Square Std. Error of the Estimate 1 0,833a 0,694 0,690 0,58485 a. Predictors: (Constant), ln_var Tabell 2b 1 Model Unstandardized Coefficients Std-Coefficients t Sig. B Std. Error Beta (Constant) -11,050 1,496-7,386,000 ln_var 1,704 0,137 0,833 12,425,000 Tabell 2c Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson 1 0,874a 0,763 0,756 0, ,514 a. Predictors: (Constant), MEI, ln_var b. Dependent Variable: Arb 17

18 5.3 Outliers En outlier är en observation som är väldigt annorlunda i förhållande till övriga observationer i urvalet. Antingen har den en stor residual eller så ligger den väldigt långt ifrån övriga observationer. Residualer innefattar avvikelserna mellan det sanna värdet av Y, (Y i ) och dess skattade värde från regressionsmodellen ( i). En sådan iakttagelse exkluderas, speciellt om urvalsstorleken är liten, eftersom det då avsevärt kan förändra resultaten på regressionsanalys (Gujarati, 2009). Förekomst av outliers medför en större risk att datat avviker från en normalfördelning. Dessutom förbättras oftast uppfyllnadsgraden av de övriga antagandena när outliers exkluderas. Enligt Kleinbaum et al. (2008) kan det upptäckas två typer av outliers; Outliers i prediktorrummet och outliers i responsrummet. För att bedöma om ett värde är en outlier i responsrummet tittar vi på resultatet vi fått från Jackknife-testet. Observationer som får en Jackknife-residual som är mer extrem än det kritiska värdet hämtat från t-tabellen kan klassificeras som en outlier. En observation kan även vara outlier i både prediktor- och responsrummet, vilket är ett tydligt tecken på att observationen bör exkluderas. För att bedöma om ett värde är en outlier i prediktorrummet tittar vi istället på spridningsdiagrammet med Leverage-värden. Värden som ligger utanför gränsen som bestäms av 2(k+1)/n anses vara outliers i prediktorrummet, där k = antalet oberoende variabler och n = antalet observationer. För vår modell blir det kritiska värdet: 2(2+1)/70 = 0,0857 Vi kan dra slutsatsen att observationerna 1, 3, och 36 är outliers i responsrummet. Detta eftersom de har ett mer extremt observerat Jackknife- värde än det kritiska värdet på 2,00 hämtat ur t-tabellen på 5% signifikansnivå med 60 frihetsgrader (se Appendix E). Eftersom antalet outliers är få i förhållande till det totala antal observationerna samt att de ej ligger så långt ifrån övriga observationer är det inget måste för oss att exkludera observationerna från modellen. Vi testar dock att köra regressionen utan dem. 18

19 Nedan i tabell 3a ser vi att den justerade förklaringsgraden ökar med hela 3,6% från 75,6% till 79,3% när outliers exkluderats. Efter att ha tagit hänsyn till risken att det linjära sambandet kan överskattas väljer vi ändå att fortsätta utan dessa observationer. I appendix B, figur 1, visas i diagram 2 och 3 Jackknife-residualerna samt Leverage-värdena innan outliers har exkluderats och i figur 2 finns motsvarande diagram plottade efter att outliers exkluderats. I diagram fyra och sju kan vi även se att observationerna rör sig mot att bli mer normalfördelat. Tabell 3a - Model Summaryb Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson 1 0,894a 0,799 0,793 0, ,648 a. Predictors: (Constant), MEI, ln_var b. Dependent Variable: Arb Tabell 3b - ANOVAa 1 Model Sum of Squares df Mean Square F Sig. Regression 57, , ,235 0,000b Residual 14, ,226 Total 71, a. Dependent Variable: Arb b. Predictors: (Constant), MEI, ln_var Tabell 3c - Coefficientsa Model Unstandardized Coefficients Std-Coefficients t Sig. B Std. Error Beta (Constant) 3,666 2,939 1,248 0,217 1 ln_var 0,669 0,218 0,333 3,061 0,003 MEI -0,023 0,004-0,592-5,437 0,000 a. Dependent Variable: Arb 5.4 Oberoende residualer En utav förutsättningarna i multipel regression är att det inte ska finnas autokorrelation mellan residualerna. Autokorrelation kan delas upp i positiv- och negativ autokorrelation. Positiv autokorrelation innebär att de positiva residualer oftast följs av ytterligare en positiv residual och att de negativa residualerna oftast följs av ytterligare negativ residual, medan 19

20 negativ autokorrelation innebär att en positiv residual oftast följs av en negativ residual och vice versa. (Gujarati, 2009). Det finns flera statistiska tester för att upptäcka autokorrelation som bl.a. Runs test, Durbin Watson d-test och The Breush-Godfrey test. Vi har valt att använda Durbin-Watson s test för vår regressionsmodell. Durbin-Watson d-statistikan definieras som: Det finns sex underliggande antaganden om d-statistikan (Gujarati, 2009): 1) Modellen måste ha ett intercept 2) De förklarande variablerna X i är icke stokastiska eller fasta i upprepande stickprov. 3) Residualerna är framställda av den första ordningens autoregressiva system. 4) Feltermen är normalfördelad ( i N) 5) Regressionen innehåller inte laggade värden på Y som oberoende variabler. 6) Det saknas ej observationer i datat. Hypoteserna är följande: H 0 : = 0 H A : > 0 När vi testar Monster Employment Index och den logaritmerade varselstatistiken mot arbetslösheten i Durbin-Watson s test får vi ett observerat värde på 0,650, vilket är lägre än den undre kritiska gränsen (dl) för autokorrelation. Detta indikerar på att positiv autokorrelation föreligger i modellen, vilket betyder att en månad med en överskattad prediktion ofta följs av ytterligare en månad med en överskattning och en månad med en underskattad prediktion ofta följs av ytterligare en underskattning. 20

21 Hämtat från Durbin-Watson signifikanstabell där n=70 och k=2: dl = 1,400 du = 1,514 Tabell 4 Model Durbin-Watson 1 0,648a a. Predictors: MEI, ln_var b. Dep Variable: Arb Autokorrelation är ett vanligt fenomen vid tidsseriedata där värdet på y är beroende av värdet av y t-1. Alltså där uppmätt y-värde är beroende av föregående värde. Detta beror ofta på en tröghet i den aktuella variablen. Extra stor risk är det då antalet observationer är litet. Problematiken vid förekomsten av autokorrelation är att man överskattar antalet frihetsgrader och därmed den statistiska signifikansen i modellen (Montgomery, 2005). Vi kan även misstänka att det finns en eller flera ytterligare variabel som påverkar både våra oberoende variabler och vår beroende variabel. Vi anser dock att vår modell är så pass robust att vi kan gå vidare med den utan någon korrigering. 21

22 5.5 Homoskedasticitet Homoskedasticitet innebär att variansen av residualerna är konstant. Det vill säga att variansen av feltermerna är densamma oavsett värdet på x-variablerna, vilket kan skrivas som: Var( i X 1,, X k ) = 2 Motsatsen till homoskedasticitet är heteroskedasticitet och innebär att variansen ovan ej är konstant. Uppenbar heteroskedasticitet kan upptäckas genom ett studera ett spridningsdiagram för y-variabelns residualer. Om det finns uppenbara skillnader i residualernas storlek för olika delar av regeressionslinjen är det stor risk att heteroskedasticitet förekommer (Gujarati & Porter, 2009). I vårt fall finns det ingen indikation på någon tydlig heteroskedasticitet (Se appendix D för spridningsdiagram). 5.6 Multikolinjäritet Multikolinjäritet betyder att det finns ett linjärt samband mellan vissa eller alla av x- variablerna. Nedan följer några konsekvenser av hög multikolinjäritet; 1. Det blir svårt att få exakta skattningar om OLS-skattningarna har stor varians och kovarians. 2. På grund av ovanstående kommer konfidensintervallet tendera att bli större vilket leder till att H 0 accepteras lättare, typ I fel (H 0 accepteras fast det borde förkastas). 3. På grund av stora varianser kommer t-värdet av en eller flera koefficienter att tendera att bli icke signifikanta statistiskt sett. 4. Trots låga t-värden kan modellens förklaringsgrad (R 2 ) vara väldigt hög. 5. OLS-skattningarna kan vara känsliga för små förändringar i datamaterialet. För att testa multikolinjäritet kan man till att börja med testa de bivariata korrelationerna mellan de oberoende variablerna. Korrelationen bör helst inte överstiga 0,7 och om värdet är högre än 0,9 är det ett tecken på att allvarlig multikolinjäritet kan förekomma (Gujarati & 22

23 Porter, 2009). Vi ser nedan i tabell 5 att den bivariata korrelationen mellan de två oberoende variablerna är relativ hög. Dock inte så pass hög att den indikerar allvarlig multikolinjäritet. Tabell 5 Correlations MEI ln_var Pearson Correlation 1-0,857** MEI Sig. (2-tailed) 0,000 N Pearson Correlation -0,857** 1 ln_var Sig. (2-tailed) 0,000 N **. Correlation is significant at the 0.01 level (2-tailed). 6 Utvärdering av modellen Den bästa modellen utifrån de variablerna vi valt att testa har en justerad förklaringsgrad på 79,3% och består av Monster Employment Index och den naturliga logaritmen av varselstatistik från arbetsförmedlingen. Detta är även efter vi exkluderat tre outliers i responsrummet efter test av Jackknife-residualerna. Korrelationen mellan våra beroende variabler har ett acceptabelt, men är ändå relativt högt värde. Vi vill dock ha kvar båda variablerna i modellen då vi uppnår en hög förklaringsgrad samt att en modell med två eller flera oberoende variabler generellt sett blir mer stabil och robust jämfört med en bivariat regression. Modellen är uppställd nedan: ARB t = 3,66-0,023MEI t + 0,669ln_var t Model Summaryb Model R R Square Adjusted R Square Std. Error of the Estimate Durbin-Watson 1,894a,799,793,47511,648 a. Predictors: (Constant), MEI, ln_var b. Dependent Variable: Arb Coefficientsa Model Unstandardized Coefficients Std-Coefficients t Sig. B Std. Error Beta (Constant) 3,666 2,939 1,248,217 1 ln_var,669,218,333 3,061,003 MEI -,023,004 -,592-5,437,000 a. Dependent Variable: Arb 23

24 6.1 Korsvalidering Vi har även testat vår modell med hjälp av korsvalidering. Om samma datamängd används både för skattning och validering kommer en högre modellordning att leda till en överskattad kurvanpassning. Detta är även en av anledningarna till att man ej endast bör använda sig av förklaringsgraden vid utvärdering av regressionsmodeller. Vi skattar då en extra regressionsmodell av alla jämna observationer som vi sedan testar att validera mot den andra hälften av observationerna. Anledningen till detta är att vi inte vill testa modellen mot en tidsperiod där de själva ingår, utan validera den mot en annan störsignal än då modellen skattades. Den extra regressionsmodellen kan skrivas: ARB t = 3,855-0,022MEI t + 0,659ln_var t Resultatet visas i linjediagrammet nedan i figur 3 där den prognostiserade arbetslösheten visas som den heldragna linjen och den faktiska arbetslöshen som den streckade. Figur 3 24

25 7 Diskussion och slutsats Prognosmodellen uppvisar en förklaringsgrad på strax under 80 procent, vilket vi tycker ska ses som relativt högt i sammanhanget. Drygt 20% av variationen i arbetslösheten är dock fortfarande inte förklarad, vilken givetvis begränsar modellens prognosförmåga. Bortsett från en del svårundviklig autokorrelation är modellens grundläggande antaganden uppfyllda. Vår slutsats blir därmed att modellen ger en god fingervisning om nästkommande månads arbetslöshetsnivå, med hänsyn till att den ej tar hänsyn till föregående månaders arbetslöshetsnivå. Det finns även skäl att tro att ett ännu bättre resultat kunnat uppnås om regressionen utförts på en tidsperiod då konjunkturen varit mer stabil än vad den har varit under de senaste åren. I nuvarande tillstånd kan man även ifrågasätta prognosens praktiska nytta då den månatliga förändringen av den relativa arbetslösheten vanligtvis inte uppgår till mer än ett par tiondels procentenheter. Som en fingervisning till om arbetslösheten kommer att öka eller sjunka den nästkommande månaden kan den dock vara användbar. 7.1 Förslag på nya uppsatser Då flera av variablerna som vi testade korrelerade bäst med den beroende variabeln med en tidsförskjutning på sex- ända upp till tolv månader tror vi att det finns goda möjligheter att göra en användbar prognosmodell på längre sikt med hjälp av dem. Vi har även bara valt en viss uppsättning variabler att testa och med stor sannolikhet finns det ytterligare variabler som skulle kunna adderas och både öka förklaringsgraden och stärka modellantagandena. Eftersom vår regressionsmodell prognostiserar den säsongsrensade arbetslösheten skulle det även vara intressant att se om man kan skapa en lika bra eller mer precis modell för den ojusterade arbetslösheten. Som vi nämnt tidigare misstänker vi även att de ekonomiskt turbulenta tiderna som rått under de senaste åren kan ha sneddrivit modellen. Det skulle därför vara intressant att se hur tidsperiodens längd påverkar resultatet. En ännu kortare period hade kanske gett ett mer precist resultat. Kanske att även en längre period med justering för konjunktursvängningar skulle vara intressant att undersöka. 25

26 8 Referenser Gujarati, N. Porter, C. (2009) Basic Econometrics, fjärde upplagan, McGraw Hill Higher Education. Kleinbaum, Kupper, Nizam & Muller (2008). Applied regression analysis and other multivariable methods, fjärde upplagan, Wadsworth Publishing Co Inc Krugman, P. Obstfeld, M. (2009) International Economics, åttonde upplagan, Pearson Education. Olofsson, J. Wadensjö, E. (2005) Arbetslöshet, första upplagan, SNS Förlag. Montgomery, D. (2005) Introduction to Statistical Quality Control, femte upplagan, Wiley Anders Pekkari (2000), Arbetskraft, sysselsättning, arbetslöshet mm utveckling under 1990-talet, AMS utredningsenhet prognossektionen, AMS rapport Statistiska Centralbyrån, ( ). Arbetskraftsundersökningarna, aspx Statistiska Centralbyrån, ( ). Konsumentprisindex, aspx Monster worldwide Inc, ( ). Monster employment index, Statistiska Centralbyrån, ( ). Konjunkturbarometern hushåll, aspx Arbetsförmedlingen, ( ). Varselstatistik, Konjunkturinstitutet, ( ). Konjunkturbarometern, 26

27 Konjunkturinstitutet, ( ). Barometer indikatorn, 1e6281dd1341fd2212c

28 Appendix A Linjära samband mellan arbetslöshet och de oberoende variablerna i spridningsdiagram. 28

29 Appendix B Figur 1 29

30 Figur 2 30

31 Appendix C Histogram för de oberoende variablerna Figur D.1 Figur D.2 Figur D.3 31

32 Appendix D Spridningsdiagram över y-residualen. 32

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer Datorövning 2 Regressions- och tidsserieanalys Syfte 1. Lära sig skapa en korrelationsmatris 2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna mot varandra 3. Lära sig beräkna

Läs mer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då

Läs mer

Multipel Regressionsmodellen

Multipel Regressionsmodellen Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b

Läs mer

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet 732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris

Läs mer

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012 Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov

Läs mer

Regressions- och Tidsserieanalys - F4

Regressions- och Tidsserieanalys - F4 Regressions- och Tidsserieanalys - F4 Modellbygge och residualanalys. Kap 5.1-5.4 (t.o.m. halva s 257), ej C-statistic s 23. Linda Wänström Linköpings universitet Wänström (Linköpings universitet) F4 1

Läs mer

Multipel regression och Partiella korrelationer

Multipel regression och Partiella korrelationer Multipel regression och Partiella korrelationer Joakim Westerlund Kom ihåg bakomliggande variabelproblemet: Temperatur Jackförsäljning Oljeförbrukning Bakomliggande variabelproblemet kan, som tidigare

Läs mer

Uppgift 1. Deskripitiv statistik. Lön

Uppgift 1. Deskripitiv statistik. Lön Uppgift 1 Deskripitiv statistik Lön Variabeln Lön är en kvotvariabel, även om vi knappast kommer att uppleva några negativa värden. Det är sannolikt vår intressantaste variabel i undersökningen, och mot

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 732G71 Statistik B Föreläsning 7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29 Detaljhandelns försäljning (fasta priser, kalenderkorrigerat) Bertil Wegmann

Läs mer

Regressions- och Tidsserieanalys - F7

Regressions- och Tidsserieanalys - F7 Regressions- och Tidsserieanalys - F7 Tidsserieregression, kap 6.1-6.4 Linda Wänström Linköpings universitet November 25 Wänström (Linköpings universitet) F7 November 25 1 / 28 Tidsserieregressionsanalys

Läs mer

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3 Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

Linjär regressionsanalys. Wieland Wermke

Linjär regressionsanalys. Wieland Wermke + Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån

Läs mer

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning

Läs mer

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015 MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Lösningsförslag till tentamen på Statistik och kvantitativa undersökningar STA100, 15 hp Fredagen den 13 e mars 015 1 a 13 och 14

Läs mer

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018 Statistiska analysmetoder, en introduktion Fördjupad forskningsmetodik, allmän del Våren 2018 Vad är statistisk dataanalys? Analys och tolkning av kvantitativa data -> förutsätter numeriskt datamaterial

Läs mer

Medicinsk statistik II

Medicinsk statistik II Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning

Läs mer

Finansiell statistik

Finansiell statistik Finansiell statistik Föreläsning 5 Tidsserier 4 maj 2011 14:26 Vad är tidsserier? En tidsserie är en mängd av observationer y t, där var och en har registrerats vid en specifik tidpunkt t. Vanligen görs

Läs mer

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population

Läs mer

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1. En rät linje ett enkelt samband Y β 1 Lutning (slope) β 0 Skärning (intercept) 1 Y= β 0 + β 1 X X En rät linje + slumpbrus Y Y= β 0 + β 1 X + brus brus ~ N(0,σ) X Observationspar (X i,y i ) Y Ökar/minskar

Läs mer

Skrivning i ekonometri torsdagen den 8 februari 2007

Skrivning i ekonometri torsdagen den 8 februari 2007 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA2:3 Skrivning i ekonometri torsdagen den 8 februari 27. Vi vill undersöka hur variationen i lön för 2 belgiska löntagare = WAGE (timlön i euro)

Läs mer

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 732G71 Statistik B Föreläsning 1, kap. 3.1-3.7 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20 Exempel, enkel linjär regressionsanalys Ett företag vill veta

Läs mer

Sänkningen av parasitnivåerna i blodet

Sänkningen av parasitnivåerna i blodet 4.1 Oberoende (x-axeln) Kön Kön Längd Ålder Dos Dos C max Parasitnivå i blodet Beroende (y-axeln) Längd Vikt Vikt Vikt C max Sänkningen av parasitnivåerna i blodet Sänkningen av parasitnivåerna i blodet

Läs mer

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistik B Regressions- och tidsserieanalys Föreläsning 1 Statistik B Regressions- och tidsserieanalys Föreläsning Kurskod: 732G7, 8 hp Lärare och examinator: Ann-Charlotte (Lotta) Hallberg Lärare och lektionsledare: Isak Hietala Labassistenter Kap 3,-3,6. Läs

Läs mer

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset. Statistiska institutionen Nicklas Pettersson Skriftlig tentamen i Finansiell Statistik Grundnivå 7.5hp, VT2014 2014-05-26 Skrivtid: 9.00-14.00 Hjälpmedel: Godkänd miniräknare utan lagrade formler eller

Läs mer

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två

Läs mer

Metod och teori. Statistik för naturvetare Umeå universitet

Metod och teori. Statistik för naturvetare Umeå universitet Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån

Läs mer

10.1 Enkel linjär regression

10.1 Enkel linjär regression Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet November 4, 2013 Wänström (Linköpings universitet) F1 November 4, 2013 1 / 25 Statistik B, 8 hp

Läs mer

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1! LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA1:3 Skrivning i ekonometri tisdagen den 1 juni 4 1. Vi vill undersöka hur variationen i brottsligheten i USA:s delstater år 196 = R (i antal

Läs mer

Skrivning i ekonometri lördagen den 25 augusti 2007

Skrivning i ekonometri lördagen den 25 augusti 2007 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA10:3 Skrivning i ekonometri lördagen den 5 augusti 007 1. Vi vill undersöka hur variationen i ölförsäljningen i ett bryggeri i en stad i USA

Läs mer

Skrivning i ekonometri lördagen den 29 mars 2008

Skrivning i ekonometri lördagen den 29 mars 2008 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STAB, Ekonometri Skrivning i ekonometri lördagen den 9 mars 8.Vi vill undersöka hur variationen i antal arbetande timmar för gifta kvinnor i Michigan

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden

Läs mer

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1

Multipel linjär regression. Geometrisk tolkning. Tolkning av β k MSG Staffan Nilsson, Chalmers 1 Multipel linjär regression l: Y= β 0 + β X + β 2 X 2 + + β p X p + ε Välj β 0,β,β 2,, β p så att de minimerar summan av residualkvadraterna (Y i -β 0 -β X i - -β p X pi ) 2 Geometrisk tolkning Med Y=β

Läs mer

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1(6) PCA/MIH Johan Löfgren 2016-11-10 Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1 Inledning Sveriges kommuner och landsting (SKL) presenterar varje år statistik över elevprestationer

Läs mer

Laboration 2 multipel linjär regression

Laboration 2 multipel linjär regression Laboration 2 multipel linjär regression I denna datorövning skall ni 1. analysera data enligt en multipel regressionsmodell, dvs. inkludera flera förklarande variabler i en regressionsmodell 2. studera

Läs mer

Uppgift 1. Produktmomentkorrelationskoefficienten

Uppgift 1. Produktmomentkorrelationskoefficienten Uppgift 1 Produktmomentkorrelationskoefficienten Både Vikt och Längd är variabler på kvotskalan och således kvantitativa variabler. Det innebär att vi inte har så stor nytta av korstabeller om vi vill

Läs mer

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts. Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 7

ÖVNINGSUPPGIFTER KAPITEL 7 ÖVNINGSUPPGIFTER KAPITEL 7 TIDSSERIEDIAGRAM OCH UTJÄMNING 1. En omdebatterad utveckling under 90-talet gäller den snabba ökningen i VDlöner. Tabellen nedan visar genomsnittlig kompensation för direktörer

Läs mer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Analytisk statistik. Mattias Nilsson Benfatto, PhD. Analytisk statistik Mattias Nilsson Benfatto, PhD Mattias.nilsson@ki.se Beskrivande statistik kort repetition Centralmått Spridningsmått Normalfördelning Konfidensintervall Korrelation Analytisk statistik

Läs mer

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet 2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys.

Läs mer

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet 2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att

Läs mer

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29 UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN

Läs mer

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall

Läs mer

Korrelation och autokorrelation

Korrelation och autokorrelation Korrelation och autokorrelation Låt oss begrunda uttrycket r = i=1 (x i x) (y i y) n i=1 (x i x) 2 n. i=1 (y i y) 2 De kvadratsummor kring de aritmetiska medelvärdena som står i nämnaren är alltid positiva.

Läs mer

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

LTH: Fastighetsekonomi 23-24 sep 2008. Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING LTH: Fastighetsekonomi 23-24 sep 2008 Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING Hypotesprövning (statistisk inferensteori) Statistisk hypotesprövning innebär att man med hjälp av slumpmässiga

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet May 4, 2015 Wänström (Linköpings universitet) F1 May 4, 2015 1 / 25 Regressions- och tidsserieanalys,

Läs mer

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

Tentamensgenomgång och återlämning: Måndagen 24/2 kl16.00 i B497. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset. Statistiska institutionen Nicklas Pettersson Skriftlig tentamen i Finansiell Statistik Grundnivå 7.5hp, HT2013 2014-02-07 Skrivtid: 13.00-18.00 Hjälpmedel: Godkänd miniräknare utan lagrade formler eller

Läs mer

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Analytisk statistik. Tony Pansell, optiker Universitetslektor Analytisk statistik Tony Pansell, optiker Universitetslektor Analytisk statistik Att dra slutsatser från det insamlade materialet. Två metoder: 1. att generalisera från en mindre grupp mot en större grupp

Läs mer

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4 MÄLARDALENS HÖGSKOLA Akademin för hållbar samhälls- och teknikutveckling Statistik Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp Tillåtna hjälpmedel: Miniräknare (Formelsamling bifogas

Läs mer

Regressionsanalys av lägenhetspriser i Spånga

Regressionsanalys av lägenhetspriser i Spånga Regressionsanalys av lägenhetspriser i Spånga Mahamed Saeid Ali Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2016:11 Matematisk statistik Juni 2016

Läs mer

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år). Matematikcentrum Matematisk statistik MASB11: BIOSTATISTISK GRUNDKURS DATORLABORATION 4, 21 MAJ 2018 REGRESSION OCH FORTSÄTTNING PÅ MINIPROJEKT II Syfte Syftet med dagens laboration är att du ska bekanta

Läs mer

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh 1 STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh Skriftlig tentamen på momentet Statistisk dataanalys III (SDA III), 3 högskolepoäng ingående i kursen Undersökningsmetodik

Läs mer

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka. y Uppgift 1 (18p) I syfte för att se om antalet månader som man ägt en viss träningsutrustning påverkar träningsintensiteten har tio personer som har köpt träningsutrustningen fått ange hur många månader

Läs mer

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION. MATEMATISKA INSTITUTIONEN Tillämpad statistisk analys, GN STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB 2011-04-13 DATORLABORATION 3: MULTIPEL REGRESSION. Under Instruktioner och data på

Läs mer

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012 Statistiska Institutionen Patrik Zetterberg Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012 2013-01-18 Skrivtid: 9.00-14.00 Hjälpmedel: Godkänd miniräknare utan lagrade formler eller

Läs mer

Samhällsvetenskaplig metod, 7,5 hp

Samhällsvetenskaplig metod, 7,5 hp Samhällsvetenskaplig metod, 7,5 hp Provmoment: Individuell skriftlig tentamen kvantitativ metod, 2,0 hp Ladokkod: 11OA63 Tentamen ges för: OPUS kull H13 termin 6 TentamensKod: Tentamensdatum: Fredag 24

Läs mer

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data Stat. teori gk, ht 006, JW F16 MULTIPEL LINJÄR REGRESSION (NCT 13.1-13.3, 13.9) Anpassning av linjär funktion till givna data Data med en beroende variabel (y) och K stycken (potentiellt) förklarande variabler

Läs mer

TENTAMEN I STATISTIK B,

TENTAMEN I STATISTIK B, 732G7 Tentamen. hp TENTAMEN I STATISTIK B, 24-2- Skrivtid: kl: -2 Tillåtna hjälpmedel: Ett A4-blad med egna handskrivna anteckningar samt räknedosa Jourhavande lärare: Lotta Hallberg Betygsgränser: Tentamen

Läs mer

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys) Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10 Laboration Regressionsanalys (Sambandsanalys) Grupp A: 2010-11-24, 13.15 15.00 Grupp B: 2010-11-24, 15.15 17.00 Grupp C: 2010-11-25,

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal

Läs mer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 22: Tidsserieanalys I

Tillämpad statistik (A5), HT15 Föreläsning 22: Tidsserieanalys I Tillämpad statistik (A5), HT15 Föreläsning 22: Tidsserieanalys I Sebastian Andersson Statistiska institutionen Senast uppdaterad: 15 december 2015 Data kan generellt sett delas in i tre kategorier: 1 Tvärsnittsdata:

Läs mer

F13 Regression och problemlösning

F13 Regression och problemlösning 1/18 F13 Regression och problemlösning Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 4/3 2013 2/18 Regression Vi studerar hur en variabel y beror på en variabel x. Vår modell

Läs mer

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Övningshäfte till kursen Regressionsanalys och tidsserieanalys Övningshäfte till kursen Regressionsanalys och tidsserieanalys Linda Wänström October 31, 2010 1 Enkel linjär regressionsanalys (baserad på uppgift 2.3 i Andersson, Jorner, Ågren (2009)) Antag att följande

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller: Statistik 2 Provmoment: Ladokkod: Tentamen ges för: TentamensKod: Tentamen SST021 ACEKO16h, ACIVE16h 7,5 högskolepoäng Tentamensdatum: 2018-05-31 Tid: 14.00-19.00 Hjälpmedel: Valfri miniräknare Linjal

Läs mer

Obligatorisk uppgift, del 1

Obligatorisk uppgift, del 1 Obligatorisk uppgift, del 1 Uppgiften består av tre sannolikhetsproblem, som skall lösas med hjälp av miniräknare och tabellsamling. 1. Vid tillverkning av en produkt är felfrekvensen 0,02, dvs sannolikheten

Läs mer

Repetitionsföreläsning

Repetitionsföreläsning Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning

Läs mer

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B Föreläsning 4 Kap 3.5, 3.8 Material om index 732G71 Statistik B Skötsel (y) Transformationer Ett av kraven för regressionsmodellens giltighet är att residualernas varians är konstant. Vad gör vi om så

Läs mer

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Övningshäfte till kursen Regressionsanalys och tidsserieanalys Övningshäfte till kursen Regressionsanalys och tidsserieanalys Linda Wänström April 8, 2011 1 Enkel linjär regressionsanalys (baserad på uppgift 2.3 i Andersson, Jorner, Ågren (2009)) Antag att följande

Läs mer

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng. 1 Att tänka på (obligatorisk läsning) A. Redovisa Dina lösningar i en form som gör det lätt att följa Din tankegång. (Rättaren förutsätter att det dunkelt skrivna är dunkelt tänkt.). Motivera alla väsentliga

Läs mer

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012 Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår

Läs mer

Tentamen Tillämpad statistik A5 (15hp)

Tentamen Tillämpad statistik A5 (15hp) Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Upplysningar 1. Tillåtna hjälpmedel: Miniräknare, A4/A8 Tabell- och formelsamling (alternativ Statistik

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

Statistik 1 för biologer, logopeder och psykologer

Statistik 1 för biologer, logopeder och psykologer Innehåll 1 Korrelation och regression Innehåll 1 Korrelation och regression Spridningsdiagram Då ett datamaterial består av två (eller era) variabler är man ofta intresserad av att veta om det nns ett

Läs mer

import totalt, mkr index 85,23 100,00 107,36 103,76

import totalt, mkr index 85,23 100,00 107,36 103,76 1. a) F1 Kvotskala (riktiga siffror. Skillnaden mellan 3 och 5 månader är lika som skillnaden mellan 5 och 7 månader. 0 betyder att man inte haft kontakt med innovations Stockholm.) F2 Nominalskala (ingen

Läs mer

F19, (Multipel linjär regression forts) och F20, Chi-två test.

F19, (Multipel linjär regression forts) och F20, Chi-två test. Partiella t-test F19, (Multipel linjär regression forts) och F20, Chi-två test. Christian Tallberg Statistiska institutionen Stockholms universitet Då man testar om en enskild variabel X i skall vara med

Läs mer

Vad Betyder måtten MAPE, MAD och MSD?

Vad Betyder måtten MAPE, MAD och MSD? Vad Betyder måtten MAPE, MAD och MSD? Alla tre är mått på hur bra anpassningen är och kan användas för att jämföra olika modeller. Den modell som har lägst MAPE, MAD och/eller MSD har bäst anpassning.

Läs mer

Modellutveckling 2015: Regressionsmodellen för inrikes inflyttning

Modellutveckling 2015: Regressionsmodellen för inrikes inflyttning Demografisk rapport 215:6 Modellutveckling 215: Regressionsmodellen för inrikes inflyttning Befolkningsprognos 215 224/5 2(38) 3(38) Regressionsmodellen för inrikes inflyttning i befolkningsprognosen Inledning

Läs mer

Skrivning i ekonometri lördagen den 15 januari 2005

Skrivning i ekonometri lördagen den 15 januari 2005 LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL STA102:3 Skrivning i ekonometri lördagen den 15 januari 5 1. Vi vill undersöka hur variationen i försäljningspris = price för hus i en liten stad

Läs mer

Tentamen i Statistik, STA A11/STA A14 (8 poäng) 25 augusti 2004, klockan 08.15-13.15

Tentamen i Statistik, STA A11/STA A14 (8 poäng) 25 augusti 2004, klockan 08.15-13.15 Karlstads universitet Institutionen för informationsteknologi Avdelningen för Statistik Tentamen i Statistik, STA A/STA A4 (8 poäng) 5 augusti 4, klokan 8.5-3.5 Tillåtna hjälpmedel: Bifogad formelsamling

Läs mer

Matematisk statistik, Föreläsning 5

Matematisk statistik, Föreläsning 5 Matematisk statistik, Föreläsning 5 Ove Edlund LTU 2011-12-09 Ove Edlund (LTU) Matematisk statistik, Föreläsning 5 2011-12-09 1 / 25 Laboration 4 Jobba i grupper med storlek 2 Ove Edlund (LTU) Matematisk

Läs mer

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson 1 STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson Skriftlig omtentamen på momentet Statistisk dataanalys III (SDA III), 3 högskolepoäng ingående i kursen Undersökningsmetodik och

Läs mer

Fråga nr a b c d 2 D

Fråga nr a b c d 2 D Fråga nr a b c d 1 B 2 D 3 C 4 B 5 B 6 A 7 a) Första kvartilen: 33 b) Medelvärde: 39,29 c) Standardavvikelse: 7,80 d) Pearson measure of skewness 1,07 Beräkningar: L q1 = (7 + 1) 1 4 = 2 29-10 105,8841

Läs mer

F3 Introduktion Stickprov

F3 Introduktion Stickprov Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever

Läs mer

Regressionsanalys av huspriser i Vaxholm

Regressionsanalys av huspriser i Vaxholm Regressionsanalys av huspriser i Vaxholm Rasmus Parkinson Kandidatuppsats i matematisk statistik Bachelor Thesis in Mathematical Statistics Kandidatuppsats 2015:19 Matematisk statistik Juni 2015 www.math.su.se

Läs mer

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng) 1 F1 ordinalskala F2 kvotskala F65A nominalskala F65B kvotskala F81 nominalskala (motivering krävs för full poäng) b) Variabler som används är F2 och F65b. Eftersom det är kvotskala på båda kan vi använda

Läs mer

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson 1 STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson Skriftlig tentamen på momentet Statistisk dataanalys III (SDA III, statistiska metoder) 3 högskolepoäng, ingående i kursen Undersökningsmetodik

Läs mer

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson 1 STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson Skriftlig tentamen på momentet Statistisk dataanalys III (SDA III), 3 högskolepoäng ingående i kursen Undersökningsmetodik och

Läs mer

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013 Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas

Läs mer

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder Föreläsning 3 Statistiska metoder 1 Dagens föreläsning o Samband mellan två kvantitativa variabler Matematiska samband Statistiska samband o Korrelation Svaga och starka samband När beräkna korrelation?

Läs mer

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik och kvantitativa undersökningar, A 15 Hp Vårterminen 2017 Laboration 2 Omprovsuppgift Regressionsanalys, baserat på Sveriges kommuner

Läs mer

Skattning av matchningseffektiviteten. arbetsmarknaden FÖRDJUPNING

Skattning av matchningseffektiviteten. arbetsmarknaden FÖRDJUPNING Lönebildningsrapporten 9 FÖRDJUPNING Skattning av matchningseffektiviteten på den svenska arbetsmarknaden I denna fördjupning analyseras hur matchningseffektiviteten på den svenska arbetsmarknaden har

Läs mer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x

Läs mer

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen Finansiell Statistik (GN, 7,5 hp,, HT 8) Föreläsning 7 Multipel regression (LLL Kap 5) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level course,

Läs mer

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.

Läs mer