Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA

Storlek: px
Starta visningen från sidan:

Download "Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA"

Transkript

1 Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA Statistiska tester bygger alltid på vissa antaganden. Är feltermen homoskedastisk? Är den normalfördelad? Dessa antaganden är faktiskt aldrig uppfyllda i praktiken, åtminstone om vi ser på dem med matematikerns stränga ögon. Men vi behöver inte ligga sömnlösa. Normalfördelningsantagandet är bara kritiskt när vi jobbar med små datamaterial (tacka centrala gränsvärdessatsen!). Och om feltermen är heteroskedastisk så kan vi använda robusta standardfel och kommer då oftast att märka att inget dramatiskt förändrades. Men det finns ett antagande som däremot ofta har stor praktisk betydelse: Antagandet om att vi har dragit ett slumpmässigt sampel. Varför är det här antagandet så viktigt? Delvis handlar det om att samplet då kan antas likna populationen, åtminstone om vi drar ett tillräckligt stort sampel. Men vi behöver inte heller dra ett slumpmässigt sampel för att det här ska vara fallet; detta gäller också många andra samplingstrategier, till exempel klustrade sampel. Det som däremot skiljer slumpmässigt dragna sampel från klustrade sampel är antagandet om att vi gjort oberoende mätningar. Det kan här vara en poäng att repetera idén om oberoende mätningar: Den svenska reality-showen FC Z bygger på idén om att nördar är dåliga fotbollsspelare. Programmet går ut på att en känd fotbollsspelare tränar ett gäng nördar och i slutet spelar de en match mot Djurgården. Men är nördar dåliga fotbollsspelare? Kanske ligger det något i det. Vi har experimenterat med att låta nördar och övriga skjuta mot ett mål på 30 meters avstånd. Data visar antalet träffar (1) och missar (0): Nördarna: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1 Övriga: 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0 Bland nördarna har vi 2 träffar av 22. Bland övriga har vi 11 träffar av 22. Detta ser definitivt ut som en signifikant skillnad. Men låt oss nu säga att bland nördarna var alla skott förutom ett skjutna av Pelle (här utmärkt i rött):

2 Nördarna: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1 Övriga: 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0 Vi ser nu att det är fel att påstå att nördar är sämre på fotboll. Snarare visar experimentet att Pelle är dålig på fotboll. Det här exemplet visar vad som menas med beroende mätningar; att Pelle gjort de första 21 skotten gör dessa mätningar beroende de hänger ihop. Många tycker nog intuitivt att det känns fel att behandla detta datamaterial precis på samma sätt som om alla Pelles skott vore skjutna av olika nördar. Men det är inte bara när vi har flera mätningar för en och samma person som problemet uppstår. I det här kapitlet ska vi börja med att fundera över hur man hanterar klustrade sampel; en samplingstrategi som tenderar att generera just beroende mätningar.

3 22.1 KLUSTRADE SAMPEL OCH TEST GÄLLANDE MEDELVÄRDEN Figuren nedan illustrerar varför vi generellt sett inte kan behandla klustrade sampel på samma sätt som slumpmässigt dragna sampel. Vi kan tänka oss att rutfälten representerar en stad bestående av 25 stadsdelar. Figuren till vänster representerar ett slumpmässigt sampel av stadsborna. I figuren till höger har vi istället slumpmässigt valt ut fem stadsdelar och därefter samlat in data för personerna i de samplade stadsdelarna. Detta är alltså ett klusterurval. Bägge samplen består av 60 observationer, men det slumpmässiga samplet är mer representativt för staden i sin helhet. Det är som om det klustrade samplet egentligen innehöll färre observationer än det gör. Om vi inte beaktar detta så blir resultaten från de statistiska testerna missvisande. Låt oss säga att vi vill mäta genomsnittlig inkomst bland stadsborna. Då vi samplar stadsdelar så kan det hända att vi råkar få med oss en eller ett par stadsdelar där det bara bor rika personer, eller tvärtom, bara fattiga. Eller med andra ord: Vårt estimat (x ) varierar relativt kraftigt från ett sampel till ett annat beroende på vilka stadsdelar vi råkar sampla. Standardfelet bör reflektera detta, men det sker inte automatiskt. Då vi använder default-funktionerna i statistiska programpaket så behandlar programmet data som om det vore slumpmässigt draget; standardfelet blir då generellt sett för litet. Det kan vara värt att notera att det inte är något fel på vårt estimat (x ). Stickprovsmedelvärdet är fortfarande en väntevärdesriktig estimator, givet att vi samplat stadsdelarna slumpmässigt.

4 Exempel: Vi har en stad och från denna samplar vi slumpmässigt tio stadsdelar. Sen samlar vi in inkomstdata för personerna som bor i dessa. Vissa stadsdelar är större än andra, men i genomsnitt bor det 20 personer i varje stadsdel. Totalt består samplet alltså av 200 personer. Nedan visas ett utdrag av data: id id Inkomst (stadsdel) (inom stadsdelen) Vi vill nu estimera genomsnittlig inkomst i staden (µ). I populationen gäller att µ = 2000 (detta är ett fiktivt dataset). Men hur ser det ut i samplet? Tabellen nedan visar resultatet: Genomsnittsinkomsten är ~2103 euro och konfidensintervallet går från ~2031 till ~2176 euro. Som du märker så innehåller konfidensintervallet inte sanningen (µ = 2000). Det här beror inte bara på slumpen; problemet är att vi ignorerat klustringen. Det enklaste sättet att hantera klustrade sampel är att beräkna något som kallas för kluster-robusta standardfel eller klustrade standardfel.

5 Klustrade standardfel Ett klustrat standardfel är ett standardfel som beaktar att observationerna inom ett kluster korrelerar. I det här exemplet vill vi beakta att inkomsterna inom en stadsdel korrelerar 1. Nedan visas resultatet då vi använder klustrade standardfel i STATA: Vi kan jämföra detta med det förra resultatet. Medelvärdet är samma (~2103) men standardfelet har mer än fördubblats (från ~37 till ~84). Detta ger oss ett bredare konfidensintervall som nu innefattar sanningen (µ = 2000) precis som vi skulle förvänta oss. Klustrade standardfel är ett sätt att hantera klustringen. En annan populär metod är det som kallas för slumpeffektsestimatorn: Slumpeffekter (eng. random effects) Utskriften nedan visar resultatet då vi använder det som kallas för slumpeffekts-estimatorn. 2 Här har vi kört en regression med bara ett intercept och inga oberoende variabler; interceptet blir då estimatet för µ. 1 Tänk dig att vi samplar en massa stadsdelar och två personer från varje stadsdel. Sen ritar vi upp data i ett spridningsdiagram där vi lägger den ena personens inkomst på x-axeln och den andras på y-axeln. Hur skulle ett sådant spridningsdiagram se ut? Jo, tänk dig nu att vissa stadsdelar är rika och andra fattiga. I de rika stadsdelarna bor det mestadels rika personer och i de fattiga mestadels fattiga. Vi skulle då se en positiv korrelation i vårt spridningsdiagram: Om en person är rik så gäller detta sannolikt också den andra, och tvärtom. 2 Det finns egentligen inget riktigt etablerat namn på svenska, men slumpeffekts-estimatorn används ibland. Det engelska namnet är betydligt kändare: Random effects estimator

6 Estimatet ligger på ~2091 euro vilket skiljer sig lite från tidigare. Varför? Jo, slumpeffekts-estimatorn viktar observationerna annorlunda än ett enkelt medelvärde. En stor stadsdel får större tyngd än en liten, men korrelationen i inkomster inom stadsdelar spelar också roll. Låt oss fundera lite mer på vad det här betyder. I tabellen ovan ser vi en korrelationskoefficient (rho = 0,43). Denna visar att 43 procent av variationen i inkomster kan förklaras av klyftorna mellan olika stadsdelar. För att se varifrån den här siffran kommer så är det användbart att utgå från en modell som beskriver data: Inkomst ij = μ + v ij, där v ij = u i + ε ij där i = 1, 2,, 10 och j = 1, 2,, J i i är ett index för stadsdel (stadsdel 1, 2,..., 10) och j är ett index för individer (med 20 personer från en stadsdel så har vi j = 1, 2,..., 20 för den stadsdelen). Genomsnittsinkomsten ligger på 2000 euro (μ = 2000) och v ij är feltermen som visar hur mycket en persons inkomst avviker från Vi kan dela in feltermen i två komponenter; en som är specifik för varje stadsdel (u) och en som är specifik för varje individ inom den stadsdelen (ε). Anta att en viss stadsdel har en genomsnittsinkomst på 2100 euro och att en viss person från denna stadsdel tjänar 2150 euro. För denna person har vi att u = 100 och ε = 50.

7 Man kan nu visa att korrelationen i inkomster mellan två slumpmässigt utvalda personer från samma stadsdel ges av 3 : Corr(Inkomst ia, Inkomst ib ) = Corr(v ia, v ib ) = σ u 2 σ u 2 + σ ε 2 Här har vi indexerat den första personen med a och den andra med b. σ u 2 är variansen i inkomster mellan stadsdelar; σ ε 2 är variansen i inkomster inom stadsdelar. Den här korrelationen beskriver hur stor andel av den totala variationen i inkomster (σ u 2 + σ ε 2 ) som kan förklaras av variationen mellan stadsdelar (σ u 2 ). Man kallar detta för inomklasskorrelationen (engelska: intraclass correlation, ICC). I det här exemplet var inomklasskorrelationen 0,43: 2 Corr(v s u ia, v ib ) = s 2 u + s2 = 345,6 2 ε 345, ,3 2 0,43 Den här korrelationen lär oss om hur inkomsterna är fördelade över invånarna i den här staden. Finns det stora klyftor i inkomster mellan stadsdelar (Manhattan kontra Bronx) eller hittas variationen främst mellan individer? Det finns här två extremfall: Inomklasskorrelationen är 0 och inomklasskorrelationen är 1. 4 Om inomklasskorrelationen är 0 så betyder det att det inte finns några skillnader i inkomster mellan olika 3 Det här uttrycket gäller givet vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel stadsdelar (iid), och att personerna från en sådan stadsdel kan betraktas som ett slumpmässigt urval (iid) där variansen i inkomster är lika stor för varje stadsdel. 4 Inomklasskorrelationen kan inte bli negativ; vi beräknar ju den som en kvot mellan varianser.

8 stadsdelar. Vårt slumpeffekts-estimat blir då ett enkelt stickprovsmedelvärde. Om inomklasskorrelationen är 1 så betyder det att alla individer från samma stadsdel har identiska inkomster. Vårt slumpeffekts-estimat blir då inkomsten för en genomsnittlig stadsdel. Varifrån kommer namnet (slumpeffekter)? Jo, med en slumpeffekt så avser man den stadsdelsspecifika komponenten av feltermen, dvs. u i i modellen nedan: Inkomst ij = μ + v ij, där v ij = u i + ε ij När vi samplar en stadsdel så är det slumpen som avgör om stadsdelen i fråga är rik eller fattig beroende på vilken stadsdel vi råkar sampla. Därför är u i en slumpmässig avvikelse från medelvärdet (μ) eller en slumpeffekt. 5 5 För att vara korrekt så är slumpeffekts-estimatorn egentligen en familj av estimatorer. Det finns olika sätt att beräkna inomklasskorrelationen vilket i sin tur kommer att påverka estimatet för μ. En sådan metod förkortas GLS (från engelskans generalized least squares). En annan sådan metod förkortas MLE (från engelskans maximum likelihood estimator). Regressionsutskriften ovan visar att vi använt GLS vilket är default-funktionen i STATA.

9 22.2 REGRESSIONER MED KLUSTRADE SAMPEL Innan vi ser på hur man kan köra regressioner med klustrade sampel så kan det vara en idé att göra en uppdelning mellan två typer av regressionsmodeller: behandling på gruppnivå och behandling på individnivå. Vi ser bäst skillnaden genom ett exempel. Exempel: Är erfarna lärare bättre? Vi vill studera denna fråga och samplar 100 klasser i årskurs nio, sedan samlar vi in data för eleverna i de samplade klasserna. För varje elev mäter vi resultatet på ett nationellt matteprov samt mattelärarens arbetserfarenhet. I regressionsmodellen nedan så är erfaren en dummy som antar värdet 1 om läraren har minst fem års erfarenhet och annars värdet 0. Utfallsvariabeln (poäng) mäter elevens resultat på matteprovet. i indexerar klasser och j elever. poäng ij = β 0 + β 1 erfaren i + v ij där v ij = u i + ε ij I det här fallet mäts behandlingen på gruppnivå; alla elever i samma klass har samma lärare; det finns ingen variation i lärarens erfarenhet inom klasser (därför har vi bara ett index, i, för den här variabeln). Men anta istället att syftet är att mäta om det finns en könsskillnad i matteresultat: poäng ij = β 0 + β 1 flicka ij + v ij där v ij = u i + ε ij Behandlingen mäts nu på individnivå, dvs. det finns både flickor och pojkar inom en och samma klass. Behandling på gruppnivå Då behandlingen mäts på gruppnivå så använder vi samma metoder som tidigare; OLS med klustrade standardfel eller slumpeffekts-estimatorn. Exempel forts: Är erfarna lärare bättre? Tabellen nedan visar resultatet då vi använder (1) OLS med konventionella standardfel, (2) OLS med klustrade standardfel och (3) slumpeffekts-estimatorn (RE).

10 (1) (2) (3) VARIABLER OLS OLS + RE klustrat Erfaren 6.967*** 6.967** 7.513*** (0.831) (2.739) (2.420) Intercept 69.00*** 69.00*** 68.31*** (0.707) (2.418) (2.054) Observationer 1,500 1,500 1,500 R Antal klasser 100 Standardfel inom parenteser *** p<0.01, ** p<0.05, * p<0.1 Som du ser så är estimaten ungefär lika stora i alla tre kolumner (och identiska i kolumn 1 och 2). Den stora skillnaden ligger i standardfelen; dessa är på tok för små då vi använder OLS med konventionella standardfel (1). Hur tolkar vi estimaten? Estimaten tolkas på samma sätt oavsett estimator: Matteresultatet är i snitt ~7 poäng högre då läraren är erfaren. Slumpeffekts-estimatorn ger dock ett lite annorlunda estimat vilket beror på viktningen. Inget hindrar oss här från att kontrollera för andra x-variabler. I tabellen nedan visas resultaten då vi kontrollerat för ln(inkomst) (genomsnittlig inkomst i kommunen, mätt på en loggad skala) och elever (antalet elever på klassen). Vi har också inkluderat två variabler mätta på elevnivå: flicka (en dummy för flickor) och betyg (elevens snittbetyg i andra ämnen än matematik). Återigen blir de konventionella standardfelen alldeles för små, åtminstone för de variabler som mäts på klassnivå.

11 (1) (2) (3) VARIABLER OLS OLS + RE klustrat Klassnivå: Erfaren 3.471*** 3.471*** 3.407** (0.643) (1.215) (1.357) Ln(inkomst) 27.65*** 27.65*** 28.10*** (0.861) (2.690) (1.859) Elever ** (0.0726) (0.180) (0.152) Elevnivå: Flicka (0.568) (0.565) (0.508) Betyg 2.825*** 2.825*** 2.787*** (0.409) (0.335) (0.365) Intercept *** *** *** (7.203) (20.66) (14.07) Observationer 1,500 1,500 1,500 R Antal klasser 100 Standardfel inom parenteser *** p<0.01, ** p<0.05, * p<0.1 Låt oss titta närmare på resultatet från modellen som använder slumpeffekter (RE). I tabellen nedan har vi estimerat tre modeller: (1) En modell som bara innehåller ett intercept, (2) en modell som inkluderar alla variabler på klassnivå och (3) en modell som dessutom inkluderar kontrollvariablerna på elevnivå.

12 (1) (2) (3) VARIABLES RE RE RE Klassnivå: Erfaren 3.478** 3.407** (1.357) (1.357) Ln(inkomst) 27.90*** 28.10*** (1.860) (1.859) Elever (0.152) (0.152) Elevnivå: Flicka (0.508) Betyg 2.787*** (0.365) Intercept 73.72*** *** *** (1.133) (13.77) (14.07) Observations 1,500 1,500 1,500 Antal klasser ICC Standardfel inom parenteser *** p<0.01, ** p<0.05, * p<0.1 Notera att inomklasskorrelationen (ICC) varierar mellan specifikationerna. I den första modellen (1) är inomklasskorrelationen 0,56: 56 procent av variationen i poäng kan förklaras av skillnader mellan klasser och resten förklaras av skillnader mellan elever som tillhör samma klass. I nästa kolumn (2) inkluderar vi de oberoende variablerna som mäts på klassnivå. Inomklasskorrelationen sjunker nu till 0,23; efter att vi inkluderat lärarens erfarenhet, hur rik kommunen är och antalet elever i klassen så kan 23 procent av den resterande variationen i poäng förklaras av skillnader mellan klasser. Ju fler variabler vi inkluderar på klassnivå desto lägre blir inomklasskorrelationen, dvs. vi har då förklarat varför vissa klasser klarar sig bättre än andra och då kvarstår mindre övriga svängningar mellan klasserna. I den sista kolumnen (3) har vi inkluderat kontrollvariablerna som mäts på elevnivå vilket här gör att inomklasskorrelationen återigen ökar marginellt (från 0,23 till 0,24). Inomklasskorrelationen beskriver alltså hur stor andel av den oförklarade variationen i antalet poäng som kan härledas till

13 skillnader mellan klasser kontra skillnader mellan elever inom samma klass. Låt oss ännu se på hur resultatet från den sista regressionen (3) kan se ut i ett statistiskt programpaket (STATA): Från regressionsutskriften ser vi att regressionsmodellen har signifikant förklaringsstyrka: Wald chi2 = 319,19; p-värdet = 0,000. Wald chi2 är alltså motsvarigheten till F-testet då vi använder OLS. Vi ser också att antalet elever i klassen inte har signifikant effekt på poängresultatet: z = -0,90; p-värdet = 0,371. Z-värdet är alltså motsvarigheten till t-värdet då vi använder OLS. [Notering: Data från exemplet ovan är fejkat.] Klustrade standardfel eller slumpeffekts-estimatorn? Vi har sett två olika metoder för att hantera klustring: OLS med klustrade standardfel och slumpeffekts-estimatorn. Så vilken metod är bättre? I praktiken har det sällan någon större betydelse. En fördel med klustrade standardfel är att de samtidigt hanterar eventuell heteroskedasticitet. Slumpeffektsestimatorn å andra sidan är generellt sett effektivare, vilket betyder att vi tenderar få något mer träffsäkra estimat med denna metod. Men det finns heller inget som hindrar oss från att kombinera bägge metoderna, dvs. använda slumpeffekts-

14 estimatorn tillsammans med klustrade standardfel. Detta kan ses som ett sätt att täta igen alla möjliga hål. Vi använder slumpeffekts-estimatorn som potentiellt är effektivare än OLS, men om våra antaganden om feltermen inte riktigt stämmer så hanteras detta av de klustrade standardfelen. Behandling på observationsnivå fixa effekter Om behandlingen däremot sker på observationsnivå så finns det ytterligare ett tredje sätt att hantera klustringen: Fixa effekter. Exempel forts: Anta i exemplet ovan att vårt mål är att mäta könsskillnaden i matteresultat: poäng ij = β 0 + β 1 flicka ij + v ij där v ij = u i + ε ij x-variabeln av intresse (flicka) mäts nu på elevnivå. Ett alternativt sätt att hantera klustringen är då att estimera en regression med klassfixa effekter; vi inkluderar då en dummyvariabel för varje klass, vilket i det här fallet betyder 99 dummyvariabler (där en av klasserna blir referens): poäng ij = β 0 + β 1 flicka ij + klassfixa effekter + ε ij Nedan visas resultatet i STATA: Koefficienten för flicka är ~0,4: Flickor snittar ~0,4 poäng högre än pojkar på matteprovet, men skillnaden är inte signifikant (t = 0,70, p-värdet = 0,481). (Även om STATA inte skriver ut

15 klasseffekterna i regressionsutskriften, så har de ändå tagits med.) I regressionen nedan har vi ännu inkluderat de andra oberoende variablerna: Om läraren är erfaren eller inte, hur rik kommunen är (linkomst), antalet elever på klassen och elevens genomsnittliga betyg i andra ämnen: Notera här att STATA slänger bort tre x-variabler: erfaren, linkomst och elever. Det här är alla sådana variabler som mäts på klassnivå. Varför har STATA slängt dessa? Jo, vi har ju kontrollerat för vilken klass en elev går i. När vi mäter effekten av att vara flicka så betyder det att vi ställer oss frågan: Om jag jämför personer som går i samma klass, ser jag då att flickor i snitt presterar bättre eller sämre än pojkar? Och när vi mäter effekten av att ha en erfaren lärare så ställer vi oss frågan: Om jag jämför personer som går i samma klass, ser jag då att de med en erfaren lärare klarar sig bättre eller sämre än de med en oerfaren? Men det här blir ju en omöjlig fråga att besvara alla som går i samma klass har samma lärare! Därför kan vi inte mäta den här effekten, eller effekten av någon sådan variabel som har samma värde för alla som går i samma klass. Det här är ett exempel på det som kallas för perfekt multikollinearitet: Vi kan inte identifiera en viss effekt eftersom det inte finns någon variation i den variabeln, efter att vi kontrollerat för en eller flera andra variabler. I det här

16 exemplet finns det, till exempel, ingen variation i antalet elever i klassen då vi jämför elever från samma klass. Är det då ett problem att vi inte kan kontrollera för erfaren, linkomst och elever? Nej. Genom att inkludera klassfixa effekter så kontrollerar vi ändå indirekt för alla dessa variabler: Om vi jämför elever från samma klass så jämför vi samtidigt elever med samma lärare, elever som kommer från lika rika kommuner och som går i lika stora klasser. Vi kontrollerar alltså för allt sådant som är gemensamt för alla elever som går i samma klass. Det här är också den största fördelen med att använda just fixa effekter: Vi kontrollerar då automatiskt för allt sådant som är konstant inom klasser. Eller med andra ord: Vi utnyttjar bara variationen inom klasser. Det här är också anledningen till att fixa effekter är populärt när man jobbar med den här typen av data. Finns det då någon nackdel med att använda fixa effekter? Ja, ibland kan kostnaden bli ett stort standardfel. Anta i det här exemplet att det bara finns lite variation i kön inom klasser. Det här knappast fallet i Finland, men i många andra länder är det vanligt med könssegregerade klassrum. I det fallet skulle vi antagligen få ett stort standardfel: Det finns helt enkelt inte särskilt mycket variation i kön inom klassrummen (och det är ju den variationen vi utnyttjar när vi mäter könsskillnaden i matteresultat). I så fall kan man argumentera att slumpeffektsestimatorn eller OLS med klustrade standardfel är att föredra. Det går också bra att kombinera fixa effekter med klustrade standardfel. På så vis får vi ett standardardfel som dessutom hanterar eventuell heteroskedasticitet ATT ANVÄNDA GRUPPEN SOM SIN EGEN KONTROLL PANELDATA -

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population

Läs mer

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information

Läs mer

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER När vi mäter en effekt i data så vill vi ofta se om denna skiljer sig mellan olika delgrupper. Vi kanske testar effekten av ett

Läs mer

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT

Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT Regressionsanalys handlar om att estimera hur medelvärdet för en variabel (y) varierar med en eller flera oberoende variabler (x). Exempel: Hur

Läs mer

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två

Läs mer

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; () Mixed effect models; (3)

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 10

ÖVNINGSUPPGIFTER KAPITEL 10 ÖVNINGSUPPGIFTER KAPITEL 10 För vissa uppgifter behöver du en tabell över den standardiserade normalfördelningen. Se här. SAMPLING 1. Nedan ges beskrivningar av fyra sampel. Ange i respektive fall om detta

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 4

ÖVNINGSUPPGIFTER KAPITEL 4 ÖVNINGSUPPGIFTER KAPITEL 4 REGRESSIONSLINJEN: NIVÅ OCH LUTNING 1. En av regressionslinjerna nedan beskrivs av ekvationen y = 20 + 2x; en annan av ekvationen y = 80 x; en tredje av ekvationen y = 20 + 3x

Läs mer

, s a. , s b. personer från Alingsås och n b

, s a. , s b. personer från Alingsås och n b Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen

Läs mer

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; (2) Mixed effect models; (3)

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 8

ÖVNINGSUPPGIFTER KAPITEL 8 ÖVNINGSUPPGIFTER KAPITEL 8 SAMPEL KONTRA POPULATION 1. Nedan beskrivs fyra frågeställningar. Ange om populationen är ändlig eller oändlig i respektive fall. Om ändlig, beskriv också vem eller vad som ingår

Läs mer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 10

ÖVNINGSUPPGIFTER KAPITEL 10 ÖVNINGSUPPGIFTER KAPITEL 10 För vissa uppgifter behöver du en tabell över den standardiserade normalfördelningen. Se här. SAMPLING 1. Nedan ges beskrivningar av fyra sampel. Ange i respektive fall om detta

Läs mer

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER 1. Regressionen nedan visar hur kvinnors arbetsmarknadsdeltagande varierar beroende på om de har småbarn eller inte. Datamaterialet gäller 753 amerikanska kvinnor

Läs mer

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD 6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller

Läs mer

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER

ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER 1. Regressionen nedan visar hur kvinnors arbetsmarknadsdeltagande varierar beroende på om de har småbarn eller inte. Datamaterialet gäller 753 amerikanska kvinnor

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 10

ÖVNINGSUPPGIFTER KAPITEL 10 ÖVNINGSUPPGIFTER KAPITEL 10 För vissa uppgifter behöver du en tabell över den standardiserade normalfördelningen. Se här. SAMPLING 1. Nedan ges beskrivningar av fyra sampel. Ange i respektive fall om detta

Läs mer

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018 Statistiska analysmetoder, en introduktion Fördjupad forskningsmetodik, allmän del Våren 2018 Vad är statistisk dataanalys? Analys och tolkning av kvantitativa data -> förutsätter numeriskt datamaterial

Läs mer

F3 Introduktion Stickprov

F3 Introduktion Stickprov Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever

Läs mer

InStat Exempel 4 Korrelation och Regression

InStat Exempel 4 Korrelation och Regression InStat Exempel 4 Korrelation och Regression Vi ska analysera ett datamaterial som innehåller information om kön, längd och vikt för 2000 personer. Materialet är jämnt fördelat mellan könen (1000 män och

Läs mer

F9 SAMPLINGFÖRDELNINGAR (NCT

F9 SAMPLINGFÖRDELNINGAR (NCT Stat. teori gk, ht 006, JW F9 SAMPLINGFÖRDELNINGAR (NCT 7.1-7.4) Ordlista till NCT Sample Population Simple random sampling Sampling distribution Sample mean Standard error The central limit theorem Proportion

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 6

ÖVNINGSUPPGIFTER KAPITEL 6 ÖVNINGSUPPGIFTER KAPITEL 6 ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER 1. Regressionen nedan visar hur kvinnors arbetsmarknadsdeltagande varierar beroende på om de har småbarn eller inte. Datamaterialet

Läs mer

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar Föreläsning 6 (kap 6.1, 6.3, 7.1-7.3): Punktskattningar Marina Axelson-Fisk 4 maj, 2016 Stickprov (sample) Idag: Stickprovsmedelvärde och varians Statistika (statistic) Punktskattning (point estimation)

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 2

ÖVNINGSUPPGIFTER KAPITEL 2 ÖVNINGSUPPGIFTER KAPITEL 2 DATAMATRISEN 1. Datamatrisen nedan visar ett utdrag av ett datamaterial för USA:s 50 stater. Stat Befolkningsmängd Inkomst Marijuana Procent män (miljoner) per person lagligt?

Läs mer

HYPOTESPRÖVNING sysselsättning

HYPOTESPRÖVNING sysselsättning 0 självmord 20 40 60 HYPOTESPRÖVNING 4. Se spridningsdiagrammen nedan (A, B och C). Alla tre samband har samma korrelation och samma regressionslinje (r = 0,10, b = 0,15). Vi vill testa om sambandet mellan

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 12

ÖVNINGSUPPGIFTER KAPITEL 12 ÖVNINGSUPPGIFTER KAPITEL 12 ANOVA I EN MULTIPEL REGRESSION 1. I en amerikansk studie samlade man in data för 601 gifta personer, och mätte hur många utomäktenskapliga affärer de haft under det senaste

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 13

ÖVNINGSUPPGIFTER KAPITEL 13 ÖVNINGSUPPGIFTER KAPITEL 13 KORSTABELLER 1. Nedan visas tre korstabeller utifrån tre olika dataset (A, B och C). Korstabellerna beskriver sambandet mellan kön och vilken hand man skriver med (vänster,

Läs mer

Analytisk statistik. Tony Pansell, optiker Universitetslektor

Analytisk statistik. Tony Pansell, optiker Universitetslektor Analytisk statistik Tony Pansell, optiker Universitetslektor Analytisk statistik Att dra slutsatser från det insamlade materialet. Två metoder: 1. att generalisera från en mindre grupp mot en större grupp

Läs mer

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad

Läs mer

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I

Läs mer

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl 08.15-13.15 Tillåtna hjälpmedel: Bifogad formelsamling, approximationsschema och tabellsamling (dessa skall returneras). Egen

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga smetoder Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-11 Några övriga smetoder OSU-UÅ (med eller utan stratifiering) förutsätter

Läs mer

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.

Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. PANELDATA Poolade data över tiden och över tvärsnittet Alternativ 1: Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. Oberoende stickprov dragna från stora populationer vid olika tidpunkter.

Läs mer

MVE051/MSG Föreläsning 14

MVE051/MSG Föreläsning 14 MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 2

ÖVNINGSUPPGIFTER KAPITEL 2 ÖVNINGSUPPGIFTER KAPITEL 2 DATAMATRISEN 1. Datamatrisen nedan visar ett utdrag av ett datamaterial för USA:s 50 stater. Stat Befolkningsmängd Inkomst Marijuana Procent män (miljoner) per person lagligt?

Läs mer

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts

Läs mer

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år). Matematikcentrum Matematisk statistik MASB11: BIOSTATISTISK GRUNDKURS DATORLABORATION 4, 21 MAJ 2018 REGRESSION OCH FORTSÄTTNING PÅ MINIPROJEKT II Syfte Syftet med dagens laboration är att du ska bekanta

Läs mer

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1(6) PCA/MIH Johan Löfgren 2016-11-10 Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1 Inledning Sveriges kommuner och landsting (SKL) presenterar varje år statistik över elevprestationer

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 9

ÖVNINGSUPPGIFTER KAPITEL 9 ÖVNINGSUPPGIFTER KAPITEL 9 STOKASTISKA VARIABLER 1. Ange om följande stokastiska variabler är diskreta eller kontinuerliga: a. X = En slumpmässigt utvald person ur populationen är arbetslös, där x antar

Läs mer

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens Analytisk statistik Tony Pansell, Leg optiker Docent, Universitetslektor Analytisk statistik Att dra slutsatser från den insamlade datan. Två metoder:. att generalisera från en mindre grupp mot en större

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 3

ÖVNINGSUPPGIFTER KAPITEL 3 ÖVNINGSUPPGIFTER KAPITEL 3 SAMBAND 1. Nedan ges beskrivningar av tre olika datamaterial. a. I kyrkbänkarna har snittåldern stigit betänkligt under de senaste decennierna, men är unga människor verkligen

Läs mer

Multipel Regressionsmodellen

Multipel Regressionsmodellen Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b

Läs mer

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då

Läs mer

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Föreläsning 4. Kapitel 5, sid Stickprovsteori Föreläsning 4 Kapitel 5, sid 127-152 Stickprovsteori 2 Agenda Stickprovsteori Väntevärdesriktiga skattningar Samplingfördelningar Stora talens lag, Centrala gränsvärdessatsen 3 Statistisk inferens Population:

Läs mer

Resursfördelningsmodellen

Resursfördelningsmodellen PCA/MIH Johan Löfgren Rapport 25-6-26 (6) Resursfördelningsmodellen Växjös skolor våren 25 Inledning Underlag för analyserna utgörs av ett register som innehåller elever som gått ut årskurs nio 2 24. Registret

Läs mer

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att

Läs mer

Medicinsk statistik II

Medicinsk statistik II Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning

Läs mer

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4 MÄLARDALENS HÖGSKOLA Akademin för hållbar samhälls- och teknikutveckling Statistik Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp Tillåtna hjälpmedel: Miniräknare (Formelsamling bifogas

Läs mer

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar) 1. a) F1(Sysselsättning) F2 (Ålder) F3 (Kön) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar) nominalskala kvotskala nominalskala ordinalskala ordinalskala b) En möjlighet är att beräkna

Läs mer

Linjär regressionsanalys. Wieland Wermke

Linjär regressionsanalys. Wieland Wermke + Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 6

ÖVNINGSUPPGIFTER KAPITEL 6 ÖVNINGSUPPGIFTER KAPITEL 6 ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER 1. Regressionen nedan visar hur kvinnors arbetsmarknadsdeltagande varierar beroende på om de har småbarn eller inte. Datamaterialet

Läs mer

Kapitel 19: NATURLIGA EXPERIMENT OCH INSTRUMENT

Kapitel 19: NATURLIGA EXPERIMENT OCH INSTRUMENT Kapitel 19: NATURLIGA EXPERIMENT OCH INSTRUMENT Är höga familjeinkomster ett skydd mot panikångest bland barn? Vi har studerat ett hundratal barn och funnit att panikångest är vanligare bland barn till

Läs mer

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015 MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Lösningsförslag till tentamen på Statistik och kvantitativa undersökningar STA100, 15 hp Fredagen den 13 e mars 015 1 a 13 och 14

Läs mer

Appendix A (till kapitel 2) Köp av verksamhet från privata företag som andel av netto kostnader, samtliga landsting, 2001 2012. Se följande uppslag.

Appendix A (till kapitel 2) Köp av verksamhet från privata företag som andel av netto kostnader, samtliga landsting, 2001 2012. Se följande uppslag. Appendix A (till kapitel 2) Köp av verksamhet från privata företag som andel av netto kostnader, samtliga landsting, 1 12. Se följande uppslag. 233 Blekinge Dalarna 1 6 12 1 6 12 Gävleborg Halland 1 6

Läs mer

Tentamen Metod C vid Uppsala universitet, , kl

Tentamen Metod C vid Uppsala universitet, , kl Tentamen Metod C vid Uppsala universitet, 170503, kl. 08.00-12.00 Anvisningar Av rättningspraktiska skäl skall var och en av de tre huvudfrågorna besvaras på separata pappersark. Börja alltså på ett nytt

Läs mer

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1. En rät linje ett enkelt samband Y β 1 Lutning (slope) β 0 Skärning (intercept) 1 Y= β 0 + β 1 X X En rät linje + slumpbrus Y Y= β 0 + β 1 X + brus brus ~ N(0,σ) X Observationspar (X i,y i ) Y Ökar/minskar

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 9

ÖVNINGSUPPGIFTER KAPITEL 9 ÖVNINGSUPPGIFTER KAPITEL 9 STOKASTISKA VARIABLER 1. Ange om följande stokastiska variabler är diskreta eller kontinuerliga: a. X = En slumpmässigt utvald person ur populationen är arbetslös, där x antar

Läs mer

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden

Läs mer

Korrelation och autokorrelation

Korrelation och autokorrelation Korrelation och autokorrelation Låt oss begrunda uttrycket r = i=1 (x i x) (y i y) n i=1 (x i x) 2 n. i=1 (y i y) 2 De kvadratsummor kring de aritmetiska medelvärdena som står i nämnaren är alltid positiva.

Läs mer

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3 Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest

Läs mer

ÖVNINGSUPPGIFTER KAPITEL 9

ÖVNINGSUPPGIFTER KAPITEL 9 ÖVNINGSUPPGIFTER KAPITEL 9 STOKASTISKA VARIABLER 1. Ange om följande stokastiska variabler är diskreta eller kontinuerliga: a. X = En slumpmässigt utvald person ur populationen är arbetslös, där x antar

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal

Läs mer

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är

Läs mer

Verksamhetsutvärdering av Mattecentrum

Verksamhetsutvärdering av Mattecentrum Verksamhetsutvärdering av Mattecentrum April 2016 www.numbersanalytics.se info@numbersanalytics.se Presskontakt: Oskar Eriksson, 0732 096657 oskar@numbersanalytics.se INNEHÅLLSFÖRTECKNING Inledning...

Läs mer

Repetitionsföreläsning

Repetitionsföreläsning Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning

Läs mer

Att välja statistisk metod

Att välja statistisk metod Att välja statistisk metod en översikt anpassad till kursen: Statistik och kvantitativa undersökningar 15 HP Vårterminen 2018 Lars Bohlin Innehåll Val av statistisk metod.... 2 1. Undersökning av en variabel...

Läs mer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande

Läs mer

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 1 Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 Dessa instuderingsfrågor är främst tänkta att stämma överens med innehållet i föreläsningarna,

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

OBS! Vi har nya rutiner.

OBS! Vi har nya rutiner. KOD: Kurskod: PC1203 och PC1244 Kursnamn: Kognitiv psykologi och metod och Kognitiv psykologi och utvecklingspsykologi Provmoment: Metod Ansvarig lärare: Linda Hassing Tentamensdatum: 2012-11-17 Tillåtna

Läs mer

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder Föreläsning 9 Statistiska metoder 1 Dagens föreläsning o Regression Regressionsmodell Signifikant lutning? Prognoser Konfidensintervall Prediktionsintervall Tolka Minitab-utskrifter o Sammanfattning Exempel

Läs mer

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013 Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas

Läs mer

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1 Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet November 4, 2013 Wänström (Linköpings universitet) F1 November 4, 2013 1 / 25 Statistik B, 8 hp

Läs mer

STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA STATISTISK ANALYS AV KOMPLEXA DATA HIERARKISKA DATA Linda Wänström Linköpings universitet 25 November Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 1 / 53 Regressionsmodell för icke-hierarkiska

Läs mer

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 2 Statistik; teori och tillämpning i biologi 1 Normalfördelning Samplingfördelningar och CGS Fördelning för en stickprovsstatistika (t.ex. medelvärde) kallas samplingfördelning. I teorin är

Läs mer

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en

Läs mer

Statistiska samband: regression och korrelation

Statistiska samband: regression och korrelation Statistiska samband: regression och korrelation Vi ska nu gå igenom något som kallas regressionsanalys och som innebär att man identifierar sambandet mellan en beroende variabel (x) och en oberoende variabel

Läs mer

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012 Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov

Läs mer

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Analys av medelvärden Jenny Selander jenny.selander@ki.se 524 800 29, plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Jenny Selander, Kvant. metoder, FHV T1 december 20111 Innehåll Normalfördelningen

Läs mer

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c) 1a) F1 och F3 nominalskala, enbart olika saker F kvotskala, Riktiga siffror, 0 betyder att man inte finns och avståndet mellan två värden är exakt definierat F4 och F5 ordinalskala, vi kan ordna svaren

Läs mer

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts. Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:

Läs mer

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys) Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10 Laboration Regressionsanalys (Sambandsanalys) Grupp A: 2010-11-24, 13.15 15.00 Grupp B: 2010-11-24, 15.15 17.00 Grupp C: 2010-11-25,

Läs mer

Föreläsning 12: Linjär regression

Föreläsning 12: Linjär regression Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017 Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera

Läs mer

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar

Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar ICKE-LINJÄRA MODELLER Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Y i = 1 + 2 X 2i + u i Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar cov(x i,u i )

Läs mer

STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA Linda Wänström Linköpings universitet 9 December Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 9 December 1 / 43 Longitudinella data

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Tentamen för kursen. Linjära statistiska modeller. 22 februari STOCKHOLMS UIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 februari 2017 9 14 Examinator: Ola Hössjer, tel. 070/672 12 18, ola@math.su.se Återlämning: Meddelas via kurshemsida

Läs mer

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Analytisk statistik. Mattias Nilsson Benfatto, PhD. Analytisk statistik Mattias Nilsson Benfatto, PhD Mattias.nilsson@ki.se Beskrivande statistik kort repetition Centralmått Spridningsmått Normalfördelning Konfidensintervall Korrelation Analytisk statistik

Läs mer

Obligatorisk uppgift, del 1

Obligatorisk uppgift, del 1 Obligatorisk uppgift, del 1 Uppgiften består av tre sannolikhetsproblem, som skall lösas med hjälp av miniräknare och tabellsamling. 1. Vid tillverkning av en produkt är felfrekvensen 0,02, dvs sannolikheten

Läs mer

FÖRELÄSNING 8:

FÖRELÄSNING 8: FÖRELÄSNING 8: 016-05-17 LÄRANDEMÅL Konfidensintervall för väntevärdet då variansen är okänd T-fördelningen Goodness of fit-test χ -fördelningen Hypotestest Signifikansgrad Samla in data Sammanställ data

Läs mer

Finansiell statistik. Multipel regression. 4 maj 2011

Finansiell statistik. Multipel regression. 4 maj 2011 Finansiell statistik Föreläsning 4 Multipel regression Jörgen Säve-Söderbergh 4 maj 2011 Samband mellan variabler Vi människor misstänker ofta att det finns många variabler som påverkar den variabel vi

Läs mer

Skolkvalitet, lönsamhet och betygsinflation

Skolkvalitet, lönsamhet och betygsinflation Skolkvalitet, lönsamhet och betygsinflation Gabriel Heller-Sahlgren London School of Economics Institutet för Näringslivsforskning Henrik Jordahl Institutet för Näringslivsforskning 2 juli 2018 Innehåll

Läs mer

import totalt, mkr index 85,23 100,00 107,36 103,76

import totalt, mkr index 85,23 100,00 107,36 103,76 1. a) F1 Kvotskala (riktiga siffror. Skillnaden mellan 3 och 5 månader är lika som skillnaden mellan 5 och 7 månader. 0 betyder att man inte haft kontakt med innovations Stockholm.) F2 Nominalskala (ingen

Läs mer

Studietyper, inferens och konfidensintervall

Studietyper, inferens och konfidensintervall Studietyper, inferens och konfidensintervall Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Studietyper Experimentella studier Innebär

Läs mer

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng) 1 F1 ordinalskala F2 kvotskala F65A nominalskala F65B kvotskala F81 nominalskala (motivering krävs för full poäng) b) Variabler som används är F2 och F65b. Eftersom det är kvotskala på båda kan vi använda

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller: Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen TT091A TGMAS15h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 30 Maj Tid: 9-13 Hjälpmedel: Miniräknare (nollställd) samt allmänspråklig

Läs mer

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Tentamen för kursen. Linjära statistiska modeller. 13 januari STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 13 januari 2017 9 14 Examinator: Ola Hössjer, tel. 070/672 12 18, ola@math.su.se Återlämning: Meddelas via kurshemsida

Läs mer

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 HP. Ten1 9 HP. 19 e augusti 2015

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 HP. Ten1 9 HP. 19 e augusti 2015 MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Tentamen på Statistik och kvantitativa undersökningar STA100, 15 HP Ten1 9 HP 19 e augusti 2015 Tillåtna hjälpmedel: Miniräknare

Läs mer