Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA
|
|
- Ulf Åberg
- för 5 år sedan
- Visningar:
Transkript
1 Kapitel 22: KLUSTRADE SAMPEL OCH PANELDATA Statistiska tester bygger alltid på vissa antaganden. Är feltermen homoskedastisk? Är den normalfördelad? Dessa antaganden är faktiskt aldrig uppfyllda i praktiken, åtminstone om vi ser på dem med matematikerns stränga ögon. Men vi behöver inte ligga sömnlösa. Normalfördelningsantagandet är bara kritiskt när vi jobbar med små datamaterial (tacka centrala gränsvärdessatsen!). Och om feltermen är heteroskedastisk så kan vi använda robusta standardfel och kommer då oftast att märka att inget dramatiskt förändrades. Men det finns ett antagande som däremot ofta har stor praktisk betydelse: Antagandet om att vi har dragit ett slumpmässigt sampel. Varför är det här antagandet så viktigt? Delvis handlar det om att samplet då kan antas likna populationen, åtminstone om vi drar ett tillräckligt stort sampel. Men vi behöver inte heller dra ett slumpmässigt sampel för att det här ska vara fallet; detta gäller också många andra samplingstrategier, till exempel klustrade sampel. Det som däremot skiljer slumpmässigt dragna sampel från klustrade sampel är antagandet om att vi gjort oberoende mätningar. Det kan här vara en poäng att repetera idén om oberoende mätningar: Den svenska reality-showen FC Z bygger på idén om att nördar är dåliga fotbollsspelare. Programmet går ut på att en känd fotbollsspelare tränar ett gäng nördar och i slutet spelar de en match mot Djurgården. Men är nördar dåliga fotbollsspelare? Kanske ligger det något i det. Vi har experimenterat med att låta nördar och övriga skjuta mot ett mål på 30 meters avstånd. Data visar antalet träffar (1) och missar (0): Nördarna: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1 Övriga: 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0 Bland nördarna har vi 2 träffar av 22. Bland övriga har vi 11 träffar av 22. Detta ser definitivt ut som en signifikant skillnad. Men låt oss nu säga att bland nördarna var alla skott förutom ett skjutna av Pelle (här utmärkt i rött):
2 Nördarna: 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1 Övriga: 0, 1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0 Vi ser nu att det är fel att påstå att nördar är sämre på fotboll. Snarare visar experimentet att Pelle är dålig på fotboll. Det här exemplet visar vad som menas med beroende mätningar; att Pelle gjort de första 21 skotten gör dessa mätningar beroende de hänger ihop. Många tycker nog intuitivt att det känns fel att behandla detta datamaterial precis på samma sätt som om alla Pelles skott vore skjutna av olika nördar. Men det är inte bara när vi har flera mätningar för en och samma person som problemet uppstår. I det här kapitlet ska vi börja med att fundera över hur man hanterar klustrade sampel; en samplingstrategi som tenderar att generera just beroende mätningar.
3 22.1 KLUSTRADE SAMPEL OCH TEST GÄLLANDE MEDELVÄRDEN Figuren nedan illustrerar varför vi generellt sett inte kan behandla klustrade sampel på samma sätt som slumpmässigt dragna sampel. Vi kan tänka oss att rutfälten representerar en stad bestående av 25 stadsdelar. Figuren till vänster representerar ett slumpmässigt sampel av stadsborna. I figuren till höger har vi istället slumpmässigt valt ut fem stadsdelar och därefter samlat in data för personerna i de samplade stadsdelarna. Detta är alltså ett klusterurval. Bägge samplen består av 60 observationer, men det slumpmässiga samplet är mer representativt för staden i sin helhet. Det är som om det klustrade samplet egentligen innehöll färre observationer än det gör. Om vi inte beaktar detta så blir resultaten från de statistiska testerna missvisande. Låt oss säga att vi vill mäta genomsnittlig inkomst bland stadsborna. Då vi samplar stadsdelar så kan det hända att vi råkar få med oss en eller ett par stadsdelar där det bara bor rika personer, eller tvärtom, bara fattiga. Eller med andra ord: Vårt estimat (x ) varierar relativt kraftigt från ett sampel till ett annat beroende på vilka stadsdelar vi råkar sampla. Standardfelet bör reflektera detta, men det sker inte automatiskt. Då vi använder default-funktionerna i statistiska programpaket så behandlar programmet data som om det vore slumpmässigt draget; standardfelet blir då generellt sett för litet. Det kan vara värt att notera att det inte är något fel på vårt estimat (x ). Stickprovsmedelvärdet är fortfarande en väntevärdesriktig estimator, givet att vi samplat stadsdelarna slumpmässigt.
4 Exempel: Vi har en stad och från denna samplar vi slumpmässigt tio stadsdelar. Sen samlar vi in inkomstdata för personerna som bor i dessa. Vissa stadsdelar är större än andra, men i genomsnitt bor det 20 personer i varje stadsdel. Totalt består samplet alltså av 200 personer. Nedan visas ett utdrag av data: id id Inkomst (stadsdel) (inom stadsdelen) Vi vill nu estimera genomsnittlig inkomst i staden (µ). I populationen gäller att µ = 2000 (detta är ett fiktivt dataset). Men hur ser det ut i samplet? Tabellen nedan visar resultatet: Genomsnittsinkomsten är ~2103 euro och konfidensintervallet går från ~2031 till ~2176 euro. Som du märker så innehåller konfidensintervallet inte sanningen (µ = 2000). Det här beror inte bara på slumpen; problemet är att vi ignorerat klustringen. Det enklaste sättet att hantera klustrade sampel är att beräkna något som kallas för kluster-robusta standardfel eller klustrade standardfel.
5 Klustrade standardfel Ett klustrat standardfel är ett standardfel som beaktar att observationerna inom ett kluster korrelerar. I det här exemplet vill vi beakta att inkomsterna inom en stadsdel korrelerar 1. Nedan visas resultatet då vi använder klustrade standardfel i STATA: Vi kan jämföra detta med det förra resultatet. Medelvärdet är samma (~2103) men standardfelet har mer än fördubblats (från ~37 till ~84). Detta ger oss ett bredare konfidensintervall som nu innefattar sanningen (µ = 2000) precis som vi skulle förvänta oss. Klustrade standardfel är ett sätt att hantera klustringen. En annan populär metod är det som kallas för slumpeffektsestimatorn: Slumpeffekter (eng. random effects) Utskriften nedan visar resultatet då vi använder det som kallas för slumpeffekts-estimatorn. 2 Här har vi kört en regression med bara ett intercept och inga oberoende variabler; interceptet blir då estimatet för µ. 1 Tänk dig att vi samplar en massa stadsdelar och två personer från varje stadsdel. Sen ritar vi upp data i ett spridningsdiagram där vi lägger den ena personens inkomst på x-axeln och den andras på y-axeln. Hur skulle ett sådant spridningsdiagram se ut? Jo, tänk dig nu att vissa stadsdelar är rika och andra fattiga. I de rika stadsdelarna bor det mestadels rika personer och i de fattiga mestadels fattiga. Vi skulle då se en positiv korrelation i vårt spridningsdiagram: Om en person är rik så gäller detta sannolikt också den andra, och tvärtom. 2 Det finns egentligen inget riktigt etablerat namn på svenska, men slumpeffekts-estimatorn används ibland. Det engelska namnet är betydligt kändare: Random effects estimator
6 Estimatet ligger på ~2091 euro vilket skiljer sig lite från tidigare. Varför? Jo, slumpeffekts-estimatorn viktar observationerna annorlunda än ett enkelt medelvärde. En stor stadsdel får större tyngd än en liten, men korrelationen i inkomster inom stadsdelar spelar också roll. Låt oss fundera lite mer på vad det här betyder. I tabellen ovan ser vi en korrelationskoefficient (rho = 0,43). Denna visar att 43 procent av variationen i inkomster kan förklaras av klyftorna mellan olika stadsdelar. För att se varifrån den här siffran kommer så är det användbart att utgå från en modell som beskriver data: Inkomst ij = μ + v ij, där v ij = u i + ε ij där i = 1, 2,, 10 och j = 1, 2,, J i i är ett index för stadsdel (stadsdel 1, 2,..., 10) och j är ett index för individer (med 20 personer från en stadsdel så har vi j = 1, 2,..., 20 för den stadsdelen). Genomsnittsinkomsten ligger på 2000 euro (μ = 2000) och v ij är feltermen som visar hur mycket en persons inkomst avviker från Vi kan dela in feltermen i två komponenter; en som är specifik för varje stadsdel (u) och en som är specifik för varje individ inom den stadsdelen (ε). Anta att en viss stadsdel har en genomsnittsinkomst på 2100 euro och att en viss person från denna stadsdel tjänar 2150 euro. För denna person har vi att u = 100 och ε = 50.
7 Man kan nu visa att korrelationen i inkomster mellan två slumpmässigt utvalda personer från samma stadsdel ges av 3 : Corr(Inkomst ia, Inkomst ib ) = Corr(v ia, v ib ) = σ u 2 σ u 2 + σ ε 2 Här har vi indexerat den första personen med a och den andra med b. σ u 2 är variansen i inkomster mellan stadsdelar; σ ε 2 är variansen i inkomster inom stadsdelar. Den här korrelationen beskriver hur stor andel av den totala variationen i inkomster (σ u 2 + σ ε 2 ) som kan förklaras av variationen mellan stadsdelar (σ u 2 ). Man kallar detta för inomklasskorrelationen (engelska: intraclass correlation, ICC). I det här exemplet var inomklasskorrelationen 0,43: 2 Corr(v s u ia, v ib ) = s 2 u + s2 = 345,6 2 ε 345, ,3 2 0,43 Den här korrelationen lär oss om hur inkomsterna är fördelade över invånarna i den här staden. Finns det stora klyftor i inkomster mellan stadsdelar (Manhattan kontra Bronx) eller hittas variationen främst mellan individer? Det finns här två extremfall: Inomklasskorrelationen är 0 och inomklasskorrelationen är 1. 4 Om inomklasskorrelationen är 0 så betyder det att det inte finns några skillnader i inkomster mellan olika 3 Det här uttrycket gäller givet vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel stadsdelar (iid), och att personerna från en sådan stadsdel kan betraktas som ett slumpmässigt urval (iid) där variansen i inkomster är lika stor för varje stadsdel. 4 Inomklasskorrelationen kan inte bli negativ; vi beräknar ju den som en kvot mellan varianser.
8 stadsdelar. Vårt slumpeffekts-estimat blir då ett enkelt stickprovsmedelvärde. Om inomklasskorrelationen är 1 så betyder det att alla individer från samma stadsdel har identiska inkomster. Vårt slumpeffekts-estimat blir då inkomsten för en genomsnittlig stadsdel. Varifrån kommer namnet (slumpeffekter)? Jo, med en slumpeffekt så avser man den stadsdelsspecifika komponenten av feltermen, dvs. u i i modellen nedan: Inkomst ij = μ + v ij, där v ij = u i + ε ij När vi samplar en stadsdel så är det slumpen som avgör om stadsdelen i fråga är rik eller fattig beroende på vilken stadsdel vi råkar sampla. Därför är u i en slumpmässig avvikelse från medelvärdet (μ) eller en slumpeffekt. 5 5 För att vara korrekt så är slumpeffekts-estimatorn egentligen en familj av estimatorer. Det finns olika sätt att beräkna inomklasskorrelationen vilket i sin tur kommer att påverka estimatet för μ. En sådan metod förkortas GLS (från engelskans generalized least squares). En annan sådan metod förkortas MLE (från engelskans maximum likelihood estimator). Regressionsutskriften ovan visar att vi använt GLS vilket är default-funktionen i STATA.
9 22.2 REGRESSIONER MED KLUSTRADE SAMPEL Innan vi ser på hur man kan köra regressioner med klustrade sampel så kan det vara en idé att göra en uppdelning mellan två typer av regressionsmodeller: behandling på gruppnivå och behandling på individnivå. Vi ser bäst skillnaden genom ett exempel. Exempel: Är erfarna lärare bättre? Vi vill studera denna fråga och samplar 100 klasser i årskurs nio, sedan samlar vi in data för eleverna i de samplade klasserna. För varje elev mäter vi resultatet på ett nationellt matteprov samt mattelärarens arbetserfarenhet. I regressionsmodellen nedan så är erfaren en dummy som antar värdet 1 om läraren har minst fem års erfarenhet och annars värdet 0. Utfallsvariabeln (poäng) mäter elevens resultat på matteprovet. i indexerar klasser och j elever. poäng ij = β 0 + β 1 erfaren i + v ij där v ij = u i + ε ij I det här fallet mäts behandlingen på gruppnivå; alla elever i samma klass har samma lärare; det finns ingen variation i lärarens erfarenhet inom klasser (därför har vi bara ett index, i, för den här variabeln). Men anta istället att syftet är att mäta om det finns en könsskillnad i matteresultat: poäng ij = β 0 + β 1 flicka ij + v ij där v ij = u i + ε ij Behandlingen mäts nu på individnivå, dvs. det finns både flickor och pojkar inom en och samma klass. Behandling på gruppnivå Då behandlingen mäts på gruppnivå så använder vi samma metoder som tidigare; OLS med klustrade standardfel eller slumpeffekts-estimatorn. Exempel forts: Är erfarna lärare bättre? Tabellen nedan visar resultatet då vi använder (1) OLS med konventionella standardfel, (2) OLS med klustrade standardfel och (3) slumpeffekts-estimatorn (RE).
10 (1) (2) (3) VARIABLER OLS OLS + RE klustrat Erfaren 6.967*** 6.967** 7.513*** (0.831) (2.739) (2.420) Intercept 69.00*** 69.00*** 68.31*** (0.707) (2.418) (2.054) Observationer 1,500 1,500 1,500 R Antal klasser 100 Standardfel inom parenteser *** p<0.01, ** p<0.05, * p<0.1 Som du ser så är estimaten ungefär lika stora i alla tre kolumner (och identiska i kolumn 1 och 2). Den stora skillnaden ligger i standardfelen; dessa är på tok för små då vi använder OLS med konventionella standardfel (1). Hur tolkar vi estimaten? Estimaten tolkas på samma sätt oavsett estimator: Matteresultatet är i snitt ~7 poäng högre då läraren är erfaren. Slumpeffekts-estimatorn ger dock ett lite annorlunda estimat vilket beror på viktningen. Inget hindrar oss här från att kontrollera för andra x-variabler. I tabellen nedan visas resultaten då vi kontrollerat för ln(inkomst) (genomsnittlig inkomst i kommunen, mätt på en loggad skala) och elever (antalet elever på klassen). Vi har också inkluderat två variabler mätta på elevnivå: flicka (en dummy för flickor) och betyg (elevens snittbetyg i andra ämnen än matematik). Återigen blir de konventionella standardfelen alldeles för små, åtminstone för de variabler som mäts på klassnivå.
11 (1) (2) (3) VARIABLER OLS OLS + RE klustrat Klassnivå: Erfaren 3.471*** 3.471*** 3.407** (0.643) (1.215) (1.357) Ln(inkomst) 27.65*** 27.65*** 28.10*** (0.861) (2.690) (1.859) Elever ** (0.0726) (0.180) (0.152) Elevnivå: Flicka (0.568) (0.565) (0.508) Betyg 2.825*** 2.825*** 2.787*** (0.409) (0.335) (0.365) Intercept *** *** *** (7.203) (20.66) (14.07) Observationer 1,500 1,500 1,500 R Antal klasser 100 Standardfel inom parenteser *** p<0.01, ** p<0.05, * p<0.1 Låt oss titta närmare på resultatet från modellen som använder slumpeffekter (RE). I tabellen nedan har vi estimerat tre modeller: (1) En modell som bara innehåller ett intercept, (2) en modell som inkluderar alla variabler på klassnivå och (3) en modell som dessutom inkluderar kontrollvariablerna på elevnivå.
12 (1) (2) (3) VARIABLES RE RE RE Klassnivå: Erfaren 3.478** 3.407** (1.357) (1.357) Ln(inkomst) 27.90*** 28.10*** (1.860) (1.859) Elever (0.152) (0.152) Elevnivå: Flicka (0.508) Betyg 2.787*** (0.365) Intercept 73.72*** *** *** (1.133) (13.77) (14.07) Observations 1,500 1,500 1,500 Antal klasser ICC Standardfel inom parenteser *** p<0.01, ** p<0.05, * p<0.1 Notera att inomklasskorrelationen (ICC) varierar mellan specifikationerna. I den första modellen (1) är inomklasskorrelationen 0,56: 56 procent av variationen i poäng kan förklaras av skillnader mellan klasser och resten förklaras av skillnader mellan elever som tillhör samma klass. I nästa kolumn (2) inkluderar vi de oberoende variablerna som mäts på klassnivå. Inomklasskorrelationen sjunker nu till 0,23; efter att vi inkluderat lärarens erfarenhet, hur rik kommunen är och antalet elever i klassen så kan 23 procent av den resterande variationen i poäng förklaras av skillnader mellan klasser. Ju fler variabler vi inkluderar på klassnivå desto lägre blir inomklasskorrelationen, dvs. vi har då förklarat varför vissa klasser klarar sig bättre än andra och då kvarstår mindre övriga svängningar mellan klasserna. I den sista kolumnen (3) har vi inkluderat kontrollvariablerna som mäts på elevnivå vilket här gör att inomklasskorrelationen återigen ökar marginellt (från 0,23 till 0,24). Inomklasskorrelationen beskriver alltså hur stor andel av den oförklarade variationen i antalet poäng som kan härledas till
13 skillnader mellan klasser kontra skillnader mellan elever inom samma klass. Låt oss ännu se på hur resultatet från den sista regressionen (3) kan se ut i ett statistiskt programpaket (STATA): Från regressionsutskriften ser vi att regressionsmodellen har signifikant förklaringsstyrka: Wald chi2 = 319,19; p-värdet = 0,000. Wald chi2 är alltså motsvarigheten till F-testet då vi använder OLS. Vi ser också att antalet elever i klassen inte har signifikant effekt på poängresultatet: z = -0,90; p-värdet = 0,371. Z-värdet är alltså motsvarigheten till t-värdet då vi använder OLS. [Notering: Data från exemplet ovan är fejkat.] Klustrade standardfel eller slumpeffekts-estimatorn? Vi har sett två olika metoder för att hantera klustring: OLS med klustrade standardfel och slumpeffekts-estimatorn. Så vilken metod är bättre? I praktiken har det sällan någon större betydelse. En fördel med klustrade standardfel är att de samtidigt hanterar eventuell heteroskedasticitet. Slumpeffektsestimatorn å andra sidan är generellt sett effektivare, vilket betyder att vi tenderar få något mer träffsäkra estimat med denna metod. Men det finns heller inget som hindrar oss från att kombinera bägge metoderna, dvs. använda slumpeffekts-
14 estimatorn tillsammans med klustrade standardfel. Detta kan ses som ett sätt att täta igen alla möjliga hål. Vi använder slumpeffekts-estimatorn som potentiellt är effektivare än OLS, men om våra antaganden om feltermen inte riktigt stämmer så hanteras detta av de klustrade standardfelen. Behandling på observationsnivå fixa effekter Om behandlingen däremot sker på observationsnivå så finns det ytterligare ett tredje sätt att hantera klustringen: Fixa effekter. Exempel forts: Anta i exemplet ovan att vårt mål är att mäta könsskillnaden i matteresultat: poäng ij = β 0 + β 1 flicka ij + v ij där v ij = u i + ε ij x-variabeln av intresse (flicka) mäts nu på elevnivå. Ett alternativt sätt att hantera klustringen är då att estimera en regression med klassfixa effekter; vi inkluderar då en dummyvariabel för varje klass, vilket i det här fallet betyder 99 dummyvariabler (där en av klasserna blir referens): poäng ij = β 0 + β 1 flicka ij + klassfixa effekter + ε ij Nedan visas resultatet i STATA: Koefficienten för flicka är ~0,4: Flickor snittar ~0,4 poäng högre än pojkar på matteprovet, men skillnaden är inte signifikant (t = 0,70, p-värdet = 0,481). (Även om STATA inte skriver ut
15 klasseffekterna i regressionsutskriften, så har de ändå tagits med.) I regressionen nedan har vi ännu inkluderat de andra oberoende variablerna: Om läraren är erfaren eller inte, hur rik kommunen är (linkomst), antalet elever på klassen och elevens genomsnittliga betyg i andra ämnen: Notera här att STATA slänger bort tre x-variabler: erfaren, linkomst och elever. Det här är alla sådana variabler som mäts på klassnivå. Varför har STATA slängt dessa? Jo, vi har ju kontrollerat för vilken klass en elev går i. När vi mäter effekten av att vara flicka så betyder det att vi ställer oss frågan: Om jag jämför personer som går i samma klass, ser jag då att flickor i snitt presterar bättre eller sämre än pojkar? Och när vi mäter effekten av att ha en erfaren lärare så ställer vi oss frågan: Om jag jämför personer som går i samma klass, ser jag då att de med en erfaren lärare klarar sig bättre eller sämre än de med en oerfaren? Men det här blir ju en omöjlig fråga att besvara alla som går i samma klass har samma lärare! Därför kan vi inte mäta den här effekten, eller effekten av någon sådan variabel som har samma värde för alla som går i samma klass. Det här är ett exempel på det som kallas för perfekt multikollinearitet: Vi kan inte identifiera en viss effekt eftersom det inte finns någon variation i den variabeln, efter att vi kontrollerat för en eller flera andra variabler. I det här
16 exemplet finns det, till exempel, ingen variation i antalet elever i klassen då vi jämför elever från samma klass. Är det då ett problem att vi inte kan kontrollera för erfaren, linkomst och elever? Nej. Genom att inkludera klassfixa effekter så kontrollerar vi ändå indirekt för alla dessa variabler: Om vi jämför elever från samma klass så jämför vi samtidigt elever med samma lärare, elever som kommer från lika rika kommuner och som går i lika stora klasser. Vi kontrollerar alltså för allt sådant som är gemensamt för alla elever som går i samma klass. Det här är också den största fördelen med att använda just fixa effekter: Vi kontrollerar då automatiskt för allt sådant som är konstant inom klasser. Eller med andra ord: Vi utnyttjar bara variationen inom klasser. Det här är också anledningen till att fixa effekter är populärt när man jobbar med den här typen av data. Finns det då någon nackdel med att använda fixa effekter? Ja, ibland kan kostnaden bli ett stort standardfel. Anta i det här exemplet att det bara finns lite variation i kön inom klasser. Det här knappast fallet i Finland, men i många andra länder är det vanligt med könssegregerade klassrum. I det fallet skulle vi antagligen få ett stort standardfel: Det finns helt enkelt inte särskilt mycket variation i kön inom klassrummen (och det är ju den variationen vi utnyttjar när vi mäter könsskillnaden i matteresultat). I så fall kan man argumentera att slumpeffektsestimatorn eller OLS med klustrade standardfel är att föredra. Det går också bra att kombinera fixa effekter med klustrade standardfel. På så vis får vi ett standardardfel som dessutom hanterar eventuell heteroskedasticitet ATT ANVÄNDA GRUPPEN SOM SIN EGEN KONTROLL PANELDATA -
Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING
Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING När vi gör en regressionsanalys så bygger denna på vissa antaganden: Vi antar att vi dragit ett slumpmässigt sampel från en population
Läs merKapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA
Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information
Läs merKapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER
Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER När vi mäter en effekt i data så vill vi ofta se om denna skiljer sig mellan olika delgrupper. Vi kanske testar effekten av ett
Läs merKapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT
Kapitel 18: LINJÄRA SANNOLIKHETSMODELLER, LOGIT OCH PROBIT Regressionsanalys handlar om att estimera hur medelvärdet för en variabel (y) varierar med en eller flera oberoende variabler (x). Exempel: Hur
Läs merKapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN
Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två
Läs merAnvändning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå
Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; () Mixed effect models; (3)
Läs merÖVNINGSUPPGIFTER KAPITEL 10
ÖVNINGSUPPGIFTER KAPITEL 10 För vissa uppgifter behöver du en tabell över den standardiserade normalfördelningen. Se här. SAMPLING 1. Nedan ges beskrivningar av fyra sampel. Ange i respektive fall om detta
Läs merÖVNINGSUPPGIFTER KAPITEL 4
ÖVNINGSUPPGIFTER KAPITEL 4 REGRESSIONSLINJEN: NIVÅ OCH LUTNING 1. En av regressionslinjerna nedan beskrivs av ekvationen y = 20 + 2x; en annan av ekvationen y = 80 x; en tredje av ekvationen y = 20 + 3x
Läs mer, s a. , s b. personer från Alingsås och n b
Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen
Läs merAnvändning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå
Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; (2) Mixed effect models; (3)
Läs merÖVNINGSUPPGIFTER KAPITEL 8
ÖVNINGSUPPGIFTER KAPITEL 8 SAMPEL KONTRA POPULATION 1. Nedan beskrivs fyra frågeställningar. Ange om populationen är ändlig eller oändlig i respektive fall. Om ändlig, beskriv också vem eller vad som ingår
Läs merKorrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION
KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat
Läs merMVE051/MSG Föreläsning 7
MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel
Läs merLektionsanteckningar 11-12: Normalfördelningen
Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet
Läs merÖVNINGSUPPGIFTER KAPITEL 10
ÖVNINGSUPPGIFTER KAPITEL 10 För vissa uppgifter behöver du en tabell över den standardiserade normalfördelningen. Se här. SAMPLING 1. Nedan ges beskrivningar av fyra sampel. Ange i respektive fall om detta
Läs merATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER
ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER 1. Regressionen nedan visar hur kvinnors arbetsmarknadsdeltagande varierar beroende på om de har småbarn eller inte. Datamaterialet gäller 753 amerikanska kvinnor
Läs mer34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD
6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller
Läs merATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER
ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER 1. Regressionen nedan visar hur kvinnors arbetsmarknadsdeltagande varierar beroende på om de har småbarn eller inte. Datamaterialet gäller 753 amerikanska kvinnor
Läs merÖVNINGSUPPGIFTER KAPITEL 10
ÖVNINGSUPPGIFTER KAPITEL 10 För vissa uppgifter behöver du en tabell över den standardiserade normalfördelningen. Se här. SAMPLING 1. Nedan ges beskrivningar av fyra sampel. Ange i respektive fall om detta
Läs merStatistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018
Statistiska analysmetoder, en introduktion Fördjupad forskningsmetodik, allmän del Våren 2018 Vad är statistisk dataanalys? Analys och tolkning av kvantitativa data -> förutsätter numeriskt datamaterial
Läs merF3 Introduktion Stickprov
Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever
Läs merInStat Exempel 4 Korrelation och Regression
InStat Exempel 4 Korrelation och Regression Vi ska analysera ett datamaterial som innehåller information om kön, längd och vikt för 2000 personer. Materialet är jämnt fördelat mellan könen (1000 män och
Läs merF9 SAMPLINGFÖRDELNINGAR (NCT
Stat. teori gk, ht 006, JW F9 SAMPLINGFÖRDELNINGAR (NCT 7.1-7.4) Ordlista till NCT Sample Population Simple random sampling Sampling distribution Sample mean Standard error The central limit theorem Proportion
Läs merÖVNINGSUPPGIFTER KAPITEL 6
ÖVNINGSUPPGIFTER KAPITEL 6 ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER 1. Regressionen nedan visar hur kvinnors arbetsmarknadsdeltagande varierar beroende på om de har småbarn eller inte. Datamaterialet
Läs merFöreläsning 6 (kap 6.1, 6.3, ): Punktskattningar
Föreläsning 6 (kap 6.1, 6.3, 7.1-7.3): Punktskattningar Marina Axelson-Fisk 4 maj, 2016 Stickprov (sample) Idag: Stickprovsmedelvärde och varians Statistika (statistic) Punktskattning (point estimation)
Läs merÖVNINGSUPPGIFTER KAPITEL 2
ÖVNINGSUPPGIFTER KAPITEL 2 DATAMATRISEN 1. Datamatrisen nedan visar ett utdrag av ett datamaterial för USA:s 50 stater. Stat Befolkningsmängd Inkomst Marijuana Procent män (miljoner) per person lagligt?
Läs merHYPOTESPRÖVNING sysselsättning
0 självmord 20 40 60 HYPOTESPRÖVNING 4. Se spridningsdiagrammen nedan (A, B och C). Alla tre samband har samma korrelation och samma regressionslinje (r = 0,10, b = 0,15). Vi vill testa om sambandet mellan
Läs merÖVNINGSUPPGIFTER KAPITEL 12
ÖVNINGSUPPGIFTER KAPITEL 12 ANOVA I EN MULTIPEL REGRESSION 1. I en amerikansk studie samlade man in data för 601 gifta personer, och mätte hur många utomäktenskapliga affärer de haft under det senaste
Läs merÖVNINGSUPPGIFTER KAPITEL 13
ÖVNINGSUPPGIFTER KAPITEL 13 KORSTABELLER 1. Nedan visas tre korstabeller utifrån tre olika dataset (A, B och C). Korstabellerna beskriver sambandet mellan kön och vilken hand man skriver med (vänster,
Läs merAnalytisk statistik. Tony Pansell, optiker Universitetslektor
Analytisk statistik Tony Pansell, optiker Universitetslektor Analytisk statistik Att dra slutsatser från det insamlade materialet. Två metoder: 1. att generalisera från en mindre grupp mot en större grupp
Läs merFöreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi
Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad
Läs merBild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II
Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I
Läs merTentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl
Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl 08.15-13.15 Tillåtna hjälpmedel: Bifogad formelsamling, approximationsschema och tabellsamling (dessa skall returneras). Egen
Läs merTillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder
Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga smetoder Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-11 Några övriga smetoder OSU-UÅ (med eller utan stratifiering) förutsätter
Läs merPoolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.
PANELDATA Poolade data över tiden och över tvärsnittet Alternativ 1: Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. Oberoende stickprov dragna från stora populationer vid olika tidpunkter.
Läs merMVE051/MSG Föreläsning 14
MVE051/MSG810 2016 Föreläsning 14 Petter Mostad Chalmers December 14, 2016 Beroende och oberoende variabler Hittills i kursen har vi tittat på modeller där alla observationer representeras av stokastiska
Läs merÖVNINGSUPPGIFTER KAPITEL 2
ÖVNINGSUPPGIFTER KAPITEL 2 DATAMATRISEN 1. Datamatrisen nedan visar ett utdrag av ett datamaterial för USA:s 50 stater. Stat Befolkningsmängd Inkomst Marijuana Procent män (miljoner) per person lagligt?
Läs merIntroduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab
Uppfödning av kyckling och fiskleveroljor Statistiska jämförelser: parvisa observationer och oberoende stickprov Matematik och statistik för biologer, 10 hp Fredrik Jonsson vt 2012 Fiskleverolja tillsätts
Läs merGör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).
Matematikcentrum Matematisk statistik MASB11: BIOSTATISTISK GRUNDKURS DATORLABORATION 4, 21 MAJ 2018 REGRESSION OCH FORTSÄTTNING PÅ MINIPROJEKT II Syfte Syftet med dagens laboration är att du ska bekanta
Läs merSkolprestationer på kommunnivå med hänsyn tagen till socioekonomi
1(6) PCA/MIH Johan Löfgren 2016-11-10 Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1 Inledning Sveriges kommuner och landsting (SKL) presenterar varje år statistik över elevprestationer
Läs merÖVNINGSUPPGIFTER KAPITEL 9
ÖVNINGSUPPGIFTER KAPITEL 9 STOKASTISKA VARIABLER 1. Ange om följande stokastiska variabler är diskreta eller kontinuerliga: a. X = En slumpmässigt utvald person ur populationen är arbetslös, där x antar
Läs merAnalytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens
Analytisk statistik Tony Pansell, Leg optiker Docent, Universitetslektor Analytisk statistik Att dra slutsatser från den insamlade datan. Två metoder:. att generalisera från en mindre grupp mot en större
Läs merÖVNINGSUPPGIFTER KAPITEL 3
ÖVNINGSUPPGIFTER KAPITEL 3 SAMBAND 1. Nedan ges beskrivningar av tre olika datamaterial. a. I kyrkbänkarna har snittåldern stigit betänkligt under de senaste decennierna, men är unga människor verkligen
Läs merMultipel Regressionsmodellen
Multipel Regressionsmodellen Koefficienterna i multipel regression skattas från ett stickprov enligt: Multipel Regressionsmodell med k förklarande variabler: Skattad (predicerad) Värde på y y ˆ = b + b
Läs merResidualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen
Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då
Läs merFöreläsning 4. Kapitel 5, sid Stickprovsteori
Föreläsning 4 Kapitel 5, sid 127-152 Stickprovsteori 2 Agenda Stickprovsteori Väntevärdesriktiga skattningar Samplingfördelningar Stora talens lag, Centrala gränsvärdessatsen 3 Statistisk inferens Population:
Läs merResursfördelningsmodellen
PCA/MIH Johan Löfgren Rapport 25-6-26 (6) Resursfördelningsmodellen Växjös skolor våren 25 Inledning Underlag för analyserna utgörs av ett register som innehåller elever som gått ut årskurs nio 2 24. Registret
Läs merHypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University
Hypotesprövning Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Hypotesprövning Liksom konfidensintervall ett hjälpmedel för att
Läs merMedicinsk statistik II
Medicinsk statistik II Läkarprogrammet termin 5 VT 2013 Susanna Lövdahl, Msc, doktorand Klinisk koagulationsforskning, Lunds universitet E-post: susanna.lovdahl@med.lu.se Dagens föreläsning Fördjupning
Läs merTentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4
MÄLARDALENS HÖGSKOLA Akademin för hållbar samhälls- och teknikutveckling Statistik Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp Tillåtna hjälpmedel: Miniräknare (Formelsamling bifogas
Läs mer1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)
1. a) F1(Sysselsättning) F2 (Ålder) F3 (Kön) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar) nominalskala kvotskala nominalskala ordinalskala ordinalskala b) En möjlighet är att beräkna
Läs merLinjär regressionsanalys. Wieland Wermke
+ Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån
Läs merÖVNINGSUPPGIFTER KAPITEL 6
ÖVNINGSUPPGIFTER KAPITEL 6 ATT KONTROLLERA FÖR BAKOMLIGGANDE FAKTORER 1. Regressionen nedan visar hur kvinnors arbetsmarknadsdeltagande varierar beroende på om de har småbarn eller inte. Datamaterialet
Läs merKapitel 19: NATURLIGA EXPERIMENT OCH INSTRUMENT
Kapitel 19: NATURLIGA EXPERIMENT OCH INSTRUMENT Är höga familjeinkomster ett skydd mot panikångest bland barn? Vi har studerat ett hundratal barn och funnit att panikångest är vanligare bland barn till
Läs merLösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015
MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Lösningsförslag till tentamen på Statistik och kvantitativa undersökningar STA100, 15 hp Fredagen den 13 e mars 015 1 a 13 och 14
Läs merAppendix A (till kapitel 2) Köp av verksamhet från privata företag som andel av netto kostnader, samtliga landsting, 2001 2012. Se följande uppslag.
Appendix A (till kapitel 2) Köp av verksamhet från privata företag som andel av netto kostnader, samtliga landsting, 1 12. Se följande uppslag. 233 Blekinge Dalarna 1 6 12 1 6 12 Gävleborg Halland 1 6
Läs merTentamen Metod C vid Uppsala universitet, , kl
Tentamen Metod C vid Uppsala universitet, 170503, kl. 08.00-12.00 Anvisningar Av rättningspraktiska skäl skall var och en av de tre huvudfrågorna besvaras på separata pappersark. Börja alltså på ett nytt
Läs merEn rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.
En rät linje ett enkelt samband Y β 1 Lutning (slope) β 0 Skärning (intercept) 1 Y= β 0 + β 1 X X En rät linje + slumpbrus Y Y= β 0 + β 1 X + brus brus ~ N(0,σ) X Observationspar (X i,y i ) Y Ökar/minskar
Läs merÖVNINGSUPPGIFTER KAPITEL 9
ÖVNINGSUPPGIFTER KAPITEL 9 STOKASTISKA VARIABLER 1. Ange om följande stokastiska variabler är diskreta eller kontinuerliga: a. X = En slumpmässigt utvald person ur populationen är arbetslös, där x antar
Läs merPreliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet
Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden
Läs merKorrelation och autokorrelation
Korrelation och autokorrelation Låt oss begrunda uttrycket r = i=1 (x i x) (y i y) n i=1 (x i x) 2 n. i=1 (y i y) 2 De kvadratsummor kring de aritmetiska medelvärdena som står i nämnaren är alltid positiva.
Läs merFöreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3
Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest
Läs merÖVNINGSUPPGIFTER KAPITEL 9
ÖVNINGSUPPGIFTER KAPITEL 9 STOKASTISKA VARIABLER 1. Ange om följande stokastiska variabler är diskreta eller kontinuerliga: a. X = En slumpmässigt utvald person ur populationen är arbetslös, där x antar
Läs merGrundläggande matematisk statistik
Grundläggande matematisk statistik Linjär Regression Uwe Menzel, 2018 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Linjär Regression y i y 5 y 3 mätvärden x i, y i y 1 x 1 x 2 x 3 x 4 x 6 x
Läs merRättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:
Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal
Läs merF18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT
Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är
Läs merVerksamhetsutvärdering av Mattecentrum
Verksamhetsutvärdering av Mattecentrum April 2016 www.numbersanalytics.se info@numbersanalytics.se Presskontakt: Oskar Eriksson, 0732 096657 oskar@numbersanalytics.se INNEHÅLLSFÖRTECKNING Inledning...
Läs merRepetitionsföreläsning
Population / Urval / Inferens Repetitionsföreläsning Ett företag som tillverkar byxor gör ett experiment för att kontrollera kvalitén. Man väljer slumpmässigt ut 100 par som man utsätter för hård nötning
Läs merAtt välja statistisk metod
Att välja statistisk metod en översikt anpassad till kursen: Statistik och kvantitativa undersökningar 15 HP Vårterminen 2018 Lars Bohlin Innehåll Val av statistisk metod.... 2 1. Undersökning av en variabel...
Läs merTvå innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval
Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande
Läs merInstuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8
1 Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 Dessa instuderingsfrågor är främst tänkta att stämma överens med innehållet i föreläsningarna,
Läs merFör logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))
Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt
Läs merOBS! Vi har nya rutiner.
KOD: Kurskod: PC1203 och PC1244 Kursnamn: Kognitiv psykologi och metod och Kognitiv psykologi och utvecklingspsykologi Provmoment: Metod Ansvarig lärare: Linda Hassing Tentamensdatum: 2012-11-17 Tillåtna
Läs merFöreläsning G60 Statistiska metoder
Föreläsning 9 Statistiska metoder 1 Dagens föreläsning o Regression Regressionsmodell Signifikant lutning? Prognoser Konfidensintervall Prediktionsintervall Tolka Minitab-utskrifter o Sammanfattning Exempel
Läs merLogistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013
Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas
Läs merRegressions- och Tidsserieanalys - F1
Regressions- och Tidsserieanalys - F1 Kap 3: Enkel linjär regression Linda Wänström Linköpings universitet November 4, 2013 Wänström (Linköpings universitet) F1 November 4, 2013 1 / 25 Statistik B, 8 hp
Läs merSTATISTISK ANALYS AV KOMPLEXA DATA
STATISTISK ANALYS AV KOMPLEXA DATA HIERARKISKA DATA Linda Wänström Linköpings universitet 25 November Wänström (Linköpings universitet) HIERARKISKA DATA 25 November 1 / 53 Regressionsmodell för icke-hierarkiska
Läs merFöreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi
Föreläsning 2 Statistik; teori och tillämpning i biologi 1 Normalfördelning Samplingfördelningar och CGS Fördelning för en stickprovsstatistika (t.ex. medelvärde) kallas samplingfördelning. I teorin är
Läs merFöreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi
Föreläsning 9 Statistik; teori och tillämpning i biologi 1 (kap. 20) Introduktion I föregående föreläsning diskuterades enkel linjär regression, där en oberoende variabel X förklarar variationen hos en
Läs merStatistiska samband: regression och korrelation
Statistiska samband: regression och korrelation Vi ska nu gå igenom något som kallas regressionsanalys och som innebär att man identifierar sambandet mellan en beroende variabel (x) och en oberoende variabel
Läs merAutokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012
Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov
Läs merAnalys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken
Analys av medelvärden Jenny Selander jenny.selander@ki.se 524 800 29, plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken Jenny Selander, Kvant. metoder, FHV T1 december 20111 Innehåll Normalfördelningen
Läs mer1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)
1a) F1 och F3 nominalskala, enbart olika saker F kvotskala, Riktiga siffror, 0 betyder att man inte finns och avståndet mellan två värden är exakt definierat F4 och F5 ordinalskala, vi kan ordna svaren
Läs merSpridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.
Spridningsdiagram (scatterplot) En scatterplot som visar par av observationer: reklamkostnader på -aeln and försäljning på -aeln ScatterplotofAdvertising Ependitures ()andsales () 4 Fler eempel Notera:
Läs merMatematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)
Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10 Laboration Regressionsanalys (Sambandsanalys) Grupp A: 2010-11-24, 13.15 15.00 Grupp B: 2010-11-24, 15.15 17.00 Grupp C: 2010-11-25,
Läs merFöreläsning 12: Linjär regression
Föreläsning 12: Linjär regression Matematisk statistik Chalmers University of Technology Oktober 4, 2017 Exempel Vi vill undersöka hur ett ämnes specifika värmeskapacitet (ämnets förmåga att magasinera
Läs merVid formulering av den linjära regressionsmodellen utgår man ifrån att; Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar
ICKE-LINJÄRA MODELLER Vid formulering av den linjära regressionsmodellen utgår man ifrån att; Y i = 1 + 2 X 2i + u i Sambandet mellan Y-variabel och X-variabel är linjärt m a p parametrar cov(x i,u i )
Läs merSTATISTISK ANALYS AV KOMPLEXA DATA
STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA Linda Wänström Linköpings universitet 9 December Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 9 December 1 / 43 Longitudinella data
Läs merTentamen för kursen. Linjära statistiska modeller. 22 februari
STOCKHOLMS UIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 februari 2017 9 14 Examinator: Ola Hössjer, tel. 070/672 12 18, ola@math.su.se Återlämning: Meddelas via kurshemsida
Läs merAnalytisk statistik. Mattias Nilsson Benfatto, PhD.
Analytisk statistik Mattias Nilsson Benfatto, PhD Mattias.nilsson@ki.se Beskrivande statistik kort repetition Centralmått Spridningsmått Normalfördelning Konfidensintervall Korrelation Analytisk statistik
Läs merObligatorisk uppgift, del 1
Obligatorisk uppgift, del 1 Uppgiften består av tre sannolikhetsproblem, som skall lösas med hjälp av miniräknare och tabellsamling. 1. Vid tillverkning av en produkt är felfrekvensen 0,02, dvs sannolikheten
Läs merFÖRELÄSNING 8:
FÖRELÄSNING 8: 016-05-17 LÄRANDEMÅL Konfidensintervall för väntevärdet då variansen är okänd T-fördelningen Goodness of fit-test χ -fördelningen Hypotestest Signifikansgrad Samla in data Sammanställ data
Läs merFinansiell statistik. Multipel regression. 4 maj 2011
Finansiell statistik Föreläsning 4 Multipel regression Jörgen Säve-Söderbergh 4 maj 2011 Samband mellan variabler Vi människor misstänker ofta att det finns många variabler som påverkar den variabel vi
Läs merSkolkvalitet, lönsamhet och betygsinflation
Skolkvalitet, lönsamhet och betygsinflation Gabriel Heller-Sahlgren London School of Economics Institutet för Näringslivsforskning Henrik Jordahl Institutet för Näringslivsforskning 2 juli 2018 Innehåll
Läs merimport totalt, mkr index 85,23 100,00 107,36 103,76
1. a) F1 Kvotskala (riktiga siffror. Skillnaden mellan 3 och 5 månader är lika som skillnaden mellan 5 och 7 månader. 0 betyder att man inte haft kontakt med innovations Stockholm.) F2 Nominalskala (ingen
Läs merStudietyper, inferens och konfidensintervall
Studietyper, inferens och konfidensintervall Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Studietyper Experimentella studier Innebär
Läs merordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)
1 F1 ordinalskala F2 kvotskala F65A nominalskala F65B kvotskala F81 nominalskala (motivering krävs för full poäng) b) Variabler som används är F2 och F65b. Eftersom det är kvotskala på båda kan vi använda
Läs merRättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:
Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen TT091A TGMAS15h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 30 Maj Tid: 9-13 Hjälpmedel: Miniräknare (nollställd) samt allmänspråklig
Läs merTentamen för kursen. Linjära statistiska modeller. 13 januari
STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 13 januari 2017 9 14 Examinator: Ola Hössjer, tel. 070/672 12 18, ola@math.su.se Återlämning: Meddelas via kurshemsida
Läs merTentamen på. Statistik och kvantitativa undersökningar STA100, 15 HP. Ten1 9 HP. 19 e augusti 2015
MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Tentamen på Statistik och kvantitativa undersökningar STA100, 15 HP Ten1 9 HP 19 e augusti 2015 Tillåtna hjälpmedel: Miniräknare
Läs mer