Metoder för urval och estimation speciellt för företagsdata. Ekonomisk statistik 4 Economic statistics 4. Urval ur företagspopulationer.
|
|
- Nils Engström
- för 5 år sedan
- Visningar:
Transkript
1 Ekonomisk statistik 4 Economic statistics 4 Metoder för urval och estimation speciellt för företagsdata Masterkurs Daniel Thorburn Höstterminen 2008 Stockholms Universitet *Indexteori *Nationalräkenskaper *Imputering *Granskning *Datainsamling πps-urval Samordnade urval Permanenta slumptal Hantering av outliers Länkning Urval ur företagspopulationer Företag och andra ekonomiska enheter brukar variera mycket i storlek och betydelse. Två konsekvenser: Populationerna är alltså mycket skevare Man vill kunna välja ut stora företag med hög sannolikhet och små med liten. Företagspopulationer förändras snabbt Större ramproblem πps-urval Ofta delar man in företagen/ramen i tre grupper Totalundersökt stratum, där alla väljs Småföretag under cutoff-gränsen. (t ex < 10 anställda) Dessa väljs aldrig. En mellangrupp med varierande urvalssannolikheter Urval med olika men förutbestämda sannolikheter för olika enheter brukar kallas πps-urval ((inclusion-) probability proportional to size). Numera brukar det inte nödvändigtvis vara storlek utan kan vara andra lämpliga tal. (Jfr pps!)
2 πps-urval - beteckningar Inklusionssannolikheter är centrala vid design-baserad inferens. Första ordningens inklusionssannolikheter: π i = P(i S) = P(I i = 1) Andra ordningens inklusionssannolikheter: π ij = P(i,j S) = P(I i,j = 1) speciellt: π ii =π i πps-urval - skattningsformler Horvitz-Thompson (HT) estimator: t y,ht = Σ S y i /π i = Σ U Ι i y i /π i Skrivs ofta: t y,ht = Σ S ω i y i, där ω i =1/π i kallas vikter (urvalsvikter) Väntevärdesriktig: E(Σ U Ι i y i /π i ) = Σ U Ε(Ι i )y i /π i = Σ U π i y i /π i = Σ U y i Varians: ΣΣ UU ((π ij - π i π j )/(π i π j )) y i y j Alternativ form: ½ ΣΣ UU (π i π j - π ij ) (y i /π i - y j /π j )2 Man ser att variansen blir noll om urvalssannolik-heten proportionell mot y. Om de är mycket olika bör urvalen vara oberoende. (Jfr stratifierat urval) πps-urval - variansskattning Variansskattning: ΣΣ SS ((π ij - π i π j )/(π ij π i π j )) y i y j Denna metod fungerar alltid för sannolikhetsurval (om π i > 0)! Alternativ form: ½ ΣΣ SS ((π i π j - π ij )/π ij ) (y i /π i - y j /π j ) 2 kallas Sun-Yates-Grundy (SYG)-estimatorn och kräver att man har fix urvalsstorlek HT/SYG-estimatorerna är inte alltid de bästa totalsumme/varians estimatorerna men är för det mesta relativt bra eller åtminstone acceptabel för alla fall med fix stickprovsstorlek Första och andra ordningens inklusionssannolikheter bestämmer variansen När man utformar en urvalsprocedur skall man försöka ta hänsyn till båda. Tumregel Välj i första hand π i proportionella mot y i. Försök i andra hand att få π ij nära π i π j (dvs oberoende) då y i /π i skiljer mycket åt från y j /π j Många pratar dock om πps-urval utan att bekymra sig om andra ordningens inklusionssannolikheter. En relativt bra metod är systematiskt πps-urval.
3 Neyman-allokering En relativt bra metod är att stratifiera efter önskad urvalssannolikhet och så att relativt få dras i varje stratum. Vid stratifierat urval bör man välja ut enheterna med sannolikheten proportionell mot N i σ i / c i ½, där parametrarna är stratumstorlek och stratumvarians och förväntad kostnad per enhet. Om detta tillämpas på pps-urval och antar följande modell E(Y i X i =x i ) = f(x i ) och Var(Y i X i =x i ) = σ 2 (x i ) och att olika enheter är oberoende av varandra givet X, så bör man välja ut enhet i med en sannolikhet proportionell mot p i = σ(x i )/ c i ½, där c i är den förväntade kostnaden (för insamlingsorganisationen och uppgiftslämnaren).. Hur gör man πps-urval i praktiken Det finns två i princip olika sätt att dra urval med givna inklusionssannolikheter Härma obundet slumpmässigt urval. För inte in mer struktur en vad som minimalt krävs. Dvs försök få π ij cå nära π i π j som möjligt. Om en sådan procedur tilllämpas på fallet lika sannolikheter vill man få OSU. Använd all tillgänglig information. Även inklusionssannolikheterna kan innehålla mer information. (T ex som kan användas för stratifiering eller ordna för systematiskt urval). Att dra πps-urval Problem med enkla förslag! Det är enkelt om urvalsfraktionen är liten. Då kan man dra med återläggning och bortse från möjligheten att få samma enhet två gånger. Lahiris metod säger att man skall dra med återläggning men om samma enhet finns två gånger skall den också få dubbla vikten i skattningen. Tyvärr är det en ineffektiv metod. Men utan återläggning blir de flesta naturliga metoder fel. Vi skall se några exempel Drag 2 eheter från en population med 5 enheter med sannolikheterna 0,7, 0,3, 0,5, 0,2 och 0,3. Första försöket. Drag först en med halava denna sannolikhet 0,7/2=0,35, 0,15, 0,25, 0,1 0ch 0,15. Drag sedan den andra med sannolikheten proportionell mot p för de kvarvarande. Det ger p 1 = *0.15*0.7/ *0.7/ *0.7/1.8 = Andra försöket. Betingad Poisson. Gå igenom enheterna en och drag dem med sannolikheten p oberoende av varandra. Om stickprovet innehåller för många eller för få enheter förkasta det och försök egen nytt stickprov. Det ger p 1 = P(1 S 2 enheter dragna) = 0.7*(2*0.3*(1-0.5)*(1-0,2)*(1-0,3)+ (1-0.7)*0.5*(1-0.8)*(1-0.7)+(1-0.7)*(1-0.5)*0.2*(1-0.7)/ (0.7*(2*0.3*0.5*0.8* *0.5*0.8* *0.5*0.2*0.7)+2*0.3*0. 3*(0.5*0.8* *0.2* *0.8*0.3)+0.3*0.7*0.5*0.2 *0.7) = Vid stora stickprov kan det ta lång tid.
4 Tredje försöket. Order sampling (Distributional Poisson) Drag ett likformigt tal U i för varje enhet. Transformera på något sätt W i = g(π i, U i ) så att P(W i > 1) = π 1. Välj ut de n enheter som har störst transformerat tal. Inte exakt korrekt men nästan för lämpligt valt g. (Det bör bli Σ S π i = n enheter större än 1.) vid Pareto Poisson väljs g(π i, U i ) = π i (1- U i )/ U i (1- π i ). Då följer W i en Pareto fördelning. (Metoden har vissa optimalitetsegenskaper i order samplingskategorin. Den används vid SCB. Den ger dock inte inklusionssannolikheter som är exakt rätt, men i tillräckligt bra). Exempel: Drag ett stickprov med n=2 med inklusionsssannolikheterna 0,7, 0,3 0,5, 0,2, 0,3 Ta fem slumptal: 0,825, 0,168, 0,254, 0,688, 0,902 Beräkna g(.): 0,50 (0,175*0,7/0,825*0,3), 2,12, 2,96, 0,14, 0,05 Välj de två största. I detta fall nummer 2 och 3 Andra metoder som härmar OSU Många andra metoder har föreslagits t ex Sampford (som kanske är den mest använda, används t ex i USA vid inte alltför stora stickprov), Hajek, Sunter. Alla dessa är rätt komplicerade. Några personer har som mål att uppnå högsta tänkbara entropy, dvs lägga in maximal mängd slump givet inklusionssannolikheterna. (Sampford ger maximal entropy). Det finns de som hävdar att maximal entropi ger den bästa variansskattningen. Sampford Ta en enhet med sannolikhet proportionell mot π i (dvs med sannolikhet π i /Σ π j ) 0,35, 0,15, 0,25, 0,1, 0,15 Säg att vi får nr 3 Ta n-1 enheter med återläggning med sannolikheter proportionella mot π i /(1-π i ) (dvs med sannolikhet π i /(1-π i ) / Σ (π j /(1-π j )) Proportionellt mot 2,33, 0,43, 1, 0,25, 0,43 dvs. 0,52, 0,10, 0,22, 0,06, 0,10 Säg att vi får nr 1 Om stickprovet nu innehåller exakt n olika enheter detta är vårt slutliga stickprov. Stickprovet innehåller 3 och 1, evs två olika. Vi stannar här Annars börja om från enhet 1. Gör om tills man får ett stickprov med rätt storlek Det finns mer struktur (eller härma inte OSU) Ibland vill man utnyttja sin information bättre. I dessa fall är systematiskt πps-urval bra. Det ger en mycket bra tåckning över populationen, men är inte alltid ett riktigt sannolikhetsurval. Stratifierat urval med små strata är ett annat alternativ (kan inte göras för alla inklusionssannolikheter, men bra som en approximation) Systematiskt urval. Ordna enheterna i urvalet på något lämpligt sätt (t ex geografiskt, någon viktig variabel i ramen eller urvalssannolikheterna. Det är inte enkelt att visa att detta ger rätt inklusionssannolikheter, men det gör det. För stora stickprov kommer metoden att bli alltmer ineffektiv eftersom det blir för många försök innan man får ett stickprov av rätt storlek.
5 Systematiskt Πps-urval Ordna enheterna på något vettigt sätt efter den information man vill utnyttja (t ex geografiskt, någon viktig bakgrundsvariabel eller urvalssannolikheterna själva) Beräkna de kumulativa inklusionssannolikheterna Π k = Σ i<k+1 π i Välj en godtycklig, U, startpunkt likformigt i (0, Π N /n) Välj ut alla enheter i på avståndet Π N /n (dvs alla enheter där den kumulerade summan Π i-1 < U + kπ N /n < Π i ) för något 0<k<n. Denna procedur ger en bra spridning över den variabel man ordnat efter och ger därför nästan alltid lägre varians än vanliga pps-metoder (om det inte finns periodicitet) Systematiskt urval Variansen under systematiskt urval kan inte skattas väntevärdesriktigt Den variansen man skulle fått med vanliga pps-metoder kan däremot lätt skattas (tom bättre än med PPS-urvalet) Det är känt att det är en överskattning, så alla intervall kommer att bli konservativa. (Täcker alltid rätt värde med en sannolikhete som är större än angiven konfidensgrad). Variansen kan skattas om man istället tar t ex M oberoende systematiska stickprov, dvs M startpunkter < MkΠ N /n och sedan enheter på avståndet MkΠ N /n. Typ av samordning Samordnade urval Positive coordination with large overlap Negativt koordination betyder lite överlapp mellan undersökningar Varför samordna urval? Uppgiftslämnarinsatser Fördela den mer jämnt Minska dem Få information om samband Över tiden, longitudinella studier Mellan undersökningar. Om samma företag deltar i två olika undersökningar kan man studera samband, t ex mellan lönsamhet och arbetsmiljö. Longitudinella studier Longitudinella studier är en samlingsnamn för studier där man följer samma enheter över tiden
6 Exempel: Roterande urval Varje företag är med i studien ett i förväg bestämt antal gånger t ex fyra år och en fjärdedel byts varje år Det minskar uppgiftslämnarbördan Första gången man är med är alltid jobbigast Basfrågor ställs endast en gång Men samtidigt gör rotationen att ingen är med för alltid, vilket skulle anses orättvist Lägre spårnings- och kontaktkostnader efter första gången Det ger möjlighet att studera utvecklingen mellan åren Fyra aktiva roterande paneler Ett enkelt exempel Time Panel A X B X X C X X X D X X X X E X X X X F X X X X G X X X X H X X X X I X X X X J X X X K X X L X Roterande paneler med k aktiva paneler Låt X ti vara medelvärdesskattningen från den i:te panelen Antag att dessa skattningar har variansen σ 2 och att korrelationen mellan tidpunkter inom panel är ρ t1-t2 En enkel skattning av medelnivån vid tidpunkt t är då medelnivån i alla paneler Σ i X ti /k med variansen σ 2 /k Variansen för skillnaden mellan två följande tidpunkter, t och t+1, blir då 2(1 - ((k-1)/k) ρ) σ 2 /k Slumpfelet minskar med antalet paneler, dvs rotationsperioden. Variensen utan överlapp skulle varit 2 σ 2 /k T ex med k = 4 och ρ = 0.9 blir vinsten en faktor Men man kan göra något ännu bättre (men det görs sällan) Skillnaden mellan första och andra tidpunkten kan skattas på två sätt: Skillnaden mellan de k-1 gemensamma panelerna D 1 = Σ i=2k (X 2i - X 1i )/(k-1) med varians 2(1-ρ) σ 2 /(k-1) Skillnaden mellan dn nya och gamla panelen D 2 = (X 2k+1 - X 11 ) med varians 2σ 2. Om dessa vägs samman optimalt får man (D 1 + (1-ρ)/(k-1) D 2 )/(1 + (1-ρ)/(k-1)) with the variance 2σ 2 /(1 + (k-1)/(1-ρ)). Med k = 4 och = 0.9 blir vinsten Varför tror ni att detta sällan utnyttjas?
7 Underurval - Screening Man vill inte ändra skattningar som en gång publicerats. Och då är det naturligt att vilja skatta nivån ett visst år från de värden som samlats in det året Man vill ha konsistens dvs nivåförändringen skall vara lika med skillnaden mellan nivåskattningarna. Men som synes tappar men precision på detta Ibland samordnar man urval genom att undersöka ett underurval t ex vart femte företag fär dessutom svara på några extrafrågor, om urvalet i det andra ledet inte behöver vara så stort. I skattningsfasen bör man här utnyttja att det utgör ett delurval. Man kan t ex kalibrera efter några viktiga basfrågor. Screening. Man vill specialundersöka företag med vissa egenskaper t ex som genomfört arbetsmiljåtgärder eller har kvinnlig VD. I huvudundersökningen har man en fråga om detta - och sedan återkommer man med nästa. Planerade urval välj lika många med kvinnlig som manlig VD. Leder till effektivare jämförelser Permanenta Slumptal Alla företag i en ram (t ex Centrala Företagsregistret) ges ett rektangelfördelat slumptal, så fort det kommer in i registret, U i, (i intervallet (0,1)). Detta slumptal behålls så länge företaget finns kvar. Ett enkelt sätt att dra ett urval är då att ta alla företag med slumptal i intervallet (a,b). Urvalet täcker då (ungefär) andelen b-a av populationen, och är ett OSU oberoende av när vi drar urvalet. Det är enkelt att ta urval med valfri grad av överlappning. Välj bara intervallen lämpligt överlappande. Man kan t ex välja disjunkta urval då deltar varje företag i högst en undersökning. Genom att ta ett annat intervall t ex ((a+b)/2, c) får man t ex med hälften av företagen i den första undersökningen
8 Permanenta slumptal för roterande urval Ett problem vid roterande urval är att en del av urvalet är draget ur en gammal ram. Ett år gamla företag kan bara finnas med i senaste panelen Men vi vill att urvalet vid varje tidpunkt skall vara representativt för dagens population. Detta löser man idag med permanenta slumptal Man kan flytta intervallet en lämplig bit åt höger (t ex (b-a)/4) varje år. Då får man ett roterande urval. Och genom att ramen uppdaterats mellan åren får man automatiskt med rätt andel nya företag. (Vissa av de nystartade kommer dock bara med kortare tid än 4 år) Permanenta Slumptal Denna diskussion gällde OSU. Men vad göra vid πps-urval? Permanenta slumptal Samordnade urval med varierande urvalssannolikheter Svårt rita i tre dimensioner - därför bara två - men ofta beror urvalssannolkiheterna av samma variabel 1 Urval 1 Permanenta slumptal Samordnade urval med varierande urvalssannolikheter Samma urvalssannolikhet 1 π 1 Urval 2 π 1 Urval 1 Urval U U 1
9 Permanenta slumptal Använd Pareto πps när man vill dra med varierande sannolikheter beräkna π i (1-U i )/ (U i (1 π i )) och ta de n största (Ungefär de med ett värde större än 1) Nästa undersökning. Ersätt U i med ett annat tal t ex U i - π i1. (U i - π i1 +1 om U i - π i1 är negativ) och använd i formeln π i2 (1-U i + π i1 )/ ((U i - π i1 )(1 π i2 )). (Även U i - π i1 är ett likformig fördelat slumptal). Detta ger inget överlappning. Med (U i - π i /4) fär man en rotation på fyra år. I allmänhet gör man det enklare för sig genom att bara ändra startpunkt U i - b, där b väljs större än de flesta urvalssannolikheter Föränderliga populationer Är alltid besvärliga. Registret uppdateras ständigt. Om man gör ett antal undersökningar under året så har man olika populationer Om vi då skattar samma variabler t ex förra årets omsättning i branschen så blir skattningen olika beroende på att populationen förändrats. Vi kan alltså få flera olika skattningar av 2007 års omsättning. Man diskuterar olika sätt att lösa detta t ex genom att dra stickproven samtidigt för undersökningar som går vid olika tidpunkter justera uppräkningsfaktorerna (kalibrering) så att skattningen alltid blir rätt Ibland ändrar man tecken istället U i -> 1- U i Outliers Outliers är värden som kraftigt avviker från vad man väntat sig. De kan vara fel (bra granskningsprocedurer behövs) De kan vara riktiga - men påverkar skattningen orimligt Exempel: I registret finns ett brevlådeföretag med urvalssannolikhet 1/1000. Det blir utvalt. Det har under året gjort en nyemission på 100 miljoner och lånat upp 900 miljoner samt köpt ett existerande pappersbruk och fått en omsättning på 1200 miljoner. När totalomsättningen skattas bidrar detta företag (som har uppräkningstalet 1000) med 1200 miljarder dvs 1 fjärdedel av Sveriges BNP.. Vad gör man då? Det vanligaste är att hantera detta är trimning (trimming) dvs att låta företaget få uppräkningstalet 1 (dvs bara representera sig själv. För att få totalantalet företag rätt justerar man även vikterna för övriga i urvalet). Ett problem är att avgöra när denna lösning skall tillgripas. Ofta knyter man det till hur stor del av totalskattningen som företaget svarar t ex om enheten svarar för mer än 5% av totalen eller om enheten svarar för mer än hälften av stratumtotalen. Detta kan göras mekaniskt och därför i någon mening objektivt. Det vanligaste är dock att fatta beslutet subjektivt Ett annat sätt är winsorisering (Winsorizing) dvs dela företaget i två ett med uppräkningsfaktorn 1 ett med uppräkningsfaktorn w-1 som har y-värdet lika med t ex övre 5% percentilen i stratat
10 Fler förslag Ett tredje sätt är att säga att om företaget i ramen sett ut som det gör nu hade det fått urvalssannolikheten π. Därför skall den nu ha uppräkningstalet 1/π (och justerar övriga så att totalen blir rätt). Alla dessa sätt ger i medeltal för små skattningar (bias) - alla justeringar sker neråt. Men i allmänhet blir medelkvadratfelet minst med den första metoden. Det finns förslag på att jämna ut över åren. Dvs se vad som skulle ha hänt under en tioårsperiod över hela näringslivet och sedan justera varje års skattningar med detta. (Det innebär att nivån kommer att korrigeras uppåt litegrann när inga outlier finns. De skulle ju kunnat göra det). Man kan då få väntevärdesriktighet över en längre tidsperiod. Ett fjärde sätt är att inte använda designbaserade skattningsmetoder i fördelningssvansen (övre 5 eller 10 procenten eller ungefär observationer) utan modellbaserade. Använd t.ex. Pareto, Weibull eller lognormalfördelningen, som alla brukar vara bra för skeva populationer. Detta skall göras vare sig det finns outlier eller ej. (Y i Y i > c) Pareto(a,b,c). Täthet: f ( x) c är cutoffgränsen (eller skattas med min(x i )). Om a är känt så ges MLskattningen av b av ( c a) b b ( x a) b = +1 Σ ln( x i x > c > a n a) ln( c a) (vid lika urvalssannolikheter). Även a kan lätt skattas numeriskt med ML-metoden (eller t o m sättas till noll) När väl parametrarna är skattade får man skattningen av totalen av populationen genom att ge observationer mindre än c* sin vanliga vikt större än c* vikten 1 Återstående vikt blir summan av vikterna för observationer tal större än c - antalet större än c. Dessa beskrivs som oberoende dragningar från (i exemplet) Pareto(a*,b*,c*), dvs med väntevärdet E(Y a*, b*, c*) = c* + (c*- a*)/(b*-1) lika många som antalet observationer, n, större än c och med vikterna 1/π - 1. med ungefärlig (modell)-varians kring detta värde med b*( c* a*) Var(Y a*,b*,c*) = ( ) 2 n' πn' ( b* 2)( b* 1). Länkning Ekonomisk statistik Höstterminen 2008 Stockholms Universitet
11 Länkning När statistiken läggs om uppstår ofta språng, t ex. när näringsgrensindelningen moderniseras man byter insamlingssystem t ex från disketter till Internet en cutoff-gräns ändras. Man formulerar om en fråga Vid länkning försöker man räkna om serien bakåt som om det nya insamlingssystemet hade gällt. Bra för personer som arbetar med tidsserier. Samma problem kan uppstå vid ändringar i samhället. Följa sjuklighetens utveckling i samhället, när antalet karensdagar ändras. Vad händer med data över hushållens förmögenhet när förmögenhetsskatten avskaffas? Vid omläggningar anses länkningen inte alltid som en uppgift för statistikproducenten utan snarare tidsserieanalytikern. Men länkning vid metodskift är något för statistikproducenten. Vid omläggningar bör statistikern planera för länkning. Vid reformer i samhället bör politikerna planera så att reformen kan utvärderas. Det finns två typer av länkning (med mellanformer) Mekanisk länkning (Den enda källa du har är serien själv och det gäller att uppskatta språnget) Länkning med hjälp av speciella data Specialundersökningar Andra relevanta data Gamla rådata, blanketter Mekanisk länkning? Tänk er att man har en serie som ser ut så här (Andel positiva till statliga investeringsgarantier %. ) År År 8 lades undersökningen om och frågan formulerades om. Om man vill analysera utvecklingen vill man ha en serie utan språng. Hur skall man göra? Svar 1 o 2: Enklast är att sätta värdena år 7 och 8 lika och ändra värdena innan motsvarande (additivt resp multiplikativt). År Urspr add Mult , Problem: Detta säger inget om skillnaden mellan år 7 och 8. Svar 3: (För enkelhets skull ges lösningen bara additivt) Mer avancerat gör regression y t = a + b*i(t<8)+c*t och justera med b 34,9 35,9 38,9 38,9 37,9 39, Andra modeller kan användas. Regression mot en logistisk linje hade förmodligen varit ännu bättre. p t = exp(a + b * I(t<8) + c * t )) / (1+ exp(a + b * I(t<8) + c * t ))) y t = p t + ε t ; Var(y t ) = d * p t *(1- p t ).
12 Problem: Man vill kunna göra länkningen redan första året efter tidsseriebrottet (dvs år 8). Svar 4: Använd samma modell redan år 8 och håll sedan modellen fix 34,6 35,6 38,6 38,6 37,6 39, Ger lite större osäkerhet än svar 3. Svar 5: Ännu mer komplicerad modeller kan användas t ex en ARIMA-process eller en dynamisk modell (Kalmanfilter). T.ex X t = a*x t-1 + ε t X är en latent serie som mäts med slumpfel: Y t = X t + η före brott; Y t t = X t + b + η t efter brott; Y + Predikterat värde av b redovisas före brottet Den dynamiska modellen ger 34,9 35,9 38,9 38,9 37,9 39,9 41, Mekaniska modeller som 3-5 ger möjlighet att ge ett osäkerhetsintervall för justeringens storlek. I så fall bör man ha en relativt flexibel modell som den dynamiska modellen. Medelfel i språnguppskattningen i vårt exempel var 1,8 i svar 5. Osäkerhet i språnget blir +/-3,6. Det är dock mycket ovanligt att man anger osäkerheten i uppskattningen av länkningsfelet, när den görs mekaniskt, som här. Men i allmänhet försöker man välja så enkla modeller som möjligt. Hjälpserier I diskussionen ovan antogs att man inte hade någon annan kunskap. Ofta har man det. T ex kan man ha tillgång till serier för en eller flera andra relaterade variabler (I vårt fall t ex branschindelning, partisympatier eller investeringsvilja). Då kan dessa variabler också användas i regressionsmodellerna. (eller göra om ARIMA-modellerna till VARIMA) Ibland kan denna typ av modeller leda till att man inte justerar alla åren bakåt i tiden lika mycket. Man kan t ex komma fram till att alla moderater skall justeras med 7%, övriga borgerliga med 10% och övriga med 12%. Sedan justerar man bakåt med de tidigare observerade partisympatierna. Eller efter branschernas historiska andel av totalen. Länkning med andra data Allt tidigare var s.k. mekaniska länkningsmetoder. Om möjligt bör man göra specialstudier vid alla större omläggningar. En vanlig rekommendation är att om det är möjligt göra undersökningen på båda sätten parallellt vid ett tillfälle T ex När ULF (undersökningen om levnadsförhållanden) gick över från besök till telefon-undersökning som bas gjorde man under övergångsåret halva urvalet besök och halva per telefon. (Delarna valdes slumpmässigt, men varje intervjuare fick bara använda en metod, ny eller gammal). Men vanligare är att man gör mindre specialundersökningar av olika typer. Ibland har man tom gjort experiment i förväg för att finna en bra ny uppläggning. Då kan man i underlaget för beslutet om omläggning även ha tillräckliga data för att uppskatta språngets storlek.
13 Länkning med underlag Inbäddade experiment är en speciell typ av studier. De görs som en del i den normala statistikproduktionen När uppskattningen av hoppet görs med specialundersökningar är det vanligt med feluppskattningar När större omläggningar av klassificeringar görs, t ex av SNI-kod försöker man koda uppgifterna på båda sätten under en period eller gå igenom gamla statistikunderlag (blanketter) och koda om företagen enligt den nya mallen och därmed få jämförbara data för tidigare år. Dessa metoder ger en uppskattning av språnget - men inte över hur man skall ändra längre bakåt. Vid bl a omklassificering, t ex omläggning av SNI, kanske man vet summan av två grupper men det tillkommer en uppdelning. T ex när Dator och IT-konsulter bröts ur kategorin annan konsultverksamhet. Då visste man att den inte under de senaste tio åren haft samma andel av den större kategorin. Då gäller det att rekonstruera en uppdelning bakåt. Om man inte har data lägger man ibland in en subjektiv gissning. T ex andel 0 tio år tidigare och sedan en linjär ökning av andelen till den första observerade nivån. Eller samma andel hela tiden bakåt (Dumt i just detta fall) Ett problem med länkning är att serien blir utjämnad. (Inte för producenten men ekonometrikern, som använder data). Ekonometrikern kommer att underskattar slumptermen storlek när han sedan använder t ex vid ARIMA-modeller. Det betyder bl a att hans prognoser blir för säkra. Flera serier Vid flera omlagda serier som skall summera till en total kan man länka delserierna och sedan summera länka totalerna och delserierna var för sig Då får man inte konsistens länka totalen och sedan länka delserierna med bivillkor att länkningen skall vara konsistent Man talar om indirekt och direkt länkning Vilket som bör väljas beror på vad man tror om stabiliteten t ex om man har två serier varav en lagts om och inte den andra och man skall göra mekanisk länkning är det alltid bättre att länka den serie som förändrats Men om man har en total som beror av två delar och omläggningen främst består av omklassificeringar så bör man länka totalen först. Även vid flera serier är det ibland lämpligt att använda modeller. Vi diskuterade univariata serier - men man kan lika gärna använda multivariata modeller. Om man gör specialstudier av länkningsfelet för några delserier är det naturligt att länka dessa delserier först. Det är inte givet hur studierna skall användas när man länkar de andra delserierna eller totalen. Men ofta kan man utnyttja informationen från de studerade delserierna även för övriga.
14 Bias I praktiken görs ofta små ändringar i statistikinsamlingen. I princip skulle de kvalificera för en länkning, men om effekten är liten struntar man. ofta i det. Felet i uppskattningen av språnget blir större en språnget själv. Ofta kan man säga att när man gjort en stor omläggning innehåller studien bara små fel. Sedan förändrar sig verkligheten och studiens relevans blir sämre och sämre. Efter tio år, säg, blir man tvungen att göra en ny stor omläggning. Om man bar justerar för en långsam biasökning riskerar man att på lång sikt hamna fel Olänkat Länkat Om man länkat en dataserie, skall den som använder serien alltid kunna läsa om vad som hänt. Om orsaken till språnget och hur det eliminerats. Dokumentera vad du gör. Detta är en allmän regel, som man alltid säger, men många slarvar med. Tid
3.1 Urval ramar, företagsregister. Daniel Thorburn Ekonomisk statistik Höstterminen 2009
3.1 Urval ramar, företagsregister Daniel Thorburn Ekonomisk statistik Höstterminen 2009 Företagsregister - Centrala Företagsregistret 2007 fanns det 945801 företag med 1021083 arbetsställen. 538 101 var
Ekonomisk statistik Economic statistics. Masterkurs Daniel Thorburn Höstterminen 2010 Stockholms Universitet
Ekonomisk statistik Economic statistics Masterkurs Daniel Thorburn Höstterminen 2010 Stockholms Universitet 1 Sampling 1.1 Allmänt om urval Daniel Thorburn Ekonomisk statistik Höstterminen 2010 Sampling
Ekonomisk statistik 2 Economic statistics 2. Imputering
Ekonomisk statistik 2 Economic statistics 2 Imputering Masterkurs Daniel Thorburn Höstterminen 2008 Stockholms Universitet Ekonomisk statistik Höstterminen 2008 Stockholms Universitet Saknade värden Totalt
Ekonomisk statistik 3 Economic statistics 3. Länkning. Länkning? Länkning. Ekonomisk statistik Höstterminen 2008 Stockholms Universitet
Ekonomisk statistik 3 Economic statistics 3 Länkning Masterkurs Daniel Thorburn Höstterminen 2008 Stockholms Universitet Ekonomisk statistik Höstterminen 2008 Stockholms Universitet Länkning När statistiken
Introduktion till statistik för statsvetare
och enkäter "Det finns inget så praktiskt som en bra teori" September 2011 och enkäter Inledning Inledning Om vi vill mäta en egenskap hos en population individer (individer kan vara personer, företag
Urvalsmetoder: Stratifierat urval (kap 9.5)
F4 Urvalsmetoder: Stratifierat urval (kap 9.5) Tidigare exempel Vi undersökte tidigare medellönen i ett företag med N = 500 anställda. Vi fick ett konfidensintervall: Vi vet att några förklaringsvariabler
Ytterligare urvalsmetoder och skattningsmetoder
F6 Ytterligare urvalsmetoder och skattningsmetoder Flerstegsurval Anta att man vill göra ett urval som täcker ett stort geografiskt område vill använda besöksintervju som insamlingsmetod Praktiskt omöjligt
Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder
Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga smetoder Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-11 Några övriga smetoder OSU-UÅ (med eller utan stratifiering) förutsätter
Stokastiska processer med diskret tid
Stokastiska processer med diskret tid Vi tänker oss en följd av stokastiska variabler X 1, X 2, X 3,.... Talen 1, 2, 3,... räknar upp tidpunkter som förflutit från startpunkten 1. De stokastiska variablerna
Föreläsning 4. Kapitel 5, sid Stickprovsteori
Föreläsning 4 Kapitel 5, sid 127-152 Stickprovsteori 2 Agenda Stickprovsteori Väntevärdesriktiga skattningar Samplingfördelningar Stora talens lag, Centrala gränsvärdessatsen 3 Statistisk inferens Population:
F10. Ytterligare urvalsmetoder och skattningsmetoder (kap 9.8, 9.9) Flerstegsurval
F10 Ytterligare urvalsmetoder och skattningsmetoder (kap 9.8, 9.9) Flerstegsurval Anta att man vill göra ett urval som täcker ett stort geografiskt område vill använda besöksintervju som insamlingsmetod
Tidigare exempel. Några beteckningar. Stratifierat urval
Tidigare exempel F4 Urvalsmetoder: (kap 9.5) Ursprung: Linda Wänström Vi undersökte tidigare medellönen i ett företag med N = 500 anställda. Vi fick ett konfidensintervall: Vi vet att några förklaringsvariabler
Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat urval
Tillämpad statistik (A5), HT15 Föreläsning 5: Stratifierat Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-06 En stratifierad sundersökning: NTU2014 Från NTU2014 Från NTU2014 Dellens
Lektionsanteckningar 11-12: Normalfördelningen
Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet
Föreläsning 4. 732G19 Utredningskunskap I. Föreläsningsunderlagen bygger på underlag skapade av Kalle Wahlin
Föreläsning 4 732G19 Utredningskunskap I Föreläsningsunderlagen bygger på underlag skapade av Kalle Wahlin Dagens föreläsning Systematiskt urval Väntevärdesriktiga skattningar Jämförelse med OSU Stratifierat
Urvalsmetoder: Sannolikhetsurval resp. icke-sannolikhetsurval, OSU (kap )
F3 Urvalsmetoder: Sannolikhetsurval resp. icke-sannolikhetsurval, OSU (kap 9.1-9.4) Urval Anta att vi ska göra en urvalsunderökning och samla in primärdata Totalundersökning ofta inte möjlig För dyrt Tar
Föreläsning 7: Punktskattningar
Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology April 27, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två numeriska
Urval. Slumpmässiga urval (sannolikhetsurval) Fördelar med slumpmässiga urval
Urval F3 Urvalsmetoder: Sannolikhetsurval resp. icke-sannolikhetsurval, OSU (kap 9.1-9.4) Ursprung: Linda Wänström Anta att vi ska göra en urvalsunderökning och samla in primärdata Totalundersökning ofta
Föreläsning 7: Punktskattningar
Föreläsning 7: Punktskattningar Matematisk statistik Chalmers University of Technology September 21, 2015 Tvådimensionella fördelningar Definition En två dimensionell slumpvariabel (X, Y ) tillordnar två
Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar
Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar Stas Volkov Stanislav Volkov s.volkov@maths.lth.se FMSF20 F8: Statistikteori 1/20 Översikt Exempel Repetition Exempel Matematisk statistik
Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012
Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår
Systematiskt urval, gruppurval, val mellan metoderna (kap , 9.10)
F5 Systematiskt urval, gruppurval, val mellan metoderna (kap 9.6-9.7, 9.10) Systematiskt urval Antag att vi vill undersöka medellönen i ett företag på N=1000 anställda och vill dra ett urval på n=100.
Föreläsning 12: Regression
Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är
Föreläsning 12: Repetition
Föreläsning 12: Repetition Marina Axelson-Fisk 25 maj, 2016 GRUNDLÄGGANDE SANNOLIKHETSTEORI Grundläggande sannolikhetsteori Utfall = resultatet av ett försök Utfallsrum S = mängden av alla utfall Händelse
Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet
Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) 2016-01-13 Statistiska institutionen, Uppsala universitet Uppgift 1 (20 poäng) A) (4p) Om kommunens befolkning i den lokala arbetsmarknaden
Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar
Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar Anna Lindgren 25 november 2015 Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 1/17 Matematisk statistik slumpens matematik
SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.
SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt
Extra övningssamling i undersökningsmetodik. till kursen Regressionsanalys och undersökningsmetodik, 15 hp
Extra övningssamling i undersökningsmetodik HT10 till kursen Regressionsanalys och undersökningsmetodik, 15 hp Författad av Karin Dahmström 1. Utgå från en population bestående av 5 personer med följande
Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar
Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar Anna Lindgren (Stanislav Volkov) 31 oktober + 1 november 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F10: Punktskattning 1/18 Matematisk
4 Diskret stokastisk variabel
4 Diskret stokastisk variabel En stokastisk variabel är en variabel vars värde bestäms av utfallet av ett slumpmässigt försök. En stokastisk variabel betecknas ofta med X, Y eller Z (i läroboken används
Samplingfördelningar 1
Samplingfördelningar 1 Parametrar och statistikor En parameter är en konstant som karakteriserar en population eller en modell. Exempel: Populationsmedelvärdet Parametern p i binomialfördelningen 2 Vi
Föreläsning 7: Punktskattningar
Föreläsning 7: Punktskattningar Matematisk statistik David Bolin Chalmers University of Technology April 7, 2014 Projektuppgift Projektet går ut på att genomföra ett statistiskt försök och analysera resultaten.
Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012
Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov
Urval. Varje element i populationen skall ha en känd sannolikhet (chans) som är större än 0 att bli utvald
F11 Repetition Undersökningar Olika slag av undersökningar Syftet Beskrivande Förklarande/utredande Framåtblickande Undersökningsplanering Vem ska undersökas? Målpopulation Rampopulation Vad ska undersökas?
Hushållens icke-vinstdrivande organisationer 2005
STATISTISKA CENTRALBYRÅN 1(8) Hushållens icke-vinstdrivande organisationer 2005 1 Inledning Emma-projektet, eller paraplyprojektet för förbättring av den ekonomiska statistiken, omfattar i huvudsak förbättringsförslagen
När gör hjälpinformation mest nytta - vid urval eller estimering?
När gör hjälpinformation mest nytta - vid urval eller estimering? Henrik Brunström Kim Eriksson Student Vt 2011 Kandidatuppsats, 15 hp Statistik C, 30 hp Handledare: Anton Grafström Sammanfattning Hjälpinformation
, s a. , s b. personer från Alingsås och n b
Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen
Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi
Föreläsning 1 Statistik; teori och tillämpning i biologi 1 Kursens uppbyggnad 9 föreläsningar Föreläsningsunderlag läggs ut på kurshemsidan 5 lektioner Uppgifter från kursboken enligt planering 5 laborationer
F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)
Stat. teori gk, ht 006, JW F5 STOKASTISKA VARIABLER (NCT 5.1-5.3, samt del av 5.4) Ordlista till NCT Random variable Discrete Continuous Probability distribution Probability distribution function Cumulative
Tentamen MVE301 Sannolikhet, statistik och risk
Tentamen MVE301 Sannolikhet, statistik och risk 2017-08-15 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Olof Elias, telefon: 031-7725325 Hjälpmedel: Valfri
Punktskattning 1 Ett exempel
Matematisk statistik för STS vt 004 004-05 - 04 Bengt Rosén Punktskattning Ett exempel Vid utveckling av nannoelektronik vill man väga en mycket liten "pryl", med vikt någonstans mellan 00 och 50 mg. "Prylen"
Stokastiska processer med diskret tid
Stokastiska processer med diskret tid Vi tänker oss en följd av stokastiska variabler X 1, X 2, X 3,.... Talen 1, 2, 3,... räknar upp tidpunkter som förflutit från startpunkten 1. De stokastiska variablerna
Stokastiska Processer och ARIMA. Patrik Zetterberg. 19 december 2012
Föreläsning 7 Stokastiska Processer och ARIMA Patrik Zetterberg 19 december 2012 1 / 22 Stokastiska processer Stokastiska processer är ett samlingsnamn för Sannolikhetsmodeller för olika tidsförlopp. Stokastisk=slumpmässig
Repetitionsföreläsning
Slumpförsök Repetitionsföreläsning Föreläsning 15 Sannolikhet och Statistik 5 hp Med händelser A B... avses delmängder av ett utfallsrum. Slumpförsök = utfallsrummet + ett sannolikhetsmått P. Fredrik Jonsson
Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.
UPPSALA UNIVERSITET Matematiska institutionen Erik Broman, Jesper Rydén TENTAMEN I MATEMATISK STATISTIK Sannolikhet och statistik 1MS5 214-1-11 Skrivtid: 8.-13.. För betygen 3, 4 resp. 5 krävs 18, 25 resp.
Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1
Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning i Matematisk Statistik med Metoder MVE490 Tid: den 16 augusti, 2017 Examinatorer: Kerstin Wiklander och Erik Broman. Jour:
Urvalsökningar. Precisionen i en skattning är normalt proportionell mot 1/ n där n är urvalsstorleken
Urvalsökningar Precisionen i en skattning är normalt proportionell mot 1/ n där n är urvalsstorleken En urvalsökning från 21000 till 29500 individer borde då resultera i förbättring med ca 15% Eller? 1
Matematisk statistik för D, I, Π och Fysiker
Matematisk statistik för D, I, Π och Fysiker Föreläsning 15 Johan Lindström 4 december 218 Johan Lindström - johanl@maths.lth.se FMSF45/MASB3 F15 1/28 Repetition Linjär regression Modell Parameterskattningar
Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:
Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen TT091A TGMAS15h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 30 Maj Tid: 9-13 Hjälpmedel: Miniräknare (nollställd) samt allmänspråklig
FÖRELÄSNING 8:
FÖRELÄSNING 8: 016-05-17 LÄRANDEMÅL Konfidensintervall för väntevärdet då variansen är okänd T-fördelningen Goodness of fit-test χ -fördelningen Hypotestest Signifikansgrad Samla in data Sammanställ data
F9 SAMPLINGFÖRDELNINGAR (NCT
Stat. teori gk, ht 006, JW F9 SAMPLINGFÖRDELNINGAR (NCT 7.1-7.4) Ordlista till NCT Sample Population Simple random sampling Sampling distribution Sample mean Standard error The central limit theorem Proportion
Population. Antal tänder. Urval
Population ID Antal tänder 1 12 2 14 3 15 4 28 5 16 6 11 7 24 8 19 9 23 10 21 Urval ID Antal tänder 2 14 4 28 8 19 10 21 Urvalsmetoder Population Urval Urval Urvalsmetoder Definitioner: Populationen består
Sannolikheter och kombinatorik
Sannolikheter och kombinatorik En sannolikhet är ett tal mellan 0 och 1 som anger hur frekvent en händelse sker, där 0 betyder att det aldrig sker och 1 att det alltid sker. När vi talar om sannolikheter
FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD 208-08-26 Sannolikhetsteori Följande gäller för sannolikheter: 0 P(A P(Ω = P(A
SF1901 Sannolikhetsteori och statistik I
SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 10 27 november 2017 1 / 28 Idag Mer om punktskattningar Minsta-kvadrat-metoden (Kap. 11.6) Intervallskattning (Kap. 12.2) Tillämpning på
Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:
Matematisk Statistik Provmoment: Ladokkod: Tentamen ges för: Tentamen 6.5 hp AT1MS1 DTEIN16h 7,5 högskolepoäng TentamensKod: Tentamensdatum: 1 juni 2017 Tid: 14-18 Hjälpmedel: Miniräknare Totalt antal
Poolade data över tiden och över tvärsnittet. Oberoende poolade tvärsnittsdatamängder från olika tidpunkter.
PANELDATA Poolade data över tiden och över tvärsnittet Alternativ 1: Oberoende poolade tvärsnittsdatamängder från olika tidpunkter. Oberoende stickprov dragna från stora populationer vid olika tidpunkter.
Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi
Föreläsning 8 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Enkel linjär regression (kap 17.1 17.5) o Skatta regressionslinje (kap 17.2) o Signifikant lutning? (kap 17.3, 17.5a) o Förklaringsgrad
Statistik 1 för biologer, logopeder och psykologer
Innehåll 1 Hypotesprövning Innehåll Hypotesprövning 1 Hypotesprövning Inledande exempel Hypotesprövning Exempel. Vi är intresserade av en variabel X om vilken vi kan anta att den är (approximativt) normalfördelad
Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl
Karlstads Universitet Avdelningen för Nationalekonomi och Statistik Tentamen i Statistik, STG A0 och STG A06 (3,5 hp) Torsdag 5 juni 008, Kl 4.00-9.00 Tillåtna hjälpmedel: Bifogad formelsamling, approximationsschema
Föreläsning 1: Introduktion. Vad är statistik?
Föreläsning 1: Introduktion Vad är statistik? 1 Statistiska undersökningar Ett gemensamt syfte för alla undersökningar är att få ökad kunskap om ett visst problemområde Det kanske viktigaste sättet att
MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II
MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II G. Gripenberg Aalto-universitetet 13 februari 2015 G. Gripenberg (Aalto-universitetet) MS-A0509 Grundkurs i sannolikhetskalkyl och
Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov
Summer Science Camp, Tjärnö, 8 August 2012 Varför statistik? Serik Sagitov http://www.math.chalmers.se/ serik/ Avdelningen för matematisk statistik Matematiska Vetenskaper Chalmers Tekniska Högskola och
Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ
Inledning till statistikteorin Skattningar och konfidensintervall för μ och σ Punktskattningar Stickprov från en population - - - Vi vill undersöka bollhavet men får bara göra det genom att ta en boll
Exempel i stickprovsteori
Exempel i stickprovsteori p. 1/26 Exempel i stickprovsteori Göran Arnoldsson Umeå universitet Exempel i stickprovsteori p. 2/26 1. Audit sampling En bank vill göra en snabb uppskattning av den totala behållningen
Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin
Kapitel 4 Sannolikhetsfördelningar Sid 79-14 Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin Slumpvariabel En variabel för vilken slumpen bestämmer utfallet. Slantsingling, tärningskast,
Matematisk statistik för D, I, Π och Fysiker
Matematisk statistik för D, I, Π och Fysiker Föreläsning 11 Johan Lindström 13 november 2018 Johan Lindström - johanl@maths.lth.se FMSF45/MASB03 F11 1/25 Repetition Stickprov & Skattning Maximum likelihood
Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen
Residualanalys För modellen Johan Koskinen, Statistiska institutionen, Stockholms universitet Finansiell statistik, vt-5 F7 regressionsanalys antog vi att ε, ε,..., ε är oberoende likafördelade N(,σ Då
Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13
Matematisk Statistik 7,5 högskolepoäng Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling Tentamensdatum: 28 maj 2018 Tid: 9-13 Hjälpmedel: Miniräknare
Avd. Matematisk statistik
Avd. Matematisk statistik TENTAMEN I 5B508 MATEMATISK STATISTIK FÖR S TISDAGEN DEN 20 DECEMBER 2005 KL 08.00 3.00. Examinator: Gunnar Englund, tel. 790 746. Tillåtna hjälpmedel: Formel- och tabellsamling
LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29
UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN
Stokastiska vektorer och multivariat normalfördelning
Stokastiska vektorer och multivariat normalfördelning Johan Thim johanthim@liuse 3 november 08 Repetition Definition Låt X och Y vara stokastiska variabler med EX µ X, V X σx, EY µ Y samt V Y σy Kovariansen
För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))
Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt
F3 Introduktion Stickprov
Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever
Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013
Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas
Tentamen MVE302 Sannolikhet och statistik
Tentamen MVE302 Sannolikhet och statistik 2019-06-05 kl. 8:30-12:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Oskar Allerbo, telefon: 031-7725325 Hjälpmedel: Valfri miniräknare.
F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT
Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är
Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar
Föreläsning 6 (kap 6.1, 6.3, 7.1-7.3): Punktskattningar Marina Axelson-Fisk 4 maj, 2016 Stickprov (sample) Idag: Stickprovsmedelvärde och varians Statistika (statistic) Punktskattning (point estimation)
FÖRELÄSNING 7:
FÖRELÄSNING 7: 2016-05-10 LÄRANDEMÅL Normalfördelningen Standardnormalfördelning Centrala gränsvärdessatsen Konfidensintervall Konfidensnivå Konfidensintervall för väntevärdet då variansen är känd Samla
STATISTISK ANALYS AV KOMPLEXA DATA
STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA Linda Wänström Linköpings universitet 12 December Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 1 / 12 Explorativ Faktoranalys
Slumpmässiga urval med Minitab LWn /
Statistiska institutionen Slumpmässiga urval med Minitab LWn / 2006-03-01 1 OSU, obundet slumpmässigt urval I Minitab har vi lagt upp ett register med våra tjugo bästa kompisar. Nu ska vi göra ett OSU
SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011
Avd. Matematisk statistik Tobias Rydén 2011-09-30 SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011 Förberedelser. Innan du går till laborationen, läs igenom den här handledningen. Repetera också i
Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)
Avd. Matematisk statistik TENTAMEN I SF1901, SF1905, SANNOLIKHETSTEORI OCH STATISTIK, MÅNDAGEN DEN 17:E AUGUSTI 2015 KL 8.00 13.00. Kursledare: Tatjana Pavlenko, 08-790 84 66 Tillåtna hjälpmedel: Formel-
Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel
Finansiell Statistik (GN, 7,5 hp,, VT 009) Föreläsning Diskreta (LLL Kap 6) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics (Basic-level course, 7,5 ECTS,
Studietyper, inferens och konfidensintervall
Studietyper, inferens och konfidensintervall Andrew Hooker Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University Studietyper Experimentella studier Innebär
Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II
Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I
Slutrapport Bättre primärstatistik BAST, etapp 2
Slutrapport Avslut 1(7) Slutrapport Bättre primärstatistik BAST, etapp 2 Slutrapport Avslut 2(7) Innehåll 1 Sammanfattning... 3 2 Projektet... 4 2.1 Projektets bakgrund och uppgift... 4 2.2 Deltagare...
Tentamen MVE301 Sannolikhet, statistik och risk
Tentamen MVE30 Sannolikhet, statistik och risk 207-08-5 kl. 8:30-3:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Olof Elias, telefon: 03-7725325 Hjälpmedel: Valfri miniräknare.
Hur skriver man statistikavsnittet i en ansökan?
Hur skriver man statistikavsnittet i en ansökan? Val av metod och stickprovsdimensionering Registercentrum Norr http://www.registercentrumnorr.vll.se/ statistik.rcnorr@vll.se 11 Oktober, 2018 1 / 52 Det
Weibullanalys. Maximum-likelihoodskattning
1 Weibullanalys Jan Enger Matematisk statistik KTH Weibull-fördelningen är en mycket viktig fördelning inom tillförlitlighetsanalysen. Den används ofta för att modellera mekaniska komponenters livslängder.
Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015
MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Lösningsförslag till tentamen på Statistik och kvantitativa undersökningar STA100, 15 hp Fredagen den 13 e mars 015 1 a 13 och 14
Tentamen i Matematisk statistik Kurskod S0001M
Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2019-01-18 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 9.00 14.00 Lärare: Adam Jonsson, Mykola
Några extra övningsuppgifter i Statistisk teori
Statistiska institutionen Några extra övningsuppgifter i Statistisk teori 23 JANUARI 2009 2 Sannolikhetsteorins grunder 1. Tre vanliga symmetriska tärningar kastas. Om inte alla tre tärningarna visar sexa,
Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 4 MATEMATISK STATISTIK, FÖR I/PI, FMS 121/2, HT-3 Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar
Statistikens grunder. Mattias Nilsson Benfatto, Ph.D
Statistikens grunder Mattias Nilsson Benfatto, Ph.D Vad är statistik? Statistik är en gren inom tillämpad matematik som sysslar med insamling, utvärdering, analys och presentation av data eller information.
SF1901 Sannolikhetsteori och statistik I
SF1901 Sannolikhetsteori och statistik I Jimmy Olsson Föreläsning 6 13 november 2017 1 / 29 Idag Förra gången Mer om väntevärden och varianser (Kap. 5.2 5.3) Beroendemått (Kap. 5.4) Summor, linjärkombinationer
F1 Introduktion. Statistisk undersökning. Vad är statistik? Vad är en statistisk undersökning? Klassificering efter mål eller syfte med undersökningen
F1 Introduktion. Statistisk undersökning. Leif Ruckman och Christina Andersson Avdelningen för Nationalekonomi och Statistik Karlstads universitet Vad är statistik? 1. Statistiska uppgifter. T ex som underlag
Matematisk statistik för B, K, N, BME och Kemister
Matematisk statistik för B, K, N, BME och Kemister Föreläsning 5 Johan Lindström 12 september 216 Johan Lindström - johanl@maths.lth.se FMS86/MASB2 F5 1/23 Repetition Gauss approximation Delta metoden
Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3
Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3 Kontinuerliga sannolikhetsfördelningar (LLL Kap 7 & 9) Department of Statistics (Gebrenegus Ghilagaber, PhD, Associate Professor) Financial Statistics
Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012
Statistiska Institutionen Patrik Zetterberg Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012 2013-01-18 Skrivtid: 9.00-14.00 Hjälpmedel: Godkänd miniräknare utan lagrade formler eller