a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade)



Relevanta dokument
Tillämpad statistik (A5), HT15 Föreläsning 10: Multipel linjär regression 1

Statistik och epidemiologi T5

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Tentamen i Matematisk statistik Kurskod S0001M

Resultatet läggs in i ladok senast 13 juni 2014.

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Enkel linjär regression: skattning, diagnostik, prediktion. Multipel regression: modellval, indikatorvariabler

Linjär regressionsanalys. Wieland Wermke

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression LABORATION 5 MATEMATISK STATISTIK AK FÖR CDE, FMS012, VT08

Uppgift 1. Deskripitiv statistik. Lön

Regressionsanalys av huspriser i Vaxholm

Multipel regression och Partiella korrelationer

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laboration 2

Tentamen STA A10 och STA A13, 9 poäng 19 januari 2006, kl

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Forskningsläget betr värdet av restidsvinster för privatresor i Sverige

Statistikens grunder (an, 7,5 hsp) Tatjana Nahtman Statistiska institutionen, SU

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Statistiska metoder för säkerhetsanalys

Läs noggrant informationen nedan innan du börjar skriva tentamen

Ur boken Självkänsla Bortom populärpsykologi och enkla sanningar

Summor av slumpvariabler

ÖVNINGSUPPGIFTER KAPITEL 9

Statistiska analyser C2 Inferensstatistik. Wieland Wermke

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Structural Equation Modeling med Amos Kimmo Sorjonen ( )

Hanne Solem Görel Hydén Sätt in stöten! MATEMATIK

Under denna laboration kommer regression i olika former att tas upp. Laborationen består av fyra större deluppgifter.

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

k x om 0 x 1, f X (x) = 0 annars. Om Du inte klarar (i)-delen, så får konstanten k ingå i svaret. (5 p)

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Onsdag 1 november 2006, Kl

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

Figur 1. Skärmbild med markerade steg i videon. Diagram och tabell som visar positionerna som funktion av tiden.

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Information om SKK:s index för HD och ED

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

Kunskap = sann, berättigad tro (Platon) Om en person P s har en bit kunskap K så måste alltså: Lite kunskaps- och vetenskapsteori

PM NÄTAVGIFTER Sammanfattning.

Tentamen'i'TMA321'Matematisk'Statistik,'Chalmers'Tekniska'Högskola.''

Tentamen i Matematisk statistik Kurskod S0001M

F14 Repetition. Måns Thulin. Uppsala universitet Statistik för ingenjörer 6/ /15

Föreläsning 7 och 8: Regressionsanalys

Påverkar Dag 0 express däckförsäljningen?

Föreläsning 12: Regression

Preliminär rapport om populationsutveckling och storlek av brunbjörn i Sverige, 2004

ARIMA del 2. Patrik Zetterberg. 19 december 2012

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

Statistisk undersökningsmetodik (Pol. kand.)

Är sjukvården jämställd och går det åt rätt håll?

Avd. Matematisk statistik

KA RKUNSKAP. Vad vet samhällsvetarna om sin kår? Julius Schmidt, Hannes Jägerstedt, Hanna Johansson, Miro Beríc STAA31 HT14

TMS136. Föreläsning 10

TENTAMEN KVANTITATIV METOD (100205)

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen i Matematisk statistik Kurskod S0001M

Läs noggrant informationen nedan innan du börjar skriva tentamen

KARTLÄGGNING AV MATEMATIKLÄRARES UTBILDNINGSBAKGRUND

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

SÄKERHETSVISAREN 1. LEDNING OCH PRIORITERINGAR

Konsekvenser av indelningar i områden för redovisning av försök i svensk sortprovning. Johannes Forkman, Saeid Amiri and Dietrich von Rosen

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

RödGrön-spelet Av: Jonas Hall. Högstadiet. Tid: minuter beroende på variant Material: TI-82/83/84 samt tärningar

Kursutvärdering. Samhällskunskap A

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Dekomponering av löneskillnader

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 7. Multipel regression. (LLL Kap 15) Multipel Regressionsmodellen

lära dig tolka ett av de vanligaste beroendemåtten mellan två variabler, korrelationskoefficienten.

Blandade problem från väg- och vattenbyggnad

HD-index. ett nytt verktyg i avelsarbetet för bättre ledhälsa. Text: Sofia Malm, Foto: Åsa Lindholm

En ekonomisk analys av orsaker till individers preventiva tandvårdsbeteende

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Introduktion. Exempel Övningar Lösningar 1 Lösningar 2 Översikt

MA 1202 Matematik B Mål som deltagarna skall ha uppnått efter avslutad kurs.

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Ekvationssystem - Övningar

Resultat. Principalkomponentanalys för alla icke-kategoriska variabler

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

En generell prediktiv kodare utnyttjar signalens utseende N steg tillbaka i tiden för kodningen, dvs vi kodar efter den betingade fördelningen

Problemet löd: Är det möjligt att på en sfär färga varje punkt på ett sådant sätt att:

TNSL11 Kvantitativ Logistik

Linjär prediktion. Prediktiv kodning. Linjär prediktion. Prediktiv kodare och avkodare

Tentamen för kursen. Linjära statistiska modeller. 20 mars

STOCKHOLMS UNIVERSITET VT 2008 Statistiska institutionen Linda Wänström

FÖRELÄSNING 1 ANALYS MN1 DISTANS HT06

ELEVHJÄLP. Diskussion s. 2 Åsikter s. 3. Källkritik s. 11. Fördelar och nackdelar s. 4. Samarbete s. 10. Slutsatser s. 9. Konsekvenser s.

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Schackundervisning och invandrarfamiljer

Strömbackaskolan läsåret Handlingsplan mot droger

F13 Regression och problemlösning

Programmeringsolympiaden 2008 Kvalificering

Matematik 92MA41 (15hp) Vladimir Tkatjev

varandra. Vi börjar med att behandla en linjes ekvation med hjälp av figur 7 och dess bildtext.

Signalanalys med snabb Fouriertransform

Regressions- och Tidsserieanalys - F4

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Föreläsning G60 Statistiska metoder

Inledning...3. Kravgränser Provsammanställning...22

Föreläsning 9. NDAB02 Statistik; teori och tillämpning i biologi

Transkript:

5:1 Studien ifråga, High School and beyond, går ut på att hitta ett samband mellan vilken typ av program generellt, praktiskt eller akademiskt som studenter väljer baserat på olika faktorer kön, ras, socioekonomisk status, typ av skola samt poäng på test inom sociala studier, vetenskap, matematik, läsning och skrivning. a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade) prediktorer. I detta fall är alltså typen av program multinominal responsvariabel. Bör man betrakta variabeln som ordinal eller nominal? Man kan argumentera för att ett generellt program kan ses som ett mellansteg mellan ett praktiskt och ett akademiskt. Att en multinominal responsvariabel har valts innebär att antalet observationer är fixerat vid 200, men att antalet observationer med vissa egenskaper har tillåtits variera fritt. En annan fråga är vilken typ av generaliserad linjär modell som är lämplig för undersökningen, och svaret på frågan beror på hur man valt ut de personer som ingår i undersökningen. Antal observationer per faktor varierar, vilket tyder på att någon form av poissonmodell är mest lämpad för materialet. Här har funktionen multinom använts. AIC-värdet för denna modell är c:a 357.9, och residualdeviansen 305.8, vilket tyder på att modellen är väl anpassad för data. b) Använd baklänges eliminering av variabler för att reducera modellen till en där alla prediktorer är statistiskt signifikanta. Ge en tolkning av den resulterande modellen. De variabler som är signifikanta efter en stegvis eliminering är typ av skola, socioekonomisk klass, samt resultat på matematik, sociala studier och vetenskap, och modellen är som följer, med akademiskt program som jämförelse 1 : 1 Underklass, medelklass osv. är knappast bra översättningar av låg socioekonomisk status m.m., detta kan vara värt att hålla i minnet men torde inte vara så relevant för diskussionen som följer.

AIC-värdet för denna modell är c:a 343.6, och residualdeviansen 315.6, vilket är en viss förbättring i jämförelse med grundmodellen. Tolkning: Modellen indikerar att personer som väljer allmän skola är mer benägna att välja generellt eller (framförallt) praktiskt program än de som går privatskola de senare är alltså mer benägna att välja akademiskt program. Elever som kommer från bakgrunder med låg eller medelhög socioekonomisk status är dessutom mer benägna att välja generellt program. Intressant är att elever från medelklassen är mycket mer benägna att välja praktisk inriktning än såväl arbetarklasselever som elever från de högre samhällsskikten. Detta resultat synes mig något oväntat. Elever som haft högt resultat på matematik och/eller sociala studier är mer benägna att välja akademiskt program, vilket kan tyckas logiskt då det tyder på teoretiska färdigheter. Däremot innehåller modellen en viss koppling mellan högt resultat på vetenskapsdelen och ickeakademisk utbildning, vilket är förvånande. Dock: poängsystemet verkar vara detsamma för matematik, vetenskap och sociala studier, och koefficienten för vetenskap är väldigt liten, vilket innebär att effekten kanske kan ses som ren slump. Man kan också undra över korrelationen mellan de oberoende variablerna: kanske är poängen på vetenskap högt korrelerad med, säg, hög poäng på matematik, vilket skulle göra koefficienterna något opålitliga. c) Beräkna de predikterade sannolikheterna för de tre valen för studenten med ID 99. Via funktionen predict, och typen probs : 50.8% akademiskt program 37.6% generellt program 11.7% praktiskt program 8:2

Detta dataset kommer från en studie av hur lång tid det tar för blod att koagulera. Tjugofyra djur har slumpmässigt tilldelats en av fyra olika dieter och sampel från djuren har tagits i slumpmässig ordning. a) Ett nytt djur har tilldelats diet D. Prediktera koaguleringstiden för djuret ifråga tillsammans med en skattning av variabiliteten i denna prediktion. Enligt Shapiro-Wilks normalitetstest är p-värdet för koaguleringstiderna är normalfördelade 0.8476, vilket innebär att normalfördelning är ett rimligt antagande. I studien verkar inte dieternas effekt på koaguleringen i sig vara av intresse, utan frågan är hur koaguleringstiden varierar. Med andra ord är en modell med slumpmässiga effekter att föredra. I och med att = 61 så är den enda väntevärdesriktiga skattningen av prediktionstiden 61 sekunder. Vad gäller konfidensintervall så verkar residualerna vara mer eller mindre normalfördelade med stabil varians. Alltså borde ett 95%-igt konfidensintervall för den nya observationer kunna beräknas som: 1.96* sekunder. ICC-värdet för vilket innebär att större delen av variansen i koaguleringstid kan förklaras med hjälp av skillnaden i diet. b) En ny diet ges till ett nytt djur. Prediktera koaguleringstiden för djuret ifråga tillsammans med en skattning av variabiliteten i denna prediktion. Nu varierar koagulationstiden både med avseende på individ och på diet. Medelvärdet för koaguleringstid om vi inte blockar med avseende på diet är 64 sekunder. Alltså borde ett 95%-igt konfidensintervall för den nya observationen kunna beräknas som: 1.96* (56, 72) sekunder. c) En ny diet ges till det första djuret i datasetet. Prediktera koaguleringstiden för djuret ifråga tillsammans med en skattning av variabiliteten i denna prediktion. Förutsätt att effekten från den första dieten har avtagit. Denna gång är residualvariansen det vill säga skillnaden mellan individer konstant i och med att vi testar för samma djur. Däremot varierar tiden med avseende på diet. Dock: här görs ett antagande som är svårt att verifiera och kan visa sig gravt felaktigt, nämligen att hela eller åtminstone lejonparten av residualvariansen kan förklaras med skillnader mellan individer. Om skillnaden inom individer också är betydande blir de skattningsintervall som följer för optimistiska. Sådana skillnader hade kunnat upptäckas om flera tester hade gjorts på samma djur (förutsatt att de första effekterna hade avtagit när de nya gjordes). Om detta antagande kan göras blir beräkningen som följer: Första observationen har koaguleringstiden 62 sekunder, och =61 sekunder. Om vi accepterar antagandet om konstant varians innebär detta att det predikterade värdet för observation ett är en sekund över medel, det vill säga 65 sekunder. Alltså borde ett 95%-igt konfidensintervall för den nya observationen kunna beräknas som: 1.96* (58, 72) sekunder. 9:4

Detta dataset ger maximala accelerationer mätta på olika observationsstationer för 23 jordbävningar i Kalifornien. Dessa data har används för att skatta hur ökat avstånd förtunnar effekten av markacceleration. a) Modellera logaritmen av accelerationen som en funktion av logaritmen av avståndet givet storleken av skalvet En rent linjär modell ger inte optimalt resultat, i och med att avståndsmåtten är nästlade i de olika skalven. Det innebär att residualerna är beroende. Med hjälp av funktionen lmer i R så kan man använda sig av en nästlad modell, vilket ledde till ekvationen: b) Prediktera hur accelerationen varierar för en jordbävning av storlek 7.5. Uttryck kvantitativt osäkerheten i förutsägelsen. Ett problem med lme4-paketet i R är avsaknaden av en predict -funktion som hör till lmer-funktionen. Däremot kan man, via funktionen ranef, få de skattade intercepten för de värden på magnituden som finns i datamaterialet. För att få interceptet för 7.5 tog jag därför medelvärdet av intercepten för 7.4 och 7.6, vilket givetvis inte är en optimal lösning. Detta innebär att den predikterade accelerationen vid epicentrum är Figur 1: Graf över acceleration (g) vs. avstånd (km). Ett annat problem är att residualerna i modellen inte är normalfördelade enligt Shapiro-Wilks normalfördelningstest. Trots denna reservation har jag använt mig av ett approximativt normalfördelat konfidensintervall, vilket i och med att residualstandardavvikelsen är c:a 0.665 - ger intervallet (, 1.10 -

)=( 2.43,-0.23) för interceptet. I och med att intervallet är så stort så måste förutsägelsen anses vara väldigt osäker. Figur 2: Graf över acceleration (g) vs. avstånd (km), med 95%-igt konfidensintervall. 12 10 8 6 4 2 0 0 50 100 150 200 250 300 c) Prediktera hur accelerationen varierade för den första händelsen, där bara en observation fanns tillgänglig. Det skattade interceptet för en händelse med magnitud 7.0 (händelse ett) är c:a 0.75. Med andra ord blir ekvationen:

Appendix 5.1 library(faraway) data<-data(hsb) attach(hsb) help(hsb) #program är responsvariabel. hsb$race #antalet vita och övr. skiljer sig åt library(nnet) M<-multinom(prog~schtyp+ses+race+gender+read+write+math+science+socst) step(m) predict(m,type="probs") 8.2 attach(coagulation) data(coagulation) ANOVA=aov(coag~diet) LinearMod=lm(coag~diet) RandomEff<-lmer(coag~1+(1 diet)) summary(randomeff) ICC=11.6902/(11.6902+5.5995) (Alltså borde ett 95%-igt konfidensintervall för den nya observationen kunna beräknas som: Res<-RandomEff@resid plot(res) #verkar vara normalfördelade(?) och variansen verkar vara ungefär densamma för de olika dieterna. 56+62+60+61+63+64+63+59=488 488/8=61 #mv för D 61+2.3663*1.96 #95% konfidensintervall 61-2.3663*1.96

sqrt(11.6902+5.5995) #SD för diet+residual. mean(coag) #=64. 64+(sqrt(11.6902+5.5995))*1.96 64-(sqrt(11.6902+5.5995))*1.96 (62+60+63+59)/4 #mv för A #1:a observationen har en res. på +1. 65+(sqrt(11.6902))*1.96 65-(sqrt(11.6902))*1.96 9.4 shapiro.test(resid(accdist)) hist(resid(accdist)) plot(resid(accdist)) library(lmtest) dwtest(lm(log(accel)~log(dist))) # Durbin-Watson test #data: lm(log(accel) ~ log(dist)) #DW = 1.2982, p-value = 7.304e-07 #alternative hypothesis: true autocorrelation is greater than 0 library(lme4) M=lmer((log(accel)~1+(1 mag)+mag:(log(dist)))) ranef(m) (1.0559655+1.1407429)/2 shapiro.test(m@resid) avstand=1:300 acceleration=exp(1.10-0.003-0.13*log(avstand)) plot(acceleration~avstand) #Matlab-kommandon >>avstand=1:300 >> acceleration=exp(1.10-0.003-0.13*log(avstand)); >> accelerationmin=exp(-0.23-0.003-0.13*log(avstand)); >> accelerationmax=exp(2.43-0.003-0.13*log(avstand)) >> hold on >> plot(avstand,acceleration) >> plot(avstand,accelerationmin,'.') >> plot(avstand,accelerationmax,'.')