5:1 Studien ifråga, High School and beyond, går ut på att hitta ett samband mellan vilken typ av program generellt, praktiskt eller akademiskt som studenter väljer baserat på olika faktorer kön, ras, socioekonomisk status, typ av skola samt poäng på test inom sociala studier, vetenskap, matematik, läsning och skrivning. a) Anpassa en trinomial responsmodell med övriga relevanta variabler som (icketransformerade) prediktorer. I detta fall är alltså typen av program multinominal responsvariabel. Bör man betrakta variabeln som ordinal eller nominal? Man kan argumentera för att ett generellt program kan ses som ett mellansteg mellan ett praktiskt och ett akademiskt. Att en multinominal responsvariabel har valts innebär att antalet observationer är fixerat vid 200, men att antalet observationer med vissa egenskaper har tillåtits variera fritt. En annan fråga är vilken typ av generaliserad linjär modell som är lämplig för undersökningen, och svaret på frågan beror på hur man valt ut de personer som ingår i undersökningen. Antal observationer per faktor varierar, vilket tyder på att någon form av poissonmodell är mest lämpad för materialet. Här har funktionen multinom använts. AIC-värdet för denna modell är c:a 357.9, och residualdeviansen 305.8, vilket tyder på att modellen är väl anpassad för data. b) Använd baklänges eliminering av variabler för att reducera modellen till en där alla prediktorer är statistiskt signifikanta. Ge en tolkning av den resulterande modellen. De variabler som är signifikanta efter en stegvis eliminering är typ av skola, socioekonomisk klass, samt resultat på matematik, sociala studier och vetenskap, och modellen är som följer, med akademiskt program som jämförelse 1 : 1 Underklass, medelklass osv. är knappast bra översättningar av låg socioekonomisk status m.m., detta kan vara värt att hålla i minnet men torde inte vara så relevant för diskussionen som följer.
AIC-värdet för denna modell är c:a 343.6, och residualdeviansen 315.6, vilket är en viss förbättring i jämförelse med grundmodellen. Tolkning: Modellen indikerar att personer som väljer allmän skola är mer benägna att välja generellt eller (framförallt) praktiskt program än de som går privatskola de senare är alltså mer benägna att välja akademiskt program. Elever som kommer från bakgrunder med låg eller medelhög socioekonomisk status är dessutom mer benägna att välja generellt program. Intressant är att elever från medelklassen är mycket mer benägna att välja praktisk inriktning än såväl arbetarklasselever som elever från de högre samhällsskikten. Detta resultat synes mig något oväntat. Elever som haft högt resultat på matematik och/eller sociala studier är mer benägna att välja akademiskt program, vilket kan tyckas logiskt då det tyder på teoretiska färdigheter. Däremot innehåller modellen en viss koppling mellan högt resultat på vetenskapsdelen och ickeakademisk utbildning, vilket är förvånande. Dock: poängsystemet verkar vara detsamma för matematik, vetenskap och sociala studier, och koefficienten för vetenskap är väldigt liten, vilket innebär att effekten kanske kan ses som ren slump. Man kan också undra över korrelationen mellan de oberoende variablerna: kanske är poängen på vetenskap högt korrelerad med, säg, hög poäng på matematik, vilket skulle göra koefficienterna något opålitliga. c) Beräkna de predikterade sannolikheterna för de tre valen för studenten med ID 99. Via funktionen predict, och typen probs : 50.8% akademiskt program 37.6% generellt program 11.7% praktiskt program 8:2
Detta dataset kommer från en studie av hur lång tid det tar för blod att koagulera. Tjugofyra djur har slumpmässigt tilldelats en av fyra olika dieter och sampel från djuren har tagits i slumpmässig ordning. a) Ett nytt djur har tilldelats diet D. Prediktera koaguleringstiden för djuret ifråga tillsammans med en skattning av variabiliteten i denna prediktion. Enligt Shapiro-Wilks normalitetstest är p-värdet för koaguleringstiderna är normalfördelade 0.8476, vilket innebär att normalfördelning är ett rimligt antagande. I studien verkar inte dieternas effekt på koaguleringen i sig vara av intresse, utan frågan är hur koaguleringstiden varierar. Med andra ord är en modell med slumpmässiga effekter att föredra. I och med att = 61 så är den enda väntevärdesriktiga skattningen av prediktionstiden 61 sekunder. Vad gäller konfidensintervall så verkar residualerna vara mer eller mindre normalfördelade med stabil varians. Alltså borde ett 95%-igt konfidensintervall för den nya observationer kunna beräknas som: 1.96* sekunder. ICC-värdet för vilket innebär att större delen av variansen i koaguleringstid kan förklaras med hjälp av skillnaden i diet. b) En ny diet ges till ett nytt djur. Prediktera koaguleringstiden för djuret ifråga tillsammans med en skattning av variabiliteten i denna prediktion. Nu varierar koagulationstiden både med avseende på individ och på diet. Medelvärdet för koaguleringstid om vi inte blockar med avseende på diet är 64 sekunder. Alltså borde ett 95%-igt konfidensintervall för den nya observationen kunna beräknas som: 1.96* (56, 72) sekunder. c) En ny diet ges till det första djuret i datasetet. Prediktera koaguleringstiden för djuret ifråga tillsammans med en skattning av variabiliteten i denna prediktion. Förutsätt att effekten från den första dieten har avtagit. Denna gång är residualvariansen det vill säga skillnaden mellan individer konstant i och med att vi testar för samma djur. Däremot varierar tiden med avseende på diet. Dock: här görs ett antagande som är svårt att verifiera och kan visa sig gravt felaktigt, nämligen att hela eller åtminstone lejonparten av residualvariansen kan förklaras med skillnader mellan individer. Om skillnaden inom individer också är betydande blir de skattningsintervall som följer för optimistiska. Sådana skillnader hade kunnat upptäckas om flera tester hade gjorts på samma djur (förutsatt att de första effekterna hade avtagit när de nya gjordes). Om detta antagande kan göras blir beräkningen som följer: Första observationen har koaguleringstiden 62 sekunder, och =61 sekunder. Om vi accepterar antagandet om konstant varians innebär detta att det predikterade värdet för observation ett är en sekund över medel, det vill säga 65 sekunder. Alltså borde ett 95%-igt konfidensintervall för den nya observationen kunna beräknas som: 1.96* (58, 72) sekunder. 9:4
Detta dataset ger maximala accelerationer mätta på olika observationsstationer för 23 jordbävningar i Kalifornien. Dessa data har används för att skatta hur ökat avstånd förtunnar effekten av markacceleration. a) Modellera logaritmen av accelerationen som en funktion av logaritmen av avståndet givet storleken av skalvet En rent linjär modell ger inte optimalt resultat, i och med att avståndsmåtten är nästlade i de olika skalven. Det innebär att residualerna är beroende. Med hjälp av funktionen lmer i R så kan man använda sig av en nästlad modell, vilket ledde till ekvationen: b) Prediktera hur accelerationen varierar för en jordbävning av storlek 7.5. Uttryck kvantitativt osäkerheten i förutsägelsen. Ett problem med lme4-paketet i R är avsaknaden av en predict -funktion som hör till lmer-funktionen. Däremot kan man, via funktionen ranef, få de skattade intercepten för de värden på magnituden som finns i datamaterialet. För att få interceptet för 7.5 tog jag därför medelvärdet av intercepten för 7.4 och 7.6, vilket givetvis inte är en optimal lösning. Detta innebär att den predikterade accelerationen vid epicentrum är Figur 1: Graf över acceleration (g) vs. avstånd (km). Ett annat problem är att residualerna i modellen inte är normalfördelade enligt Shapiro-Wilks normalfördelningstest. Trots denna reservation har jag använt mig av ett approximativt normalfördelat konfidensintervall, vilket i och med att residualstandardavvikelsen är c:a 0.665 - ger intervallet (, 1.10 -
)=( 2.43,-0.23) för interceptet. I och med att intervallet är så stort så måste förutsägelsen anses vara väldigt osäker. Figur 2: Graf över acceleration (g) vs. avstånd (km), med 95%-igt konfidensintervall. 12 10 8 6 4 2 0 0 50 100 150 200 250 300 c) Prediktera hur accelerationen varierade för den första händelsen, där bara en observation fanns tillgänglig. Det skattade interceptet för en händelse med magnitud 7.0 (händelse ett) är c:a 0.75. Med andra ord blir ekvationen:
Appendix 5.1 library(faraway) data<-data(hsb) attach(hsb) help(hsb) #program är responsvariabel. hsb$race #antalet vita och övr. skiljer sig åt library(nnet) M<-multinom(prog~schtyp+ses+race+gender+read+write+math+science+socst) step(m) predict(m,type="probs") 8.2 attach(coagulation) data(coagulation) ANOVA=aov(coag~diet) LinearMod=lm(coag~diet) RandomEff<-lmer(coag~1+(1 diet)) summary(randomeff) ICC=11.6902/(11.6902+5.5995) (Alltså borde ett 95%-igt konfidensintervall för den nya observationen kunna beräknas som: Res<-RandomEff@resid plot(res) #verkar vara normalfördelade(?) och variansen verkar vara ungefär densamma för de olika dieterna. 56+62+60+61+63+64+63+59=488 488/8=61 #mv för D 61+2.3663*1.96 #95% konfidensintervall 61-2.3663*1.96
sqrt(11.6902+5.5995) #SD för diet+residual. mean(coag) #=64. 64+(sqrt(11.6902+5.5995))*1.96 64-(sqrt(11.6902+5.5995))*1.96 (62+60+63+59)/4 #mv för A #1:a observationen har en res. på +1. 65+(sqrt(11.6902))*1.96 65-(sqrt(11.6902))*1.96 9.4 shapiro.test(resid(accdist)) hist(resid(accdist)) plot(resid(accdist)) library(lmtest) dwtest(lm(log(accel)~log(dist))) # Durbin-Watson test #data: lm(log(accel) ~ log(dist)) #DW = 1.2982, p-value = 7.304e-07 #alternative hypothesis: true autocorrelation is greater than 0 library(lme4) M=lmer((log(accel)~1+(1 mag)+mag:(log(dist)))) ranef(m) (1.0559655+1.1407429)/2 shapiro.test(m@resid) avstand=1:300 acceleration=exp(1.10-0.003-0.13*log(avstand)) plot(acceleration~avstand) #Matlab-kommandon >>avstand=1:300 >> acceleration=exp(1.10-0.003-0.13*log(avstand)); >> accelerationmin=exp(-0.23-0.003-0.13*log(avstand)); >> accelerationmax=exp(2.43-0.003-0.13*log(avstand)) >> hold on >> plot(avstand,acceleration) >> plot(avstand,accelerationmin,'.') >> plot(avstand,accelerationmax,'.')