STOCKHOLMS UNIVERSITET 4 mars 2010 Matematiska institutionen Avd. för matematisk statistik Mikael Andersson Exempel på tentamensuppgifter Uppgift 1 Betrakta en allmän I J-tabell enligt 1 2 3 J Σ 1 n 11 n 12 n 13 n 1J n 1+ 2 n 21 n 22 n 23 n 2J n 2+ 3 n 31 n 32 n 33 n 3J n 3+......... I n I1 n I2 n I3 n IJ n I+ Σ n +1 n +2 n +3 n +J n a) Ange fördelningen för tabellen under antagande om produkt-multinomialurval, där radsummorna n i+ antas fixa. b) Ange fördelningen för tabellen under antagande om multinomialurval, där totalsumman n antas fix. c) Visa att fördelningen under multinomialurval betingat på radsummorna är identisk med fördelningen under produkt-multinomialurval. Uppgift 2 Modellen enkel logistisk regression definieras som Y i Bin(n i, π(x i )) i = 1, 2,..., k 1
där ( ) π(xi ) log = α + βx i 1 π(x i ) Härled ML-skattningen av α under nollhypotesen H 0 : β = 0. Uppgift 3 Vid en dos-responsstudie delades ett antal försöksråttor in i tre grupper av storlekarna n 1, n 2 och n 3. Efter att ha utsatts för doserna x 1 = 0, x 2 = 1 och x 3 = 2 avled y 1 råttor i första gruppen, y 2 i andra gruppen och y 3 i tredje gruppen. Man valde den logistiska regressionsmodellen Y i Bin(n i, π(x i )) i = 1, 2, 3 där ( ) π(xi ) log = β 0 + β 1 x i + β 2 x 2 i 1 π(x i ) för responserna. Härled ML-skattningar för parametrarna β 0, β 1 och β 2. Uppgift 4 Betrakta en allmän I J K-tabell under Poissonurval där n ijk betecknar antal observationer och π ijk betecknar sannolikheten för cellen (i, j, k). Ange ML-skattningen av π ijk under följande modeller a) log(µ ijk ) = λ + λ X i + λ Y j + λz k b) log(µ ijk ) = λ + λ X i + λ Y j + λz k + λxz ik c) log(µ ijk ) = λ + λ X i + λ Y j + λz k + λxy ij + λ Y Z jk Uppgift 5 Betrakta modellen enkel logistisk regression där Y i Bin(n i, π(x i )) i = 1, 2,..., k är oberoende stokastiska variabler och ( ) π(xi ) log = α + βx i 1 π(x i ) för de förklarande variablerna x 1, x 2,..., x k. 2
a) Bestäm log-likelihoodfunktionen L(α, β) uttryckt i parametrarna α och β. b) Använd a-uppgiften för att bestämma likelihoodekvationerna, det vill säga de ekvationer vars lösning ger ML-skattningarna av α och β. c) Bestäm informationsmatrisen med avseende på α och β. Uppgift 6 Vid en studie ville man undersöka om operation av halsmandlarna ökade risken för att utveckla Hodgkins sjukdom, vilket är en cancersjukdom som drabbar lymfsystemet. Eftersom man misstänker att det även kan finnas genetiska faktorer bakom sjudomen valde man ut 85 patienter som hade ett friskt syskon med mindre än fem års åldersskillnad. Av dessa syskonpar var det 26 stycken där båda hade opererat halsmandlarna, 37 stycken där ingen hade gjort det, 15 stycken där endast patienten hade gjort det och 7 stycken där endast det friska syskonet hade gjort det. Testa på 10 %-nivån om operation av halsmandlarna påverkar risken att utveckla Hodgkins sjukdom. Uppgift 7 Vid utlysning av två tjänster kallades fem sökanden, två kvinnor och tre män, som bedömdes ha likvärdiga meriter för det aktuella jobbet. Efter genomförda intervjuer visade det sig att de två kvinnorna erbjöds tjänsterna. Använd Fishers exakta test för att beräkna p-värdet för testet av hypotesen att kön inte påverkar sannolikheten att få jobb vid det aktuella företaget. Uppgift 8 En stokastisk variabel Y i sägs vara logaritmiskt fördelad med parameter p i om p(y i ) = P(Y i = y i ) = p y i i y i log(1 p i ) y i = 1, 2, 3,... (Denna fördelning är användbar inom exempelvis sakförsäkringsmatematik som modell för antalet skador då nollskador inte rapporteras.) a) Visa att den logaritmiska fördelningen kan skrivas på formen för en slumpkomponent i den generaliserade linjära modellen ( ) yi θ i b(θ i ) f(y i ; θ i, φ) = exp + c(y i, φ) a(φ) och bestäm θ i, a(φ), och b(θ i ). 3
b) Härled en ekvation vars (numeriska) lösning ger den kanoniska länkfunktionen. Uppgift 9 Betrakta en 2 2-tabell 1 2 1 n 11 n 12 n 1+ 2 n 21 n 22 n 2+ n +1 n +2 n som antas ha uppkommit genom multinomialurval. a) Låt π ij ange sannolikheten att en individ hamnar i cell (i, j) och sätt upp ett uttryck som beskriver fördelningen för tabellen. b) Definiera oddskvoten θ. c) Visa att oberoendehypotesen H 0 : π ij = π i+ π +j är ekvivalent med θ = 1. d) Ansätt den log-linjära modellen log(µ ij ) = λ + λ X i + λ Y j + λxy ij, där µ ij = E[n ij ], och visa att oberoendehypotesen i c-uppgiften är ekvivalent med en log-linjär modell utan sampspel. Uppgift 10 Låt y i beteckna antal positiva responser av totalt n i responser för den förklarande variabeln x i där i = 1, 2. Ansätt modellen enkel logistisk regression och härled exakta uttryck för maximum likelihoodskattningarna av parametrarna i modellen uttryckt enbart i y i, n i och x i för i = 1, 2. Uppgift 11 Antag att fördelningen för den stokastiska variabeln Y i kan skrivas på formen för en slumpkomponent i den generaliserade linjära modellen ( ) yi θ i b(θ i ) f(y i ; θ i, φ) = exp + c(y i, φ) a(φ) där θ i och φ är godtyckliga parametrar och a, b och c är godtyckliga funktioner. 4
a) Härled den momentgenererande funktionen M(t) = E[e ty i ] för Y i. b) Använd resultatet i a-uppgiften och härled uttryck för väntevärde och varians för Y i. Uppgift 12 Antag att vi har parvist beroende responsvariabler med I kategorier. Data kan då skrivas i en I I-tabell 1 2 3 I Σ 1 n 11 n 12 n 13 n 1I n 1+ 2 n 21 n 22 n 23 n 2I n 2+ 3 n 31 n 32 n 33 n 3I n 3+......... I n I1 n I2 n I3 n II n I+ Σ n +1 n +2 n +3 n +I n där n ij anger antal par av responser (i, j). I en sådan här situation är det ofta av intresse att undersöka om tabellen är symmetrisk, det vill säga om hypotesen H 0 : π ij = π ji, i, j; i j där π ij betecknar sannolikheten för cell (i, j), är sann. a) Ange antal frihetsgrader under grundmodellen och under H 0. b) Bestäm ML-skattningarna av π ij under H 0. c) Förenkla uttrycket för χ 2 -statistikan för testet av H 0 mot grundmodellen så långt som möjligt. Uppgift 13 Betrakta en allmän trevägstabell med I rader, J kolumner och K lager. a) Ange antal frihetsgrader för denna tabell under antagande om Poissonurval, multinomialurval samt produkt-multinomialurval med fixa radsummor. b) Antag att vi vill testa hypotesen att kolumner och lager är oberoende betingat på rad. Ange antal frihetsgrader för denna hypotes under de tre olika urvalsförfaranden ovan. 5
Uppgift 14 Betrakta en allmän tvåvägstabell med I rader, J kolumner och n ij observationer i cell (i, j). Antag vidare att vi vill testa en viss nollhypotes H 0, där ˆµ (0) ij betecknar ML-skattningen av förväntat antal observationer i cell (i, j) under H 0. a) Definiera Pearson s χ 2 -statistika för test av H 0. b) Definiera diskrepansen (deviance) för test av H 0. Uppgift 15 Vid en undersökning av dödlighet i leukemi efter atombomben i Hiroshima 1945 delades ett antal individer in med avseende på ålder och stråldos i följande tabell: Döda i leukemi Ej döda i leukemi Ålder Låg dos Hög dos Låg dos Hög dos 0 20 år 25 26 39160 3882 20 50 år 39 26 41664 4291 50 år 13 10 15163 1337 Låt ålder vara faktor 1, stråldos faktor 2 och död/ej död i leukemi faktor 3. Beräkningar av diskrepansen för de åtta vanliga log-linjära modellerna för trevägstabeller gav resultatet: Modell Diskrepansen (XY, XZ, Y Z) 1.67 (XZ, Y Z) 24.44 (XY, Y Z) 2.69 (XY, XZ) 123.28 (XY, Z) 124.27 (XZ, Y ) 146.02 (X, Y Z) 25.42 (X, Y, Z) 147.00 Välj modell utgående från tabellerna och ange vilken tolkning av data den innebär. 6
Uppgift 16 Vid analyser av kontingenstabeller med både intervallvariabler och kategoriska variabler kan man ibland använda blandade modeller, det vill säga modeller med drag av både allmänna log-linjära modeller och logistiska regressionsmodeller. Antag att vi vill ansätta en sådan modell för följande tvåvägstabell: x 1 x 2 x 3 x J Σ 1 n 11 n 12 n 13 n 1J n 1+ 2 n 21 n 22 n 23 n 2J n 2+ 3 n 31 n 32 n 33 n 3J n 3+......... I n I1 n I2 n I3 n IJ n I+ Σ n +1 n +2 n +3 n +J n Raderna anger kategorierna 1, 2,..., I för en kategorivariabel och kolumnerna anger olika värden x 1, x 2,..., x J på en intervallvariabel. En blandad modell kan i så fall skrivas log(µ ij ) = µ + α i + βx j + γ i x j för i = 1, 2,..., I och j = 1, 2,..., J, där α I = γ I = 0. a) Identifiera parametrarna i modellen och tolka dem i termer av odds och oddskvoter. b) Ange ett förslag på designmatris X för modellen. c) Hur många frihetsgrader skulle ett test mot den mättade modellen ge? d) Uttryck hypotesen om oberoende mellan rader och kolumner enbart i termer av parametrarna i modellen. 7