Exempel på tentamensuppgifter

Relevanta dokument
Matematisk statistik KTH. Formelsamling i matematisk statistik

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Lösning till tentamen för kursen Log-linjära statistiska modeller 29 maj 2007

MVE051/MSG Föreläsning 14

Avd. Matematisk statistik

Matematisk statistik för D, I, Π och Fysiker

Lycka till!

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Tentamen MVE301 Sannolikhet, statistik och risk

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013

Föreläsning 11: Mer om jämförelser och inferens

Tentamen MVE302 Sannolikhet och statistik

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Tenta i Statistisk analys, 15 december 2004

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

Lufttorkat trä Ugnstorkat trä

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Formler och tabeller till kursen MSG830

Föreläsning 12: Linjär regression

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Tentamen MVE302 Sannolikhet och statistik

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Tentamen MVE301 Sannolikhet, statistik och risk

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Tentamen MVE301 Sannolikhet, statistik och risk

f(x) = 2 x2, 1 < x < 2.

Avd. Matematisk statistik

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Matematisk statistik för B, K, N, BME och Kemister

Avd. Matematisk statistik

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

AMatematiska institutionen avd matematisk statistik

Härledning av Black-Littermans formel mha allmänna linjära modellen

Matematisk statistik TMS064/TMS063 Tentamen

Avd. Matematisk statistik

Statistisk analys av komplexa data

Del I. Uppgift 1 Låt X och Y vara stokastiska variabler med följande simultana sannolikhetsfunktion: p X,Y ( 2, 1) = 1

Kapitel 10 Hypotesprövning

Enkel och multipel linjär regression

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Avd. Matematisk statistik

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Avd. Matematisk statistik

Statistisk analys av komplexa data

Avd. Matematisk statistik

Matematisk statistik för B, K, N, BME och Kemister

Markov Chain Monte Carlo, contingency tables and Gröbner bases

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

Statistik 1 för biologer, logopeder och psykologer

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

FÖRELÄSNING 8:

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning 15: Faktorförsök

Tentamen i Matematisk Statistik, 7.5 hp

Föreläsning G60 Statistiska metoder

0 om x < 0, F X (x) = c x. 1 om x 2.

Statistisk analys av komplexa data

Avd. Matematisk statistik

8 Inferens om väntevärdet (och variansen) av en fördelning

Avd. Matematisk statistik

SF1911: Statistik för bioteknik

9. Konfidensintervall vid normalfördelning

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg.

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Tentamentsskrivning: Matematisk Statistik TMA321 1

Tentamen i Sannolikhetslära och statistik, TNK069, , kl 8 13.

Föreläsning 13: Multipel Regression

Avd. Matematisk statistik

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

TAMS17/TEN1 STATISTISK TEORI FK TENTAMEN ONSDAG 10/ KL

Föreläsning 12: Regression

Avd. Matematisk statistik

Matematisk statistik för B, K, N, BME och Kemister

MVE051/MSG Föreläsning 7

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

(a) på hur många sätt kan man permutera ordet OSANNOLIK? (b) hur många unika 3-bokstavskombinationer kan man bilda av OSANNO-

Avd. Matematisk statistik

Tentamen MVE301 Sannolikhet, statistik och risk

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Korrelation och autokorrelation

Thomas Önskog 28/

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

Avd. Matematisk statistik

Sju dagar före viral exponering med echinacea därefter Efter viral exponering med echinacea därefter Placebo (ingen echinacea) 58 30

Transkript:

STOCKHOLMS UNIVERSITET 4 mars 2010 Matematiska institutionen Avd. för matematisk statistik Mikael Andersson Exempel på tentamensuppgifter Uppgift 1 Betrakta en allmän I J-tabell enligt 1 2 3 J Σ 1 n 11 n 12 n 13 n 1J n 1+ 2 n 21 n 22 n 23 n 2J n 2+ 3 n 31 n 32 n 33 n 3J n 3+......... I n I1 n I2 n I3 n IJ n I+ Σ n +1 n +2 n +3 n +J n a) Ange fördelningen för tabellen under antagande om produkt-multinomialurval, där radsummorna n i+ antas fixa. b) Ange fördelningen för tabellen under antagande om multinomialurval, där totalsumman n antas fix. c) Visa att fördelningen under multinomialurval betingat på radsummorna är identisk med fördelningen under produkt-multinomialurval. Uppgift 2 Modellen enkel logistisk regression definieras som Y i Bin(n i, π(x i )) i = 1, 2,..., k 1

där ( ) π(xi ) log = α + βx i 1 π(x i ) Härled ML-skattningen av α under nollhypotesen H 0 : β = 0. Uppgift 3 Vid en dos-responsstudie delades ett antal försöksråttor in i tre grupper av storlekarna n 1, n 2 och n 3. Efter att ha utsatts för doserna x 1 = 0, x 2 = 1 och x 3 = 2 avled y 1 råttor i första gruppen, y 2 i andra gruppen och y 3 i tredje gruppen. Man valde den logistiska regressionsmodellen Y i Bin(n i, π(x i )) i = 1, 2, 3 där ( ) π(xi ) log = β 0 + β 1 x i + β 2 x 2 i 1 π(x i ) för responserna. Härled ML-skattningar för parametrarna β 0, β 1 och β 2. Uppgift 4 Betrakta en allmän I J K-tabell under Poissonurval där n ijk betecknar antal observationer och π ijk betecknar sannolikheten för cellen (i, j, k). Ange ML-skattningen av π ijk under följande modeller a) log(µ ijk ) = λ + λ X i + λ Y j + λz k b) log(µ ijk ) = λ + λ X i + λ Y j + λz k + λxz ik c) log(µ ijk ) = λ + λ X i + λ Y j + λz k + λxy ij + λ Y Z jk Uppgift 5 Betrakta modellen enkel logistisk regression där Y i Bin(n i, π(x i )) i = 1, 2,..., k är oberoende stokastiska variabler och ( ) π(xi ) log = α + βx i 1 π(x i ) för de förklarande variablerna x 1, x 2,..., x k. 2

a) Bestäm log-likelihoodfunktionen L(α, β) uttryckt i parametrarna α och β. b) Använd a-uppgiften för att bestämma likelihoodekvationerna, det vill säga de ekvationer vars lösning ger ML-skattningarna av α och β. c) Bestäm informationsmatrisen med avseende på α och β. Uppgift 6 Vid en studie ville man undersöka om operation av halsmandlarna ökade risken för att utveckla Hodgkins sjukdom, vilket är en cancersjukdom som drabbar lymfsystemet. Eftersom man misstänker att det även kan finnas genetiska faktorer bakom sjudomen valde man ut 85 patienter som hade ett friskt syskon med mindre än fem års åldersskillnad. Av dessa syskonpar var det 26 stycken där båda hade opererat halsmandlarna, 37 stycken där ingen hade gjort det, 15 stycken där endast patienten hade gjort det och 7 stycken där endast det friska syskonet hade gjort det. Testa på 10 %-nivån om operation av halsmandlarna påverkar risken att utveckla Hodgkins sjukdom. Uppgift 7 Vid utlysning av två tjänster kallades fem sökanden, två kvinnor och tre män, som bedömdes ha likvärdiga meriter för det aktuella jobbet. Efter genomförda intervjuer visade det sig att de två kvinnorna erbjöds tjänsterna. Använd Fishers exakta test för att beräkna p-värdet för testet av hypotesen att kön inte påverkar sannolikheten att få jobb vid det aktuella företaget. Uppgift 8 En stokastisk variabel Y i sägs vara logaritmiskt fördelad med parameter p i om p(y i ) = P(Y i = y i ) = p y i i y i log(1 p i ) y i = 1, 2, 3,... (Denna fördelning är användbar inom exempelvis sakförsäkringsmatematik som modell för antalet skador då nollskador inte rapporteras.) a) Visa att den logaritmiska fördelningen kan skrivas på formen för en slumpkomponent i den generaliserade linjära modellen ( ) yi θ i b(θ i ) f(y i ; θ i, φ) = exp + c(y i, φ) a(φ) och bestäm θ i, a(φ), och b(θ i ). 3

b) Härled en ekvation vars (numeriska) lösning ger den kanoniska länkfunktionen. Uppgift 9 Betrakta en 2 2-tabell 1 2 1 n 11 n 12 n 1+ 2 n 21 n 22 n 2+ n +1 n +2 n som antas ha uppkommit genom multinomialurval. a) Låt π ij ange sannolikheten att en individ hamnar i cell (i, j) och sätt upp ett uttryck som beskriver fördelningen för tabellen. b) Definiera oddskvoten θ. c) Visa att oberoendehypotesen H 0 : π ij = π i+ π +j är ekvivalent med θ = 1. d) Ansätt den log-linjära modellen log(µ ij ) = λ + λ X i + λ Y j + λxy ij, där µ ij = E[n ij ], och visa att oberoendehypotesen i c-uppgiften är ekvivalent med en log-linjär modell utan sampspel. Uppgift 10 Låt y i beteckna antal positiva responser av totalt n i responser för den förklarande variabeln x i där i = 1, 2. Ansätt modellen enkel logistisk regression och härled exakta uttryck för maximum likelihoodskattningarna av parametrarna i modellen uttryckt enbart i y i, n i och x i för i = 1, 2. Uppgift 11 Antag att fördelningen för den stokastiska variabeln Y i kan skrivas på formen för en slumpkomponent i den generaliserade linjära modellen ( ) yi θ i b(θ i ) f(y i ; θ i, φ) = exp + c(y i, φ) a(φ) där θ i och φ är godtyckliga parametrar och a, b och c är godtyckliga funktioner. 4

a) Härled den momentgenererande funktionen M(t) = E[e ty i ] för Y i. b) Använd resultatet i a-uppgiften och härled uttryck för väntevärde och varians för Y i. Uppgift 12 Antag att vi har parvist beroende responsvariabler med I kategorier. Data kan då skrivas i en I I-tabell 1 2 3 I Σ 1 n 11 n 12 n 13 n 1I n 1+ 2 n 21 n 22 n 23 n 2I n 2+ 3 n 31 n 32 n 33 n 3I n 3+......... I n I1 n I2 n I3 n II n I+ Σ n +1 n +2 n +3 n +I n där n ij anger antal par av responser (i, j). I en sådan här situation är det ofta av intresse att undersöka om tabellen är symmetrisk, det vill säga om hypotesen H 0 : π ij = π ji, i, j; i j där π ij betecknar sannolikheten för cell (i, j), är sann. a) Ange antal frihetsgrader under grundmodellen och under H 0. b) Bestäm ML-skattningarna av π ij under H 0. c) Förenkla uttrycket för χ 2 -statistikan för testet av H 0 mot grundmodellen så långt som möjligt. Uppgift 13 Betrakta en allmän trevägstabell med I rader, J kolumner och K lager. a) Ange antal frihetsgrader för denna tabell under antagande om Poissonurval, multinomialurval samt produkt-multinomialurval med fixa radsummor. b) Antag att vi vill testa hypotesen att kolumner och lager är oberoende betingat på rad. Ange antal frihetsgrader för denna hypotes under de tre olika urvalsförfaranden ovan. 5

Uppgift 14 Betrakta en allmän tvåvägstabell med I rader, J kolumner och n ij observationer i cell (i, j). Antag vidare att vi vill testa en viss nollhypotes H 0, där ˆµ (0) ij betecknar ML-skattningen av förväntat antal observationer i cell (i, j) under H 0. a) Definiera Pearson s χ 2 -statistika för test av H 0. b) Definiera diskrepansen (deviance) för test av H 0. Uppgift 15 Vid en undersökning av dödlighet i leukemi efter atombomben i Hiroshima 1945 delades ett antal individer in med avseende på ålder och stråldos i följande tabell: Döda i leukemi Ej döda i leukemi Ålder Låg dos Hög dos Låg dos Hög dos 0 20 år 25 26 39160 3882 20 50 år 39 26 41664 4291 50 år 13 10 15163 1337 Låt ålder vara faktor 1, stråldos faktor 2 och död/ej död i leukemi faktor 3. Beräkningar av diskrepansen för de åtta vanliga log-linjära modellerna för trevägstabeller gav resultatet: Modell Diskrepansen (XY, XZ, Y Z) 1.67 (XZ, Y Z) 24.44 (XY, Y Z) 2.69 (XY, XZ) 123.28 (XY, Z) 124.27 (XZ, Y ) 146.02 (X, Y Z) 25.42 (X, Y, Z) 147.00 Välj modell utgående från tabellerna och ange vilken tolkning av data den innebär. 6

Uppgift 16 Vid analyser av kontingenstabeller med både intervallvariabler och kategoriska variabler kan man ibland använda blandade modeller, det vill säga modeller med drag av både allmänna log-linjära modeller och logistiska regressionsmodeller. Antag att vi vill ansätta en sådan modell för följande tvåvägstabell: x 1 x 2 x 3 x J Σ 1 n 11 n 12 n 13 n 1J n 1+ 2 n 21 n 22 n 23 n 2J n 2+ 3 n 31 n 32 n 33 n 3J n 3+......... I n I1 n I2 n I3 n IJ n I+ Σ n +1 n +2 n +3 n +J n Raderna anger kategorierna 1, 2,..., I för en kategorivariabel och kolumnerna anger olika värden x 1, x 2,..., x J på en intervallvariabel. En blandad modell kan i så fall skrivas log(µ ij ) = µ + α i + βx j + γ i x j för i = 1, 2,..., I och j = 1, 2,..., J, där α I = γ I = 0. a) Identifiera parametrarna i modellen och tolka dem i termer av odds och oddskvoter. b) Ange ett förslag på designmatris X för modellen. c) Hur många frihetsgrader skulle ett test mot den mättade modellen ge? d) Uttryck hypotesen om oberoende mellan rader och kolumner enbart i termer av parametrarna i modellen. 7