Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Relevanta dokument
Tentamen för kursen. Linjära statistiska modeller. 13 januari

Tentamen för kursen. Linjära statistiska modeller. 22 februari

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Tentamen för kursen. Linjära statistiska modeller. 14 januari

Lycka till!

AMatematiska institutionen avd matematisk statistik

Föreläsning 15: Faktorförsök

Föreläsning 12: Linjär regression

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Exempel på tentamensuppgifter

Matematisk statistik för B, K, N, BME och Kemister

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Matematisk statistik för D, I, Π och Fysiker

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Tentamen i Matematisk statistik Kurskod S0001M

Statistisk försöksplanering

Tentamen för kursen. Linjära statistiska modeller. 20 mars

Matematisk statistik, Föreläsning 5

Föreläsning 11: Mer om jämförelser och inferens

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, ONSDAGEN DEN 17 MARS 2010 KL

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

MVE051/MSG Föreläsning 14

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Avd. Matematisk statistik

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Enkel och multipel linjär regression

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Matematisk statistik KTH. Formelsamling i matematisk statistik

F13 Regression och problemlösning

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Statistisk försöksplanering

Formler och tabeller till kursen MSG830

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Tentamen MVE301 Sannolikhet, statistik och risk

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Matematisk statistik för B, K, N, BME och Kemister

Tentamen MVE301 Sannolikhet, statistik och risk

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Matematisk statistik för B, K, N, BME och Kemister

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Sambandsmått. Centralmått. Det mest frekventa värdet. Det mittersta värdet i en rangordnad fördelning. Aritmetiska medelvärdet.

Stokastiska processer med diskret tid

Matematisk statistik för B, K, N, BME och Kemister

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Grundläggande matematisk statistik

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Föreläsning 13: Multipel Regression

Tentamen i Matematisk statistik Kurskod S0001M

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Avd. Matematisk statistik

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

oberoende av varandra så observationerna är

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Uppgift 1. f(x) = 2x om 0 x 1

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

TENTAMEN I MATEMATISK STATISTIK

Föreläsning 12: Regression

Tentamentsskrivning: Matematisk Statistik TMA321 1

b) Förekommer A- och B-fel oberoende av varandra? (Motivering krävs naturligtvis!) (5 p)

9. Konfidensintervall vid normalfördelning

Tenta i Statistisk analys, 15 december 2004

Multipel Regressionsmodellen

Uppgift a b c d e f (vet ej) Poäng

Avd. Matematisk statistik

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

SF1901 Sannolikhetsteori och statistik I

10.1 Enkel linjär regression

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

MVE051/MSG Föreläsning 7

0 om x < 0, F X (x) = c x. 1 om x 2.

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

Tentamen MVE301 Sannolikhet, statistik och risk

Finansiell statistik. Multipel regression. 4 maj 2011

Tentamen MVE302 Sannolikhet och statistik

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

Repetitionsföreläsning

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 15, FMSF45 Multipel linjär regression

Transkript:

STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 27 oktober 2017 9 14 Examinator: Ola Hössjer, tel. 070/672 12 18, ola@math.su.se Återlämning: Meddelas via kurshemsida och webbaserat kursforum. Tillåtna hjälpmedel: Miniräknare och formelsamling delas ut vid tentamenstillfället. Tabell över F-kvantiler återfinns nedan. Det gäller även att χ 2 0.05 (1) 3.8. Resonemang skall vara tydliga och lätta att följa. Varje korrekt och fullständigt löst uppgift ger 10 poäng. Följande gränser gäller för betygen A-E: A B C D E 45 40 35 30 25 Uppgift 1 Ett läkemedelsföretag har tagit fram en astmamedicin och vill i en förstudie med 10 patienter undersöka om medicinen fungerar så pass väl att man senare kan gå vidare och genomföra större studier. För varje patient i = 1,..., 10 i förstudien, som tidigare samma dag tagit x i mg av medicinen, uppmättes utandningsvolymen Y i liter under en sekund. Resultatet framgår av följande tabell: Dos i mg Utandningsvolum 1 5.0, 5.3 2 5.2, 5.7 3 5.0, 5.8 4 5.3, 6.0 5 5.6, 5.9 Man ansatte en linjär regressionsmodell Y i = α + β(x i x) + ε i = µ(x i ) + ε i, i = 1,..., 10,

Linjära statistiska modeller, 27 oktober 2017 2 där µ(x) = α+β(x x) är den förväntade utandningsvolumen för en patient som tagit x mg av medicinen, x = 10 i=1 x i/10 är den genomsnittliga dosen för alla tio patienter, och ε i är oberoende och normalförelarde feltermer med väntevärde 0 och standardavvikelse σ. a) Beräkna en skattning ˆµ(6) av den förväntade utandningsvolumen hos en patient som tar 6 mg av medicinen. (Ledning: 10 i=1 y i = 54.8 och 10 i=1 y i(x i x) = 2.8.) (3 p) b) Beräkna en skattning av σ 2, utgående från följande (ofullständiga) variansanalystabell: Variationskälla Kvs Regression 0.392 Residual Total 1.216 (3 p) c) Ange ett 95% prediktionsintervall för utandningvolymen hos en patient som tar 6 mg av medicinen. (Ledning: Prediktionsfelsvariansen är σ 2 + Var(ˆα) + (6 x) 2 Var( ˆβ), samt t p/2 (f) = F p (1, f).) (4 p) Uppgift 2 I en epidemiologisk studie ville man undersöka om en viss ämnesomsättningssjukdom endast orsakades av livsstilsfaktorer, eller om det också fanns ärftliga komponenter. Man uppmätte koncentrationen Y i av en viss hormontyp i blodet som påverkar ämnesomsättningen, för 30 olika patienter (i = 1,..., 30). För varje person uppmättes också tre livsstilsfaktorer (matvanor, stressnivå, infektionskänslighet) x 1i, x 2i, x 3i, samt vilka varianter x 4i, x 5i av två olika gener som ärvts ned. Man ansatte en multipel linjär regressionsmodell (grundmodellen) med parametervektor θ = (α, β 1,..., β 5 ) T, där β j anger effekten av förklarande variabel j, och där feltermerna antas oberoende och normalfördelade med väntevärde 0 och varians σ 2. a) Formulera hypotesmodellen att bara livsstilsfaktorer påverkar ämnesomsättningen, enligt θ = Bλ, för lämpligt vald matris B och kolumnvektor λ. (2 p) b) Definiera förklaringsgraderna R0 2 och R2 1 för grund- och hypotesmodellen med hjälp av Y i, ˆµ i och ˆµ i för alla patienter i = 1,..., 30, samt Ȳ = 30 i=1 Y i/30. Här anger ˆµ i och ˆµ i skattningar av µ i = E(Y i ) från grund- respektive hypotesmodellen. (2 p) c) Resultatet av studien gav en förklaringsgrad R0 2 = 0.751 för grundmodellen, och R1 2 = 0.682 för hypotesmodellen. Testa på nivån 5% om genetiska faktorer har en signifikant inverkan på ämnesomsättningen. (Ledning: Börja med att titta på R0 2 R2 1 och 1 R2 0.) (3 p)

Linjära statistiska modeller, 27 oktober 2017 3 d) Ange en väntevärdesriktig skattning av σ 2, givet extrainformationen Kvs(Total) = 41.2. (3 p) Uppgift 3 En mäklarfirma ville undersöka hur mycket priset av en viss typ av husobjekt berodde på dess läge. Eftersom det var fråga om en exlusiv och ovanlig hustyp hade man endast försäljningspris från fem tidigare sålda objekt. Man ansatte en multipel linjär regressionsmodell Y i = α + β 1 x 1i + β 2 x 2i + ε i för priset på hus i = 1,..., 5, där de två förklarande variablerna samvarierade enligt följande tabell: i x 1i x 2i 1-1 -1 2-1 0 3 0 0 4 1 0 5 1 1 Här anger x 1i husets läge svarande mot glesbygd (-1), förort (0) och tätort (1), medan x 2i anger graden av efterfrågan när huset såldes, svarande mot lågsäsong (-1), normalsäsong (0) och högsäsong (1). Parametern av primärt intresse är β 1, medan β 2 finns med för att skapa en mer tillförlitlig modell, till priset av högre varians för parameterskattningarna. För att inte överanpassa modellen tog man inte med fler än två förklarande variabler. Feltermerna ε i N(0, σ 2 ) antogs vara oberoende. a) Ange ett uttryck för Var( ˆβ 1 ), förenklat så långt som möjligt. (Ledning: Börja med att bestämma designmatrisen A. Matrisinversionsformeln ( ) 1 ( ) a b 1 d b = c d ad bc c a kan också vara användbar.) (4 p) b) Hur hade uttrycket för Var( ˆβ 1 ) sett ut om β 2 varit känd? (Ledning: Om β 2 x 2i är känd kan detta uttryck subtraheras bort från Y i.) (3 p) c) Bestäm variansinflationsfaktorn (VIF) för skattningen av β 1, förenklat så långt som möjligt. (3 p) Uppgift 4 Träden i ett visst område har utsatts för olika grad av svampangrepp, som också varierar mellan säsonger beroende på vädret. Vid ett lantbruksuniversitet ville man studera detta närmare och mätte graden av svampangrepp för tre slumpmässigt valda träd, som analyserades under tre säsonger,

Linjära statistiska modeller, 27 oktober 2017 4 slumpmässigt valda från en tioårsperiod. Men ansatte en tvåsidig variansanalysmodell för graden Y ijk = µ + α i + β j + γ ij + ε ijk, 1 i, j, k 3, av svampangrepp på barkprov k, taget från träd i under säsong j. Eftersom de tre träden och säsongerna valdes ut som stickprov antog man att dessa faktorer var slumpmässiga (typ II), med möjligt samspel. Det innebär att alla α i, β j och γ ij är oberoende stokastiska variabler med varians σ 2 α, σ 2 β respektive σ 2 γ. Man var primärt intresserad av att skatta samspelsvariansen σ 2 γ, för att ta reda på om vissa träd var mer känsliga för vädervariation än andra. Feltermerna ε ijk anger variationen mellan olika barkbitar från samma träd. De antogs vara oberoende och normalfördelade med väntevärde 0 och varians σ 2. Resultatet av försöket framgår av följande två tabeller, där Ȳij. och s 2 ij anger stickprovsmedelvärdena och stickprovsvarianserna för de tre barkproven som togs från träd i under säsong j (dessutom anges radmedelvärden Ȳi, kolumnmedelvärden Ȳ j och totalmedelvärde Ȳ av alla stickprovsmedelvärden): Stickprovsmedelvärden Ȳij : Stickprovsvarianser s 2 ij : j = 1 j = 2 j = 3 Ȳ i i = 1 1.8 3.1 5.0 3.3 i = 2 2.6 3.5 9.2 5.1 i = 3 0.7 1.8 2.9 1.8 Ȳ j 1.7 2.8 5.7 Ȳ = 3.4 j = 1 j = 2 j = 3 i = 1 0.32 0.44 0.64 i = 2 0.52 0.56 0.84 i = 3 0.28 0.44 0.64 a) Beräkna en skattning av variansen σ 2 inom celler, genom att utnyttja värdena i den högra tabellen. (4 p) b) Beräkna medelkvadratsumman för variationskällan samspel, och testa sedan om samspelsvariansen är signifikant skild från 0 på nivån 5%. (Ledning: Börja med att beräkna skattningar ˆγ ij av alla γ ij, genom att utgå från värden på Ȳij, Ȳi, Ȳ j och Ȳ i den vänstra tabellen.) (3 p) c) Skatta samspelsvariansen σ 2 γ mellan träd och säsong. (Ledning: Du kan ha nytta av a)-b), samt formeln för E [Mkvs(Samspel)] vid tvåsidig variansanalys av typ II.) (3 p) Uppgift 5 Nedanstående tabell visar ett fraktionellt 2 5 2 -försök med 8 försökspunkter och 5 faktorer A, B, C, D och E, som var och en varierar på två nivårer - och + (svarande mot -1 och 1). Den vänstra kolumnen anger enhetselementet I, som bara har ettor i sin kolumn. Kolumnerna för A E anger vilka nivåer

Linjära statistiska modeller, 27 oktober 2017 5 dessa fem faktorer har för de olika försökspunkterna. Den högra kolumnen Y hijkl i tabellen anger responsvärdet för respektive försökspunkt då A är på nivån h, B på nivån i, C på nivån j, D på nivån k och E på nivån l. Den fullständiga modellen, med intercept µ, huvudeffekter Ā,..., Ē och sampspelseffekter av alla ordningar, kan skrivas som Y hijkl = µ + Ā h + B i + C j + D k + Ē l + AB hi +... + ABCDE hijkl + ε hijkl, (1) där ε hijkl oberoende och normalfördelade feltermer med väntevärde 0 och varians σ 2. I A B C D E Y hijkl 1-1 -1-1 -1 1 9.1 1 1-1 -1 1 1 11.1 1-1 1-1 1-1 7.2 1 1 1-1 -1-1 9.1 1-1 -1 1 1-1 10.3 1 1-1 1-1 -1 11.4 1-1 1 1-1 1 9.5 1 1 1 1 1 1 10.9 a) Ange ett kopplingsshema för försöket genom att dela in alla 2 5 = 32 element I, A, B,..., ABCDE i 8 grupper med 4 element i varje grupp. (Ledning: Enheten I är kopplad till ADE, ABCD, och ett tredje element som innehåller E. För att ta reda på detta element, pröva med att multiplicera olika kolumner i den givna tabellen. Eller använd en snabbare metod, som utgår från de två andra elementen som är kopplade till enheten.) (4 p) b) Anta nu att interceptet, de fem huvudeffekterna Ā,..., Ē och en interaktionsparameter av ordning 2 behålls i (1) (det vill säga någon av de tio parametrarna AB,..., DE). Alla övriga interaktionsparametrar i (1) sätts till noll. Det finns fyra olika sätt att välja den interaktionsparameter av ordning 2 som ska behållas i modellen, för att alla huvudeffekter ska kunna skattas. Välj ut någon av dessa fyra interaktionsparametrar och beräkna minsta kvadrat-skattningen av den. (Ledning: Den interaktion du väljer kan inte vara kopplad till en huvudeffekt. Börja med att bestämma kolumnen för den valda interaktionen i designmatrisen och utnyttja sedan att alla kolumner i designmatrisen är ortogonala.) (3 p) c) Det går faktiskt att skatta ytterligare en interaktionsparameter av ordning 2, utöver den som skattades i b). Vilken är nackdelen med att ta med denna andra interaktionsparameter i modellen? Du behöver inte skatta denna parameter, ett allmänt resonemang om frihetsgrader räcker här. (3 p)

Linjära statistiska modeller, 27 oktober 2017 6 f 1 = 1 2 3 4 5 6 7 8 9 10 f 2 = 1 161.4 199.5 215.7 224.6 230.2 234.0 236.8 238.9 240.5 241.9 2 18.5 19.0 19.2 19.2 19.3 19.3 19.4 19.4 19.4 19.4 3 10.1 9.6 9.3 9.1 9.0 8.9 8.9 8.8 8.8 8.8 4 7.7 6.9 6.6 6.4 6.3 6.2 6.1 6.0 6.0 6.0 5 6.6 5.8 5.4 5.2 5.1 5.0 4.9 4.8 4.8 4.7 6 6.0 5.1 4.8 4.5 4.4 4.3 4.2 4.1 4.1 4.1 7 5.6 4.7 4.3 4.1 4.0 3.9 3.8 3.7 3.7 3.6 8 5.3 4.5 4.1 3.8 3.7 3.6 3.5 3.4 3.4 3.3 9 5.1 4.3 3.9 3.6 3.5 3.4 3.3 3.2 3.2 3.1 10 5.0 4.1 3.7 3.5 3.3 3.2 3.1 3.1 3.0 3.0 11 4.8 4.0 3.6 3.4 3.2 3.1 3.0 2.9 2.9 2.9 12 4.7 3.9 3.5 3.3 3.1 3.0 2.9 2.8 2.8 2.8 13 4.7 3.8 3.4 3.2 3.0 2.9 2.8 2.8 2.7 2.7 14 4.6 3.7 3.3 3.1 3.0 2.8 2.8 2.7 2.6 2.6 15 4.5 3.7 3.3 3.1 2.9 2.8 2.7 2.6 2.6 2.5 16 4.5 3.6 3.2 3.0 2.9 2.7 2.7 2.6 2.5 2.5 17 4.5 3.6 3.2 3.0 2.8 2.7 2.6 2.5 2.5 2.4 18 4.4 3.6 3.2 2.9 2.8 2.7 2.6 2.5 2.5 2.4 19 4.4 3.5 3.1 2.9 2.7 2.6 2.5 2.5 2.4 2.4 20 4.4 3.5 3.1 2.9 2.7 2.6 2.5 2.4 2.4 2.3 21 4.3 3.5 3.1 2.8 2.7 2.6 2.5 2.4 2.4 2.3 22 4.3 3.4 3.0 2.8 2.7 2.5 2.5 2.4 2.3 2.3 23 4.3 3.4 3.0 2.8 2.6 2.5 2.4 2.4 2.3 2.3 24 4.3 3.4 3.0 2.8 2.6 2.5 2.4 2.4 2.3 2.3 25 4.2 3.4 3.0 2.8 2.6 2.5 2.4 2.3 2.3 2.2 26 4.2 3.4 3.0 2.7 2.6 2.5 2.4 2.3 2.3 2.2 27 4.2 3.4 3.0 2.7 2.6 2.5 2.4 2.3 2.3 2.2 28 4.2 3.3 2.9 2.7 2.6 2.4 2.4 2.3 2.2 2.2 29 4.2 3.3 2.9 2.7 2.5 2.4 2.3 2.3 2.2 2.2 30 4.2 3.3 2.9 2.7 2.5 2.4 2.3 2.3 2.2 2.2 Table 1: F-kvantiler F 0.05 (f 1, f 2 ) avrundade till en decimals noggrannhet