Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Relevanta dokument
Tentamen för kursen. Linjära statistiska modeller. 14 januari

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 17 februari

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Tentamen för kursen. Linjära statistiska modeller. 13 januari

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, ONSDAGEN DEN 17 MARS 2010 KL

Lycka till!

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

AMatematiska institutionen avd matematisk statistik

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Föreläsning 11: Mer om jämförelser och inferens

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Uppgift 1. f(x) = 2x om 0 x 1

Föreläsning 12: Linjär regression

Enkel och multipel linjär regression

Formler och tabeller till kursen MSG830

Föreläsning 15: Faktorförsök

Tentamen för kursen Statistik för naturvetare. Torsdagen den 22 december

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Tentamen för kursen. Linjära statistiska modeller. 20 mars

LMA201/LMA521: Faktorförsök

Statistisk försöksplanering

LKT325/LMA521: Faktorförsök

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Föreläsning 12: Regression

Tenta i Statistisk analys, 15 december 2004

a) Bestäm sannolikheten att en slumpmässigt vald komponent är defekt.

9. Konfidensintervall vid normalfördelning

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

F13 Regression och problemlösning

Statistisk försöksplanering

Matematisk statistik LKT325 Tentamen med lösningar

Matematisk statistik för D, I, Π och Fysiker

Grundläggande matematisk statistik

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Tentamen i Tillämpad matematisk statistik för MI3 den 1 april 2005

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

MVE051/MSG Föreläsning 14

Matematisk statistik för B, K, N, BME och Kemister

Härledning av Black-Littermans formel mha allmänna linjära modellen

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

TAMS65 - Seminarium 4 Regressionsanalys

Övningstentamen i matematisk statistik för kemi

Matematisk statistik KTH. Formelsamling i matematisk statistik

Exempel på tentamensuppgifter

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

SF1901: Medelfel, felfortplantning

Matematisk statistik, Föreläsning 5

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsningsanteckningar till kapitel 8, del 2

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Antal P(ξ = x)

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Lektionsanteckningar 11-12: Normalfördelningen

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Avd. Matematisk statistik

Lufttorkat trä Ugnstorkat trä

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik för B, K, N, BME och Kemister

Tentamen i Matematisk statistik Kurskod S0001M

Uppgift a b c d e f (vet ej) Poäng

0 om x < 0, F X (x) = c x. 1 om x 2.

Tentamen MVE301 Sannolikhet, statistik och risk

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Avd. Matematisk statistik

Lösningsförslag till Matematisk statistik LKT325 Tentamen

TMS136. Föreläsning 10

7.5 Experiment with a single factor having more than two levels

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Avd. Matematisk statistik

FÖRELÄSNING 8:

F12 Regression. Måns Thulin. Uppsala universitet Statistik för ingenjörer 28/ /24

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Avd. Matematisk statistik

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Avd. Matematisk statistik

Matematisk statistik för B, K, N, BME och Kemister

b) Förekommer A- och B-fel oberoende av varandra? (Motivering krävs naturligtvis!) (5 p)

Tentamen för kursen Statistik för naturvetare. Tisdagen den 14 december

Avd. Matematisk statistik

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Matematisk statistik för D, I, Π och Fysiker

F22, Icke-parametriska metoder.

Extrauppgifter - Statistik

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

Transkript:

STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Lösningar till tentamensskrivning för kursen Linjära statistiska modeller 14 januari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Teoridel: Uppgift 1 a) Vi har en tillämpning av den allmänna linjära modellen Y = Aθ + ɛ, där designmatrisen A består av de båda kolonnvektorerna (x 1,..., x N ) och (z 1,..., z N ), och θ motsvaras av (β 1, β 2 ). Den allmänna formeln för minstakvadrat-skattningen ger (β 1, β 2 ) = (A A) 1 A Y. Vi får (A A) 1 A Y = ( 1 Σ N i=1 z 2 i Σ N i=1 x iz i Σ N i=1 x i 2 Σ N i=1 z i 2 (Σ N i=1 x iz i ) 2 Σ N i=1 x iz i Σ N i=1 x i 2 ) ( Σ N i=1 x i Y i Σ N i=1 z i Y i ) som ger och ˆβ 1 = Σ iz i 2 Σ i x i Y i Σ i x i z i Σ i z i Y i Σ i x i 2 Σ i z i 2 (Σ i x i z i ) 2 ˆβ 2 = Σ ix i z i Σ i x i Y i + Σ i x i 2 Σ i z i Y i Σ i x i 2 Σ i z i 2 (Σ i x i z i ) 2 b) MK-skattningarna av väntevärdesparatmetrarna är alltid väntevärdesriktiga, så E[ ˆβ 1 ] = β 1 och E[ ˆβ 2 ] = β 2 c) Variansmatrisen för ( ˆβ 1, ˆβ 2 ) är σ 2 (A A) 1. Det framgår av lösningen till a-uppgiften att den matrisen blir diagonal om Σ N i=1 x iz i = 0. Detta är alltså villkoret för oberoende. Teoridel: Uppgift 2 a) Eftersom Y.. = (1/nk)Σ k i=1 Σn j=1 Y ij så följer det att Y.. = 1 nk Σk i=1σ n j=1(µ + δ i + ɛ ij ) = µ + δ + ɛ..

Linjära statistiska modeller, 14 januari 2010 2 och alltså är E[Ȳ..] = µ och, på grund av oberoendet mellan alla δ i och ɛ ij, Var(Ȳ..) = σ δ 2 /k + σ 2 /(nk). Alltså gäller med sannolikheten 1 p att z p/2 Ȳ.. µ σδ 2 /k + σ 2 /(nk) z p/2 (1) Härav följer den givna formeln för konfidensintervallet. b) De k variablerna Ȳi., i = 1,..., k är alla oberoende och normalfördelade med väntevärde µ och varians Var(Ȳi.) = σ δ 2 + σ 2 /n. Rent allmänt gäller ju att om man för sådana variabler summerar ihop kvadraterna på deras avvikelser från medelvärdet så får man en stokastisk variabel som (efter division med Var(Ȳi.)) är χ 2 -fördelad med k 1 frihetsgrader, och oberoende av Ȳ... Eftersom variabeln i mellersta ledet av (1) är N(0,1) så följer det att variabeln Ȳ.. µ 1 k 1 Σk i=1 (Ȳi. Ȳ..) 2 är t-fördelad med k 1 frihetsgrader. Ett symmetriskt konfidensintervall för µ med konfidensgrad 1 p kan alltså skrivas 1 Ȳ.. ± t p/2 (k 1) k 1 Σk i=1 (Ȳi. Ȳ..) 2 c) Eftersom σ 2 δ och σ 2 är kända ska vi beräkna konfidensintervallet med formeln σ 2 δ Ȳ.. ± z p/2 k + σ2 nk. Att minimera konfidensintervallets längd är tydligen likvärdigt med att minimera f(n, k) = σ2 δ k + σ2 nk = 1 k (σ δ 2 + σ 2 /n) (2) Låt α vara kostnaden för att öppna en säck, β vara kostnaden för att väga en potatis, och C vara mängden pengar vi har till förfogande. Då gäller det att minimera f(n, k) under bivillkoret α k + β nk C. Det är troligt att vi får ett bättre resultat om vi spenderar så mycket pengar som möjligt, så vi ändrar bivillkoret till α k + β nk = C, vilket ger k = C/(α + βn). Sätter vi in detta i (2) så ser vi att vi ska minimera α + βn C (σ δ 2 + σ 2 /n) = 1 C (ασ δ 2 + βnσ 2 δ + ασ 2 /n + βσ 2 ). Derivering visar att ett minimum finns vid n = ασ 2 βσ 2 δ. Med de givna numeriska värdena blir n = 10 och k = 10.

Linjära statistiska modeller, 14 januari 2010 3 Problemdel: Uppgift 3 a) Ett test av en linjär hypotes innebär att man undersöker om skillnaden mellan väntevärdesvektorerna i grundmodellen respektive hypotesmodellen är osannolikt stor i förhållande till residualvektorns längd i grundmodellen. Residualvektorns kvadratiska längd i grundmodellen hittar vi på raden Error i figur 2. Avståndet mellan de båda väntevärdesskattningarna (eller rättare sagt kvadraten på det) är enligt Pythagoras sats lika stor som skillnaden mellan residualvektorns kvadratiska längd i hypotesmodellen och i grundmodellen. Genom att utnyttja Error-raden i figur 3 kan vi nu ställa upp följande ANOVA-tabell, där raden Avvikelse från hypotes är erhållen genom subtraktion: Avvikelse från hypotes 312.9 3 104.3 12.33 Residualer 152.2 18 8.46 Totalt 465.1 21 Eftersom 12.33 > 3.16 = F 0.95 (3, 18) så förkastar vi hypotesen att priset saknar betydelse. b) Pris-effekten är lika stor för alla temperaturer om och endast om pris och temperatur är additiva effekter. För att x 1 och x 2 skall vara additiva får modellen inte innehålla några termer som innehåller produkter av x 1 och x 2. Hypotesen kan alltså formuleras β 12 = β 112 = 0, och den kan testas på samma sätt som hypotesen i (a)-uppgiften. Resultatet blir Avvikelse från hypotes 120.5 2 60.25 7.12 Residualer 152.2 18 8.46 Totalt 272.7 20 Eftersom 7.12 > 3.55 = F 0.95 (2, 18) så förkastar vi hypotesen att priset har samma inverkan vid alla temperaturer. Problemdel: Uppgift 4 a) Ensidig variansanalys, och eftersom väntevärdeskolumnen inte efterfrågas så spelar det ingen roll om vi betraktar faktorn bad som systematisk eller slumpmässig. ANOVA-tabellen blir: Mellan bad 0.023 9 2.56 10 3 0.227 Inom bad 1.016 90 11.3 10 3 Totalt 1.039 99

Linjära statistiska modeller, 14 januari 2010 4 F-kvoter mindre än 1 är aldrig signifikanta, så slutsatsen är att vi inte har påvisat någon skillnad mellan bad. b) Den utbyggda ANOVA-tabellen ser ut såhär: KVSUM Frihetsgrader MKVSUM Mellan bad 0.027 9 3 10 3 Mellan höjder 0.827 4 207 10 3 Samspel 0.072 36 2 10 3 Inom celler 0.103 50 2 10 3 Totalt 1.029 99 c) Eftersom vi är säkra på att samspelseffekter inte förekommer så kan vi slå ihop Samspel och Inom celler till en rad, Residualer. F-kvoter blir enligt följande tabell: KVSUM Frihetsgrader MKVSUM F-kvot Mellan bad 0.027 9 3 10 3 1.5 Mellan höjder 0.827 4 207 10 3 103.5 Residualer 0.175 86 2 10 3 Totalt 1.029 99 Den tillgängiga F-tabellen har ingen rad för F-fördelningar med f 2 = 86 frihetsgrader i nämnaren, men genom att jämföra raderna för f 2 = 80 och f 2 = 100 ser vi att 2.46 < F 0.95 (4, 86) < 2.49 och 1.97 < F 0.95 (9, 86) < 2.00. Det finns alltså en säkerställd effekt av höjd, men inte av bad.

Linjära statistiska modeller, 14 januari 2010 5 Problemdel: Uppgift 5 a) Kopplingsmönstret är I = ABCDE. Det betyder att skattningarna i vänstra kolumnen i följande tabell egentligen är skattningar av de differenser mellan skattningar, som anges i högra kolumnen: A B C D AB AC AD BC BD CD ABC ABD ACD BCD ABCD A BCDE B ACDE C ABDE D ABCE AB CDE AC BDE AD BCE BC ADE BD ACE CD ABE ABC DE ABD CE ACD BE BCD AE ABCD E b) Varje skattning har ett väntevärde som är en skillnad mellan två av 2 5 -försökets effekter. För att skattningens väntevärde säkert skall vara noll måste båda effekterna vara noll. Sex av paren uppfyller detta villkor, nämligen AC BDE = 1.53, AD BCE = 2.59, BC ADE = 4.16, BD ACE = 1.78, ACD BE = 3.84 och BCD AE = 1.16. Medelvärdet av kvadraterna på dessa sex tal är 7.60, vilket ger skattningen av effektskattningarnas standardavvikelse ˆσ eff = 7.60 = 2.75. Varje effektskattning är ju ett (teckenförsett) medelvärde av 16 mätvärden, så vi får sambandet σ 2 eff = σ 2 /16 där σ 2 är försöksfelets varians. Detta ger skattningen ˆσ = 4ˆσ eff = 11. c) Man ser direkt att D= 33.34 är mycket större än alla andra effektskattningar. Skattningen ˆσ eff 2 som vi bestämde i b-uppgiften är χ2 -fördelad med 6 frihetsgrader. Med t-fördelningsmetoden kan vi alltså bestämma ett konfidensintervall för D-effekten som 33.34 ± t 0.025 (6) ˆσ eff = 33.34 ± 6.73. Den är alltså statistiskt säkerställd. d) Vi kan inte skatta CDE, bara AB-CDE, som skattas med 8.34. Eftersom trefaktorsamspel oftast är försumbara är det mera troligt att det är tvåfaktorsamspelet AB som är ungefär 8.34.