Tentamen för kursen. Linjära statistiska modeller. 17 februari

Relevanta dokument
Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 14 januari

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Lycka till!

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Tentamen för kursen. Linjära statistiska modeller. 20 mars

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

AMatematiska institutionen avd matematisk statistik

Föreläsning 12: Linjär regression

Matematisk statistik för D, I, Π och Fysiker

Grundläggande matematisk statistik

F13 Regression och problemlösning

Föreläsning 15: Faktorförsök

TAMS65 - Seminarium 4 Regressionsanalys

Matematisk statistik för B, K, N, BME och Kemister

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, ONSDAGEN DEN 17 MARS 2010 KL

Tentamen för kursen Statistik för naturvetare. Tisdagen den 11 januari

Enkel och multipel linjär regression

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Statistisk försöksplanering

Föreläsning 11: Mer om jämförelser och inferens

Föreläsning 12: Regression

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Tisdagen den 16 januari

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

TENTAMEN I MATEMATISK STATISTIK

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Tentamen för kursen Statistik för naturvetare. Tisdagen den 14 december

Härledning av Black-Littermans formel mha allmänna linjära modellen

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

Exempel på tentamensuppgifter

Matematisk statistik KTH. Formelsamling i matematisk statistik

MVE051/MSG Föreläsning 14

Avd. Matematisk statistik

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen för kursen Statistik för naturvetare. Torsdagen den 22 december

Uppgift 1. f(x) = 2x om 0 x 1

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Tenta i Statistisk analys, 15 december 2004

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

9. Konfidensintervall vid normalfördelning

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Statistisk försöksplanering

Matematisk statistik, Föreläsning 5

Avd. Matematisk statistik

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Tentamen i Matematisk statistik Kurskod S0001M

Regressions- och Tidsserieanalys - F1

Tentamen MVE301 Sannolikhet, statistik och risk

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

Regressions- och Tidsserieanalys - F1

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen Tillämpad statistik A5 (15hp)

Tentamen MVE301 Sannolikhet, statistik och risk

Matematiska Institutionen Silvelyn Zwanzig 13 mar, 2006

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

1. En kortlek består av 52 kort, med fyra färger och 13 valörer i varje färg.

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

b) Beräkna sannolikheten för att en person med språkcentrum i vänster hjärnhalva är vänsterhänt. (5 p)

oberoende av varandra så observationerna är

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

SF1901 Sannolikhetsteori och statistik I

ESS011: Matematisk statistik och signalbehandling Tid: 14:00-18:00, Datum:

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Föreläsning 15, FMSF45 Multipel linjär regression

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Avd. Matematisk statistik

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

Tentamen i Matematisk statistik Kurskod S0001M

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Formler och tabeller till kursen MSG830

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Lektionsanteckningar 11-12: Normalfördelningen

Transkript:

STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 17 februari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus 6, fredag 26/2 kl 16.00. Efter återlämningen finns skrivningarna hos Christina Nordgren, rum 303, hus 6. Tillåtna hjälpmedel: Miniräknare. Utdelad formel- och tabellsamling. Lösningar finns på www.math.su.se/matstat/tentor efter skrivtidens slut. Krav för godkänt: För varje betygssteg krävs både ett visst minsta antal poäng på teoridelen (uppgifterna 1 och 2) och på problemdelen (uppgifterna 3-5) enligt nedanstående tabell. Resonemang skall vara klara och tydliga att följa. A B C D E Teoridel 18 15 10 10 10 Problemdel 25 25 20 15 10 Teoridel: Uppgift 1 Den så kallade hatt-matrisen H definieras som H = A(A T A) 1 A T, där A är designmatrisen i en linjär modell med full rang. Beteckna modellens väntevärdesvektor med µ och dennas MK-skattning med ˆµ. Låt Y beteckna vektorn av försöksutfall. a) En enkel formel ger skattningen ˆµ uttryckt i H och Y. Härled den formeln! Det allmänna uttrycket för MK-skattningen ˆθ av den linjära modellens parametervektor θ får förutsättas bekant. (3 p) b) Matrisen H kan tolkas geometriskt som vinkelrät projektion: Om x är en godtycklig vektor så är Hx den vinkelräta projektionen av x på det rum som spänns upp av kolonnvektorerna i designmatrisen. Det geometriska

Linjära statistiska modeller, 17 februari 2010 2 faktumet att projektionen av projektionen av en vektor x alltid ger samma resultat som projektionen av x själv kan man vänta sig att det finns ett speciellt enkelt samband mellan H och H 2. Formulera detta samband och bevisa det genom att utnyttja definitionen av H. (4 p) c) Låt R beteckna residualvektorn R = Y ˆµ. Visa att för alla Y gäller att R är ortogonal mot ˆµ. (3 p) Teoridel: Uppgift 2 En grupp biologer har bedömt att enkel linjär regression är en bra modell för att förklara hur vikten Y av fullvuxna rävhannar beror på längden X. Man har gjort tolv mätningar, men fyra av dem är gjorda i Finland, fyra i Sverige och fyra i Norge. För säkerhets skull utgår man därför från en modell som har sex okända parametrar (förutom variansen), nämligen interceptet α i och lutningen β i där index i är 1 för Finland, 2 för Sverige och 3 för Norge. Forskarna betecknar de tolv paren av data med (x ij, y ij ), där index j löper från 1 till 4. Vi förutsätter att x-värdena är centrerade land för land, alltså x i. = 0, för i = 1, 2, 3, där x i. = (1/4) Σ 4 j=1 x ij. a) Man kan skriva modellen på formen Y = A Θ +ɛ, där Y = (Y 11, Y 12,..., Y 34 ). Skriv upp hur designmatrisen A och parametervektorn Θ ser ut i det här fallet. (2p) b) Forskarna är intresserade av att testa hypotesen att alla tre regressionslinjerna har samma lutning, alltså att β 1 = β 2 = β 3 = β, för något okänt värde på β. Intercepten är forskarna däremot ointresserade av. Om denna nollhypotes är sann kan Θ skrivas som en produkt av en matris och en ny parametervektor av lägre dimension: Θ = B Λ. Ange hur B och Λ ser ut. (4p) c) Härled designmatrisen i hypotesmodellen, (uttryckt i x ij ). (2 p) d) Härled minstakvadrat-skattningen av β i hypotesmodellen (uttryckt i x ij ). (2 p) Det kan vara praktiskt att införa följande förenklande beteck- Ledning: ningar: ȳ i. = (1/4) Σ 4 j=1 y ij, S (i) xx = Σ 4 j=1 (x ij) 2 och S (i) xy = Σ 4 j=1 x ij(y ij ȳ i. ). Problemdel: Uppgift 3 a) Nedanstående tabell är en del av en ANOVA-tabell för ett fall där villkoren för ensidig variansanalys, modelltyp II, är uppfyllda. Med andra ord,

Linjära statistiska modeller, 17 februari 2010 3 man kan anta att data Y ij beskrivs av formeln Y ij = µ + δ i + ɛ ij, där δ i är normalfördelade variabler med varians σ δ 2, och ɛ ij är normalfördelade med varians σ 2. Alla δ i och ɛ ij är oberoende och har väntevärde noll. Vi förutsätter att alla stickproven är lika stora. Skatta σ δ 2 och σ 2. (4 p) b) Beräkna ett 90 %-igt tvåsidigt konfidensintervall för kvoten σ δ 2 /σ 2. (6 p) Frihetsgrader Kvadratsumma Mellan stickprov 6 103 Inom stickprov 49 270 Totalt 55 373 Problemdel: Uppgift 4 I en metallurgisk process ytbehandlades metallremsor. Man ville ta reda på hur ytans jämnhet berodde på de fyra faktorerna Valsspänning, F, (låg eller hög) Valsstorlek, R, (liten eller stor) Lösningens koncentration, C, (låg eller hög) Lösningens temperatur, T, (låg eller hög) Två remsor per nivåkombination behandlades, och ytjämnheten mättes (lågt tal anger god jämnhet). Medelvärden blev för de olika nivåkombinationerna:

Linjära statistiska modeller, 17 februari 2010 4 F R C T Mätvärden Medelvärde 10, 16 13.0 + 10, 12 11.0 + 8, 12 10.0 + + 9, 19 14.0 + 9, 7 8.0 + + 8, 7 7.5 + + 14, 10 12.0 + + + 12, 10 11.0 + 21, 16 18.5 + + 15, 14 14.5 + + 21, 15 18.0 + + + 17, 21 19.0 + + 24, 15 19.5 + + + 4, 18 11.0 + + + 13, 4 8.5 + + + + 13, 13 13.0 Kvadratsumman inom stickprov blev 308.5. ˆR = 0.156, Ĉ = 1.719 och ˆT = 2.219. Tre av huvudeffekterna blev a) Beräkna den fjärde huvudeffekten ( ˆF ) och försöksfelets standardavvikelse. (4 p) b) Fem av tvåfaktorsamspelen ges i tabellen nedan. Beräkna det sjätte. (2 p) Samspel Skattning F R 1.469 F C 0.281 F T 0.469 RC 0.344 RT 0.781 c) Avgör vilka huvudeffekter och tvåfaktorsamspel som är statistiskt säkerställda på nivån 5 %. (4 p) Problemdel: Uppgift 5 En grupp forskare vid ett större oljebolag undersökte hur bensinförbrukning varierar med hastighet, för bilar av en bestämd typ. En och samma testbil användes vid 14 olika hastigheter, inalles 28 observationer. Bensinförbrukningen framgår av nedanstående tabell och figur 1. När forskarna ser figur 1 bestämmer de sig för att prova ett andragradsberoende mellan bensinförbrukning (y) och hastighet (x), dvs man ansätter modellen

Linjära statistiska modeller, 17 februari 2010 5 Y i = α + β 1 x i + β 2 x i 2 + ɛ i, för i = 1,..., 28, med sedvanliga förutsättningar om ɛ i. Figurerna 2-4 visar residualplott och parameterskattningar. Variabeln hast2 är hastighetens kvadrat. Vi kallar detta Modell 1. a) Kommentera residualplottarna i figur 2 och 3. Finns det något som strider mot den multipla linjära regressionsmodellens förutsättningar? Vad skulle man kunna göra för att avhjälpa detta? (2 p) b) Oavsett vad du svarar i a-delen så valde gruppen att följa två vägar. Den första vägen var att logaritmera data. Vi kallar detta Modell 2, och den beskrivs alltså av sambandet log(y i ) = α + β 1 x i + β 2 x i 2 + ɛ i, för i = 1,..., 28. Figur 5-7 visar resultatet nu. Forskarna drog slutsatsen att den nya modellen är bättre, eftersom den förklarar mer av variationen, R 2 blir större. Förklara varför detta inte är en relevant motivering. (3 p) c) Den andra vägen som forskarna följde var att identifiera den största residualen i Modell 1 (figur 2). Den visade sig härröra från experiment i = 1, ett av de båda experiment som gjordes med lägst hastighet, 10 mph 1.6 mil per timme. Denna observation uteslöts, och en ny regression av bensinförbrukningen (inte logaritmerade värden) genomfördes. Vi kallar resultatet för Modell 3. Den beskrivs alltså av samma formel som Modell 1, men i löper inte från 1 till 28, utan bara från 2 till 28. För resultat, se figurerna 8-10. Betrakta nu frågan vid vilken hastighet bensinförbrukningen är som lägst, alltså vid vilket x-värde som E[Y ] minimeras. Härled en formel för minimivärdet, uttryckt i regressionsmodellens parametrar, och ge en numerisk skattning, baserat på data från den av de tre modellerna som du tycker är lämpligast (eller minst olämplig). (5 p)

Linjära statistiska modeller, 17 februari 2010 6 Hastighet Hastighet Förbrukning i (mph) (mil per tim) (l/mil) 1 10 1.6 4.921 2 10 1.6 4.144 3 15 2.4 2.747 4 15 2.4 3.236 5 20 3.2 2.410 6 20 3.2 2.109 7 25 4.0 1.724 8 25 4.0 1.905 9 30 4.8 1.298 10 30 4.8 1.406 11 35 5.6 1.187 12 35 5.6 1.243 13 40 6.4 1.054 14 40 6.4 1.005 Vi har räknat om y från miles per gallon till liter per mil. För att få bekvämare värden har vi uttryckt x i tiotal km/tim. En modern läsare kan tycka att bensinförbrukningarna är höga, men studien gäller inte samtida bilar. Källa: Berenson & Levine: Basic Business Statistics, Prentice & Hall 1999 Figure 1: Bensinförbrukning vid olika hastigheter

Linjära statistiska modeller, 17 februari 2010 7 Figure 2: ANOVA-tabell för modell 1, samt residualer plottade mot predikterade värden Figure 3: Modell 1, residualer plottade mot hastigheten

Linjära statistiska modeller, 17 februari 2010 8 Figure 4: Modell 1, parameterskattningar Figure 5: ANOVA-tabell för modell 2, samt residualer plottade mot predikterade värden

Linjära statistiska modeller, 17 februari 2010 9 Figure 6: Modell 2, residualer plottade mot hastigheten Figure 7: Modell 2, parameterskattningar

Linjära statistiska modeller, 17 februari 2010 10 Figure 8: ANOVA-tabell för modell 3, samt residualer plottade mot predikterade värden Figure 9: Modell 3, residualer plottade mot hastigheten

Linjära statistiska modeller, 17 februari 2010 11 Figure 10: Modell 3, parameterskattningar