Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Relevanta dokument
Tentamen för kursen. Linjära statistiska modeller. 17 februari

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Tentamen för kursen. Linjära statistiska modeller. 14 januari

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Tentamen för kursen. Linjära statistiska modeller. 20 mars

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Föreläsning 11: Mer om jämförelser och inferens

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

AMatematiska institutionen avd matematisk statistik

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Lycka till!

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Föreläsning 12: Linjär regression

Lufttorkat trä Ugnstorkat trä

Grundläggande matematisk statistik

Statistisk försöksplanering

Enkel och multipel linjär regression

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen MVE301 Sannolikhet, statistik och risk

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Föreläsning 12: Regression

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

Avd. Matematisk statistik

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Avd. Matematisk statistik

F13 Regression och problemlösning

Uppgift 1. f(x) = 2x om 0 x 1

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Avd. Matematisk statistik

Tentamen i Matematisk statistik Kurskod S0001M

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Tentamen för kursen Statistik för naturvetare. Tisdagen den 14 december

0 om x < 0, F X (x) = c x. 1 om x 2.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen MVE301 Sannolikhet, statistik och risk

Avd. Matematisk statistik

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, ONSDAGEN DEN 17 MARS 2010 KL

Statistisk försöksplanering

Tentamen MVE301 Sannolikhet, statistik och risk

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

ESS011: Matematisk statistik och signalbehandling Tid: 14:00-18:00, Datum:

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen MVE302 Sannolikhet och statistik

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE302 Sannolikhet och statistik

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

MVE051/MSG Föreläsning 14

Tentamen i Matematisk statistik Kurskod S0001M

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Tentamen i Matematisk statistik Kurskod S0001M

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

9. Konfidensintervall vid normalfördelning

TENTAMEN I MATEMATISK STATISTIK

Matematisk statistik, Föreläsning 5

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Matematisk statistik för D, I, Π och Fysiker

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Tenta i Statistisk analys, 15 december 2004

Tentamen MVE301 Sannolikhet, statistik och risk

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Tentamen MVE301 Sannolikhet, statistik och risk

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Föreläsning 7. Statistikens grunder.

Tentamen i Matematisk statistik Kurskod S0001M

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

TMS136. Föreläsning 13

Matematisk statistik TMS064/TMS063 Tentamen

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Matematisk statistik KTH. Formelsamling i matematisk statistik

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

TENTAMEN I MATEMATISK STATISTIK

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

SF1901 Sannolikhetsteori och statistik I

Tentamen för kursen Statistik för naturvetare. Torsdagen den 22 december

Regressions- och Tidsserieanalys - F1

Avd. Matematisk statistik

SF1901: Medelfel, felfortplantning

Tentamen för kursen Statistik för naturvetare. Tisdagen den 11 januari

(a) på hur många sätt kan man permutera ordet OSANNOLIK? (b) hur många unika 3-bokstavskombinationer kan man bilda av OSANNO-

TENTAMEN I STATISTIKENS GRUNDER 2

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Avd. Matematisk statistik

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

Transkript:

STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 22 augusti 2008 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus 6, torsdag 28/8 2008 kl 10.00. Den som vill veta sitt resultat snabbare kan skriva sin epostadress på skrivningsomslaget. Efter återlämningen finns skrivningarna hos Christina Nordgren, rum 303, hus 6. Krav för godkänt: För lägsta godkända betyg (E) krävs minst 10 poäng på teoridelen och minst 10 poäng på problemdelen. Tillåtna hjälpmedel: Miniräknare. Utdelad formel- och tabellsamling. Komplettering: Sist i den här tentan finns en extra teoriuppgift. Den är avsedd enbart för dem som kompletterar teoridelen. Övriga studenter skall enbart behandla de fem första uppgifterna, i vanlig ordning. Teoridel: Uppgift 1 a) Antag att vi har data i form av n par, (x i, y i ), där i = 1,..., n. Vi genomför en enkel linjär regressionsanalys och får fram en viss förklaringsgrad R 2, samt skattade värden ŷ i = ˆα + x i ˆβ och residualer ri = y i ŷ i. Om vi nu gör en enkel linjär regression av residualerna r i på de skattade värdena ŷ i, vad blir då interceptet och lutningskoefficienten för den skattade regressionslinjen? (4 p) b) Om vi i stället skulle göra regression av residualerna på de ursprungliga observationerna (y i ), vad blir då interceptet och lutningskoefficienten för den skattade regressionslinjen? (4 p) c) Varför utgör resultatet i (a)- och (b)-uppgiften ett argument för att man hellre bör plotta residualer mot skattade värden (och inte mot observerade y) när man undersöker utfallet av en regression? (2 p)

Linjära statistiska modeller, 22 augusti 2008 2 Teoridel: Uppgift 2 a) Om en stokastisk variabel W har en F-fördelning med f 1 frihetsgrader i täljaren och f 2 i nämnaren, vad har den då för väntevärde? Det finns en formel för E[W ], men den ser man inte så ofta, ty när F-fördelningen används är det oftast kvantilerna som är det viktiga, inte momenten. I Wikipedias engelskspråkiga artikel om The F Distribution hittar man dock en formel där det påstås att om W har den nämnda fördelningen så existerar dess väntevärde om f 2 > 2 och då gäller E[W ] = f 2 f 2 2. Man kan spontant tycka att denna formel är mystisk, eftersom parametern f 1 saknas i högerledet. Alla uppgifter man hittar på Internet bör tas med en stor nypa salt, så vi ställer frågan: Har vi här upptäckt ett fel i Wikipedia eller finns det någon naturlig förklaring till att antalet frihetsgrader i täljaren inte har någon betydelse för väntevärdet av en F-fördelad variabel? Ange den förklaringen i så fall. (4 p) b) Betrakta den vanliga modellen för ensidig variansanalys och antag att vi har 365 stickprov av storlek 30 (en sådan situation kan uppstå om en variabel misstänks ha en årlig cykel och vi har observerat den varje dag under 30 års tid). Från en studie av vindhastigheten vid Gotska Sandön hämtar vi den här ANOVA-tabellen: Variationskälla Antal frihets- Kvadrat- MKVSUM F grader summa Mellan stickprov 364 2 672 7.34 1.262 Inom stickprov 10 585 61 605 5.82 Totalt 10 949 Den viktiga frågan är om F-kvoten 1.262 är så stor att man ska förkasta hypotesen att alla 365 populationerna har samma väntevärde. Antag nu att vi inte har tillgång till några statistiska tabeller alls, vare sig över F- fördelningen eller någon annan fördelning. Det enda vi kan utnyttja är att om en variabel är N(µ, σ 2 ) så ligger dess övre 0.05-kvantil vid µ + 1.64σ. (Detta råkar vi komma ihåg utantill). Avgör med hjälp härav vad vi ska dra för slutsats av variansanalysen, på signifikansnivån 5 %. Var inte rädd för att göra en del ganska grova approximationer. (6 p) Problemdel: Uppgift 3 Volymen av blod som strömmas från hjärtat efter en hjärtmuskelsammandragning kallas slagvolymen. För en individ som vilar är slagvolymen i medeltal cirka

Linjära statistiska modeller, 22 augusti 2008 3 75 ml. Vid en medicinsk undersökning av sambandet mellan slagvolym och ålder fick man följande data: Ålder(x) 20 25 30 35 40 45 50 55 60 65 70 Slagvolym(y) 74 76 77 74 71 72 70 68 67 64 62 Figure 1: Slagvolym mot ålder för försökspersonerna Hjälpsummor: Σ i (x i x) 2 = 2750, Σ i (y i ȳ) 2 = 232.7273, Ȳ = 70.4545 a) Ansätt en enkel linjär regressionsmodell för data, och skatta parametrarna i modellen, inklusive variansen. (2 p) b) Testa om åldern har någon systematisk inverkan på slagvolymen. Använd 5 % signifikansnivå (2 p) c) Beräkna ett 95 % konfidensintervall för den förväntade slagvolymen hos en 50-åring. (2 p) d) Man ansatte också modellen Y = a + bx + cx 2 + ɛ där ɛ är N(0, σ 2 ), x ålder och Y slagvolym. Från ovanstående data erhöll man då skattningarna â = 74.1203, ˆb = 0.1660, ĉ = 0.004895, och ˆσ 2 =

Linjära statistiska modeller, 22 augusti 2008 4 1.5745. Testa hypotesen att andragradstermen är obefintlig i verkligheten, d.v.s. testa hypotesen c = 0. (4 p) Problemdel: Uppgift 4 I en plastsäcksindustri undersöktes hållfastheten hos en viss sorts plastsäckar. Avsikten var att uppskatta medelhållfastheten µ i produktionen och få en uppfattning om variationen i produktionen. Fyra säckar uttogs slumpmässigt ur produktionen och från varje säck uttogs sju prover som hållfasthetsprovades. Resultatet blev: Medel- Standard- Säck Hållfasthet värde avvikelse 1 41, 60 41, 31 41, 27 42, 36 41, 70 41, 62 42, 49 41, 764 0, 4803 2 46, 31 44, 64 44, 23 45, 02 44, 91 44, 66 46, 39 45, 166 0, 8468 3 42, 39 41, 20 40, 88 40, 83 40, 66 40, 91 40, 90 41, 110 0, 5866 4 46, 53 45, 56 44, 87 45, 75 46, 05 46, 24 46, 21 45, 887 0, 5521 a) Ange en lämplig statistisk modell. (1 p) b) Testa om variationen av hållfastheten mellan säckar är signifikant skild från noll. (3 p) c) Beräkna ett 95 % konfidensintervall för variansen mellan hållfasthetsprov inom säckar. (3 p) d) Beräkna ett 95 % konfidensintervall för medelhållfastheten i säckproduktionen. (3 p) Problemdel: Uppgift 5 Man vill undersöka effekten av två faktorers inverkan på en viss biokemisk process och låter därför två laboratorier lägga upp var sitt 2 2 -försök. Det kan anses rimligt att anta att mätvärden vid de två laboratorierna har samma varians σ 2. Därmot kan man inte bortse från att det kan vara en systematisk skillnad mellan laboratorierna, dvs för varje faktorkombination är den förväntade skillnaden mellan laboratoriernas mätvärden konstant lika med d. Försöken ger följande resultat:

Linjära statistiska modeller, 22 augusti 2008 5 Lab 1: Faktor A B Mätvärde 32 + 35 + 15 + + 27 Lab 2: Faktor A B Mätvärde 37 + 42 + 21 + + 34 För Lab 1 är medelvärdet av de fyra mätvärdena 27.25 och för Lab 2 är medelvärdet av mätvärdena 33.50. Om vi betraktar alla åtta mätvärdena som ett enda stickprov så har detta standardavvikelsen 8.879. a) Ställ upp en lämplig statistisk modell. Tänk särskilt på vilka samspelseffekter som bör vara med i modellen. (3 p) b) Skatta huvudeffekter och samspelseffekter samt testa på nivån 5 % vilka effekter som är säkerställda. Svara speciellt på frågan om det är någon skillnad mellan laboratorierna. (7 p) Teoridel: Uppgift 3 Extrauppgift, endast avsedd för vissa studenter Följande uppgift är enbart avsedd för dem som skriver en komplettering av teoridelen. a) Hur lyder Gauss-Markovs sats? Du behöver inte bevisa satsen, men förklara tydligt vilka förutsättningar som skall vara uppfyllda och vad satsen säger. (3 p) b) Det så kallade kvadratiska medelfelet är ett vanligt mått på kvaliten hos en skattning ˆθ av en okänd parameter θ. Det betecknas MSE( θ) och definieras som väntevärdet av kvadraten på avståndet mellan skattningens utfall och det sanna värdet av den parameter som skulle skattas, alltså MSE( θ) = E[( θ θ) 2 ].

Linjära statistiska modeller, 22 augusti 2008 6 Om en skattning inte är väntevärdesriktig så definierar man dess bias som skillnaden mellan dess väntevärde och det sanna värdet på parametern, alltså bias(ˆθ) = E[ˆθ] θ. Om en skattning är väntevärdesriktig så är bias(ˆθ) = 0. Det finns ett samband mellan MSE( θ), Var( θ) och bias( θ). Härled detta. Det är tillåtet att anta att θ är ett tal (alltså inte en vektor). (3 p) c) Antag att de N variablerna Y 1,..., Y N har väntevärden som är funktioner av två okända parametrar θ 1 och θ 2. Antag också att den allmänna linjära modellen gäller, alltså att vektorn Y = Aθ + ɛ där A är en känd designmatris med N rader och två kolonner, och θ är kolonnvektorn (θ 1, θ 2 ) T. Variabeln ɛ har en multivariat normalfördelning med variansmatris σ 2 I N. Vi vill skatta differensen = θ 1 θ 2 med en väntevärdesriktig skattning vars kvadratiska medelfel E[( ) 2 ] skall vara så litet som möjligt. Ett sätt att gå tillväga är att beräkna minstakvadrat-skattningarna ˆθ 1 och ˆθ 2 och skatta med skillnaden mellan dessa båda. Men det finns många sätt att bilda linjärkombinationer av Y 1,..., Y N som är väntevärdesriktiga skattningar av. Låt c T Y vara en sådan linjärkombination. Bevisa att kvadratiska medelfelet för c T Y inte kan vara mindre än det för = ˆθ 1 ˆθ 2. (Gauss-Markovs sats får åberopas). (4 p)