Tentamen för kursen. Linjära statistiska modeller. 14 januari

Relevanta dokument
Tentamen för kursen. Linjära statistiska modeller. 20 mars

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Lycka till!

AMatematiska institutionen avd matematisk statistik

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Tentamen för kursen Statistik för naturvetare. Torsdagen den 22 december

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, ONSDAGEN DEN 17 MARS 2010 KL

Statistisk försöksplanering

Föreläsning 15: Faktorförsök

Tentamen för kursen Statistik för naturvetare. Tisdagen den 14 december

Föreläsning 11: Mer om jämförelser och inferens

TAMS65 - Seminarium 4 Regressionsanalys

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Statistisk försöksplanering

Uppgift 1. f(x) = 2x om 0 x 1

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Formler och tabeller till kursen MSG830

Tisdagen den 16 januari

OMTENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

Föreläsning 12: Linjär regression

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

Tentamen MVE301 Sannolikhet, statistik och risk

TENTAMEN I MATEMATISK STATISTIK

Tentamen i Matematisk statistik Kurskod S0001M

F13 Regression och problemlösning

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Grundläggande matematisk statistik

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Lufttorkat trä Ugnstorkat trä

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

f(x) = 2 x2, 1 < x < 2.

Avd. Matematisk statistik

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Härledning av Black-Littermans formel mha allmänna linjära modellen

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

TMS136. Föreläsning 13

Matematisk statistik för B, K, N, BME och Kemister

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Tentamen i Matematisk statistik Kurskod S0001M

0 om x < 0, F X (x) = c x. 1 om x 2.

Föreläsning 12: Regression

Avd. Matematisk statistik

Statistik för teknologer, 5 poäng Skrivtid:

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Avd. Matematisk statistik

Tentamen i Tillämpad matematisk statistik för MI3 den 1 april 2005

Avd. Matematisk statistik

Matematisk statistik, Föreläsning 5

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Uppgift a b c d e Vet inte Poäng

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

1. För tiden mellan två besök gäller. V(X i ) = 1 λ 2 = 25. X i Exp (λ) E(X i ) = 1 λ = 5s λ = 1 5

Formel- och tabellsamling i matematisk statistik

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen för kursen Statistik för naturvetare. Tisdagen den 11 januari

Statistik 1 för biologer, logopeder och psykologer

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

9. Konfidensintervall vid normalfördelning

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

Avd. Matematisk statistik

LKT325/LMA521: Faktorförsök

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Tenta i Statistisk analys, 15 december 2004

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Tentamen i Matematisk statistik Kurskod S0001M

(a) på hur många sätt kan man permutera ordet OSANNOLIK? (b) hur många unika 3-bokstavskombinationer kan man bilda av OSANNO-

Tentamen i Matematisk statistik Kurskod S0001M

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Faderns blodgrupp Sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Tentamen i Matematisk statistik Kurskod S0001M

b) Förekommer A- och B-fel oberoende av varandra? (Motivering krävs naturligtvis!) (5 p)

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Transkript:

STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 14 januari 2010 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Sal 22, hus 5, fredag 22/1 kl 12.15. Efter återlämningen finns skrivningarna hos Christina Nordgren, rum 303, hus 6. Tillåtna hjälpmedel: Miniräknare. Utdelad formel- och tabellsamling. Lösningar finns på www.math.su.se/matstat/tentor efter skrivtidens slut. Krav för godkänt: För varje betygssteg krävs både ett visst minsta antal poäng på teoridelen (uppgifterna 1 och 2) och på problemdelen (uppgifterna 3-5) enligt nedanstående tabell. Resonemang skall vara klara och tydliga att följa. A B C D E Teoridel 18 15 10 10 10 Problemdel 25 25 20 15 10 Teoridel: Uppgift 1 I ett visst experiment vet man att en variabel Y beror på två förklarande variabler x och z på ett sätt som kan beskrivas av en multipel regressionsmodell utan intercept. Data beskrivs alltså av Y i = β 1 x i + β 2 z i + ɛ i, i = 1,..., N där β 1 och β 2 är två okända koefficienter och alla ɛ i är oberoende och normalfördelade med lika stor varians σ 2. a) Härled minsta-kvadrat-skattningarna ˆβ 1 och ˆβ 2 uttryckt i x i, Y i och z i. (5 p) b) Vad är väntevärdena E[ ˆβ 1 ] och E[ ˆβ 2 ]? Beräkna dem antingen genom att räkna fram dem eller genom att hänvisa till en allmän sats. (2 p)

Linjära statistiska modeller, 14 januari 2010 2 c) Om talen x i och z i uppfyller ett visst villkor så blir ˆβ 1 och ˆβ 2 oberoende. Hur lyder detta villkor? (3 p) Ledning: Inversen till en 2x2-matris kan beräknas såhär: ( ) 1 a b = c d 1 ad bc ( d b ) c a Teoridel: Uppgift 2 Betrakta en situation där villkoren för ensidig variansanalys, modelltyp II, är uppfyllda. Med andra ord, vi antar att data Y ij beskrivs av formeln Y ij = µ + δ i + ɛ ij, där δ i är normalfördelade variabler med varians σ δ 2, och ɛ ij är normalfördelade med varians σ 2. Alla δ i och ɛ ij är oberoende och har väntevärde noll. Vi ska nu intressera oss för skattning av µ när vi har k stickprov av storlek n. a) Om σ δ 2 och σ 2 är kända så kan man härleda ett konfidensintervall för µ baserat på normalfördelningen. Visa att detta konfidensintervall kan skrivas Ȳ.. ± z p/2 σ δ 2 k + σ2 nk där z p/2 är en lämpligt vald kvantil i den standardiserade normalfördelningen. (3 p) b) Om σ δ 2 och σ 2 är okända kan man härleda ett konfidensintervall för µ baserat på t-fördelningen. Gör det! (3 p) c) Antag att vi vill bestämma ett 95 % konfidensintervall för medelvikten µ av potatisar som är förpackade i säckar. Det finns variation mellan säckar, som beskrivs av σ δ 2 = 4. Det finns också variation inom säckar som beskrivs av σ 2 = 10. Vi betraktar σ δ 2 och σ 2 som kända. Vi bestämmer oss för att välja ut k säckar och väga n potatisar från varje säck. Det kostar tio kronor att knyta upp en säck och 25 öre att väga en potatis. Försöket får högst kosta 125 kronor. Bestäm k och n så att vi får kortaste möjliga konfidensintervall för µ. (4 p)

Linjära statistiska modeller, 14 januari 2010 3 Problemdel: Uppgift 3 Figure 1: Elförbrukning som funktion av temperatur och pris Ovanstående figur visar elförbrukningen under ett dygn för 24 hushåll i en amerikansk stad. Mätningarna är gjorda dels under en period när elpriset var 8 cent per kilowattimme (markerat med asterisker i figuren), dels under en period när elen kostade 10 cent per kwh (cirklar i figuren). Samtidigt med elförbrukningen noterades dygnets medeltemperatur. De stora dragen av figuren är lätta att förstå. Behovet av el för uppvärmning minskar när temperaturen ökar, men när det blir varmare än ungefär 65 grader Fahrenheit (ungefär 18 grader Celsius) sätter behovet av el för luftkonditionering in. Dessutom ser man en tendens att använda mindre el när den är dyrare. Ett elbolag vill använda dessa data för att konstruera en modell som skall prediktera elförbrukningen (y) när man vet temperatur (x 1 ) och pris (x 2 ). Eftersom variationen med temperaturen inte är monoton inkluderar man andragradstermer i x 1, men man ser inget behov av detta för x 2. Modellen blir alltså Y = α + β 1 x 1 + β 2 x 2 + β 11 x 1 2 + β 12 x 1 x 2 + β 112 x 1 2 x 2 + ɛ (1) där ɛ är en slumpterm. Med denna modell får man bland annat de utskrifter som figur 2 visar.

Linjära statistiska modeller, 14 januari 2010 4 Figure 2: Utskrifter med modell 1 a) En person vid företaget hävdar att priset inte har någon betydelse, alltså att det bara är en slump att cirklarna i figuren ligger lägre än asteriskerna. Därför gör man också en kalkyl med samma modell som ovan, men stryker alla termer som innehåller x 2. Modellen är alltså Y = α + β 1 x 1 + β 11 x 1 2 + ɛ (2) Man får utskrifter enligt figur 3. Modell (2) kan betraktas som en linjär hypotes inom grundmodellen (1). Ställ upp en variansanalystabell för test av hypotesen (2) och visa att hypotesen förkastas på nivån 5 %. (5 p) Figure 3: Utskrifter med modell 2 b) Sedan man enats om att priset har betydelse uppstår frågan huruvida prisets betydelse är lika stor vid kallt väder som vid varmt väder. Efter en del diskussion kommer man fram till att man vill undersöka modellen Y = α + β 1 x 1 + β 2 x 2 + β 11 x 1 2 + ɛ (3) Utskrifter med denna modell (modell 3) framgår av figur 4. Figure 4: Utskrifter med modell 3

Linjära statistiska modeller, 14 januari 2010 5 c) Med hjälp av denna tabell kan man, om man utgår från att modell (1) är rimlig, testa hypotesen att effekten av en prishöjning från 8 till 10 cent per kwh är lika stor för alla värden på temperaturen. Beskriv hur man gör, och genomför testet. (5 p) Problemdel: Uppgift 4 I en fabrik förkromas lock i elektrolytiska bad. Man har funnit att kromskiktets tjocklek varierar ganska mycket från lock till lock och ville därför i första hand se om den variationen kunde förklaras av skillnader mellan de tio olika bad som man hade till sitt förfogande. Man tog därför tio lock från vart och ett av de tio baden, mätte kromskiktstjockleken på varje lock och utförde en ensidig variansanalys på mätvärdena med bad som indelningsgrund. Kvadratsumma mellan bad blev 0.023 och inom bad 1.016. a) Sätt upp en variansanalystabell och testa om det föreligger någon skillnad mellan de olika baden. (Du behöver inte skriva ut variansanalystabellens väntevärdeskolumn.) (2 p) b) Senare insåg man att kromskiktets tjocklek sannolikt också påverkas av vilken höjd locken befann sig på när de var i baden. Eftersom dessa höjder inte noterats i det första försöket gjorde man ett nytt försök. Man tog fortfarande tio lock från varje bad, men fördelade dem med två stycken på vardera av fem fixa höjdnivåer. En nyanställd medarbetare matar in det nya försökets data i ett statistiskt programpaket och får ut följande kvadratsummor: Kvadratsumma Mellan bad 0.027 Mellan höjder 0.827 Samspel 0.072 Inom celler 0.103 Totalt 1.029 Bygg ut variansanalystabellen med kolumnerna Frihetsgrader och Medelkvadratsumma. (3 p) c) När medarbetarens mer erfarna kollegor får se resultatet säger de att de är alldeles säkra på att det inte existerar några samspelseffekter mellan bad och höjd. Modifiera variansanalystabellen mot bakgrund av detta, och avgör vilken eller vilka av faktorerna bad och höjd som har säkerställd inverkan på kromskiktets tjocklek. (5 p)

Linjära statistiska modeller, 14 januari 2010 6 Problemdel: Uppgift 5 Vid framställning av ett färgämne varierade man följande fem processbetingelser: A Temperatur Låg (-) Hög (+) Steg 1 B Materialkvalitet Låg (-) Hög (+) C Reduktiontryck Atmosfäriskt (-) Förhöjt (+) Steg 2 D Torkningstryck Lågt (-) Högt (+) E Vakuumläckage Låg (-) Hög (+) Av tekniska skäl visste man att A och B kunde samspela och likaså C, D och E. Däremot är inga samspel möjliga mellan Steg 1 och Steg 2, dvs samspel mellan A eller B å ena sidan och C, D eller E å den andra. Kvalitén mättes med en fotoelektrisk spektrometer där låga värden hörde samman med god kvalitet. Ett 2 5 1 -försök genomfördes och utbytet blev, för de olika faktornivåerna: A B C D E Utbyte 201.5 + + 178.0 + + 183.5 + + 176.0 + + 188.5 + + 178.5 + + 174.5 + + + + 196.5 + + 255.5 + + 240.5 + + 208.5 + + + + 244.0 + + 274.0 + + + + 257.5 + + + + 256.0 + + + + 274.5 Om man räknar effektskattningar som om försöket hade varit ett fullständigt 2 4 -försök i faktorerna A, B, C och D, så får man följande effektskattningar:

Linjära statistiska modeller, 14 januari 2010 7 Effekt Skattning A 0.22 B 3.78 C 7.03 D 33.34 AB 8.34 AC 1.53 AD 2.59 BC 4.16 BD 1.78 CD 7.16 ABC 0.03 ABD 2.34 ACD 3.84 BCD 1.16 ABCD 1.97 a) Var och en av skattningarna i tabellen ovan kan ses som en skattning av en summa av två av effekterna i ett fullständigt 2 5 -försök (eller av skillnaden mellan två sådana effekter). Ange vilka dessa sexton parvisa summor (eller skillnader) är. (2 p) b) Med utgångspunkt från att ingen av variablerna i Steg 1 samspelar med någon variabel i Steg 2, bestäm vilka av de sexton paren av effektskattningar som kan användas för att skatta försöksfelens standardavvikelse. Använd dem för att skatta dels de enskilda försöksfelens standardavvikelse, dels effektskattningarnas standardavvikelse. Ange tydligt vilken skattning som är vilken. (3 p) c) En effekt är betydligt större än alla andra. Den är uppenbar redan vid ett ögonkast på data. Kontrollera att den är statistiskt säkerställd. (3 p) d) CDE-effekten hörde inte till de redan i förväg uteslutna samspelseffekterna. Den effekten är kopplad till en annan effekt, vilken? Vilken av de två kopplade effekterna är troligast som förklaring till det observerade värdet på effektskattningen? Motivera! (2 p)