Tentamen för kursen. Linjära statistiska modeller. 20 mars 2015 9 14



Relevanta dokument
Tentamen för kursen. Linjära statistiska modeller. 14 januari

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Tisdagen den 16 januari

Lycka till!

AMatematiska institutionen avd matematisk statistik

Tentamen för kursen. Linjära statistiska modeller. 17 februari

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, ONSDAGEN DEN 17 MARS 2010 KL

Tentamen för kursen Statistik för naturvetare. Tisdagen den 14 december

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Föreläsning 12: Regression

Tentamen för kursen Statistik för naturvetare. Torsdagen den 22 december

Tentamen för kursen Statistik för naturvetare. Tisdagen den 11 januari

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Statistisk försöksplanering

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Läs noggrant informationen nedan innan du börjar skriva tentamen

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Föreläsning 15: Faktorförsök

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Matematisk statistik för B, K, N, BME och Kemister

TENTAMEN I MATEMATISK STATISTIK

Läs noggrant informationen nedan innan du börjar skriva tentamen

Statistisk försöksplanering

Föreläsning G60 Statistiska metoder

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Föreläsning 12: Linjär regression

Matematisk statistik, Föreläsning 5

TENTAMEN I MATEMATISK STATISTIK Statistik för lärare 7,5 hp

Statistik för teknologer, 5 poäng Skrivtid:

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Uppgift 1. f(x) = 2x om 0 x 1

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Läs noggrant informationen nedan innan du börjar skriva tentamen

Tenta i Statistisk analys, 15 december 2004

Multipel Regressionsmodellen

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp 23 maj 2013 kl. 9 14

Tentamen Tillämpad statistik A5 (15hp)

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys

Avd. Matematisk statistik

Tentamen i matematisk statistik

TENTAMEN I MATEMATISK STATISTIK

Miniräknare. Betygsgränser: Maximal poäng är 24. För betyget godkänd krävs 12 poäng och för betyget väl godkänd krävs 18 poäng.

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14

Matematiska Institutionen Silvelyn Zwanzig 13 mar, 2006

TAMS65 - Seminarium 4 Regressionsanalys

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Matematisk statistik för B, K, N, BME och Kemister

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Grundläggande matematisk statistik

Tentamen i Metod C-kurs

Resultatet läggs in i ladok senast 13 juni 2014.

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Tentamen Tillämpad statistik A5 (15hp)

Avd. Matematisk statistik

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Övningstentamen i matematisk statistik för kemi

Omtentamen i Metod C-kurs

Föreläsning G60 Statistiska metoder

Avd. Matematisk statistik

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Introduktion till statistik för statsvetare

Konfidensintervall, Hypotestest

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Uppgift a b c d e Vet inte Poäng

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

Laboration 4: Hypotesprövning och styrkefunktion

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Metod och teori. Statistik för naturvetare Umeå universitet

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Avd. Matematisk statistik

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

TENTAMEN Datum: 14 feb 2011

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Transkript:

STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 20 mars 2015 9 14 Examinator: Anders Björkström, bjorks@math.su.se Återlämning: Fredag 27/3 kl 12.00, Hus 5, Sal 32 eller strax utanför. Tillåtna hjälpmedel: Miniräknare. Utdelad formel- och tabellsamling. Resonemang skall vara klara och tydliga att följa. Betygsgränser enligt nedanstående tabell. A B C D E Lägsta poängtal 45 40 35 30 25 Uppgift 1 I en plastsäcksindustri undersöktes hållfastheten hos en viss sorts plastsäckar. Avsikten var att uppskatta medelhållfastheten µ i produktionen och få en uppfattning om variationen i produktionen. Fyra säckar uttogs slumpmässigt ur produktionen och från varje säck uttogs sju prover som hållfasthetsprovades. Resultatet blev: Medel- Standard- Säck Hållfasthet värde avvikelse 1 41.60 41.31 41.27 42.36 41.70 41.62 42.49 41.764 0.4803 2 46.31 44.64 44.23 45.02 44.91 44.66 46.39 45.166 0.8468 3 42.39 41.20 40.88 40.83 40.66 40.91 40.90 41.110 0.5866 4 46.53 45.56 44.87 45.75 46.05 46.24 46.21 45.887 0.5521 a) Ange en lämplig statistisk modell. (1 p)

Linjära statistiska modeller, 20 mars 2015 2 b) Testa om variationen av hållfastheten mellan säckar är signifikant skild från noll. (3 p) c) Beräkna ett 95 % konfidensintervall för variansen mellan hållfasthetsprov inom säckar. (3 p) d) Beräkna ett 95 % konfidensintervall för medelhållfastheten i säckproduktionen. (3 p) Uppgift 2 En grupp forskare har bedömt att enkel linjär regression är en bra modell för att förklara hur variabeln Y beror på variabeln X. Man har erhållit 95 % konfidensintervall för regressionslinjens intercept α och lutning β (i ekvationen y = α + β x) enligt följande: Parameter Undre gräns Övre gräns α 1.73 8.62 β 0.089 0.617 Vid en kontroll visar det sig att man har råkat dubblera sitt dataset. Det består av n = 15 observationer, men SAS har läst in varje rad två gånger och räknat som om n = 30. a) Beräkna vad skattningen ˆβ skulle bli om man hade haft rätt data. (2p) b) Är det möjligt att beräkna ett korrekt konfidensintervall för β enbart med ledning av ovan nämnda data? Om du svarar ja, räkna ut konfidensintervallet. Om du svarar nej, förklara varför det inte går. (4p) c) Är det möjligt att beräkna ett korrekt konfidensintervall för α enbart med ledning av ovan nämnda data? Om du svarar ja, räkna ut konfidensintervallet. Om du svarar nej, förklara varför det inte går. (4p) Uppgift 3 Figur 1 visar elförbrukningen under ett dygn för 24 hushåll i en amerikansk stad. Mätningarna är gjorda dels under en period när elpriset var 8 cent per kilowattimme (markerat med asterisker i figuren), dels under en period när elen kostade 10 cent per kwh (cirklar i figuren). Samtidigt med elförbrukningen noterades dygnets medeltemperatur. De stora dragen av figuren är lätta att förstå. Behovet av el för uppvärmning minskar när temperaturen ökar, men när det blir varmare än ungefär 65 grader Fahrenheit (ungefär 18 grader Celsius) sätter behovet av el för luftkonditionering in. Dessutom ser man en tendens att använda mindre el när den är dyrare.

Linjära statistiska modeller, 20 mars 2015 3 Figure 1: Elförbrukning som funktion av temperatur och pris Ett elbolag vill använda dessa data för att konstruera en modell som skall prediktera elförbrukningen (y) när man vet temperatur (x 1 ) och pris (x 2 ). Eftersom variationen med temperaturen inte är monoton inkluderar man andragradstermer i x 1, men man ser inget behov av detta för x 2. Modellen blir alltså Y = α + β 1 x 1 + β 2 x 2 + β 11 x 1 2 + β 12 x 1 x 2 + β 112 x 1 2 x 2 + ɛ (1) där ɛ är en slumpterm. Med denna modell får man bland annat de utskrifter som figur 2 visar. Figure 2: Utskrifter med modell 1

Linjära statistiska modeller, 20 mars 2015 4 a) En person vid företaget hävdar att priset inte har någon betydelse, alltså att det bara är en slump att cirklarna i figuren ligger lägre än asteriskerna. Därför gör man också en kalkyl med samma modell som ovan, men stryker alla termer som innehåller x 2. Modellen är alltså Y = α + β 1 x 1 + β 11 x 1 2 + ɛ (2) Man får utskrifter enligt figur 3. Modell (2) kan betraktas som en linjär hypotes inom grundmodellen (1). Ställ upp en variansanalystabell för test av hypotesen (2) och visa att hypotesen förkastas på nivån 5 %. (5 p) Figure 3: Utskrifter med modell 2 b) Sedan man enats om att priset har betydelse uppstår frågan huruvida prisets betydelse är lika stor vid kallt väder som vid varmt väder. Efter en del diskussion kommer man fram till att man vill undersöka modellen Y = α + β 1 x 1 + β 2 x 2 + β 11 x 1 2 + ɛ (3) Utskrifter med denna modell (modell 3) framgår av figur 4. Figure 4: Utskrifter med modell 3 Med hjälp av denna tabell kan man, om man utgår från att modell (1) är rimlig, testa hypotesen att effekten av en prishöjning från 8 till 10 cent per kwh är lika stor vid alla temperaturer. Beskriv hur man gör, och genomför testet. (5 p)

Linjära statistiska modeller, 20 mars 2015 5 Uppgift 4 Vid en sjö ligger tre populära badplatser som heter Vänstabadet, Fränstabadet och Skönstabadet. Hälsovårdsmyndigheten misstänker att badplatserna har problem med förhöjda bakteriehalter i vattnet, och genomför en serie mätningar för att klarlägga problemet. Syftet med studien är dels att få en allmän överblick över bakterieläget, dels att undersöka huruvida det finns en skillnad mellan Vänstabadet och Skönstabadet. (Att Fränstabadet har högre bakteriehalter än de båda andra är känt sedan tidigare, och behöver inte bekräftas ännu en gång). Varje badplats har en avdelning med grunt vatten och en med djupt vatten. Inspektörerna tar tre prover både från det grunda vattnet och det djupa vattnet på varje badplats, alltså inalles sex kombinationer med tre mätningar i varje. Inspektörerna räknar ut alla sex provmedelvärdena, och kvadratsummor (se nedan), men på grund av bristande statistiska kunskaper raderar man de ursprungliga mätvärdena. När den statistskt kompetenta personen får tag i data finns följande bevarat: 3 2 3 (y ijk y... ) 2 = 958438, i=1 j=1 k=1 samt cellmedelvärdena Vänstabadet Fränstabadet Skönstabadet Grunt vatten 573 1062 555 Djupt vatten 532 1006 532 Table 1: Medelvärden av tre mätningar i samma cell Någon har analyserat ovanstående cellmedelvärden som om det vore fråga om modellen tvåsidig indelning, en observation per cell, och fått den här ANOVA-tabellen: Variations- Frihets- Kvadratkälla grader summa Mkvs Mellan djup 1 2400 2400.0 Mellan bad 2 315009 157504.5 Residualer 2 273 136.5 Totalt 5 317682 Table 2: ANOVA som om cellmedelvärdena vore data a) Ange en lämplig statistisk modell för ursprungliga provdata. Använd den

Linjära statistiska modeller, 20 mars 2015 6 befintliga informationen för att genomföra en variansanalys med tvåsidig indelning, tre observationer per cell. Testa på nivån 5 % vilka effekter som är signifikanta. Reducera modellen om det är möjligt. (4 p) b) Är det någon skillnad i bakteriehalt mellan djupt och grunt vatten? Undersök detta genom att beräkna ett lämpligt 95 % konfidensintervall. (3 p) c) Kan man säkerställa en skillnad mellan Vänstabadets och Skönstabadets bakteriehalter? (3 p) Uppgift 5 Vid en studie undersöktes hur utbytet av en industriell process berodde på temperatur (A), tryck (B) och kolhalt (C). Varje faktor varierades på två nivåer, och för varje faktorkombination gjordes två mätningar (replikat). Teckenschema för försökspunkterna, responsens medelvärde och stickprovsvariansen för varje försökspunkt blev enligt följande tabell: A B C responsmedelv. s 2 75.5 6 + 87.5 16 + 73.1 7 + + 90.3 3 + 86.5 10 + + 89.4 4 + + 81.6 2 + + + 87.0 8 Här är en lista över nästan alla effektskattningar: totalmv. 83.85 A 4.70 B 0.85 C 2.28 AB 0.95 BC 0.98 ABC 0.33 a) Komplettera med den effektskattning som saknas. (2 p) b) Skatta försöksfelets standardavvikelse σ med ledning av replikaten (2 p) c) Beräkna effektskattningarnas medelfel och ange ett symmetriskt konfidensintervall för A med 95% konfidensgrad. (3 p)

Linjära statistiska modeller, 20 mars 2015 7 d) Reducera modellen genom att utesluta alla icke säkerställda effekter. I den reducerade modellen, vad är det förväntade utbytet vid ett försök där alla faktorer är på plusnivå? (3 p)