Tentamen för kursen. Linjära statistiska modeller. 16 augusti 2007 9 14

Relevanta dokument
Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen för kursen. Linjära statistiska modeller. 14 januari

Tisdagen den 16 januari

Tentamen för kursen. Linjära statistiska modeller. 20 mars

Tentamen för kursen Statistik för naturvetare. Tisdagen den 14 december

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Tentamen för kursen Statistik för naturvetare. Tisdagen den 11 januari

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Tentamen för kursen Statistik för naturvetare. Torsdagen den 22 december

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

TENTAMEN I MATEMATISK STATISTIK

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

TAMS65 - Seminarium 4 Regressionsanalys

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Tentamen i Matematisk statistik Kurskod S0001M

Uppgift 1. f(x) = 2x om 0 x 1

AMatematiska institutionen avd matematisk statistik

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

TENTAMEN I MATEMATISK STATISTIK Statistik för lärare 7,5 hp

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Lycka till!

TENTAMEN I MATEMATISK STATISTIK

Statistisk försöksplanering

Tentamen i Matematisk statistik Kurskod S0001M

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

F13 Regression och problemlösning

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Föreläsning 12: Regression

Tentamen i Matematisk statistik Kurskod S0001M

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

Avd. Matematisk statistik

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Avd. Matematisk statistik

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Statistiska Institutionen Gebrenegus Ghilagaber (docent) Skriftlig tentamen i FINANSIELL STATISTIK, grundnivå, 7,5 hp, HT08. Torsdagen 15 januari 2009

LABORATION 3 - Regressionsanalys

Statistisk försöksplanering

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

a) Bestäm sannolikheten att en slumpmässigt vald komponent är defekt.

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Avd. Matematisk statistik

Matematisk statistik, Föreläsning 5

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

Läs noggrant informationen nedan innan du börjar skriva tentamen

b) Beräkna sannolikheten för att en person med språkcentrum i vänster hjärnhalva är vänsterhänt. (5 p)

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

Tentamen i Matematisk statistik Kurskod S0001M

LABORATION 3 - Regressionsanalys

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen i Matematisk statistik Kurskod S0001M

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Härledning av Black-Littermans formel mha allmänna linjära modellen

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

Läs noggrant informationen nedan innan du börjar skriva tentamen

Tentamen i Matematisk statistik Kurskod S0001M

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Uppgift a b c d e f (vet ej) Poäng

Tentamensgenomgång och återlämning: Måndagen 9/6 kl12.00 i B413. Därefter kan skrivningarna hämtas på studentexpeditionen, plan 7 i B-huset.

1. En kontinuerlig slumpvariabel X har följande täthetsfunktion (för någon konstant k). f.ö.

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 30 oktober 2015 Tid: 9-13:00

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

0 om x < 0, F X (x) = c x. 1 om x 2.

Matematisk statistik för B, K, N, BME och Kemister

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Avd. Matematisk statistik

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 HP. Ten1 9 HP. 19 e augusti 2015

Uppgift a b c d e Vet inte Poäng

Tentamen i matematisk statistik

Föreläsning G60 Statistiska metoder

Institutionen för beteendevetenskap Tel: / Tentamen i kvantitativ metod Psykologi 2 HPSB05

Tentamen i Matematisk statistik Kurskod S0001M

MVE051/MSG Föreläsning 14

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Stockholms Universitet Statistiska institutionen Termeh Shafie

b) Beräkna sannolikheten att en mottagen nolla har sänts som en nolla. (7 p)

(a) sannolikheten för att läkaren ställer rätt diagnos. (b) sannolikheten för att en person med diagnosen ej sjukdom S ändå har sjukdomen, dvs.

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

Tentamen i Matematisk statistik Kurskod S0001M

Faderns blodgrupp Sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

b) Teknologen Osquarulda känner inte till ML-metoden, men kom på intuitiva grunder fram till att p borde skattas med p = x 1 + 2x 2

Tentamen består av 14 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Föreläsning 7: Punktskattningar

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Transkript:

STOCKHOLMS UNIVERSITET MATEMATISK STATISTIK Tentamen för kursen Linjära statistiska modeller 16 augusti 2007 9 14 Examinator: Anders Björkström, tel. 16 45 54, bjorks@math.su.se Återlämning: Rum 312, hus 6, torsdag 23/8 2007 kl 14.00. Den som vill veta sitt resultat tidigare kan skriva sin epostadress på skrivningsomslaget. Efter återlämningen finns de ej avhämtade skrivningarna hos Christina Nordgren, rum 303, hus 6. Lösningar: Lösningar kan hämtas från adress www.math.su.se/matstat/und/linmod efter klockan 14.00 idag. Tillåtna hjälpmedel: Miniräknare. Utdelad formel- och tabellsamling. Varje korrekt löst uppgift ger 10 poäng. Gränsen för godkänt är preliminärt 25 poäng. För VG krävs preliminärt 37 poäng. Uppgift 1 En statistiklärare förklarar begreppet enkel linjär regression för sina studenter. Hon beskriver vad som menas med minstakvadrat-skattningarna ˆα och ˆβ, skattade värden ŷ i och förklarar begreppet residualer r i = y i ŷ i. Sen ger hon studenterna ett datamaterial som består av 10 observationer att öva på. Datamaterialets x-värden är de tio heltalen 1, 2, 3,..., 10, och y-värdena har hon hittat på lite på måfå. Läraren ber studenterna att räkna ut den skattade linjen och sedan redovisa residualerna r i. När läraren ska rätta uppgifterna har hon pinsamt nog råkat glömma bort vilka y-värden hon gav eleverna. a) Som svar på uppgiften redovisar Kalle de här residualerna: x i 1 2 3 4 5 6 7 8 9 10 r i 0.45 1.32 0.78 0.56 2.45 4.32 1.66 0.77 0.98 3.14 Här ser läraren omedelbart att Kalle måste ha räknat fel någonstans. Förklara hur man kan se det. (1 p)

Linjära statistiska modeller, 16 augusti 2007 2 b) Efter att ha räknat en gång till kommer Kalle till de här residualerna: x i 1 2 3 4 5 6 7 8 9 10 r i 0.45 1.32 0.78 0.56 2.45 4.32 2.23 0.77 0.98 3.14 Efter en enkel kontroll ser läraren att Kalle fortfarande har räknat fel. Vad ser man det på? (2 p) c) Stina redovisar de här residualerna: x i 1 2 3 4 5 6 7 8 9 10 r i 1.69 1.32 0.78 0.56 1.45 1.32 2.23 0.77 0.98 3.14 Efter att ha tänkt en stund, och ritat en liten figur, inser läraren att Stina också har räknat fel. Vad ser man det på? (7 p) Uppgift 2 Tre råvaruvarianter R1, R2 och R3 skall jämföras. Råvaran behandlas i en maskin, varefter ett mätvärde bestäms. Resultatet beror eventuellt på valet av maskin och på andra yttre betingelser. Man bestämmer sig därför för att använda tre olika maskiner M1, M2 och M3 och att utföra jämförelsen som ett romersk-kvadratförsök under tre dagar, 1-3. Man valde slumpmässigt en kvadrat och fick mätvärden enligt tabellen som följer. Det första talet i varje cell anger vilken dag försöket utfördes, det andra talet är mätvärdet. Mätvärdenas stokastiska komponenter kan betraktas som normalfördelade, och faktorerna får anses som systematiska och utan nämnvärt samspel. Maskin 1 Maskin 2 Maskin 3 Råvara 1 (3, 54) (1, 56) (2, 53) Råvara 2 (1, 52) (2, 46) (3, 47) Råvara 3 (2, 50) (3, 42) (1, 54) Mätvärdenas totalmedelvärde är 50.444. Kvadratsumman mellan råvaror blir 68.22 och mellan maskiner 27.56. Totalkvadratsumman är 168.22. a) Skatta kontrasten mellan råvarorna R1 och R3. (2 p) b) Ställ upp en variansanalystabell och skatta försöksfelens standardavvikelse. (4 p) c) Beräkna ett 95 % konfidensintervall för kontrasten mellan råvarorna R1 och R3. Är det säkerställt att dessa båda råvaror har olika inverkan på mätvärdet? (4 p)

Linjära statistiska modeller, 16 augusti 2007 3 Uppgift 3 En grupp tjänstemän vid hälsovårdsnämnden i en stad i USA vill ta reda på vilka meteorologiska variabler som är viktigast för att förklara variationerna i luftens halt av kväveoxider (NO x ). Man genomför en serie om n = 20 mätningar. Samtidigt med NO x mäter man luftens fuktighet, tryck och temperatur. Resultatet blir som tabellen visar. NO x Fuktighet Tryck Temperatur (ppm) (procent) (inches of Hg) (Fahrenheit) 0, 9 72, 4 29, 18 76, 3 0, 91 41, 6 29, 35 70, 3 0, 96 34, 3 29, 24 77, 1 0, 89 35, 1 29, 27 68, 0 1 10, 7 29, 78 79, 0 1, 1 12, 9 29, 39 67, 4 1, 15 8, 3 29, 69 66, 8 1, 03 20, 1 29, 48 76, 9 0, 77 72, 2 29, 09 77, 7 1, 07 24, 0 29, 60 67, 7 1, 07 23, 2 29, 38 76, 8 0, 94 47, 4 29, 35 86, 6 1, 1 31, 5 29, 63 76, 9 1, 1 10, 6 29, 56 86, 3 1, 1 11, 2 29, 48 86, 0 0, 91 73, 3 29, 40 76, 3 0, 87 75, 4 29, 28 77, 9 0, 78 96, 6 29, 29 78, 7 0, 82 107, 4 29, 03 86, 8 0, 85 54, 9 29, 37 70, 9 Medelvärde 0, 977 43, 155 29, 392 76.52 Standardavvikelse 0, 118 30, 461 0, 194 6, 514 Man plottar alla dessa fyra variabler mot varandra i ett antal scatterplots. Resultatet ser ut som Figur 1 visar.

Linjära statistiska modeller, 16 augusti 2007 4 Figure 1: Scatterplots med i tur och ordning NOx, Fuktighet, Temperatur och Tryck Tjänstemännen, som inte kan så mycket statistik, har tillgång till ett program för multipel linjär regression. De gör lite olika körningar, där vissa x-variabler är med och andra är uteslutna. En del av datorutskrifterna visas i Figur 2-5. Elementen i matrisen X T X, alltså de produktsummor som med vanliga beteckningar brukar skrivas Σ i (X ij X.j )(X ik X.k ), blir: NO x Fuktighet Tryck Temperatur NO x 0.2667 59.768 0.3315 2.0194 Fuktighet 17630 84.840 955.68 Tryck 0.7153 4.6498 Temperatur 806.112 (Observera att vi även har inkluderat NO x i tabellen, trots att det ju inte är en x-variabel i det här fallet.)

Linjära statistiska modeller, 16 augusti 2007 5 Figure 2: En del av utskriften från tjänstemännens statistikprogram, när alla tre x-variablerna ingår (hör till Uppgift 3) Om x-variablerna räknas upp i ordningen Fuktighet, Tryck, Temperatur, så blir matrisen (X T X) 1 såhär: 0.0001 0.0157 0.0001 0.0157 3.2569 0.0002 0.0001 0.0002 0.0013 Vi ska nu hjälpa tjänstemännen att hitta en bra regressionsmodell. a) En tänkbar möjlighet är att endast inkludera fuktighet som förklaringsvariabel, och bortse helt från temperatur- och tryckdata. Vilken förklaringsgrad (R 2 ) uppnår man med en sådan modell? (2 p) b) Formulera den som du anser bästa modellen som tjänstemännen bör använda för att förklara kväveoxidhaltens variation. Motivera ditt val. Observera att det finns fler tänkbara modeller än de fyra som tjänstemännen har räknat på. Ange noga vilka parametrar din valda modell innehåller och beskriv hur du skattar dem. (6 p) c) En viss dag är fuktigheten 50 %, lufttrycket 29.93 inches of Hg, och temperaturen 85 grader Fahrenheit. Beräkna ett intervall inom vilket man kan säga att kväveoxidhalten med 95% sannolikhet kommer att ligga. (2 p)

Linjära statistiska modeller, 16 augusti 2007 6 Figure 3: En del av utskriften från tjänstemännens statistikprogram, när tryck och temperatur ingår (hör till Uppgift 3) Uppgift 4 En grupp farmaceutiska forskare har utvecklat ett nytt läkemedel. När man injicerar detta i en patient dröjer det en viss tid innan en reaktion uppstår. Man vill nu jämföra tre olika varianter av läkemedlet, betecknade A - C, och den intressanta frågan är huruvida reaktionstiden är lika lång för de tre formerna. Fyra slumpvis utvalda försökspersoner, betecknade 1-4, har testat de tre formerna, och reaktionstiden framgår av tabellen (reaktionstid i sekunder). Vi förutsätter att tiden mellan två experiment på samma försöksperson är så lång att den ena mätningen inte påverkar den andra. Person 1 2 3 4 Variant A 1.7 1.5 0.1 0.6 B 3.4 2.6 2.3 2.2 C 2.3 2.1 0.8 1.6 a) Skriv upp en lämplig statistisk modell för dessa data. Ange tydligt vilka termer som betecknar stokastiska variabler respektive konstanter. Uttryck hypotesen att de tre varianterna ger lika långa reaktionstider, med hjälp av de beteckningar du har infört. (2 p) b) Med hjälp av data kan man sätta upp följande ANOVA-tabell:

Linjära statistiska modeller, 16 augusti 2007 7 Figure 4: En del av utskriften från tjänstemännens statistikprogram, när fuktighet och temperatur ingår (hör till Uppgift 3) Variations- Antal frihets- Kvadrat- MKVSUM F källa grader summa Mellan varianter 5.48 Mellan försökspersoner 3.48 Residualer 0.45 Totalt Avgör om de tre varianterna är likvärdiga med avseende på reaktionstid. (3 p) c) Vid närmare efterforskning visar det sig att vart och ett av de tolv värdena i tabellen i själva verket är ett medelvärde av två mätningar. Vi har inte tillgång alla de 24 mätvärdena, men vi får veta att en skattning av försöksfelet, baserad på variationerna inom cellerna, ger ˆσ 2 = 0.125. Sätt upp en ny ANOVA-tabell med ledning av detta, och testa återigen hypotesen att de tre varianterna är likvärdiga. (5 p)

Linjära statistiska modeller, 16 augusti 2007 8 Figure 5: En del av utskriften från tjänstemännens statistikprogram, när fuktighet och tryck ingår (hör till Uppgift 3) Uppgift 5 Ett 2 3 -försök har gjorts för att undersöka inverkan på spänningen i en kloratcell av faktorerna: A Avstånd B Höjd C Surhet De uppmätta spänningarna rapporteras ha blivit: A B C Spänning 3.39 + 3.51 + 3.42 + + 3.54 + 3.37 + + 3.51 + + 3.40 + + + 3.52 Table 1: Uppmätta spänningar vid försöket

Linjära statistiska modeller, 16 augusti 2007 9 Som inledning till den statistiska analysen utförs följande summeringar: +3.39 + 3.51 + 3.42 + 3.54 + 3.37 + 3.51 + 3.40 + 3.52 = 27.66 3.39 + 3.51 3.42 + 3.54 3.37 + 3.51 3.40 + 3.52 = 0.50 3.39 3.51 + 3.42 + 3.54 3.37 3.51 + 3.40 + 3.52 = 0.10 3.39 3.51 3.42 3.54 + 3.37 + 3.51 + 3.40 + 3.52 = 0.06 +3.39 3.51 3.42 + 3.54 + 3.37 3.51 3.40 + 3.52 = 0.02 +3.39 3.51 + 3.42 3.54 3.37 + 3.51 3.40 + 3.52 = 0.02 +3.39 + 3.51 3.42 3.54 3.37 3.51 + 3.40 + 3.52 = 0.02 3.39 + 3.51 + 3.42 3.54 + 3.37 3.51 3.40 + 3.52 = 0.02 Av kemiska skäl tror man att effekterna inverkar additivt, dvs alla samspelseffekter kan försummas. Från tidigare erfarenheter vet man också att försöksfelets standardavvikelse σ är högst 0.001 (med andra ord, σ 2 10 6 ). a) Skatta huvudeffekterna av faktorerna A, B och C med utgångspunkt i dessa data. (2 p) b) Skatta σ med hjälp av antagandet att alla samspelseffekter är noll. (3 p) c) Testa hypotesen σ = 0.001 mot den ensidiga alternativhypotesen σ > 0.001. (3 p) d) Om du har löst (b)- och (c)- uppgifterna rätt så har du fått ett resultat som är svårt att förena med forskarnas vetskap om att σ skall vara högst 0.001. Man kan misstänka att något fel har insmugit sig i den ovanstående spänningstabellen (Table 1). Det visar sig att det räcker med att ändra ett enda av de åtta värdena i tabellen för att man ska få en mycket rimligare σ-skattning. Identifiera det värde som troligen är fel, och föreslå hur det ska justeras. (2 p) Ledning: Om man går efter de inrapporterade värdena så har alla skattningar av samspelseffekter lika stort absolutbelopp, men vissa av dem är positiva och andra är negativa. Mönstret av plus- och minustecken ger en antydan om var det felaktiga värdet finns.