Tentamen i Tillämpad statistisk analys, GN, 7.5 hp. 23 maj 2013 kl. 9 14

Relevanta dokument
Tentamen i Tillämpad statistisk analys, GN, 7.5 hp 23 maj 2013 kl. 9 14

Lycka till!

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

AMatematiska institutionen avd matematisk statistik

Lufttorkat trä Ugnstorkat trä

LÖSNINGAR TILL P(A) = P(B) = P(C) = 1 3. (a) Satsen om total sannolikhet ger P(A M) 3. (b) Bayes formel ger

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Statistik 1 för biologer, logopeder och psykologer

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Tentamen för kursen. Linjära statistiska modeller. 22 februari

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Tentamen Tillämpad statistik A5 (15hp)

Avd. Matematisk statistik

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Tenta i Statistisk analys, 15 december 2004

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Avd. Matematisk statistik

Statistisk försöksplanering

Introduktion till statistik för statsvetare

Uppgift 1 (a) För två händelser, A och B, är följande sannolikheter kända

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

faderns blodgrupp sannolikheten att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Uppgift 1. f(x) = 2x om 0 x 1

Avd. Matematisk statistik

SF1915 Sannolikhetsteori och statistik 6 hp. χ 2 -test

Urvalsmetoder: Stratifierat urval (kap 9.5)

TMS136. Föreläsning 13

Repetition 2, inför tentamen

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Statistisk försöksplanering

Föreläsning 11: Mer om jämförelser och inferens

Avd. Matematisk statistik

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

SF1901 Sannolikhetsteori och statistik I

Avd. Matematisk statistik

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

0 om x < 0, F X (x) = c x. 1 om x 2.

Uppgift 1. Produktmomentkorrelationskoefficienten

FACIT (korrekta svar i röd fetstil)

, s a. , s b. personer från Alingsås och n b

Tidigare exempel. Några beteckningar. Stratifierat urval

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Konfidensintervall, Hypotestest

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

LTH: Fastighetsekonomi sep Enkel och multipel linjär regressionsanalys HYPOTESPRÖVNING

SF1922/SF1923: SANNOLIKHETSTEORI OCH. PASSNING AV FÖRDELNING: χ 2 -METODER. STATISTIK. Tatjana Pavlenko. 14 maj 2018

F3 Introduktion Stickprov

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Jämförelse av två populationer

1. En kontinuerlig slumpvariabel X har följande täthetsfunktion (för någon konstant k). f.ö.

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 8 ( ) OCH INFÖR ÖVNING 9 ( )

Tentamen för kursen. Linjära statistiska modeller. 20 mars

Avd. Matematisk statistik

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Avd. Matematisk statistik

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

Matematisk statistik KTH. Formelsamling i matematisk statistik

TAMS65 - Föreläsning 6 Hypotesprövning

Matematisk statistik 9 hp, HT-16 Föreläsning 15: Multipel linjär regression

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, ONSDAGEN DEN 17 MARS 2010 KL

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

TMS136. Föreläsning 11

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

DATORÖVNING 3: MER OM STATISTISK INFERENS.

F5 Introduktion Anpassning Korstabeller Homogenitet Oberoende Sammanfattning Minitab

Avd. Matematisk statistik

Föreläsning 12, FMSF45 Hypotesprövning

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Föreläsning 15, FMSF45 Multipel linjär regression

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Hypotestestning och repetition

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Fråga nr a b c d 2 D

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

b) Teknologen Osquarulda känner inte till ML-metoden, men kom på intuitiva grunder fram till att p borde skattas med p = x 1 + 2x 2

Extra övningssamling i undersökningsmetodik. till kursen Regressionsanalys och undersökningsmetodik, 15 hp

(a) Avgör om A och B är beroende händelser. (5 p) (b) Bestäm sannolikheten att A inträffat givet att någon av händelserna A och B inträffat.

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

ANOVA Mellangruppsdesign

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

Transkript:

STOCKHOLMS UNIVERSITET MT4003 MATEMATISKA INSTITUTIONEN LÖSNINGAR Avd. Matematisk statistik 3 maj 013 Lösningar Tentamen i Tillämpad statistisk analys, GN, 7.5 hp 3 maj 013 kl. 9 14 Uppgift 1 a Eftersom vi har n = 10 observationer och k = 3 förklarande variabler blir antalet frihetsgrader i residualkvadratsumman = n k 1 = 6. Skattningen (Estimate och dess medelfel (Std. Error, eller kvadratroten ur motsvarande diagonalelement i vcov ges i utskriften. Ett ett tvåsidigt 95%-igt konfidensintervall för β TV är därför ˆβ TV ± t 0.05 (6 SE( ˆβ TV = 6.77 ±.447 1.344 = 6.77 ± 3.89. Alternativt kan vi skriva intervallet (3.438, 10.016. b Vi ska testa hypotesen H 0 : β TV = β RADIO, och måste därför räkna ut medelfelet för ˆβ TV ˆβ RADIO. Vi har att Var( ˆβ TV ˆβ RADIO = Var( ˆβ TV + Var( ˆβ RADIO Cov( ˆβ TV, ˆβ RADIO. Skattningar av de båda varianserna fås ur diagonalelementen för TV respektive RADIO i utskriften från vcov (man kan också kvadrera Std. Error i utskriften från summary, och kovariansen ges av matriselementet på plats (TV, RADIO: Var( ˆβ TV ˆβ RADIO = 1.8065058 + 13.710405 (.460836 = 0.44. Så medelfelet är 0.44 = 4.51. Vi får teststatistikan ˆβ TV ˆβ RADIO SE( ˆβ TV ˆβ RADIO = 6.77 4.507 4.51 = 0.491. Vi gör ett ensidigt test och jämför med t 0.05 (6 = 1.943. Eftersom 0.491 < 1.943 kan vi inte ur dessa data dra slutsatsen att en satsning på TV-reklam ger större utdelning per satsad dollar än en satsning på radioreklam.

Tillämpad statistisk analys, GN, 7.5 hp, 3 maj 013 Uppgift a Vi har a = 5 grupper, och det totala antalet observationer är N = n 1 +n +n 3 +n 4 +n 5 = 10 + 9 + 10 + 7 + 9 = 45, vilket ger frihetsgraderna a 1 = 4 respektive N a = 40. Totalkvadratsumman är 134.31 + 433.53 = 1667.84, och vi får medelkvadratsummorna 134.31/4 = 308.577 respektive 433.53/40 = 10.838. Detta ger F-kvoten 308.577/10.838 = 8.471. ANOVA-tabellen blir därför: Källa Frihetsgr Kvs MedelKvs F-kvot Prov 4 134.31 308.577 8.471 Residual 40 433.53 10.838 Totalt 44 1667.84 b Eftersom F-kvoten 8.471 > F 0.01 (4, 40 = 3.8 är skillnaden signifikant på nivån 1% (och för övrigt även på betydligt lägre nivåer, och vi drar slutsatsen att det är skillnad mellan proverna. c Vi jämför 5 grupper, vilket betyder att vi gör 5 4 = 10 jämförelser. Följaktligen måste signifikansnivån reduceras till 0.01 = 0.001. Vi testar tvåsidigt. Ur ANOVA-tabellen får vi 10 att s pool = 10.838 = 3.9, och ur tabellen över t-fördelningen att t 0.0005 (40 = 3.551. Alltså säger Bonferronis test vi ska dra slutsatsen att prov i och prov j är signifikant olika om X i X j s pool 1 n i + 1 n j > t 0.0005 (40 D ij = X i X j 1 n i + 1 n j > s poolt 0.0005 (40 = 11.69, Vi gör en tabell över de tio paren, där D ij är ovanstående statistika: (i, j (n i, n j X i X j D ij Signifikant? 1, 10, 9 5.34 11.6 Nej 1, 3 10, 10 1.08.41 Nej 1, 4 10, 7 11.45 3.3 Ja 1, 5 10, 9 4.9 10.71 Nej, 3 9, 10 6.4 13.97 Ja, 4 9, 7 16.79 33.3 Ja, 5 9, 9 10.6 1.76 Ja 3, 4 10, 7 10.37 1.04 Ja 3, 5 10, 9 3.84 8.36 Nej 4, 5 7, 9 6.53 1.96 Ja Vi drar alltså slutsatsen att prov nr 4 skiljer sig signifikant på 1%-nivån från vart och ett av de fyra andra, och prov nr skiljer sig signifikant från prov nr 3 och nr 5. Inga andra skillnader är signifikanta på 1%-nivån.

Tillämpad statistisk analys, GN, 7.5 hp, 3 maj 013 3 Uppgift 3 a För att jämföra råttorna gör vi Friedmans test, och rangordnar inom varje födoämne. Vi betraktar alltså födoämnena som block, så vi har a = 5 och b = 3, med formelsamlingens beteckningar. Sedan vi tagit hänsyn till lika värden ( ties ger detta resultatet Ham Skum Sur R i Ri Råtta 1 4 5 4 13 169 Råtta 3 4 9 81 Råtta 3 1 1.5 1 3.5 1.5 Råtta 4 5 1.5 3 9.5 90.5 Råtta 5 3 5 10 100 Längst till höger står rangsummorna och deras kvadrater. Vi har att i R i = 45.5. Formelsamlingen ger ( a 1 V A = Ri 3b(a+1 = 1 45.5 3 3 6 = 6.33. ab(a+1 5 3 6 i=1 Vi jämför med χ 0.05(4 = 9.488 > 6.33, Så vi kan inte med ledning av data påstå att råttorna skiljer sig i snabbhet. Notera dock att χ -approximationen är lite tveksam här eftersom det endast finns b = 3 observationer i varje grupp. b För att jämföra födoämnena gör vi tvärtom: nu är det råttorna som är block. Rangordning inom block ger resultatet Hamburgare Skumbanan Surströmming Råtta 1 3 1 Råtta 3 1 Råtta 3 3 1.5 1.5 Råtta 4 3 1 Råtta 5 1 3 R i 14 5.5 10.5 Ri 196 30.5 110.5 Längst ner i tabellen står rangsummorna och deras kvadrater. Vi har att j R j = 336.5. Vi behåller beteckningarna a = 5 och b = 3 och låter istället a = 5 och b = 3 byta plats i formeln: V B = ( b 1 Rj ba(b+1 j=1 3a(b+1 = 1 336.5 3 4 4 = 7.30. 3 5 4 Vi jämför med χ 0.05( = 5.99 < 7.30, och drar slutsatsen att det finns en signifikant skillnad mellan den hastighet med vilken råttorna hittar de olika födoämnena.

Tillämpad statistisk analys, GN, 7.5 hp, 3 maj 013 4 Alternativ lösning till b: Eftersom vi inte såg någon signifikant skillnad i snabbhet skulle vi kunna slå samman råttorna till en population och gör Kruskal-Wallis test med de tre födoämnena som grupper. (Dock är det lite tveksamt att på detta vis dra en slutsats av ett icke-signifikant utfall, särskilt om man misstänker att testet i fråga har låg styrka. I så fall får vi, genom att rangordna samtliga värden, följande tabell: Hamburgare Skumbanan Surströmming 9 5.5 3 10 8 11 14 14 1 14 7 5.5 1 4 R i.5 59 38.5 Ri /n i 101.5 696. 96.45 Vi har att i R i /n i = 1093.9, och därför, enligt formelsamlingen: ( a 1 Ri V = 3(N +1 = 1 1093.9 3 16 = 6.695. N(N +1 n i 15 16 i=1 Vi jämför återigen med χ 0.05( = 5.99 < 6.695, och drar slutsatsen att det finns en signifikant skillnad mellan den hastighet med vilken råttorna hittar de olika födoämnena. c Vitrocken bör randomisera, det vill säga, han bör låta råttorna genomlöpa sina labyrinter i en slumpmässigt bestämd ordning, för att undvika att de efter hand lär sig, alternativt blir trötta. Uppgift 4 a Data bör analyseras med hjälp av McNemars test, där paren är sockorna på varje vandrares fötter. Vi har följande tabell: Vargen Hel Trasig Björnen Hel 0 1 Trasig 7 3 Alltså har vi m = 7 + 1 = 8 diskordanta par. Vi testar nollhypotesen att bland dessa är sannolikheten p = 1 att det i ett diskordant par är Björnen som är hel och Vargen som är trasig. Under nollhypotesen är X = antalet sådana par Bin(8, 1 -fördelat. Eftersom det förväntade antalet i varje cell är 8 1 = 4 < 5, gör vi ett exakt test. Observationen X = 1 ger det ensidiga p-värdet ( ( 8 ( ( 8 8 1 8 1 P (X = 0 + P (X = 1 = + = 9 0 1 = 0.035. 8

Tillämpad statistisk analys, GN, 7.5 hp, 3 maj 013 5 Eftersom vi intresserar oss för en olikhet mellan sockmärkena oavsett åt vilket håll den går, så bör vi testa tvåsidigt, vilket ger p-värdet 0.035 = 0.070. På nivån 0.10 är detta signifikant, och vi drar slutsatsen att den båda sockmärkena har olika hållbarhet. Not: Om vi trots att tumregeln inte är uppfylld skulle göra ett test med normalapproximation erhålles med halvtalskorrektion det tvåsidiga p-värdet Φ( 1.77 = 0.0384 = 0.077, så vi drar samma slutsats. b Det är tänkbart att det finns en systematisk skillnad mellan människors sätt att använda höger och vänster fot; den skulle exempelvis kunna bero på att fler människor är högerfotade än vänsterfotade. I så fall skulle det kunna vara denna skillnad som ger upphov till det observerade utfallet, och inte en skillnad i sockornas kvalité. Uppgift 5 a Förväntat antal i varje cell är 4 > 5, så χ -approximationen är tillåten. Vi beräknar χ -statistikan: Q = (41 4 + (44 4 + (45 4 +... + (7 4 + (44 4 + (4 4 4 4 4 4 4 4 = 6.5 < 16.919 = χ 0.05(9, så data ger inte skäl att tro att siffrorna inte skulle vara likformigt fördelade. b Frekvenserna blir nu istället 7 Inte 7 7 393 med de förväntade värdena 4 respektive 378 (som båda är > 5. Alltså har vi Q = (7 4 4 + (393 378 378 = 5.95 > 3.843 = χ 0.05(1. Så nu får vi signifikans, dvs vi drar slutsatsen att siffrorna inte är likformigt fördelade. Not: Eftersom vi endast har två kategorier skulle vi lika gärna kunna göra ett tvåsidigt test med normalapproximtion, vilket är ekvivalent. c Om man väljer grupperingen av data efter vad som ser ut att kunna ge signifikans, så har man på sätt och vis gjort tio test: hade någon annan siffra visat lägre frekvens så hade vi förmodligen valt att testa den mot alla de andra.

Tillämpad statistisk analys, GN, 7.5 hp, 3 maj 013 6 Uppgift 6 a Vi skattar naturligtvis stratas populationemedelvärden med medelvärdet av respektive urval, vilket ger ˆm 1 = 77 och ˆm = 85. Skattningen av populationstotalen blir ( 173 57 ˆT strat = N ˆm strat = N(c 1 ˆm 1 + c ˆm = 30 77 + 30 30 85 = 9566. Man kan förstås även direkt beräkna ˆT strat = N 1 ˆm 1 + N ˆm = 173 77 + 57 85 = 9566. b Skattningens varians är ( Var( ˆT 1 strat = N Var( ˆm strat = N (c 1S1 1 ( 1 + c n 1 N S 1. 1 n N där n 1 = n = 4, N 1 = 173, N = 57 och N = N 1 + N = 30. Stratumvikterna är c 1 = 173/30 och c = 57/30. Populationsvarianserna skattar vi med urvalsvarianserna, som är s 1 = 1176.7 för radhusen respektive s = 3718.0 för villorna. Insättning av dessa värden ger medelfelet ( SE( ˆT 1 strat = N c 1S1 1 ( 1 + c n 1 N S 1 = 577. 1 n N c Från och med nu betecknar n 1 och n urvalsstorlekarna i den nya undersökningen, inte den lilla undersökningens urvalsstorlekar. Vi betecknar populationsvarianserna i respektive stratum med S 1 och S. Det gäller att (se kompendiet, formel (4.3: eller ekvivalent: Var( ˆm strat = c S1 1 + c n 1 c S1 1 + c n 1 S S n 1 N (c 1S 1 + c S, n = Var( ˆm strat + 1 N (c 1S 1 + c S. c Vid optimalt stratifierat urval gäller (före avrundning att n i = n i S i c 1 S 1 +c S. Detta ger att vänsterledet kan skrivas c S1 1 + c n 1 och vi får likheten S S 1 = c 1 c n n 1 S 1 + c c 1 S 1 +c S n ( c 1 = c 1S 1 + c S n S 1 c 1 S 1 + c S c S c 1 S 1 +c S S = (c 1S 1 + c S, c S n (c 1 S 1 + c S = Var( ˆm strat + 1 n N (c 1S1 + c S.

Tillämpad statistisk analys, GN, 7.5 hp, 3 maj 013 7 Lös ut n: n = (c 1 S 1 + c S Var( ˆm strat + 1 N (c 1S 1 + c S. Nu vill vi att Var( ˆT strat = N Var( ˆm strat ska vara högst 1000, så vi sätter Var( ˆm strat = 1000 ovan. Populationsvarianserna ersätts med det lilla urvalets varianser s N 1 = 1176.7 och s = 3718.0, och N = 30, c 1 = 173 och c 30 1 = 57 är kända. Sätter vi in alla dessa värden 30 så får vi att (c 1 s 1 + c s n = 1000 + 1 (c N N 1s 1 + c s = 4988.40 58.0055 = 86.00. Alltså är n 1 = n c 1 s 1 c s = 31.4 och n = n = 54.6. c 1 s 1 + c s c 1 s 1 + c s Båda måste avrundas uppåt, och vi får svaret n 1 = 3 och n = 55 (observera att denna allokering fortfarande är möjlig, eftersom det finns 57 > 55 trädgårdar i stratum, och därmed n = 87. Not: Om vi för säkerhets skull räknar ut variansen för n 1 = 3 och n = 55 så får vi att SE( ˆT strat = 98.3 < 1000. För n 1 = 31 och n = 55, respektive för n 1 = 3 och n = 54, får vi däremot att SE( ˆT strat = 1000.13, respektive SE( ˆT strat = 1000.8.