Standard Normal Quantiles. Vilken av följande slutsatser kan man dra från qq-plotten?

Relevanta dokument
Uppgift a b c d e f (vet ej) Poäng

Del A: Schema för ifyllande av svar nns på sista sidan

Uppgift a b c d e f (vet ej) Poäng

Uppgift a b c d e f (vet ej) Poäng

Del A: Schema för ifyllande av svar nns på sista sidan

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

10.1 Enkel linjär regression

ÖVNINGSTENTAMEN: Statistisk modellering för I3, TMS160 Hjälpmedel: Utdelad formelsamling med tabeller, BETA, på kursen använd ordlista och typgodkänd

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Tentamen i matematisk statistik

TENTAMEN I MATEMATISK STATISTIK

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

7.5 Experiment with a single factor having more than two levels

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Följande resultat erhålls (enhet: 1000psi):

Uppgift a b c d e Vet inte Poäng

Regressions- och Tidsserieanalys - F4

Uppgift a b c d e Vet inte Poäng

Formler och tabeller till kursen MSG830

Statistisk försöksplanering

Examinationsuppgifter del 2

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

oberoende av varandra så observationerna är

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

F11. Kvantitativa prognostekniker

Tentamen i matematisk statistik

(a) Beräkna sannolikhetsfunktionen p X (x). (2p) (b) Beräkna väntevärdet för X. (1p) (c) Beräkna standardavvikelsen för X. (1p)

F13 Regression och problemlösning

Statistik för teknologer, 5 poäng Skrivtid:

Regressions- och Tidsserieanalys - F7

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Skriftlig Tentamen i Finansiell Statistik Grundnivå 7.5 hp, HT2012

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Tentamenskrivning: TMS145 - Grundkurs i matematisk statistik och bioinformatik,

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 9,

Lösningsförslag till Matematisk statistik LKT325 Tentamen

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Tentamen i Linjära statistiska modeller 13 januari 2013, kl. 9-14

Skrivning i ekonometri lördagen den 29 mars 2008

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

Multipel Regressionsmodellen

Tentamen för kursen. Linjära statistiska modeller. 22 februari

Metod och teori. Statistik för naturvetare Umeå universitet

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

Tentamen för kursen. Linjära statistiska modeller. 13 januari

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

Matematisk statistik för B, K, N, BME och Kemister

Grundläggande Statistik och Försöksplanering Provmoment: TEN1 & TEN2 Ladokkod: TT2311 Tentamen ges för: Bt2, En2, Bt4, En4.

Regressions- och Tidsserieanalys - F1

Skrivning i ekonometri torsdagen den 8 februari 2007

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Föreläsning 12: Regression

Tentamen för kursen. Linjära statistiska modeller. 27 oktober

Regressions- och Tidsserieanalys - F1

Statistisk försöksplanering

7.5 Experiment with a single factor having more than two levels

Föreläsning 12: Linjär regression

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

TAMS65 - Seminarium 4 Regressionsanalys

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

STATISTISK ANALYS AV KOMPLEXA DATA

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Samhällsvetenskaplig metod, 7,5 hp

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Statistiska Institutionen Gebrenegus Ghilagaber (docent)

Övningstenta för MSG830

Fuktighet i jordmåner. Variansanalys (Anova) En statistisk fråga. Grafisk sammanfattning: boxplots

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

OBS! Vi har nya rutiner.

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Linjär regressionsanalys. Wieland Wermke

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

MVE051/MSG Föreläsning 14

Matematisk statistik, Föreläsning 5

Höftledsdysplasi hos dansk-svensk gårdshund

TENTAMEN I MATEMATISK STATISTIK

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Lycka till!

Transkript:

-2.5cm TENTAMEN: Statistisk modellering för I3, TMS160, lördagen den 11 december 2004 kl 8:30-11:30 på M. Jour: John Gustavsson, mob 0705-330375 Hjälpmedel: Utdelad formelsamling med tabeller, BETA, på kursen använd ordlista och typgodkänd räknedosa. Poängberäkning: Uppgifterna är av ervalstyp, där endast ett alternativ är rätt. Korrekt besvarad uppgift ger 2 poäng, obesvarad uppgift (vet inte/ alternativ f) ger 0 poäng och felaktigt besvarad uppgift ger -0.5 poäng (era ifyllda alternativ ger automatiskt -1/2 poäng). Inlämnade lösningar kommer ej tas hänsyn till vid rättningen. Fyll i och lämna in denna sida. Svar: Läggs ut i studieportalen. Uppgift a b c d e f (vet inte) Poäng 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1

1. En odlare är intresserad av att hitta en enkel metod för att snabbt kunna uppskatta en pumpas vikt, och väljer att undersöka sambandet mellan vikt och diameter hos 30 slumpmässigt uttagna pumpor. Vid en regressionsanalys fås följande qq-plott av residualerna. 4 3 Quantiles of the Residuals 2 1 0 1 2 3 3 2 1 0 1 2 3 Standard Normal Quantiles Vilken av följande slutsatser kan man dra från qq-plotten? a Modellantagandet om oberoende feltermer är felaktigt, och därmed är det inte relevant att gå vidare och resonera om antagandet om normalitet. b Antagandet om normalfördelade feltermer i den använda regressionsmodellen stämmer inte överens med data. c Normalfördelningsantagandet verkar vara OK, men det verkar nnas ett par avvikande värden (outliers) i datamaterialet. d Man kan se en variansheterogeneitet variansen är högre för stora diametrar och lägre för mindre diametrar. e Inget av ovanstående. 2

2. Man är intresserad av om det i en viss befolkningsgrupp nns någon skillnad mellan manliga och kvinnliga rökares debutålder. Man har tillgång till enkätsvar från 30 slumpvis valda rökare av vardera kön från befolkningsgruppen. I enkäten ck rökarna ange sin debutålder med något av alternativen <13, 13-15, 16-20 och >20 år. Om man ska utnyttja resultatet av enkätundersökningen till att undersöka frågeställningen är det bäst att använda: a Regressionsanalys. b Ensidig variansanalys utan blockindelning (one-way model). c Ensidig variansanalys med blockindelning (RCBD). d Flersidig variansanalys med den generella modellen (alltså med en samspelsterm). e Inget av ovanstående. 3

3. Tabellen nedan visar ANOVA-tabellen för en tvåsidig variansanalys. Analysis of variance Source DF Sum of squares Mean square F Stat A * 20.48 *? B 1 1.70 1.70 * A B * 157.25 78.62 * Error 18 112.05 6.23 Total 23 291.48 Värdena i några av fälten saknas och är markerade med (*). Från de givna sirorna kan man ändå beräkna värdet av F-statistikan (markerad med ett frågetecken i tabellen). Den blir: a 10.24/6.23 b 10.24/112.05 c 20.48/6.23 c 20.48/112.05 e 20.48/291.48 4

4. För att undersöka överlevnadstiden hos möss vid exponering av tre gifter och med fyra typer av behandling genomfördes ett fullständigt faktoriellt försök med tre observationer per cell. Vid en tvåsidig variansanalys av de observerade överlevnadstiderna ck man följande ANOVA-tabell. Analysis of variance Source DF Sum of squares Mean square F Stat Poison 2 73.26 36.63 25.82 Treatment 3 66.65 22.21 15.66 Poison Treatment 6 24.04 4.00 2.82 Error 24 34.04 1.41 C Total 35 197.99 Vid test på 5 % signikansnivå kan vi därmed dra följande slutsats: a Både typen av gift och valet av behandling har eekt på överlevnadstiden, och någon eller några av behandlingarna har olika eekt på olika typer av förgiftning. b Både typen av förgiftning och valet av behandling har eekt på överlevnadstiden, men data visar inte på någon signikant skillnad mellan behandlingseekterna för olika typer av förgiftning. c De olika gifterna har olika eekt på överlevnadstiden, men behandlingseffekten skiljer sig inte signikant åt mellan behandlingarna. d Vare sig typ av förgiftning eller behandling har någon signikant eekt på överlevnadstiden. e Inget av ovanstående. 5

5. Vilket av följande uttalanden a - e är falskt? a Bonferroni-kondensintervall med den simultana kondensnivån L för k stycken parametrar består av k stycken vanliga kondensintervall på nivå 1 (1 L) /k. b Idén bakom Tukey-kondensintervall för dierenser mellan alla par av medelvärden är att först hantera skillnaden mellan det största och det minsta av de observerade medelvärdena. Man använder sedan att alla andra skillnader i observerade medelvärden är mindre. c De individuella kondensintervallen är alltid smalare vid Bonferronijämförelse än vid Tukey-jämförelse. d Idén bakom Bonferroni-jämförelsen är att bygga kondensintervallen på "värsta-fall analys". e Om man vill ha simultana kondensintervall för många kontraster är det vanligen bäst att använda Schee's metod. 6

6. Ett företag som målar aluminiumytor vill undersöka hur vidhäftningen beror av vilken typ av primer som används, och av hur man behandlar med primern. Man gör därför ett försök med tre olika slags primer och med två olika behandlingsmetoder, sprejning och neddoppning. För varje kombination av primer och behandlingsmetod målade man tre stycken ytor. Tabellen nedan visar de uppmätta vidhäftningarna. Vidhäftning Behandlingsmetod Primer Sprejning Doppning 1 4.0 4.5 4.3 5.4 4.9 5.6 2 5.6 4.9 5.4 5.8 6.1 6.3 3 3.8 3.7 4.0 5.5 5.0 5.0 Nästa tabell visar lämpliga medelvärden av observationerna. Genomsnittlig vidhäftning Behandlingsmetod Primer Sprejning Doppning medelvärde 1 4.27 5.30 4.78 2 5.30 6.07 5.68 3 3.83 5.17 4.50 medelvärde 4.47 5.51 4.99 Vid en tvåsidig variansanalys fås följande resultat. Variation Kvadratsumma Mellan primertyper 4.58 Mellan behandlingsmetoder 4.91 Växelverkan 0.24 Inom celler 0.99 Totalt 10.72 7

Växelverkanseekten mellan primertyp 3 och behandling med doppning skattas med: a 4.50 5.51 = 1.01 b 4.50 4.99 = 0.49 c 5.51 4.99 = 0.52 d 5.17 4.99 (4.50 4.99) (5.51 4.99) = 0.15 e 1 [4.27 + 5.17 3.83 5.30] = 0.16 2 8

7. Betrakta igen försöket från föregående uppgift, uppgift 6. Vad betyder en eventuell växelverkan? a Det är bara typ av primer som har betydelse för vidhäftningen. b Det är bara behandlingsmetoden som har betydelse för vidhäftningen. c Skillnaden mellan vidhäftningen för de två olika behandlingsmetoderna beror av vilken primer man använder. d Det är samma skillnad i vidhäftning mellan de två olika behandlingsmetoderna för alla primertyper. e Vare sig primertyp eller behandlingsmetod har betydelse för vidhäftningen. f Vet ej 9

8. Vilket av följande uttalanden a - e är falskt? a Faktoreektsmodellen kan formuleras som en multipel linjär regressionsmodell, fast med diskreta regressorer. b χ 2 test i 2 2 tabeller kan inte hantera kontinuerliga variabler. c Den statistiska analysen av både den additiva faktoreektmodellen och den linjära regressionsmodellen bygger, i den här kursen, på antagandet att avvikelsetermen ε är normalfördelad med konstant varians. d Om man vid en tvåsidig variansanalys nner samspelstermer som inte kan transformeras bort kan det vara lämpligt att använda kondensintervall för väl utvalda kontraster som sammanfattning av resultaten av analysen. e Man behöver aldrig plotta residualer i en variansanalys mot tidsordningen om man har randomiserat. f Vet ej 10

9. Det är känt att 10% av alla producerade 512 MB ram-minnen är defekta. Med inspektion och kassation av upptäckta defekta minnen, kan man försäkra sig om att bara 1% av alla ram-minnen som säljs lagligt är defekta. Tyvärr stjäls en del ram-minnen innan denna inspektion. Man tror sig veta att ungefär 1% av hela världsmarknaden för 512 MB ram-minnen består av stulna minnen. Vad är då sannolikheten att ett givet ram-minne är stulet givet att det är defekt? a 0.092 b 0.132 c 0.066 d 0.056 e Inget av ovanstående. f Vet ej 11

10. Vid första föreläsningen i höstas gjorde vi ett försök där alla ck välja mellan att antingen dricka Cola eller juice samt antingen äta frukt eller bulle. Samma försök gjordes även hösten 2003. Om man säger att alla som valde både frukt och juice gjorde ett nyttigt val medan resten gjorde ett onyttigt val man ställa upp följande tabell över resultaten: 2003 2004 Total Nyttigt 19 29 48 Onyttigt 24 38 62 Total 42 67 n = 110 Frågan är nu om det är någon skillnad i val av nyttigt eller onyttigt alternativ i år jämfört med förra året. Den kan besvaras genom att testa mot H 0 : Val av nyttigt eller onyttigt alternativ är oberoende av år H a : Val av nyttigt eller onyttigt alternativ är beroende av år. Vad blir då p-värdet? a p-värde< 0.01. b 0.01 p-värde< 0.025. c 0.025 p-värde< 0.05. d 0.05 p-värde<0.1. e p-värde 0.1. 12

11. Betrakta följande två situationer och avgör vad Pearsons korrelationskoecient är för variablerna sträcka och tid. 1) En cyklist håller alltid konstant fart 20 km/h. Cyklisten cyklar ett antal olika långa uppmätta sträckor och tar tiden. Låt r 1 vara korrelationskoecienten. 2) En annan cyklist som inte håller konstant hastighet, cyklar ett antal olika långa uppmätta sträckor och tar tiden. Låt r 2 vara korrelationskoecienten. a r 1 = 1 och r 2 = 1. b 1 < r 1 < 1 och r 2 = 1. c r 1 = 1 och 1 < r 2 < 1. d 1 < r 1 < 1 och 1 < r 2 < 1. e Inget av ovanstående. 13

12. En apotekare har hittat på en ny metod att bestämma vikterna x 1 och x 2 av två föremål med hjälp av en balansvåg. I stället för att lägga upp föremålen i en viktskål en åt gången och balansera dem med vikter i den andra skålen gör han som följer: Först lägger han båda föremålen i samma viktskål och balanserar dem med vikter i den andra skålen och mäter på så sätt x 1 + x 2. Sedan lägger han ett föremål i var skål och balanserar med vikter, och mäter på så sätt x 1 x 2. Från dessa två mätningar kan man så räkna ut x 1 och x 2. Man vet att variansen av felet vid en vägning är 1 g 2. Resultaten av olika vägningar är oberoende av varandra. Vad blir då standardavvikelsen för felet när man bestämmer x 1 på ovanstående sätt? a 1 g b 2 g c 1/ 2 g d 1/2 g e 1/4 g 2. f Vet ej 14

13. Vad innebär multikollinearitet i den multipla linjära regressionsmodelen: Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + ɛ? a Feltermens varians beror på Y. b Feltermens varians beror på X 1, X 2 och X 3. c Det nns ett ickelinjärt samband mellan Y och X 1, X 2 och X 3. d Responsvariablen Y är korrelerad med X 1, X 2 och X 3. e Det nns (starka) korrelationer mellan två eller era av X 1, X 2 och X 3. 15

14. Susanne cyklar till arbetet och försöker varje morgon förutspå hur lång tid det kommer ta så att hon kan stanna hemma och läsa tidningen så länge som möjligt och ändå normalt komma fram i tid. Hon har därför under 50 dagar observerat tiden, vindstyrkan och vindriktningen och har ansatt följande modell ln (tid) = β 0 + β 1 vindstyrka + β 2 vindriktning + ɛ. Tiden har mätts i minuter, vindstyrkan i m/s och vindriktningen mellan 0 o och 180 o, där 0 o är rak medvind och 180 o är rak motvind. Minsta kvadratskattningarna av parameterarna är ˆβ 0 = 2.86, ˆβ 1 = 0.0357 och ˆβ 2 = 0.000509. Skattningen av felvariansen är MSE= 0.0132. Residualplottarna visar inga tydliga trender och inga stora avvikelser från normalitet. Vad är ett 95% prediktionsintervall för tiden i minuter det tar att cykla till jobbet en morgon när det blåser 8 m/s rak sidvind (90 o )? Man har räknat ut att standardfelet för den predikterade responsen vid denna vindriktning och vindstyrka är ˆσ( ln(tid)) ˆ = 0.046. a (22.2, 26.7) b (19.8, 29.9) c (19.3, 30.6) d (19.0, 31.2) e (14.9, 39.7) 16

15. I ett försök mätte man värmeutvecklingen vid härdning av cement vid användning av olika recept. Man gjorde en multipel regressionsanalys för att beskriva värmeutvecklingen som en linjär funktion av mängden tricalsiumaluminat (x1), tricalsiumsilikat (x2) och dicalciumsilikat (x3), och ck bl a följande resultat: Summary of Fit Mean of Response 92.3462 R-Square 0.7092 Root MSE 12.4776 Adj R-Sq 0.6123 Analysis of Variance Source DF Sum of Squares Mean Square F Stat Pr > F Model 3 3417.3225 1139.1075 7.32 0.0087 Error 9 1401.2098 155.6900.. C Total 12 4818.5323... Parameter Estimates Pr Variable DF Estimate Std Error t Stat > t Tolerance Var Inflation Intercept 1 47.8888 76.4324 0.63 0.5465. 0.0000 x1 1 0.9511 0.6323 1.50 0.1668 0.9378 1.0663 x2 1 0.8383 1.0031 0.84 0.4250 0.0532 18.7803 x3 1-0.1002 0.9365-0.11 0.9172 0.0528 18.9401 Estimated Corr Matrix Intercept x1 x2 x3 Intercept 1.0000-0.1283-0.9919-0.9879 x1-0.1283 1.0000 0.0457 0.1025 x2-0.9919 0.0457 1.0000 0.9715 x3-0.9879 0.1025 0.9715 1.0000 17

Vilket av följande påståenden a - e är riktigt? a Det är inga tecken på multikollinearitet. b Analysen ger en klar indikation på multikollinearitet mellan x1 och x2. c Analysen ger en klar indikation på multikollinearitet mellan x1 och x3. d Analysen ger en klar indikation på multikollinearitet mellanx2 och x3. e Inget av ovanstående. f Vet inte. 18