Uppgift a b c d e f (vet ej) Poäng

Relevanta dokument
Uppgift a b c d e f (vet ej) Poäng

ÖVNINGSTENTAMEN: Statistisk modellering för I3, TMS160 Hjälpmedel: Utdelad formelsamling med tabeller, BETA, på kursen använd ordlista och typgodkänd

Del A: Schema för ifyllande av svar nns på sista sidan

Standard Normal Quantiles. Vilken av följande slutsatser kan man dra från qq-plotten?

Del A: Schema för ifyllande av svar nns på sista sidan

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Uppgift a b c d e f (vet ej) Poäng

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Regressions- och Tidsserieanalys - F1

Regressions- och Tidsserieanalys - F1

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

Uppgift a b c d e Vet inte Poäng

Regressions- och Tidsserieanalys - F3

Regressions- och Tidsserieanalys - F3

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Regressions- och Tidsserieanalys - F3

Valfri räknedosa, kursbok (Kutner m fl) utan anteckningar. Tentamen omfattar totalt 20p. Godkänt från 12p.

732G71 Statistik B. Föreläsning 7. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 29

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

10.1 Enkel linjär regression

En scatterplot gjordes, och linjär regression utfördes därefter med följande hypoteser:

Regressions- och Tidsserieanalys - F7

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Tentamen i matematisk statistik

Regressions- och Tidsserieanalys - F4

732G71 Statistik B. Föreläsning 3. Bertil Wegmann. November 4, IDA, Linköpings universitet

F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data

TENTAMEN I MATEMATISK STATISTIK

7.5 Experiment with a single factor having more than two levels

a) Vad är sannolikheten att det tar mer än 6 sekunder för programmet att starta?

Metod och teori. Statistik för naturvetare Umeå universitet

LUNDS UNIVERSITET STATISTISKA INSTITUTIONEN MATS HAGNELL. Skrivning i ekonometri onsdagen den 1 juni 2011

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Skrivning i ekonometri lördagen den 29 mars 2008

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Tentamen för kursen. Linjära statistiska modeller. 16 augusti

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

a) Bedöm om villkoren för enkel linjär regression tycks vara uppfyllda! b) Pröva om regressionkoefficienten kan anses vara 1!

Tentamen i Matematisk statistik Kurskod S0001M

Exempel 1 på multipelregression

Examinationsuppgifter del 2

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Tentamen i Matematisk statistik Kurskod S0001M

I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt

TENTAMEN I STATISTIK B,

Uppgift a b c d e Vet inte Poäng

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

MSG830 Statistisk analys och experimentplanering

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Statistik för ekonomer, Statistik A1, Statistik A (Moment 2) : (7.5 hp) Personnr:..

Person Antal månader som utrustningen ägts. Antal timmar utrustningen användes föregående vecka.

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Tentamen Tillämpad statistik A5 (15hp)

Multipel Regressionsmodellen

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 3 Kap 3.4, 3.6, G71 Statistik B

Skrivning i ekonometri torsdagen den 8 februari 2007

Räkneövning 5. Sebastian Andersson Statistiska institutionen Uppsala universitet 7 januari För Uppgift 2 kan man med fördel ta hjälp av Minitab.

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

Tentamen i Matematisk statistik Kurskod S0001M

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Statistik 1 för biologer, logopeder och psykologer

Formler och tabeller till kursen MSG830

Tentamen i Matematisk statistik Kurskod S0001M

Lösningar till SPSS-övning: Analytisk statistik

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Enkel linjär regression. Enkel linjär regression. Enkel linjär regression

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Tentamen Tillämpad statistik A5 (15hp)

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Linda Wänström. Omtentamen i Regressionsanalys

Skrivning i ekonometri lördagen den 25 augusti 2007

Tentamen Tillämpad statistik A5 (15hp)

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Lösningsförslag till Matematisk statistik LKT325 Tentamen

MSG830 Statistisk analys och experimentplanering

TAMS65 - Föreläsning 11 Regressionsanalys fortsättning Modellval

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Tentamen för kursen. Linjära statistiska modeller. 14 januari

Följande resultat erhålls (enhet: 1000psi):

Lösningar till tentamensskrivning för kursen Linjära statistiska modeller. 14 januari

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

732G71 Statistik B. Föreläsning 2. Bertil Wegmann. November 13, IDA, Linköpings universitet

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

MVE051/MSG Föreläsning 14

Kursboken Vännman: Matematisk statistik Kompletterande kursmaterial till kursen Matematisk statistik (formelblad och kompendiet Regressionsanalys.

Föreläsning 4 Kap 3.5, 3.8 Material om index. 732G71 Statistik B

Föreläsning 12: Regression

TENTAMEN I REGRESSIONSANALYS OCH TIDSSERIEANALYS

Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8

Tentamen i Matematisk statistik Kurskod S0001M

Exempel 1 på multipelregression

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Tentamen för kursen. Linjära statistiska modeller. 17 februari

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Transkript:

TENTAMEN: Statistisk modellering för I3, TMS161, lördagen den 22 Oktober kl 8.30-11.30 på V. Jour: John Gustafsson, ankn. 5316. Hjälpmedel: På hemsidan tillgänglig ordlista och formelsamling med tabeller, BETA samt typgodkänd räknedosa. Poängberäkning: Uppgifterna är av ervalstyp, där endast ett alternativ är rätt. Korrekt besvarad uppgift ger 2 poäng, obesvarad uppgift (vet inte eller alternativ f) ger 0 poäng och felaktigt besvarad uppgift ger -0.5 poäng (era ifyllda alternativ ger automatiskt -1/2 poäng). Inlämnade lösningar kommer ej tas hänsyn till vid rättningen. Fyll i och lämna in denna sida. Svar: Läggs efter tentamens slut ut på hemsidan: http://www.math.chalmers.se/ anders.sjogren/statmod/ Uppgift a b c d e f (vet ej) Poäng 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1

1 För att studera kostnaden för olika utbildningar åren 1988-1990, samlade man in data från 5 olika utbildningar under de tre åren. Vid en tvåsidig variansanalys av de observerade kostnaderna ck man följande ANOVA-tabell Analysis of variance Source DF Sum of squares Mean square F Stat Prob > F År 2 9010 4505 81.0 0.000 Utbildn. 4 9349 2337 42.0 0.000 År Utb. 8 1182 148 2.7 0.0127 Error 75 4173 56 Total 89 23714 Vid test på 5% signikansnivå kan vi därmed dra följande slutsats: (a) Både typen av utbildning och vilket år man undersöker har eekt på kostnaden, och någon eller några av åren har olika eekt på kostnaden beroende på vilken utbildning man tittar på. (b) Både typen av utbildning och vilket år man undersöker har betydelse, men det nns ingen signikant skillnad mellan årskostnadseekten för olika typer av utbildningar. (c) De olika åren har olika eekt på kostnaden, men kostnaden skiljer sig inte signkant åt för olika utbildningar. (d) De olika utbildningarna har olika eekt på kostnaden, men kostnaden skiljer sig inte signkant åt för olika år. (e) Inget av ovanstående. (f) vet inte. 2

2 En auktionsrma vill beskriva hur åldern och antalet budgivare på en klocka påverkar priset på klockan. Man bestämmer sig för följande modell. Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + ɛ, där ɛ är N(0, σ). I denna modell är X 1 = Z 1 X 2 = Z 2 X 3 = Z 1 Z 2 där Z 1 är antalet budgivare och Z 2 är klockans ålder. Ovan syns en scatterplot över resultaten. En Minitab-utskrift och frågeställningen följer på nästa sida. (Bidders står för budgivare, age står för ålder och price för pris.) 3

Regression Analysis: price versus age; bidders; bidders*age The regression equation is price = 320 + 0.88 age - 93.3 bidders + 1.30 bidders*age Predictor Coef SE Coef T P VIF Constant 320.5 295.1 1.09 0.287 age 0.878 2.032 0.43 0.669 12.2 bidders -93.26 29.89-3.12 0.004 28.3 bidders*age 1.2978 0.2123 6.11 0.000 30.5 S = 88.9145 R-Sq = 95.4% R-Sq(adj) = 94.9% Analysis of Variance Source DF SS MS F P Regression 3 4578427 1526142 193.04 0.000 Residual Error 28 221362 7906 Total 31 4799790 Betrakta följande påståenden: 1 I exemplet ovan verkar multikolinearitet vara ett problem. 2 Multikolinearitet innebär att det nns (starka) korrelationer mellan två eller era av regressorerna. 3 Multikolinearitet innebär att responsvariabeln är korrelerad med regressorerna. (a) Endast 1 är korrekt. (b) Endast 2 är korrekt. (c) Endast 3 är korrekt. (d) 1 och 2 är korrekta. 3 är falskt. (e) 1 och 3 är korrekta. 2 är falskt. (f) Vet ej 4

25 Figur 1 6 Figur 2 Y 20 15 10 5 0 5 0 1 2 3 4 5 X Y 5 4 3 2 1 0 1 0 1 2 3 4 5 X Y 12 10 8 6 Figur 3 Y 35 30 25 20 15 Figur 4 4 10 2 5 0 0 1 2 3 4 5 X 0 0 1 2 3 4 5 X 3 Ovan visas fyra olika spridningsdiagram (scatter plots). I vilken eller vilka av dessa ger Pearsons korrelationskoecient ett bra mått på associationen mellan variablerna X och Y? (a) Endast Figur 1. (b) Endast Figur 1 och Figur 3. (c) Endast Figur 1 och Figur 4. (d) Endast Figur 1, Figur 3 och Figur 4. (e) Endast Figur 2. (f) Vet ej. 5

4 Man vill avgöra om män i högre utsträckning än kvinnor röstar borgligt. Man tog ett stickprov av röstberättigade män och kvinnor och frågade dem: Röstar du borgligt? Hur ska man på bästa sätt analysera resultatet? (a) Med χ 2 -test för oberoende i tvåsidig tabell för kategorisk data. (b) Med ensidig variansanalys utan blockning. (c) Med ensidig variansanalys med blockning. (d) Med tvåsidig variansanalys. (e) Med regressionsanalys. (f) Vet ej 6

5 Du vill undersöka vem av fem tyngdlyftare som är starkast, genom att observera den tyngsta vikt de kan lyfta i sex olika grenar. Du har fått reda på att skillnaden mellan olika lyftare kan anses vara multiplikativ, vilket t.ex. innebär att en lyftare i grunden kan lyfta 10% mer än en annan, oberoende av vilken gren det gäller. Vi låter Y ij vara vikten lyftare i lyfter i gren j och vi vill analysera försöket med ensidig variansanalys med blockning. Om ovanstående information tyder på att transformation av Y ij bör göras innan vidare analys utförs, vilken transformation är det då? (a) Analysera x (b) Analysera x 2 (c) Analysera e x (d) Analysera log(x) (e) Informationen ovan tyder inte på att någon transformation behövs. (f) Vet ej 7

6 Tabellen nedan visar ANOVA-tabellen för en tvåsidig variansanalys. Analysis of variance Source DF Sum of squares Mean square F Stat A 2 512.9 265.4 * B * 449.5 * * A B * 143.1 17.9 * Error 15 136.0 9.1 Total 29 * Värdena i några av fälten saknas och är markerade med (*). Från de givna sirorna kan man ändå beräkna hur många nivåer som man använt sig av på varje faktor och hur många observationer som har gjorts per cell, d.v.s. per kombination av nivåerna i A och B. De är: (a) Faktor A: 2 nivåer, faktor B: 4 nivåer, antal observationer per cell: 3. (b) Faktor A: 3 nivåer, faktor B: 5 nivåer, antal observationer per cell: 15. (c) Faktor A: 2 nivåer, faktor B: 4 nivåer, antal observationer per cell: 15. (d) Faktor A: 3 nivåer, faktor B: 5 nivåer, antal observationer per cell: 3. (e) Inget av ovanstående. (f) vet inte. 8

7 En enkel linjär regressionsmodell har anpassats till data från 27 mätvärden. Man vill nu testa om β 1 är signikant d.v.s. skild från noll. Man formulerar hypoteserna: H 0 : β 1 = 0 H a : β 1 0 Man har under sina beräkningar fått ut att ˆβ 1 = 0.64, MSE = 0.31 och 27 i=1 (X i X) 2 = 4.21. Vilket av följande interval hamnar p-värdet i? (a) p-värdet > 0.20 (b) 0.10 < p-värdet < 0.20 (c) 0.05 < p-värdet < 0.10 (d) 0.01 < p-värdet < 0.05 (e) p-värdet < 0.01 (f) Vet ej. 9

8 För att ta reda på hur mycket avverkningsbar skog en bonde har på sin mark fälldes 30 fullvuxna granar. Diametern på varje träd mättes 1 meter ovanför marken i enheten centimeter och volymen timmer per träd mättes i enheten m 3. Låt X i vara diametern på träd i och Y i vara volymen timmer som man får ut från träd i. Det visar sig att man för de data man har samlat in kan anpassa en enkel linjär regressionsmodell. Skattningen av medelresponsen för denna modell blir: Läs nu följande påståenden: Ŷ = 0.994. + 0.015 X 1: Modellen är ej relevant för X nära 0. 2: Om diametern på trädet ökar 1 cm ökar volymen timmer med i genomsnitt 0.015 m 3. 3: Om diametern på trädet ökar 1 cm ökar volymen timmer med i genomsnitt 0.994 m 3. Vilket eller vilka av dessa påståenden är korrekt/korrekta? (a) Påstående 2 är sant, men inte de andra. (b) Påstående 1 och 2 är sanna, men inte 3. (c) Påstående 1 är sant, men inte de andra. (d) Påstående 3 är sant, men inte de andra. (e) Inget påstående är sant. (f) Vet ej. 10

9 Vid en studie av bensinförbrukning är 4 olika bilar och 5 olika förare involverade. Alla förare kör en och samma runda. Varje förare kör alla bilarna på en egen dag. Under den dagen kör föraren i fråga rundan en gång per bil, i slumpvis ordning och under liknande trakförhållanden. Bensinförbrukningen under varje runda antecknas sedan. Man observerar för övrigt att trakförhållandena under de olika dagarna är något olika. Man vill nu ha ut mest möjliga information ur försöket. Om man antar att övriga modellantaganden stämmer, kan/bör man då baserat på informationen ovan: (a) Analysera eekten av bil med ett χ 2 -test. (b) Analysera eekten av bil med en ensidig variansanalys med blockning. (c) Analysera eekten av både bil och förare med en tvåsidig variansanalys. (d) Analysera eekten av både bil och förare med ett χ 2 -test. (e) Inget av ovanstående är korrekt, eftersom förarna körde under olika dagar vilka hade olika trak-förutsättningar. (f) Vet ej. 11

10 Ett distributionsföretag vill beräkna kostnaderna för att frakta ett paket. I en multipel regressionsmodell vill man använda prediktorerna Z 1 = paketets vikt (i kg) och Z 2 = hur långt paketet fraktas (i km). Svarsvariabeln Y är kostnaden for frakten (i SEK). Man beslutar sig för att använda en modell med följande regressorer: X 1 = Z 1 X 2 = Z 2 X 3 = Z 1 Z 2 vilket ger modellen Y = β 0 + β 1 X 1 + β 2 X 2 + β 3 X 3 + ɛ, där ɛ är N(0, σ). Anpassning av data till modellen ger: ˆβ 0 = 1.52 ˆβ 1 = 0.41 ˆβ 2 = 0.052 ˆβ 3 = 0.105 Vad säger denna modell om den skattade förväntade förändringen av kostnaden Y, då distansen Z 2 ökar 1 km och vikten Z 1 hålls konstant på värdet 2 kg? (a) Den skattade förväntade förändringen är +0.052 SEK (b) Den skattade förväntade förändringen är +0.41 + 0.052 SEK (c) Den skattade förväntade förändringen är +0.052 + 2*0.105 SEK (d) Den skattade förväntade förändringen är +0.41 + 0.052 + 0.105 SEK (e) Inget av ovanstående. (f) Vet ej 12

11 I ett test vill man undersöka hur livslängden på ett batteri påverkas av två faktorer: materialtypen och temperatur. Temperaturfaktorn sätts till nivåerna 10 o C, 25 o C och 50 o C och man testar tre olika materialtyper. Resultatet visas i tabellen nedan. Man vet att där är fyra observationer i varje cell, d.v.s. i varje kombination av temperaturer och material. Variation SS Materialtyp 10684 Temperatur 39119 Samspel 9614 fel 18231 total 77647 F-statistikan för test av hypotesen att det inte nns något samspel mellan materialtyp och temperatur är (a) (9614/9)/(77647/35) (b) (9614/4)/(18231/27) (c) ((10684+39119)/6)/((18231)/27) (d) ((10684+39119)/6)/((77647)/35) (e) Inget av ovanstående (f) Vet ej 13

12 Bensinförbrukning för 4 typer av bilar undersöks. Ett slumpvis stickprov tas med 3 bilar av varje typ och 12 olika förare. Förarna tilldelas sedan en bil på måfå och ordningen i vilken de kör en och samma bestämda tur väljs på måfå. Varje bil blir alltså körd rundan en gång, varefter bensinförbrukningen antecknas. Hur ska man på bästa sätt analysera de insamlade mätvärdena? (a) Med 2 -test för oberoende i tvåsidig tabell för kategoriska data. (b) Med enkel linjär regression. (c) Med ensidig variansanalys utan blockning. (d) Med ensidag variansanalys med blockning. (e) Inget av ovanstående. (f) Vet ej 14

13 Efter injektion av ett antibiotikum i blodet binds en viss del av den injicerade mängden till serumproteiner. Detta fenomen har stor farmakologisk betydelse, eftersom det påverkar hur eektiv antibiotikan ifråga blir mot infektioner. I en studie ville man undersöka hur stor del av fem olika antibiotikatyper som bands. Varje medel injicerades på fyra olika individer. De tjugo frivilliga försökspersonerna tilldelades genom lottning en av de fem antibiotikatyperna. Antibiotikum Mängd bundet i serum (okänd enhet) Penicillin G 29.6 24.3 28.5 32.0 Tetracycline 27.3 32.6 30.8 34.8 Streptomycin 5.8 6.2 11.0 8.3 Erythromycin 21.6 17.4 18.3 19.0 Chlomphenicol 29.2 32.8 25.0 24.2 Detta analyserades först med en ensidig variansanalys, varvid det visades att skillnader mellan antibiotikumen nns. Man vill nu förutsättningslöst utföra test för att se vilka antibiotikum som skiljer sig åt sinsemellan. Vilken av följande metoder är dels korrekt och dels mest eektiv om man vill utföra de testen med en total signikansnivå på 5%? (a) Parvisa t-test på 5%-nivån. (b) Bonferronis metod på 5%-nivån. (c) Scheés metod på 5%-nivån. (d) Tukeys metod på 5%-nivån. (e) Inget av ovanstående. (f) Vet ej 15

14 För att kontrollera att de modellantaganden som man gör i regressionsanalys är gilitiga konstrueras grafer där man plottar residualerna mot olika variabler som de antas vara oberoende av. Vilken av följande variabler ska man INTE plotta residualerna mot? (a) Responsen Y. (b) Prediktorn X. (c) Försöksordningen. (d) De anpassade värdena Ŷ. (e) Det går bra att plotta residualerna mot alla dessa alternativ. (f) Vet ej. 16

15 I en tvåvägstabell med c kolumner och r rader har teststatistikan X 2 approximativt en χ 2 -fördelning med (c 1)(r 1) frihetsgrader. För att besvara frågan om 17 till 19-åriga ungdomars användande av cigaretter påverkas av om föräldrarna röker gjordes insamling av data som presenteras nedan. B: någon av föräldrarna röker j = 1: Ja j = 2: Nej A: Ungdomen röker i = 1: Ja 410 373 i = 2: Nej 120 295 X 2 beräknas till 60.45. Vad kan man säga om nollhypotesen "17-19 åriga ungdomars användande av cigaretter är oberoende av om någon av föräldrarna röker"? (a) Vi kan förkasta nollhypotesen om oberoende mellan A och B på signikansnivå 10%, men inte på 5%. (b) Vi kan förkasta nollhypotesen om oberoende mellan A och B på signikansnivå 5%, men inte på 2,5%. (c) Vi kan förkasta nollhypotesen om oberoende mellan A och B på signikansnivå 2,5%, men inte på 1%. (d) Vi kan förkasta nollhypotesen om oberoende mellan A och B på signikansnivå 1% (e) Inget av ovanstående. (f) Vet ej 17