LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

Relevanta dokument
LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0002M, MAM801, IEK600,IEK309 Institutionen för matematik Datum Skrivtid

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0002M MAM801 IEK309 Institutionen för matematik Datum Skrivtid

Läs noggrant informationen nedan innan du börjar skriva tentamen

Läs noggrant informationen nedan innan du börjar skriva tentamen

Läs noggrant informationen nedan innan du börjar skriva tentamen

Läs noggrant informationen nedan innan du börjar skriva tentamen

Beskrivande statistik. Tony Pansell, Leg optiker Docent, Universitetslektor

Läs noggrant informationen nedan innan du börjar skriva tentamen

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Läs noggrant informationen nedan innan du börjar skriva tentamen

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 HP. Ten1 9 HP. 19 e augusti 2015

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Läs noggrant informationen nedan innan du börjar skriva tentamen

Tentamen i Statistik, STA A13 (4 poäng) Lördag 11 november 2006, Kl

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Föreläsning G60 Statistiska metoder

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

Deskription (Kapitel 2 i Howell) Moment 1: Statistik, 3 poäng

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 16 e januari 2015

Lektionsanteckningar 11-12: Normalfördelningen

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 23 e mars Ten 1, 9 hp

Att göra före det schemalagda labpasset.

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

Medelvärde, median och standardavvikelse

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Tentamen i Statistik, STA A13 Deltentamen 1, 4p 27 mars 2004, kl

Laboration 3: Urval och skattningar

OBS! Vi har nya rutiner.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 24 e mars Ten 1, 9 hp

Beskrivande statistik

OBS! Vi har nya rutiner.

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 5. Poäng. Totalt 40. Betygsgränser: G 20 VG 30

Inlämningsuppgift-VT lösningar

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Statistik, STA A13 Deltentamen 1, 4p 24 april 2004, kl

Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta. Tentamensresultaten anslås med hjälp av kodnummer.

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Bearbetning och Presentation

Laboration 3: Urval och skattningar

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Studentens namn: Studentens personnummer: Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta.

Sänkningen av parasitnivåerna i blodet

2.1 Minitab-introduktion

OBS! Vi har nya rutiner.

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Repetitionsföreläsning

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 12 e januari Ten 1, 9 hp

2 Dataanalys och beskrivande statistik

Mata in data i Excel och bearbeta i SPSS

Tentamen i Statistik, STA A13 Deltentamen 1, 4p 12 november 2005, kl

Tentamen består av 12 frågor, totalt 40 poäng. Det krävs minst 24 poäng för att få godkänt och minst 32 poäng för att få väl godkänt.

Studentens namn: Studentens personnummer: Giltig legitimation/pass är obligatoriskt att ha med sig. Tentamensvakt kontrollerar detta.

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

732G01/732G40 Grundläggande statistik (7.5hp)

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Tentamen Tillämpad statistik A5 (15hp)

Laboration 2: Normalfo rdelning, regressionsanalys och korstabeller

Obligatorisk uppgift, del 1

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Johan Andersson

F3 Introduktion Stickprov

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars Ten 1, 9 hp

Börja med att ladda ner Kommuner2007.xls från kursens hemsida.

Tentamen i Matematisk statistik Kurskod S0001M

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

16. Max 2/0/ Max 3/0/0

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 9 e juni Ten 1, 9 hp

Tentamen i Matematisk statistik Kurskod S0001M

import totalt, mkr index 85,23 100,00 107,36 103,76

Hypotestestning och repetition

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp

Tentamen i Statistik STG A01 (12 hp) Fredag 16 januari 2009, Kl

Tentamen i Sannolikhetslära och statistik Kurskod S0008M

OBS! Vi har nya rutiner.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

Tentamen i Matematisk statistik Kurskod S0001M

17/10/14. Kvantitativ metod och grundläggande statistik. Varför. Epidemiologi

Forskningsmetodik 2006 lektion 2

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

1 Mätdata och statistik

STOCKHOLMS UNIVERSITET HT 2007 Statistiska institutionen Johan Andersson

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 4 e mars Ten 1, 9 hp

Idag. EDAA35, föreläsning 4. Analys. Exempel: exekveringstid. Vanliga steg i analysfasen av ett experiment

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 10 e januari Ten 1, 9 hp

Tentamen i Matematisk statistik Kurskod S0001M

Transkript:

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum 2008-06-04 Skrivtid 0900 1400 Tentamen i: Statistik 1, Undersökningsmetodik 7.5 hp Antal uppgifter: 5 Krav för G: 15 Lärare: Robert Lundqvist & Eva Lövf Jour: Robert Lundqvist, tel 49 24 04 Resultatet anslås senast: 13/6 2008 Tillåtna hjälpmedel: En statistikbok, gärna Introduction to the Practice of Statistics av Moore & McCabe. Undantag: kombinationen Praktisk statistik/räkna med slumpen Miniräknare Om den bok du har med dig inte innehåller tabell för normalfördelningen eller annan tabell du tycker dig behöva så ska sådana tabeller finnas hos tentamensvakt. Tänk på att redovisa dina lösningar på ett klart och tydligt sätt. Endast det numeriska svaret räcker inte för full poäng. Korrekt lösning ger det poängantal som står angivet efter uppgiftstexten. LYCKA TILL! OBS! Glöm inte att fylla i kursutvärderingen i Fronter

Tentamen i Statistik 1, Undersökningsmetodik, S0006M, 2008-06-04 1. Det ökande intresset och användandet av Internet har medfört att många företag försöker sälja sina produkter på webben. Det är därför intressant att veta vilka som använder webben och hur mycket. En person på en marknadsavdelning fick i uppdrag att undersöka detta. Bland annat undersöktes antal timmar Internet användes veckan innan undersökningen. Även bakgrundsvariabler som ålder togs med i undersökningen. Ett obundet slumpmässigt urval ( simple random sample ) på 15 personer ur en population av vuxna medborgare (20 år eller äldre) gav följande resultat. Ålder 30 42 55 40 44 Internettid 10 5 0 14 24 Ålder 60 24 33 28 45 Internettid 0 15 12 20 10 Ålder 49 52 33 25 28 Internettid 5 8 12 15 0 (a) Sammanställ variabeln ålder i ett stam-bladsdiagram. Beräkna medelvärdet och standardavvikelsen på åldern för de fem första individerna i tabellen ovan (en begränsning bara för att du inte ska behöva räkna på så många värden). (b) Beräkna medianen och kvartilerna för internettiderna, samt beskriv hur du räknar ut dessa. Beräkna även kvartilavståndet ( interquartile range ). (c) Illustrera internettiderna i ett lådagram ( boxplot ). Undersök om det finns några uteliggare ( outliers ) i materialet med sedvanliga stängsel, dvs de gränser som ges av q 1 1.5 (q 3 q 1 ), q 3 + 1.5 (q 3 q 1 ) (d) För att beskriva hur ålder påverkar internettiden kan man göra en regressionsanpassning som i detta fall blir följande uttryck: ŷ = 21.8 0.3x Kan koefficienterna i det sambandet ges meningsfulla tolkningar? Ge i så fall sådana tolkningar. Om det inte är möjligt att ge meningsfull tolkning, motivera då detta. 1

Tentamen i Statistik 1, Undersökningsmetodik, S0006M, 2008-06-04 (e) Förklaringsgraden för regressionssambandet ovan blev 23%. Vad kan utifrån det värdet sägas om styrkan i sambandet mellan variablerna? Bestäm även korrelationskoefficienten. (f) Hur skulle korrelationskoefficienten förändras om enheten på Internettiden ändras till minuter istället för timmar: blir den lägre, oförändrad eller högre? (g) Om riktningskoefficienten i ett regressionssamband blir nära 0 betyder det då att den förklarande variabeln måste ha liten påverkan på svarsvariabeln? Om inte, motivera då ditt svar. (h) Utifrån dina erfarenheter från den gjorda undersökningen får du frågan om du kan göra en ny undersökning av internetanvändningen bland studenterna på ett visst lärosäte. I uppdraget skulle då ingå att göra ett stratifierat urval utifrån kårtillhörighet med 100 studenter från var och en av de tre kårerna vid det aktuella lärosätet. Beskriv kortfattat hur det urvalet skulle göras: vad du behöver för hjälpmedel och underlag, och hur du skulle gå tillväga. (15p) 2. I arbetslivet utförs många arbeten i projekt. Vid ett större företag hade tiden för projekten som bedrivits vid företaget sammanställts, och det materialet visade att projekttiden kunde beskrivas med en normalfördelning där genomsnittet var 21 dagar och standardavvikelsen 5 dagar. (a) Om projekttiden överstiger 30 dagar blir lönsamheten lägre eftersom faktureringen fördröjs och kunden får onödigt lång väntetid. Hur stor andel av projekten överstiger 30 dagar? (b) Vilket antal dagar överskrider 90% av projekten? (c) En person som samlat på sig data från liknande projekt i ett annat företag tycker det verkar tveksamt att använda 5 dagar som standardavvikelse för populationen av projekt, däremot verkar genomsnittet rimligt. Om andelen projekt som tagit högst 15 dagar är 10%, vad är då standardavvikelsen i den populationen av projekt? (6p) I ovanstående uppgifter är det särskilt viktigt att införda variabler definieras tydligt, att förutsättningarna är klart beskrivna och att beräkningarna går att följa. 3. En liter mjölk kostade år 1980 2.41 kr. År 2003 kostade en liter mjölk 7.25 kr. (a) Hur stor är den genomsnittliga prisförändringen per år på mjölk, mellan år 1980 och 2003? 2

Tentamen i Statistik 1, Undersökningsmetodik, S0006M, 2008-06-04 (b) Räkna om mjölkpriset år 1980 till penningvärdet för år 2003. KPI, som har basår 1980, var 278 år 2003. (4p) 4. Vid ett visst lärosäte vill man se hur studenter fördelar sin tid, och ett led i det arbetet är att ett urval av studenter dagligen ska föra en loggbok. För de studenterna kommer det att finnas både bakgrundsinformation och data från loggboken. Några av variablerna är följande: Personnummer Kårtillhörighet Program Tid de har schemalagd undervisning under en vecka Tid de lägger ner på studierna utanför schema under en vecka Omfattning på arbete vid sidan av studierna varje vecka Ger indirekt ålder Tre möjliga alternativ Summan av de dagliga noteringarna Summan av de dagliga noteringarna Tre intervall från Så gott som ingen till 20 timmar eller mer (a) Ge två exempel på metoder för att beskriva variabeln schemalagd tid grafiskt. Namnge metoderna och ge gärna enkla skisser på hur diagrammen kan tänkas se ut. (b) Ge exempel på hur sambandet mellan schemalagd tid och studietid utanför schema kan beskrivas grafiskt. Namnge en metod och ge gärna en skiss på hur diagrammet kan tänkas se ut. (c) Ge exempel på hur man kan göra en grafisk beskrivning av sambandet mellan kårtillhörighet och den tid man la ner på studier utanför schemalagda pass. Namnge en metod och ge gärna en skiss på hur diagrammet kan tänkas se ut. (3p) 5. Du har fått i uppgift att utreda olika sätt att korta ner handläggningstiden för en viss typ av bankärenden. Som en del i det förberedande arbetet ska de nuvarande tiderna beskrivas, och ett histogram visar ett snedfördelat material med de flesta tiderna i intervallet 2 till 5 dagar, och med ett mindre antal ärenden som dröjer ända upp till 20 dagar. Du vill komplettera de grafiska beskrivningarna med sammanfattande mått. Frågan uppkommer då vilket spridningsmått som ska användas, och ett alternativ är standardavvikelsen. Det måttet är dock kanske inte det bästa i detta fall. Motivera varför standardavvikelsen inte är lämpligt som spridningsmått i material som detta. (2p) 3

1. (a) Ett stambladdiagram för variabeln ålder kan se ut på följande sätt: 2 4 betyder 24, bladen är ental 2 4588 3 033 4 02459 5 25 6 0 Medelvärdet av de fem första värdet blir och standardavvikelsen blir x = 1 5 x i = 42.2 1 s = n 1 (x i x) 2 = 8.9554 (b) Med 15 värden är medianen värde nr 8 i storleksordning, dvs 10 timmar. Den undre kvartilen q 1 kan tas fram som medianen i den undre halvan, dvs värde nr 4 som är 5 timmar. På motsvarande sätt är den övre kvartilen q 3 median i den övre halvan, i detta fall 15 timmar. Kvartilavståndet (IQR) blir då q 3 q 1 = 10 timmar. (c) En boxplot kan se ut på följande sätt: ++------+------+------+-------+------+ +------+------+ +------ -------------+ +------+------+ ++------+------+------+-------+------+ 0 5 10 15 20 Internettid (timmar) 4

Med de givna gränserna för uteliggare ( 10, 30) finns inga uteliggare i materialet. (d) Riktningskoefficienten 0.3 kan tolkas på följande sätt: när åldern ökar med ett år så minskar internettiden per vecka med i genomsnitt 0.3 timmar. Interceptet 21.8 kan inte ges meningsfull tolkning eftersom det inte finns några observationer på internettiden för åldrar nära 0. (e) Med förklaringsgraden 23% har man ett svagt linjärt samband, eller annorlunda uttryckt, det är bara 23 % av variationen i y-led som förklaras av regressionsmodellen. Om förklaringsgraden är 23% så är korrelationskoefficienten 0.23 = 0.4796, vilket säger samma sak: det är ett relativt svagt linjärt samband mellan variablerna ålder och internettid. Att det är ett minustecken beror förstås på att det är ett negativt samband, vilket framgår av den negativa riktningskoefficienten. (f) Om enheten på internettiden ändras kommer korrelationskoefficienten att vara oförändrad. Sambandet mellan variablerna är lika stark oavsett skalan för variablerna. (g) Om riktningskoefficienten är nära 0 betyder det inte att den förklarande variabelns påverkan på svarsvariabeln är liten. Den kan ha liten betydelse, men det har inte att göra med siffervärdet. Ett exempel som visar detta är ovanstående material. Om enheten för åldern skulle vara tiotal år istället för år hade riktningskoefficienten fåt värdet -0.03, hade det varit hundratal år skulle värdet blivit -0.003. I alla dessa fall har variabeln samma påverkan på svarsvariabeln. (h) För att göra ett stratifierat urval ska populationen delas i i strata, i detta fall ett stratum för varje kår. För att kunna göra detta måste man alltså ha uppgifter om vilken kår varje individ i populationen tillhör. När sedan den indelningen är klar ska ett slumpmässigt urval göras i varje stratum, och där kan man ta hjälp av exempelvis slumptalstabell eller programvara. Med slumptalstabell skulle man kunna gå tillväga på följande sätt: I stratum 1 numreras alla individerna från 1 till sista personen. En startpunkt i slumptalstabellen väljs ut på ett slumpmässigt sätt. Ett antal siffror som täcker upp antalet i den aktuella gruppen tas fram: om det är mellan 1 och 99 personer tas två siffror, om det är mellan 100 och 999 tas 3 efter varandra följande siffror och så vidare. 5

Om siffrorna stämmer överens med en av personerna i listan väljs den personen ut. Om siffrorna inte passar in på någon av personerna i listan eller om det är en tidigare vald person hoppas den siffran över. Kombinationer av siffror som följer efter varandra tas fram förslagsvis radvis på ovanstående sätt ända tills urvaletär klart. 2. Om X står för projekttiden gäller för den variabeln att den kan beskrivas med en normalfördelning där genomsnittet µ är 21 dagar och standardavvikelsen σ är 5 dagar. (a) Det som söks är andelen av projekten som har en tid på över 30 dagar, dvs andelen X > 30. 0.00 0.02 0.04 0.06 0.08 5 10 15 20 25 30 35 Med sedvanlig standardisering får man att den andelen motsvarar andelen värden för den standardiserade normalfördelningen som överstiger (30 21)/5 = 1.8, dvs andelen Z > 1.8. 6

0.0 0.1 0.2 0.3 0.4 3 2 1 0 1 2 3 Enligt tabellen är det 97.72% av värdena som är lägre än 1.8, vilket innebär att andelen som överstiger 30 måste vara 1 0.9772 = 0.0228. (b) Det som söks är det antal dagar som 90% av projekten överstiger, dvs det värde c som gör att andelen X > c blir 90%. 0.00 0.02 0.04 0.06 0.08 5 10 15 20 25 30 35 7

Med standardiseringen fås att den andelen måste vara densamma som andelen Z-värden som överstiger (c 21)/5. Samtidigt säger tabellen att andelen värden för den fördelningen som överstiger 1.28 är 90%. Det betyder att c 21 5 vilket i sin tur betyder att c = 14.6. = 1.28 (c) Låt Y vara projekttiderna i det andra företaget. Där är alltså µ = 21 rimligt, men σ är okänt. Däremot är det klart att andelen projekt som tagit högst 15 dagar är 10%, dvs andelen Y > 15 är 10%. Med standardiseringen innebär detta att andelen Z < 15 21 σ också ska vara 10%. Enligt tabell vet vi att den andelen Y < 1.28 är just 10%. Detta sammantaget betyder att vilket ger att σ = 4.6875. 15 21 σ = 1.28 3. År 1980 2003 Pris (kr) 2.41 7.25 KPI 100 278 (a) Om k står för en genomsnittlig tillväxtfaktor gäller att priset år 1980 multiplicerat med en serie av dessa faktorer ska ge slutpriset år 2003, dvs 2.41 k 23 = 7.25 Detta betyder att k 23 = 3,0083, vilket i sin tur betyder att k = 3.0083 (1/23) = 1,0491 Den genomsnittliga prisökningen var alltså 4,91%. (b) En vara som år 2003 kostade 278 kr hade 1980 ett pris på 100 kr. En vara som år 1980 kostade 1 kr kostade då 278/100 = 2.78 kr år 2003. En vara (exempelvis mjölk) som år 1980 kostade 2.41 kr skulle då år 2003 kosta 2.41 2.78 = 6,6998 kr. Detta betyder alltså att det faktiska mjölkpriset ökade mer än KPI. 8

4. (a) För att beskriva variabeln tid i schemalagd undervisning grafiskt kan man till exempel använda någon av följande metoder: Stambladdiagram Histogram Boxplot Dotplot (b) Båda variablerna är numeriska/kvantitativa. Sambandet mellan tid i och utanför schema kan då till exempel beskrivas med en vanlig sambandsplott ( scatter plot ): ena variabeln på x-axeln och den andra på y-axeln. (c) En av variablerna (kårtillhörighet) är kategorisk och den andra är numerisk/kvantitativ. Ett sätt att åskådliggöra sambandet mellan de två kan då vara att göra en boxplot för var och en av kårerna. 5. Standardavvikelsen är inte bra att använda för snedfördelade material därför att den är så känslig för mer extrema värden i likhet med medelvärdet. Det beror på konstruktionen: s = 1 n 1 (x i x) 2 Avståndet från ett högt värde till medelvärdet tas med inte bara med i sig, det förstoras också genom att differensen mellan mätvärde och medelvärde kvadreras. Eventuella uteliggare kommer alltså att bidra mycket till slutsumman. 9