Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Relevanta dokument
Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

TMS136. Föreläsning 13

Statistik 1 för biologer, logopeder och psykologer

TMS136: Dataanalys och statistik Tentamen

Matematisk statistik TMS064/TMS063 Tentamen

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

TMS136. Föreläsning 11

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

8 Inferens om väntevärdet (och variansen) av en fördelning

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

TAMS65 - Föreläsning 6 Hypotesprövning

Hur skriver man statistikavsnittet i en ansökan?

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Föreläsningsanteckningar till kapitel 9, del 2

FÖRELÄSNING 8:

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

, s a. , s b. personer från Alingsås och n b

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Föreläsning G60 Statistiska metoder

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

TAMS65 - Föreläsning 6 Hypotesprövning

Stockholms Universitet Statistiska institutionen Termeh Shafie

Lufttorkat trä Ugnstorkat trä

Hur man tolkar statistiska resultat

Avd. Matematisk statistik

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0002M, MAM801, IEK600,IEK309 Institutionen för matematik Datum Skrivtid

TENTAMEN I STATISTIKENS GRUNDER 2

Föreläsning 12, FMSF45 Hypotesprövning

Avd. Matematisk statistik

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Uppgift a b c d e Vet inte Poäng

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Föreläsning 5: Hypotesprövningar

Tentamen i Matematisk statistik Kurskod S0001M

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Tenta i Statistisk analys, 15 december 2004

Avd. Matematisk statistik

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Föreläsning 12: Repetition

Tentamen i Dataanalys och statistik för I den 28 okt 2015

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

Tentamen MVE301 Sannolikhet, statistik och risk

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Uppgift 1 a) En kontinuerlig stokastisk variabel X har fördelningsfunktion

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Thomas Önskog 28/

Tentamen MVE301 Sannolikhet, statistik och risk

Fråga nr a b c d 2 D

0 om x < 0, F X (x) = c x. 1 om x 2.

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Statistik och epidemiologi T5

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

Tillåtna hjälpmedel: Räknedosa. Formel- och tabellsamling i matematisk statistik.

Föreläsning 5. Kapitel 6, sid Inferens om en population

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Tentamen MVE301 Sannolikhet, statistik och risk

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Avd. Matematisk statistik

F22, Icke-parametriska metoder.

Tentamen L9MA30, LGMA30

Tentamen MVE301 Sannolikhet, statistik och risk

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Föreläsning 12: Regression

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

F9 Konfidensintervall

Konfidensintervall, Hypotestest

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

b) Om vi antar att eleven är aktiv i en eller flera studentföreningar vad är sannolikheten att det är en kille? (5 p)

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Lektionsanteckningar 11-12: Normalfördelningen

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

2. Test av hypotes rörande medianen i en population.

4 Diskret stokastisk variabel

Formel- och tabellsamling i matematisk statistik

Tentamen i Tillämpad Matematik och statistik för IT-forensik. Del 2: Statistik 7.5 hp

Tentamen MVE302 Sannolikhet och statistik

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Tentamen MVE301 Sannolikhet, statistik och risk

cx 5 om 2 x 8 f X (x) = 0 annars Uppgift 4

Matematisk statistik KTH. Formelsamling i matematisk statistik

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Tentamen i Matematisk statistik Kurskod S0001M

Stockholms Universitet Statistiska institutionen Termeh Shafie

Transkript:

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning i Matematisk Statistik med Metoder MVE490 Tid: den 29 oktober, 2016 Examinatorer: Kerstin Wiklander och Erik Broman. Jour: Claes Andersson (tel 0734031540). Hjälpmedel: miniräknare, egenhändigt skriven formelsamling om två A4 fram och bak (dvs 4 sidor) samt tabeller (delas ut på plats). Tentamen består av 8 frågor om sammanlagt 50 poäng. Preliminära betygsgränser är satta till: betyg 3 : 20 till 29 betyg 4 : 30 till 39 poäng betyg 5 : 40 eller fler poäng. OBS! Alla lösningar skall vara väl redovisade och motiverade. Talen är ej ordnade efter svårighetsgrad 1. Hjälp Emil med att besvara frågorna nedan. (13p) (a) Man har slumpmässigt valt ut en insatslägenhet bland de som är till salu i ett område. Till denna har man registrerat ett antal variabler med följande värden: Utgångspris: 2 495 000:- Avgift/månad: 5329:- Antal rum: 4 Boarea: 91.5 m 2 Fasadens material: Tegel Fasadens färg: Röd Avstånd till närmaste spårvagnshållplats: 318 m Antal P-platser utanför huset: 42 (a1) Ange för varje variabel om den är kvalitativ eller kvantitativ. I fallet kvantitativ, ange även om det är en diskret eller en kontinuerlig variabel. (a2) Ange vilken typ av lägesmått och spridningsmått man kan använda till kvalitativ variabel respektive till kvantitativ variabel. (a3) Antag att man har ett stickprov på sju lägenheter. Värdena för antal rum blev: 2 3 1 2 5 5 3. Vilken typ av illustration är lämplig för att sammanfatta dessa data? Konstruera en och glöm inte att namnge axlarna. (b) Om man i en datamängd med stickprovsstorlek n = 12 har beräknat standardavvikelsen till s = 4.3. Vad är då skattningen av den teoretiska standardavvikelsen för medelvärdet?

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 2 (c) Fyll i tre av de fyra rutorna nedan med signifikansnivån α (Typ I-fel), med β (Typ II-fel) samt med styrkan 1 β. Beslut: Förkasta inte H 0 Beslut: Förkasta H 0 Verklighet: H 0 är sann Verklighet: H 0 är falsk (d) I en artikel beskrivs en studie där ett t-test använts för att undersöka om två olika tillverkningsmetoder skiljer sig åt när det gäller hållfasthet. Signifikansnivån α hade valts till 5% och p-värdet rapporterades ha fått värdet 0.09. (d1) Hur skall du dra en slutsats med hjälp av ett p-värde? Ge också en skiss på hur ett p-värde kan illustreras i ovanstående frågeställning. (d1) Vilket av påståendena nedan är en rätt tolkning av resultatet i artikeln? Du måste motivera ditt val. 1. Skillnad mellan x 1 och x 2 är signifikant. 2. Skillnad mellan µ 1 och µ 2 är signifikant. 3. Skillnaden mellan medelvärdena är relevant. 4. Skillnaden mellan väntevärdena är relevant. 5. Skillnad mellan x 1 och x 2 är inte signifikant. 6. Skillnad mellan µ 1 och µ 2 är inte signifikant. 7. De två medelvärdena är lika. 8. De två väntevärdena är lika. 9. Det är 95% säkert att medelvärdena är lika. 10. Det är 95% säkert att väntevärdena är lika. (a1) Kvalitativa variabler är: Fasadens material, Fasadens färg Kvantitativa (diskreta): Antal rum, Antal P-platser Kvantitativa (kontinuerliga): Utgångspris, Avgift/månad, Boarea, Avstånd till spårvagnshållplats. (a2) Till kvalitativ variabel: typvärde (the mode) som lägesmått, inget spridningsmått. Till kvantitativ variabel: t ex medelvärde som lägesmått, t ex standardavvikelse som spridningsmått. (a3 Illustration: Stolpdiagram (bar chart) eller en punktplot som om det vore ett stolpdiagram (se i boken). Kommentar: Observera att en diskret variabel måste ha en tallinje. Värden med frekvens noll skall alltså inte uteslutas från x-axeln. (b) s/ n = 4.3/ 12 1.24

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 3 (c) Verklighet: Verklighet: H 0 är sann H 0 är falsk Beslut: Förkasta inte H 0 β (Typ II-fel) Beslut: Förkasta H 0 α (Typ I-fel) 1 β (d1) H 0 kan förkastas om p-värdet α. (I detta exempel skall p-värdet vara beräknat efter en tvåsidig mothypotes.) Illustration: se sid 382 i boken. (d2) Påstående 6. Skillnad mellan µ 1 och µ 2 är inte signifikant. Det handlar om generaliseringar, dvs parametrar skall användas. Dessutom kunde inte en nollhypotes om samma förväntade hållfasthet förkastas eftersom p-värdet översteg den valda signifikansnivån. 2. Betrakta två händelser A,B och antag att P(A) = 0.5 och P(B) = 0.3 (6p) (a) Om P(A B) = 0.1, vad blir då P(A B) och P(A c B)? (b) Om istället A,B är oberoende, vad blir då P(A B) och P(A c B)? (c) Om C,D är två händelser som uppfyller att P(C) = 0.2, P(D) = 0.6 och P(C D) = 0.7, kan då C, D vara oberoende? (a) Vi har att och P(A B) = P(A)+P(B) P(A B) = 0.5+0.3 0.1 = 0.7 P(A c B) = P(A c )+P(B) P(A c B) = 1 P(A)+P(B) (P(B) P(A B)) = 1 P(A)+P(A B) = 1 0.5+0.1 = 0.6. (b) Om A,B är oberoende så har vi att P(A B) = P(A)P(B) = 0.5 0.3 = 0.15. Räkningarna ovan ger då och P(A B) = P(A)+P(B) P(A B) = 0.5+0.3 0.15 = 0.65 (c) Vi ser att P(A c B) = 1 P(A)+P(A B) = 0.5+0.15 = 0.65. P(C D) = P(C)+P(D) P(C D) = 0.2+0.6 0.7 = 0.1. Då P(C)P(D) = 0.2 0.6 = 0.12 är C,D inte oberoende.

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 4 3. Glenn projekterar ett större villaområde för VillaByggare AB. Glenn har att välja mellan två byggmetoder för fasaderna. Antingen väljer han en traditionell metod, eller också väljer han den nya enstegstätade metoden. Kostnaden för en fasad som byggs med den traditionella metoden är (kontinuerligt) likformigt fördelat på intervallet [500000,650000] SEK. Denna metod har sannolikhet 0.93 att inte drabbas av fukt och mögelskador under den 10års period som VillaByggarna ger garanti på villorna. Om fasaden byggs med den nya enstegstätade metoden är kostnaden istället likformigt fördelad på intervallet [200000,400000] SEK. Denna metod har sannolikhet 0.4 att drabbas av fukt och mögelskador under 10års perioden. Om garantin löses ut räknar VillaByggarna att det medför en extrakostnad på 1000000 i båda fallen. (8p) (a) Vilken metod bör Glenn välja? (b) Glenn valde metod nr 2 för alla villorna i hela projektet. Byggnationen består av 341 likadana villor. Om vi antar att alla mögel och fuktskador uppkommer oberoende av varandra, vad är då sannolikheten att fler än 140 villor drabbas? (a) Låt X 1 vara totala kostnaden för metod 1, och X 2 för metod 2. X 1 består av två delar: U 1 U[500000,650000] som är byggkostnaden och G 1 som är garantikostnaden. Vi har att E[X 1 ] = E[U 1 +G 1 ] = E[U 1 ]+E[G 1 ] = 500000+650000 +0 P(G 1 = 0)+1000000 P(G 1 = 1000000) 2 = 575000+70000 = 645000. På liknande sätt blir E[X 2 ] = E[U 2 +G 2 ] = E[U 2 ]+E[G 2 ] = 200000+400000 +0 P(G 2 = 0)+1000000 P(G 2 = 1000000) 2 = 300000+400000 = 700000. Förutom att det är mer etiskt är det även kostnadseffektivt att välja metod nr 1. (b) Låt X = #villor som drabbas. Vi har då att X Bin(341,0.4) och vi söker P(X 140).

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 5 Här måste vi använda oss av normalapproximation, och har då att X N(np, np(1 p)) = N(136.4, 81.84). Därmed har vi att ( X 136.4 P(X 140) = P 140 136.4 ) 81.84 81.84 P(Z 0.3979) = 1 P(Z 0.3979) 1 0.654 = 0.346. 4. Sara spelar på Lotto. Det finns 40 nummer att välja mellan, och varje rad består av 7 nummer. (4p) (a) Hur många rader finns det totalt? (b) Hur många rader innehåller nummer 1? Vid varje dragning väljs 7 nummer ut. För högsta vinst måste man ha spelat en rad där alla 7 nummer matchas. (c) Ange en lämplig fördelning för X =första numret som väljs. (d) Ange en lämplig fördelning för Y =raden som väljs. (a) ( ) 40 7 (b) Om ettan räknas bort har vi 39 nummer kvar varav 6 skall väljas ut. Vi får ( 39 6). Vid varje dragning väljs 7 nummer ut. (c) X är likformigt fördelad på mängden {1, 2,..., 40} (d) Y är likformigt fördelad på mängden av alla rader. 5. Lisa gillar hjortar. Hon ställer sig därför i en glänta i skogen under en timme och spanar efter hjortar. Lisa antar att antalet hjortar hon får se under en given timme är Poisson-fördelat med parameter λ = 1.2 (6p) (a) Vad är sannolikheten att Lisa får se minst 3 hjortar? (b) Vad är sannolikheten att Lisa får se minst 3 hjortar om vi vet att hon fått syn på minst en? (c) Är Lisas antagande om Poisson-fördelningen rimlig? Motivera varför/varför inte. Låt X = #hjortar som Lisa får se. (a) Vi har att P(X 3) = 1 P(X 2) = 1 P(X = 0) P(X = 1) P(X = 2) ( ) = 1 e λ 1+ λ1 1! + λ2 0.1205 2!

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 6 (b) Vi söker P(X 3 X 1) och har att P(X 3 X 1) = P(X 3) P(X 1) P(X 3) = 0.1725 1 e λ (c) Om vi antar att hjortarna vid varje given tidpunkt befinner sig likformigt fördelade i skogen och att de rör sig oberoende av varandra så är det ett rimlig fördelning. Dessa antaganden kan dock med fog kritiseras. 6. Kalle planerar att utföra ett tvåstickprovs t-test. (4p) (a) Ange förutsättningarna för att kunna använda ett sådant test som statistisk metod vid hypotestest. (b) Kalle studerade absorptionstiden (i minuter) av vätska i två olika material. Värdena blev: Material 1: 1.03 0.65 0.35 0.43 0.53 2.59 Material 2: 0.87 1.13 1.18 0.32 3.87 0.79 Bör man använda t-test i denna situation? Varför/varför inte? (c) Använd en av datamängderna i (b) och räkna ut punktskattningarna av de två parametrarna i modellen enligt (a)-uppgiften. Använd sedan dessa som om de är de sanna parametervärdena. Vad är i så fall risken att få ett orimligt värde enligt modellen, dvs sannolikheten att få ett negativt värde? (a) De två variablerna X 1 och X 2 skall vara oberoende. Dessutom antas att X i N(µ i,σ 2 ),i = 1,2 (dvs ha samma teoretiska varians). (b) Nej, modell med normalfördelningar tycks inte passa. Data är klart högerskeva. Gör gärna en illustration. Kommentar: Svaret på (c) kan också bli vägledande för denna fråga. (c) Med första datamängden blir denna sannolikhet: P(X < 0) = P(Z < 0 0.93 0.85 ) = 0.1379 Med andra datamängden blir sannolikheten 0.1423. Kommentar: En symmetrisk fördelning passar inte bra till en variabel som skall vara positiv och har skeva data såpass nära nollan. Sannolikheten för orimliga värden är ganska hög enligt modellen. 7. Mäklare från två olika firmor har oventande om varandra fått göra värderingar av ett antal bostäder. Upplägget av jämförelsen gjordes så att de fick värdera samma lägenheter. Resultatet blev: (5p) Objekt nr: 1 2 3 4 5 6 Mäklare A: 2 395000 475000 1 385000 1 775000 885000 795000 Mäklare B: 2 310000 510000 1 290000 1 680000 830000 770000

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 7 (a) Vilken statistisk testmetod skall användas och hur ser modellen ut? Testa på signifikansnivå 5% om Mäklare A generellt gör en högre värdering än Mäklare B. Beskriv hela arbetsgången och förklara dina beteckningar. (b) Vad blir svaret om frågeställningen istället gäller att upptäcka en skillnad mellan mäklarna? Visa hur du drar den slutsatsen. (a) Använd parat t-test om modellen D, differensen (inom varje par av data) är N(µ D,σD 2 ). Om differensen beräknas som värdering enligt A minus värdering enligt B blir hypoteserna: H 0 : µ D = 0 och H a : µ D > 0. Arbetsgången allmänt: Variabeln är införd enligt ovan samt modell angiven. Hypoteserna är formulerade utifrån frågeställning. Vidare är teststatistikan t = D 0 s D/ t-fördelad med n 1 frihetsgrader n under H 0. Nollhypotesen förkastas på signifikansnivå α om teststatistikans värde t t α,n 1. I detta fallet är värdet på t = 2.55 och t 0.05,5 = 2.015. Slutsatsen är att H 0 kan förkastas på signifikansnivå 5% eftersom t har hamnat i förkastelseområdet. Man kan påvisa att Mäklare A har högre förväntad värdering än Mäklare B. (b) Här är mothypotesen istället H a : µ D 0. Teststatistikans värde är givetvis oförändrat t = 2.55. Nu är gränserna till förkastelseområdet ±t 0.025,5 = ±2.571 och nollhypotesen kan inte förkastas. Man kan alltså inte påvisa på signifikansnivå 5% att förväntad värdering skiljer sig åt mellan Mäklare A och Mäklare B. Kommentar: Notera att det behövs större skillnad för att kunna förkasta H 0 när mothypotesen är tvåsidig. Dessutom bör man tänka på att typ II-felet kan vara mycket stort. 8. En genomgång gjordes av 200 slumpmässigt valda fönsterkarmar i ett stort bostadsområde. Det upptäcktes att 33 hade sådana defekter att de måste bytas ut. (4p) (a) Beräkna ett konfidensintervall för proportionen defekta i hela området. Använd konfidensgrad 99%. Undersök också om förutsättningarna för beräkningarna är uppfyllda. (b) Hur skulle den teoretiska standardavvikelsen skattas om det istället hade handlat om ett test? (a) Punktskattning av proportionen i hela området p är ˆp = 33/200 = 0.165. Den teoretiska variansen för ˆp är p(1 p) n. Skatta den genom att ersätta p med ˆp.

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 8 Konfidensintervall beräknas därför med ˆp±z 0.005 (ˆp(1 ˆp))/n. Förutsättningarna, att approximera med percentil ur normalfördelningen, är uppfyllda eftersom nˆp och n(1 ˆp) båda överstiger 15. Percentilens värde ärz 0.005 = 2.576 och värdet på det 99%-iga konfidensintervallet för p är (0.097,0.233). (b) Den teoretiska variansen för ˆp är p(1 p) n. Vid test skattas den genom att ersätta p med p 0, där p 0 är värdet under en nollhypotes H 0 : p = p 0.