Aktivitetsuppgifter i kurs 602 Ekonomisk statistik, del 2, våren 2006



Relevanta dokument
F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

, s a. , s b. personer från Alingsås och n b

F3 Introduktion Stickprov

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Statistik 1 för biologer, logopeder och psykologer

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

8 Inferens om väntevärdet (och variansen) av en fördelning

Föreläsning 5. Kapitel 6, sid Inferens om en population

TENTAMEN I STATISTIKENS GRUNDER 2

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

2. Test av hypotes rörande medianen i en population.

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 13 maj 2015

Stockholms Universitet Statistiska institutionen Termeh Shafie

TMS136. Föreläsning 11

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Föreläsning 5: Hypotesprövningar

Laboration 4: Hypotesprövning och styrkefunktion

Föreläsningsanteckningar till kapitel 9, del 2

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 4: Konfidensintervall (forts.)

TMS136. Föreläsning 7

Analytisk statistik. Tony Pansell, optiker Universitetslektor

F22, Icke-parametriska metoder.

Föreläsning 12: Regression

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

Lektionsanteckningar 11-12: Normalfördelningen

LULEÅ TEKNISKA UNIVERSITET Ämneskod S0002M, MAM801, IEK600,IEK309 Institutionen för matematik Datum Skrivtid

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

TMS136. Föreläsning 13

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Hur man tolkar statistiska resultat

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Uppgift a b c d e Vet inte Poäng

TAMS65 - Föreläsning 6 Hypotesprövning

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Samplingfördelningar 1

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

TAMS65 - Föreläsning 6 Hypotesprövning

Kapitel 10 Hypotesprövning

Tentamen i Matematisk statistik Kurskod S0001M

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Industriell matematik och statistik, LMA /14

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 12, FMSF45 Hypotesprövning

Medicinsk statistik II

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Föreläsning G60 Statistiska metoder

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

F9 SAMPLINGFÖRDELNINGAR (NCT

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning G60 Statistiska metoder

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Matematisk statistik TMS064/TMS063 Tentamen

Tentamen i Matematisk statistik Kurskod S0001M

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Exempel, del II

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Föreläsning 12: Repetition

Avd. Matematisk statistik

FÖRELÄSNING 8:

Obligatorisk uppgift, del 1

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

P(ξ > 1) = 1 P( 1) = 1 (P(ξ = 0)+P(ξ = 1)) = ξ = 2ξ 1 3ξ 2

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

0 om x < 0, F X (x) = c x. 1 om x 2.

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Statistik, STA A10 samt STA A13 9p 24 augusti 2005, kl

F9 Konfidensintervall

Matematisk statistik för D, I, Π och Fysiker

Uppgift 1. P (A) och P (B) samt avgör om A och B är oberoende. (5 p)

Stockholms Universitet Statistiska institutionen Termeh Shafie

Tentamen i Matematisk statistik Kurskod S0001M

Korrelation och autokorrelation

Transkript:

Handelshögskolan i Stockholm Anders Sjöqvist 2087@student.hhs.se Aktivitetsuppgifter i kurs 602 Ekonomisk statistik, del 2, våren 2006 Efter förra kursen hörde några av sig och ville gärna se mina aktivitetsuppgifter även från kurs 602. Jag fick frågan om jag lämnade in uppgifterna datorskrivna. Det är så här jag har lämnat in dem, med undantag för att jag på vissa ställen har gjort någon korrigering för att förtydliga. Den här gången lyckades jag få avdrag på några uppgifter. Det var inte på grund av räknefel utan att jag hade missuppfattat eller tänkt fel. Istället för att rätta har jag tagit med kommentarerna och förklarat vad som är fel. Jag tror att man kan lära sig mer av att se vad de inte godkänner. På de ställen jag har fått avdrag har jag gjort en notering i marginalen. Läs igenom kommentarerna innan ni sätter er in i hur jag har räknat. I PDF-filen finns länkar fram och tillbaka mellan uppgift och kommentarer. Liksom förra gången står frågorna med i kursiv stil, för att man ska slippa leta på två ställen. Hör gärna av er om det finns något fel.

Anders Sjöqvist, 2087, seminariegrupp 1 602 Ekonomisk statistik, del 2 aktivitetsuppgift 1 2006-0-0 En biluthyrningsfirma är intresserad av att få reda på det genomsnittliga antalet dagar per år som en bil inte kan användas för uthyrning pga att den behöver sevice. Ett slumpmässigt urval om bilar gav följande resultat (antal dagar): 16, 12, 9, 21. Beräkna ett 98 % konfidensintervall för det genomsnittliga antalet dagar per år som en hyrbil inte kan användas för uthyrning pga service. Arbetsgången för konfidensintervall: 1. Frågeställning, definition av stokastisk variabel (en eller flera) och vad som är givet. Vi definierar en s.v. X som betecknar antalet dagar per år som en hyrbil inte kan användas på grund av service. Våra observationer av X är som sagt X 1 16, X 2 12, X 3 9 och X 21. Med ett 98 % konfidensintervall är (1 α) 0.98 α 0.02. Den här uppgiften bör läsas kursivt. Jag följer inte mallen, och fick därför en hel del avdrag. 2. Nödvändiga modell-antaganden. Avdrag. Se kommentar 1. Uppgiften ger oss ingen uppfattning om vilken fördelning den stokastiska variabeln följer. Det är rimligt att tänka sig att oftast när en bil hamnar på service så är den där flera dagar. Om U är antalet gånger bilen är på service och V är antal dagar det tar att få bilen klar, så är X U i1 V i. Problemet är att undersöka vilka fördelningar U och V följer. Till exempel kan man tänka sig att varje bil är på service någon gång under året för besiktning, byte mellan sommar- och vinterdäck eller annat underhåll. Då är P (U 0) 0. På samma sätt kan det även finnas en begränsning åt andra hållet. En bil som är på service en stor del av året är förmodligen för dyrbar och kommer att skrotas. Då är P (U > n) 0 för något n. Inte ens om bilen kan stå på service varje dag under året så är det säkert att X kan bli upp till 365. Det beror på hur många dagar per år som uthyrningsfirman har öppet. När det gäller antal servicedagar per serviceomgång kan man också tänka sig olika modeller. Det kan ju vara så att det är vanligt att servicen antingen går snabbt, eller så måste bilen stå och vänta på en ovanlig reservdel. Då är sannolikheten för ett lågt eller högt V stor, men däremellan är sannolikheten liten. Det kan också vara så att bilen alltid måste lämnas en morgon och hämtas tidigast nästa eftermiddag. I så fall är P (V 1) 0 P (X 1) 0. Även om diskussionen ovan inte har fört oss närmare svaret, så har vi i alla fall sett att det finns många faktorer som vi bara kan gissa oss till. Vi måste göra en grov generalisering. Låt oss anta att biluthyrningsfirman har öppet varje dag under året, och att det för varje bil varje morgon bestäms om bilen ska på service eller stå klar att hyras ut. Om vi bara betraktar år med 365 dagar så kan X anta alla värden mellan 0 och 365 med någon okänd sannolikhet π. Vi räknar ut ett närmevärde, π (16 + 12 + 9 + 21)/( 365) 1.5/365 0.00. Vi får alltså att X Bin(365, 0.00) Eftersom nπ(1 π) 1.5 0.960 13.92 > 9 så har vi rätt att approximera X med en normalfördelning. 3. Estimator (en eller flera) och dess samplingsfördelning. Vi räknar ut medelvärdet av våra observationer X 1 16 + 12 + 9 + 21 X i 1.5 i1 Siffrorna sätts in i uttrycket för samplingsvarians s 2 1 (X i 1 X) 2 1.52 + 2.5 2 + 5.5 2 + 6.5 2 3 i1 81 3 27 1

. Använd data och beräkna konfidensintervallet. Avdrag. Se Konfidensintervallet kan nu beräknas med en t-fördelning. Om vi har n observationer av en kommentar 1. normalfördelad s.v. så går det att räkna ut ett intervall för µ s X t n 1,α/2 < µ < X s + t n 1,α/2 n n Vi räknar ut gränserna s 27 27 X ± t n 1,α/2 1.5 ± t 3,0.01 1.5 ±.51 1.5 ± 11.8 n 2 Intervallet är alltså 2.7 < µ < 26.3 5. Tolkning av resultatet i ord. Ett konfidensintervall är ett intervall som sannolikt innehåller en okänd stokastisk variabel. I vårt fall innebär det att väntevärdet för antal dagar en bil är på service med 98 % konfidens ligger mellan 2.7 och 26.3, alltså avviker högst 11.8 från genomsnittet av observationerna. 2

Anders Sjöqvist, 2087, seminariegrupp 1 602 Ekonomisk statistik, del 2 aktivitetsuppgift 2 2006-0-18 En forskare i finansiell ekonomi studerar ett visst värdepapper och har fem slumpmässiga och oberoende observationer. Forskaren är intresserad av standardavvikelsen σ och vill beräkna ett konfidensintervall för σ. Observationerna är: 2, 6, 7, 9 och 10. Beräkna ett 99 % konfidensintervall för σ. Arbetet delas upp i punkter enligt arbetsgången för konfidensintervall: 1. Frågeställning, definition av stokastisk variabel (en eller flera) och vad som är givet. Eftersom vi söker ett 99 % konfidensintervall är α 0.01. Låt X vara den stokastiska variabel som värdepapperet följer. Då är de fem observationerna 2. Nödvändiga modell-antaganden. X 1 2, X 2 6, X 3 7, X 9 och X 5 10 Vi känner inte till någonting om hur sannolikhetsfunktionen för X ser ut. Antag att den är normalfördelad, alltså X N(µ, σ 2 ) 3. Estimator (en eller flera) och dess samplingsfördelning. Vi beräknar stickprovsmedelvärdet X 1 5 5 i1 X i 3 5 6.8 och använder detta till att beräkna stickprovsvariansen s 2 1 n 1 5 i1 (X i X) 2.82 + 0.8 2 + 0.2 2 + 2.2 2 + 3.2 2 38.8 9.7. Använd data och beräkna konfidensintervallet. Det vi söker är egentligen ett konfidensintervall för standardavvikelsen, men eftersom den har ett ett-till-ett-förhållande till variansen så kan vi börja med att beräkna variansen. Ett konfidensintervall för variansen hos en normalfördelad population beräknas med (n 1)s 2 χ 2 n 1,α/2 < σ 2 < (n 1)s2 χ 2 n 1,1 α/2 Avdrag på grund av missad motivering. Se kommentar 2. Detta ger alltså konfidensintervallet för standardavvikelsen (n 1)s 2 χ 2 n 1,α/2 < σ < (n 1)s 2 χ 2 n 1,1 α/2 9.7 χ 2,0.005 38.8 1.86 < σ < 1.62 < σ < 13.69 38.8 0.207 9.7 χ 2,0.995 5. Tolkning av resultatet i ord. Med 99 % konfidens ligger den för oss okända (men konstanta) standardavvikelsen för värdepapperet mellan 1.62 och 13.96. 3

Anders Sjöqvist, 2087, seminariegrupp 1 602 Ekonomisk statistik, del 2 aktivitetsuppgift 3 2006-0-25 I ett slumpmässigt urval av 175 civilingenjörer och 150 civilekonomer inom IT-branschen frågade man hur många gånger de bytt jobb de senaste tre åren. Av civilingenjörerna hade 75 bytt jobb minst två gånger och av civilekonomerna var motsvarande antal 90. a) Beräkna ett 98 % konfidensintervall för skillnaden i populationsandelen civilingenjörer och populationsandelen civilekonomer som bytt jobb minst två gånger under de senaste tre åren. Arbetet delas upp i punkter enligt arbetsgången för konfidensintervall: 1. Frågeställning, definition av stokastisk variabel (en eller flera) och vad som är givet. Låt X vara antal civilekonomer som har bytt jobb minst två gånger de senaste tre åren, och Y vara antal civilingenjörer som har bytt jobb på samma sätt. Vi söker ett 99 % konfidensintervall för skillnaden mellan sannolikheterna för civilekonomer och civilingenjörer, det vill säga π X π Y. De data vi har är att av n x 150 civilekonomer har 90 bytt jobb minst två gånger de senaste tre åren, och av n y 175 civilingenjörer gäller på samma sätt 75. 2. Nödvändiga modell-antaganden. Vi gör inga ytterligare modellantaganden. 3. Estimator (en eller flera) och dess samplingsfördelning. En estimator för π X är p X X n x och en estimator för π Y är p Y Y n y. Eftersom n x > 0 och n y > 0 så kan vi modifiera centrala gränsvärdessatsen, och då gäller att Civilekonomer och civilingenjörer understruket med rödpenna. Se kommentar 3. Z (p X p Y ) (π X π Y ) σ px p Y approx N(0, 1) där en estimator för σ 2 p X p Y är s 2 p X p Y p X(1 p X ) n x + p Y (1 p Y ) n y. Använd data och beräkna konfidensintervallet. Ett (1 α) konfidensintervall för π X π Y ges nu av (p X p Y ) ± z α/2 s px p Y. π X π Y inringat, och Med hjälp av stickprovsdata beräknas att p X 90 π Y π X skrivet 150 0.6 och p Y 75 175 0.3. i rött. Se Tabellslagning ger att z α/2 z 0.01 2.33. Vi får att kommentar 3. 0.6 0. z α/2 s px p Y 2.33 + 150 0.3 0.57 175 Intervallet blir (0.6 0.3) ± 0.1276, alltså (0.02, 0.298). 0.1276 5. Tolkning av resultatet i ord. Skillnaden mellan benägenheten för civilekonomer och civilingenjörer att byta jobb minst två gånger under de senaste tre åren ligger med 98 % konfidens mellan 0.02 och 0.298. b) Har civilekonomer inom IT-branschen en större benägenhet att byta jobb jämfört med civilingenjörer? Besvara frågan genom en lämplig hypotesprövning. Använd signifikansnivån 5 %. Arbetet delas upp i punkter enligt arbetsgången för hypotesprövning:

1. Frågeställning, definition av stokastisk variabel (en eller flera) och vad som är givet. Vi har samma data och stokastiska variabler som i förra uppgiften (det vill säga att X betecknar antal civilekonomer och Y antal civilingenjörer som har bytt jobb minst två gånger de senaste tre åren, samt data på hur observationerna ser ut). Det som söks är belägg för hypotesen att civilekonomer har en större benägenhet att byta jobb. 2. Nödvändiga modell-antaganden. Inga övriga modellantaganden. 3. Hypoteser och signifikansnivå. Vi kan definiera nollhypotesen att civilingenjörer har åtminstone lika hög benägenhet som civilekonomer att byta jobb H 0 : µ X µ Y 0 i motsats till hypotesen att civilekonomer har högre benägenhet att byta jobb Signifikansnivån är 5 %.. Testvariabel och dess fördelning under H 0. Från tidigare i uppgiften har vi att H 1 : µ X µ Y > 0 Z (p X p Y ) (π X π Y ) σ px p Y approx N(0, 1) där σ px p Y skattas med s px p Y p 0 (1 p 0 ) n x + p 0(1 p 0 ) n y där p 0 n xp x + n y p y n x + n y 5. Beslutsregel. Beslutsregeln blir: Förkasta H 0 om p X p Y s px p Y > z α. 6. Använd data, beräkna observerad storhet och dra slutsats. Stickprovsdata: p X 90 150 0.6, p Y 75 175 0.29, p 90 + 75 0 150 + 175 0.508 Enligt tabell är z 0.05 1.65. Detta sätts in i ovanstående olikhet: Därmed förkastas H 0 på nivån 5 %. 0.6 0.29 3.07 > 1.65 0.508 0.92 150 + 0.508 0.92 175 7. Tolkning av resultatet i ord. De data vi har sett tyder på att antagandet att civilekonomer har en större benägenhet att byta jobb stämmer. c) Beräkna och tolka p-värdet på testet i b). p-värdet är 1 F Z (3.07) 1 0.9989 0.0011. p-värdet är den lägsta signifikans då vi kan förkasta H 0. I detta fall behöver vi nästan gå ner till 0.1 % signifikans för att förkasta. 5

Anders Sjöqvist, 2087, seminariegrupp 1 602 Ekonomisk statistik, del 2 aktivitetsuppgift 2006-05-02 Vid marknadsföring av konsumentprodukter studeras ofta skillnader (avseende inkomst, ålder, familjestorlek etc.) mellan dem som köper produkten i fråga och dem som inte köper produkten. En producent av en tandkräm var intresserad av en eventuell skillnad i ålder mellan köpare av tandkrämen och icke köpare. Ett slumpmässigt stickprov om fyra observationer från gruppen som köper tandkrämen och ett slumpmässigt stickprov om fyra observationer från gruppen som inte köper tandkrämen gav följande resultat för respondenternas ålder: Observation nr 1 2 3 Köpare 56 0 7 9 Icke köpare 33 31 37 35 a) Testa hypotesen att variansen i gruppen köpare och variansen i gruppen icke köpare är lika mot ett dubbelsidigt alternativ. Ange tydligt den signifikansnivå du använder. 1. Frågeställning, definition av stokastisk variabel (en eller flera) och vad som är givet. Låt X vara en stokastisk variabel för ålder hos en person som köper tandkrämen, och Y vara en s.v. för ålder hos en person som inte köper tandkrämen. Vi har fyra observationer vardera (n x n y ) av de stokastiska variablerna. Dessa är x 1 56, x 2 0, x 3 7, x 9, y 1 33, y 2 31, y 3 37, y 35. Uppgiften är att ta reda på om dessa varianser är lika (σ X σ Y ). 2. Nödvändiga modell-antaganden. Vi får ingen information om fördelningarna, men det är rimligt att tro att observationerna är oberoende. Antag normalfördelning, så att 3. Hypoteser och signifikansnivå. Vi testar mot ett dubbelsidigt alternativ X N(µ X, σ 2 X) och Y N(µ Y, σ 2 Y ) H 0 : σ 2 X σ 2 Y H 1 : σ 2 X σ 2 Y Signifikansnivån är 10 %, det vill säga α 0.10.. Testvariabel och dess fördelning under H 0. Under H 0 gäller att SX 2 SY 2 F nx 1,n Y 1 det vill säga, att kvoten av stickprovsvarianserna kommer att följa en F -fördelning. 5. Beslutsregel. Beslutsregeln blir: Förkasta H 0 om F obs s 2 x/s 2 y > F nx 1,n y 1,α/2 F 3,3,0.05 9.28. 6. Använd data, beräkna observerad storhet och dra slutsats. Stickprovsmedelvärden: 56 + 0 + 7 + 9 x 8 33 + 31 + 37 + 35 ȳ 3 6

Stickprovsvarianser: n s 2 i1 x (x i x) 2 n x 1 n s 2 i1 y (y i ȳ) 2 n y 1 F obs s2 x s 2 y 82 + 8 2 + 1 2 + 1 2 3 12 + 3 2 + 3 2 + 1 2 3 130/3 20/3 13 2 6.5 130 3 20 3 Eftersom F obs 6.5 9.28 så kan H 0 inte förkastas på signifikansnivån 10 %. 7. Tolkning av resultatet i ord. Med den signifikansnivå vi använder kan vi inte förkasta hypotesen att varianserna är lika. b) Testa på signifikansnivån 5 % hypotesen att genomsnittlig ålder i gruppen köpare och genomsnittlig ålder i gruppen icke köpare är lika mot alternativet att genomsnittlig ålder i gruppen köpare är högre. 1. Frågeställning, definition av stokastisk variabel (en eller flera) och vad som är givet. Som ovan är X ålder hos köpare och Y ålder hos icke-köpare, och observationerna är x 1 56, x 2 0, x 3 7, x 9, y 1 33, y 2 31, y 3 37, y 35. Uppgiften är att avgöra om genomsnittet är lika för de båda stokastiska variablerna. 2. Nödvändiga modell-antaganden. Antag normalfördelning X N(µ X, σ 2 X) och Y N(µ Y, σ 2 Y ) 3. Hypoteser och signifikansnivå. Uppgiften är att pröva nollhypotesen att medelvärdena är lika, mot hypotesen att åldern hos köpare är högre. H 0 : µ X µ Y 0 Mothypotesen blir då H 1 : µ X µ Y > 0 Signifikansnivån är 5 %, det vill säga α 0.05.. Testvariabel och dess fördelning under H 0. Vi inför en sammanslagen variansestimator s 2 p (n x 1)s 2 x + (n y 1)s 2 y (n x + n y 2) Då följer en t-fördelning. s 2 p t ( x ȳ) (µ x µ y ) 5. Beslutsregel. H 0 förkastas om t > t nx+n y 2,α t 6,0.05 1.93. n x + s2 p n y Avdrag på grund av saknad motivering. Se kommentar. 7

6. Använd data, beräkna observerad storhet och dra slutsats. Vi vet sedan förra uppgiften att n x n y, s 2 x 130/3 och s 2 y 20/3. Detta används för att räkna ut s 2 p: s 2 p (n x 1)s 2 x + (n y 1)s 2 y (n x + n y 2) Eftersom vi ska testa om µ x µ y 0: s 2 p t ( x ȳ) (µ x µ y ) n x + s2 p n y Eftersom t 3.960 > 1.93 så förkastas H 0. ( x ȳ) 0 2s 2 p 130 + 20 6 25 1 25/2 3.960 7. Tolkning av resultatet i ord. Det är inte rimligt att anta att medelvärdet för grupperna köpare och icke-köpare är detsamma. c) Vad kan sägas om p-värdet för testet i b)? p-värdet ligger under 0.005, eftersom t 6,0.005 3.707 < 3.960. Det räcker alltså med en lägre signifikans än 0.5 % för att förkasta. d) Antag att stickprovstorlekarna var 200 resp. 200 (i stället för resp. ) men att stickprovsmedelvärde/-varians har samma numeriska värde som tidigare. Genomför hypotesprövningen i b) med denna förutsättning. 1. Frågeställning, definition av stokastisk variabel (en eller flera) och vad som är givet. Som uppgift b). 2. Nödvändiga modell-antaganden. Som uppgift b). 3. Hypoteser och signifikansnivå. Som uppgift b).. Testvariabel och dess fördelning under H 0. Som uppgift b). 5. Beslutsregel. H 0 förkastas om t > t nx+n y 2,α t 398,0.05. t 398,0.05 är inte explicit given, men t,0.05 1.65 < t 398,0.05 < 1.671 t 60,0.05. Vi kan inte förkasta H 0 om t 398,0.05 faller inom detta intervall. 6. Använd data, beräkna observerad storhet och dra slutsats. s 2 x 130/3, s 2 y 20/3 och n x n y 200 sätts in i s 2 p: s 2 p (n x 1)s 2 x + (n y 1)s 2 y (n x + n y 2) 25870/3 + 3980/3 398 9950 398 25 Avdrag för att jag inte använde CGS. Se kommentar. Felaktiga beräkningar enligt ovan. t ( x ȳ) 0 2s 2 p H 0 förkastas, eftersom t 3.960 > 1.671. 1 25/2 3.960 7. Tolkning av resultatet i ord. Hypotesen att det inte finns någon åldersskillnad mellan grupperna förkastas även här, och med ännu större marginal än i uppgift b). (Med många observationer stabiliserar sig siffrorna, så att de blir mer tillförlitliga.) 8

Anders Sjöqvist, 2087, seminariegrupp 1 602 Ekonomisk statistik, del 2 aktivitetsuppgift 5 2006-05-09 En stokastisk variabel är normalfördelad med väntevärde µ och standardavvikelse σ 3. Nollhypotesen µ 10 ska testas med hjälp av ett slumpmässigt stickprov om 16 observationer. Om stickprovsmedelvärdet är större än 11.23 eller mindre än 8.77 så förkastas nollhypotesen. a) Ange nollhypotes och mothypotes. b) Ange lämplig testvariabel och dess fördelning. H 0 : µ 10 H 1 : µ 10 Benämn den stokastiska variabeln X. Då är X N(µ, σ) N(µ, 3). Låt µ 0 vara det gissade väntevärdet och n antal observationer. Inför nu en ny s.v. Z, beroende av X, så att Z X µ 0 σ/ n X 10 N(0, 1) c) Bestäm sannolikheten att begå fel av Typ I. Ett typ I-fel definieras som att man förkastar H 0 trots att den är sann. Eftersom sannolikheten att acceptera H 0 om den är sann är (1 α), så är sannolikheten att förkasta α. Vi måste räkna ut α, eftersom vi bara känner till gränserna för belutsregeln: α P ( X < 8.77) + P ( X > 11.23) F X (8.77) + (1 F X (11.23)) 8.77 10 11.23 10 Φ + 1 Φ 1.23 1.23 1 Φ + 1 Φ 2 2Φ(1.6) tabell 2 2 0.995 0.101 Sannolikheten för ett typ I-fel är 0.101. d) Bestäm sannolikheten att begå ett fel av Typ II om µ 11; µ 12; µ 13; µ 1. Ett typ II-fel innebär att vi felaktigt accepterar H 0, och benämns β. För µ 11 behåller vi gränserna, men byter ut µ 0 : β µ11 P ( X < 11.23 µ 11) P ( X < 8.77 µ 11) F X (11.23 µ 11) F X (8.77 µ 11) 11.23 11 8.77 11 Φ Φ 11.23 11 11 8.77 Φ + Φ 1 0.23 2.23 Φ + Φ 1 Φ(0.307) + Φ(2.973) 1 0.6217 + 0.9985 1 0.6202 Sannolikheten för ett typ II-fel om µ 11 är 0.6202. 9

På samma sätt: 11.23 12 8.77 12 β µ12 Φ Φ 12 8.77 12 11.23 Φ Φ 3.23 0.77 Φ Φ Φ(.307) Φ(1.027) 1.000 0.885 0.1515 13 8.77 13 11.23 β µ13 Φ Φ.23 1.77 Φ Φ Φ(5.6) Φ(2.36) 1.000 0.9909 0.0091 1 8.77 1 11.23 β µ1 Φ Φ 5.23 2.77 Φ Φ Φ(6.973) Φ(3.693) 1.000 0.9999 0.0001 Sammantaget blir detta µ 11 12 13 1 β µ 0.6202 0.1515 0.0091 0.0001 e) Bestäm sannolikheten att begå ett fel av Typ II om µ 9; µ 8; µ 7; µ 6. På fråga e) är det tillräckligt att motivera svaret (beräkningar krävs ej). Eftersom normalfördelningen avtar likformigt runt väntevärdet så spelar det ingen roll om vi går uppåt eller neråt. Sannolikheten för ett typ II-fel är lika på samma avstånd från µ 0. Annorlunda uttryckt: β µµ0+x β µµ0 x Detta medför µ 9 8 7 6 β µ 0.6202 0.1515 0.0091 0.0001 f) Vad är testets styrka om µ 6; µ 7; µ 8; µ 9; µ 11; µ 12; µ 13; µ 1? Testets styrka är sannolikheten att H 0 förkastas, det vill säga (1-β): µ 6 7 8 9 11 12 13 1 (1 β µ ) 0.9999 0.9909 0.885 0.3798 0.3798 0.885 0.9909 0.9999 g) Rita styrkefunktionens graf för 6 µ < 10 och för 10 < µ 1. Se nedan. Stickprovets storlek ökas nu till 6. h) Bestäm beslutsregeln så att signifikansnivån är 10 %. 10

Med n 6 omdefinierar vi beslutsregeln: Förkasta om X 10 X < 3Z 0.05 8 X < 3 1.69 8 < Z α/2 eller X 10 > Z a/2 3Z 0.05 + 10 eller X > + 10 8 3 1 69 + 10 eller X > 8 X < 9.38 eller X > 10.62 + 10 i) Bestäm testets styrka om µ 7; µ 8; µ 9; µ 9.5; µ 10.5; µ 11; µ 12; µ 13? Övriga speglas : (1 β µ7 ) 1 P ( X < 10.62 µ 7) + P ( X < 9.38 µ 7) 1 F X (10.62 µ 7) + F X (9.38 µ 7) 10.62 7 9.38 7 1 Φ + Φ 3.62 2.38 1 Φ + Φ 1 Φ(9.653) + Φ(6.37) 1 1.0000 + 1.0000 1.0000 10.62 8 9.38 8 (1 β µ8 ) 1 Φ + Φ 2.62 1.38 1 Φ + Φ 1 Φ(6.987) + Φ(3.68) 1 1.0000 + 0.9999 0.9999 10.62 9 9.38 9 (1 β µ9 ) 1 Φ + Φ 1.62 0.38 1 Φ + Φ 1 Φ(.32) + Φ(1.013) 1 1.0000 + 0.838 0.838 10.62 9.5 9.38 9.5 (1 β µ9.5 ) 1 Φ + Φ 10.62 9.5 9.5 9.38 2 Φ Φ 1.12 0.12 2 Φ Φ 2 Φ(2.987) Φ(0.32) 2 0.9986 0.6255 0.3759 µ 7 8 9 9.5 10.5 11 12 13 (1 β µ ) 1.0000 0.9999 0.838 0.3759 0.3759 0.838 0.9999 1.0000 j) Rita styrkefunktionens graf för 6 µ < 10 och för 10 < µ 1 i samma diagram som grafen i uppgift g). Markera tydligt i diagrammet vilken graf som är svar på uppgift g) och vilken graf som är svar på uppgift j). 11

1 0.8 0.6 Styrkefunktion uppgift j) 0. 0.2 Styrkefunktion uppgift g) 0 6 7 8 9 10 11 12 13 1 µ k) Jämför de båda styrkekurvorna. Vilken är att föredra? Varför? Kurvan från uppgift j) är att föredra. En högre styrka innebär, ceteris paribus, en bättre effektivitet i att förkasta H 0 om hypotesen är felaktig. 12

Anders Sjöqvist, 2087, seminariegrupp 1 602 Ekonomisk statistik, del 2 aktivitetsuppgift 6 2006-05-16 I en forskningsrapport undersöktes sambandet mellan ett företags marknadsandel och den sålda produktens kvalitet mätt på en skala 0 100. (100 är bästa värde.) Följande fem observationer föreligger: Företag nr 1 2 3 5 Marknadsandel, % 3 6 3 Produktens kvalitet 33 58 2 28 39 a) Formulera en regressionsmodell Y i β 0 + β 1 x i + ε i, där produktens kvalitet förklarar marknadsandelen. Skatta modellen. x: produktens kvalitet enligt skala Y : marknadsandel i procent Söks: Skattning av regressionen av marknadsandelarna. För modellen Y i β 0 + β 1 x i + ε i gäller att a) x i är fixa tal. b) E(ε i ) 0 (i 1, 2,..., n) c) V (ε i ) E(ε 2 i ) σ2 (i 1, 2,..., n) d) Cov(ε i, ε j ) E(ε i ε j ) 0 (i j) x 33 + 58 + 2 + 28 + 39 5 ȳ 3 + 6 + + 3 + 5 200 5 0 20 5 i x y (x i x) (y i ȳ) (x i x)(y i ȳ) (x i x) 2 (y i ȳ) 2 1 33 3 7 1 7 9 1 2 58 6 18 2 36 32 3 2 2 0 0 0 28 3 12 1 12 1 1 5 39 1 0 0 1 0 Σ 200 20 0 0 55 522 6 (xi x)(y i ȳ) b 1 (x i x) 2 55 522 0.105 Den skattade regressionsmodellen är b 0 ȳ b 1 x 0.10536 0.21 0.21 ŷ i 0.21 + 0.105x i b) Ge en ekonomisk tolkning av det skattade värdet av β 1. b 1 är marginaleffekten av produktens kvalitet på marknadsandelen i procent. c) Beräkna determinationskoefficienten. SSR b 2 1 (xi x) 2 SST (y i ȳ) 2 6 ( ) 2 55 522 5.7950 522 r 2 SSR SST 5.7950 0.9658 6 13

d) Testa på 1 % signifikansnivå hypotesen β 1 0 mot alternativet att β 1 är positiv. Inför kravet att ε i N(0, σ 2 ). Hypoteser: Signifikansnivån är α 0.01. H 0 : β 1 0 H 1 : β 1 > 0 B 1 är estimator för β 1, och S B1 är variansestimator för B 1. Under H 0 gäller: t B 1 β 1 S B1 Beräkningar för att kunna formulera beslutsregeln: t n 2 SSE SST SSR 6 5.7950 0.2050 s 2 e SSE n 2 0.2050 0.06833 3 s 2 s 2 e b 1 (xi x) 2 0.06833 1.309 10 522 Beslutsregeln kan nu formuleras. Förkasta H 0 om t obs b 1 β 1 s b1 > t 3,0.005 5.81 b 1 β1 0.105 s 9.212 b1 1.309 10 Eftersom t obs 9.212 > 5.81 så förkastas H 0. e) Beräkna ett 90 % prediktionsintervall för marknadsandelen för ett företag vars produkt har kvalitet 5 enligt mätskalan. Vi har ett nytt x: x n+1 5 ŷ n+1 b 0 + b 1 x n+1 0.21 + 0.105 5.5286 Om S 2 ŷ n+1 är en estimator för σ 2 ŷ n+1 och α 100 % 90 % 0.10 så ges prediktionsintervallet av ŷ n+1 ± t n 2,a/2 sŷn+1 där s 2 ŷ n+1 s 2 e ( 1 + 1 n + (x ) ( n+1 x) (xi x) 2 0.06833 1 + 1 ) 5 0 + 0.08265 5 522 ŷ n+1 ± t 3,0.050 sŷn+1.5286 ± 2.353 0.08265.5286 ± 0.6765 Ett 90 % prediktionsintervall är (3.8521, 5.2051). f) Beräkna ett 95 % intervall för den förväntade marknadsandelen för företag vars produkt har kvalitet 5 enligt mätskalan. Om S 2 är en estimator för Ê(ŷ σ2, α 100 % 95 % 0.05 och allt annat n+1 x n+1) Ê(ŷ n+1 x n+1) lika, så ges prediktionsintervallet av där s 2 Ê(ŷ n+1) s2 e ŷ n+1 ± t n 2,a/2 sê(ŷn+1) ( 1 n + (x ) ( ) n+1 x) 1 5 0 (xi x) 2 0.06833 + 0.0132 5 522 ŷ n+1 ± t 3,0.025 sê(ŷn+1).5286 ± 3.182 0.0132.5286 ± 0.3808 Ett 95 % prediktionsintervall för den förväntade marknadsandelen är (.178,.909). 1

Kommentarer till aktivitetsuppgifterna 1. Den här uppgiften analyserade jag sönder. Jag fick nästan hälften (fyra poäng) avdragna. Efter att ha talat med Håkan Lyckeborg fick jag tillbaka tre av dessa. Det lät inte som om han tyckte att jag väsentligen hade gjort rätt, men han motiverade de extra poängen med att det var kul att jag hade tänkt till. Note that X is a continuous variable (time) and thus you could not use a discrete dist. to characterize it (such as the binomial dist.) Here you should assume X N(µ, σ 2 ) Här var jag och Lyckeborg helt oense. I uppgiften står det klart och tydligt att det rör sig om antalet dagar frågan är alltså hur detta ska tolkas. Enligt Lyckeborg kan antal vara kontinuerligt, något som jag tyckte kändes fel. I efterhand kollade jag i Nationencyklopedins Internettjänst, och där står att antal är i heltal angiven mängd av ngt som kan räknas. Jag drev inte denna fråga vidare, men detta var hur som helst anledningen till att jag utgick ifrån en binomialfördelning. In 2 you reason that X Bin and here you calculate sample moments of a normal dist. and follow as if you were dealing with such. Jag förutsätter att den engelskspråkige rättaren inte förstod min textbaserade förklaring till hur jag övergick till normalfördelning. Hur som helst, det Lyckeborg hade emot det var att han inte med säkerhet kunde avgöra om det var korrekt att approximera i den här situationen. Mina beräkningar var desamma som andras, vilka jag jämförde med. Det som skiljde var alltså min ansats, och på grund av detta fick jag poängavdrag. En viktig men tyvärr sorglig slutsats kan dras av det här: Om man är det minsta osäker så är det bättre att bara säga jag vet inte vad det här är för fördelning, så därför gissar jag att det är en normalfördelning än att åtminstone göra ett försök att ge en bra motivering till varför man gör som man gör. (8/9, efter Lyckeborgs korrigering) (n 1)s2 2. Because σ 2 χ 2 n 1 & X N(µ, σ 2 ) Dåligt motiverat, helt enkelt. Ett poängs avdrag. (8/9) 3. På den här uppgiften är jag inte helt säker på vad som är fel. Orden civilekonomer och civilingenjörer är understrukna, antagligen för att jag har bytt ordning på dem i förhållande till vad som var givet i uppgiften. Jag trodde att man sökte beloppet av differensen, och därför ordnade jag det så att jag skulle slippa teckenbyten. Längre ner är π X π Y inringat, och en pil är ritad till kommentaren π Y π X. Kommentarerna tyder på att man var ute efter ett negativt intervall, men å andra sidan är inte resultatet korrigerat, utan bara ett par detaljer längs vägen, vilket gör mig tveksam. Ett poängs avdrag i alla fall. I övrigt kommenterades uppgiften med Very good!!! (17/18). You should comment that you can use this because you are considering σ 2 x σ 2 y. Inte mycket att tillägga. Motiveringen borde ha varit bättre. Två poängs avdrag. Should use CLT here. Jag borde som sagt ha använt centrala gränsvärdessatsen. Två poängs avdrag, och två poäng på beräkningarna som därmed också blev fel. (1/20) 5. Inga avdrag. Enda kommentaren är Excellent!! (22/22) 6. Inga avdrag eller kommentarer över huvud taget. (22/22) 15