Lösningsförslag till övningar

Relevanta dokument
Lösningsförslag till övningar

Lösningsförslag till övningar

Lösningsförslag till övningar

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 5. Poäng. Totalt 40. Betygsgränser: G 20 VG 30

import totalt, mkr index 85,23 100,00 107,36 103,76

Fråga nr a b c d 2 D

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 23 e mars Ten 1, 9 hp

Repetitionsföreläsning

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

1b) Om denna överstiger det kritiska värdet förkastas nollhypotesen. 1c)

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 1

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 9 e juni Ten 1, 9 hp

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 10 e januari Ten 1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 16 e januari 2015

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Medicinsk statistik II

Laboration 2. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att utföra multipel regressionsanalys MÄLARDALENS HÖGSKOLA

Att välja statistisk metod

MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik. Statistik. Övningar. Statistik och kvantitativa undersökningar 15 HP

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 24 e mars Ten 1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 4 e mars Ten 1, 9 hp

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 12 e januari Ten 1, 9 hp

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

MÄLARDALENS HÖGSKOLA. Akademin för hållbar samhälls- och teknikutveckling. Statistik. Övningar. Statistik och kvantitativa undersökningar 15 HP

, s a. , s b. personer från Alingsås och n b

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Repetitionsföreläsning

Sänkningen av parasitnivåerna i blodet

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 HP. Ten1 9 HP. 19 e augusti 2015

MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik. Statistik. Övningar. Statistik och kvantitativa undersökningar 15 HP

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik. Statistik. Övningar. Statistik och kvantitativa undersökningar 15 HP

Multipel Regressionsmodellen

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

ÖVNINGSUPPGIFTER KAPITEL 9

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars Ten 1, 9 hp

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik. Statistik. Övningar. Statistik och kvantitativa undersökningar 15 HP

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Statistik och epidemiologi T5

Obligatorisk uppgift, del 1

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Lektionsanteckningar 11-12: Normalfördelningen

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 5. Kapitel 6, sid Inferens om en population

Kapitel 17: HETEROSKEDASTICITET, ROBUSTA STANDARDFEL OCH VIKTNING

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

F3 Introduktion Stickprov

Kapitel 15: INTERAKTIONER, STANDARDISERADE SKALOR OCH ICKE-LINJÄRA EFFEKTER

Hur skriver man statistikavsnittet i en ansökan?

FACIT (korrekta svar i röd fetstil)

F19, (Multipel linjär regression forts) och F20, Chi-två test.

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Medicinsk statistik II

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

ÖVNINGSUPPGIFTER KAPITEL 9

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Föreläsning 5. NDAB02 Statistik; teori och tillämpning i biologi

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Läs noggrant informationen nedan innan du börjar skriva tentamen

Gamla tentor (forts) ( x. x ) ) 2 x1

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

Tentamen för kursen. Linjära statistiska modeller. 22 augusti

2. Test av hypotes rörande medianen i en population.

InStat Exempel 4 Korrelation och Regression

Analytisk statistik. Tony Pansell, optiker Universitetslektor

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Föreläsning 9. NDAB01 Statistik; teori och tillämpning i biologi

Statistik 1 för biologer, logopeder och psykologer

Metod och teori. Statistik för naturvetare Umeå universitet

Föreläsning G60 Statistiska metoder

Hur man tolkar statistiska resultat

Tillämpad statistik (A5), HT15 Föreläsning 11: Multipel linjär regression 2

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Transkript:

MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Lösningsförslag till övningar Statistik och kvantitativa undersökningar 15 HP Höstterminen 2015 1

Innehåll Deskriptiv statistik och index... 3 Sannolikhetslära... 6 Undersökningsdesign, konfidensintervall och bortfall... 11 Hypotesprövning... 15 Regression... 21 Icke parametriska metoder... 37 2

Deskriptiv statistik och index 1. Kontinuerliga: Ålder, Kroppslängd, Hastighet, Intelligenskvot Diskreta: Antal barn, Antal dörrar hos en bil (Ålder kan eventuellt betraktas som diskret eftersom man oftast inte uppger sin exakta ålder. Det är sällan någon säger att han är 25 år 5 månader 10 dagar sju timmar och åtta minuter gammal. Mätresultaten för ålder är därför ofta diskreta.) 2. Kvantitativ: Ålder, kroppsvikt, Kvalitativ: Kön, Hemvist, Bilmärke, Lydig-olydig, Förnamn Spritmissbruk kan mätas på båda sätten. Kvantitativt kan man t ex ange förbrukningen av alkoholhaltiga drycker per år. Kvalitativt kan man dela in folk i tex absolutister, måttlighetsförbrukare och alkoholberoende. 3. På flera av variablerna kan mäta i flera skaltyper. Gruppstorlek mäts t ex i en ordinalskala om man delar in grupperna i smågrupper, mellanstora grupper och stora grupper. Mäter man däremot antal personer per grupp så blir det en kvotskala. Förslag på svar: Nominalskala: Hårfärg, Nationalitet, Stad - land, Straffad - icke straffad Ordinalskala: Gruppstorlek, Grad av demokratisk ledarstil, Kryddningen av en maträtt, Alkoholvanor Intervallskala: Temperatur Kvotskala: Kroppsvikt, C-vitaminhalt i apelsiner, Hastigheten hos en bil, gruppstorlek, Regnmängd, Arbetslöshet 4. Ålder, hur länge har du haft din nuvarande position och antal rum är kvotskala. Kön, vilken avdelning samt alla ja och nej frågor är nominalskala. Grad av relevans och grad av instämmande frågorna är ordinalskala. 5 A. 30,25 % av de 400 dvs 0,305 400 = 121 st är kvinnliga arbetare B. Av de 66,75 % manliga anställda är 20,25 % tjänstemän. 20,25 66,75 = 0,303 30,3 % av de manliga anställda är tjänstemän. 3

6. A. Ålder Kön < 35 år > 35 år totalt män 25 33,3 30 kvinnor 75 66,7 70 Totalt 100 100 100 B. Ålder Kön < 35 år > 35 år totalt män 33,3 66,7 100 kvinnor 42,9 57,1 100 Totalt 40 60 100 C. Ålder Kön < 35 år > 35 år totalt män 10 20 30 kvinnor 30 40 70 totalt 40 60 100 7 Medelvärde: 15,09 Median: 15 Varians: 8,29 Standardavvikelse: 2,88 Pearson measure of skewness: 0,095 Första kvartilen 13 Andra kvartilen 15 Tredje kvartilen 17 Kvartilavståndet 4 Variationsvidden 10 Min 10 Max 20 4

8. a) Lådagram b) medianen är ca 42. Medelvärde kan inte utläsas ur lådagram, kvartilavstånden är ca 7 (45-38) c) det finns inga extremvärden, dessa skulle illustrerats med stjärnor. d) Högsta värde är ca 50 minsta ca 34 9. Äldre bussar tenderar att ha högre årliga reparationskostnader 10. Om vi använder 1997 som basår: 1997 1998 1999 2000 2001 personbilar 100 102 105 108 109 motorcyklar 100 112 133 159 188 11. L År I t 1, t K 85, t 1995-100.0 1996 102.4 102.4 1997 104.5 107.0 1998 102.8 110.0 1999 104.0 114.4 2000 104.9 120.0 12 13 a) 21 210+29 100+17 150 100 = 104,3 20 210+30 100+15 150 b) 21 200+29 130+17 120 100 = 103,2 20 200+30 130+15 120 a) Den nominella löneindexet anger den procentuella ökningen av nominella lönen. Den nominella lönen hade ökat med 23 procent. b) För att beräkna reallönen ska vi deflatera med KPI. 100 123 118 = 104,23 Reallöneindex var 104,23 vilket innebär att reallönen hade stigit med 4 %. 5

Sannolikhetslära 8! 8 7 6 1. A) 8C 3 56 3!5! 3 2 1 8! B) 8C 5 56 5!3! 5!3! C) 5C 3 3 C2 30 3!2!21!! n (Begreppsförklaring: n C r skrivs även C r eller ( n n! ). Dessa uttryck är lika med r anger antal kombinationer av r element valda bland n element.) 2. A) P(ruter) = 13/52 = ¼ B) P(röd kung) = 2/52 = 1/26 C) P(kung eller dam) = 8/52 = 2/13 D) P(ej kung eller dam): 1-2/13 = 11/13 alternativt 44/52 =11/13 3. A) Att få sexor i två kast efter varandra. 4. r!(n r)! och 0,2 rött 0,4 0,7 0,2 0,056 0,4 rött 0,7 0,3 rött Ej rött 0,8 0,2 Ej rött 0,4 0,7 0,8 0,224 rött 0,4 0,3 0,2 0,024 0,8 Ej rött 0,4 0,3 0,8 0,096 0,2 rött 0,6 0,7 0,2 0,084 0,6 0, 7 Ej rött 0,3 rött Ej rött 0,8 0,2 Ej rött rött 0,6 0,7 0,8 0,336 0,6 0,3 0,2 0,036 0,8 Ej rött 0,6 0,3 0,8 0,144 Låt A betyda att ljus A visar rött etc B) P(A och B och ~C) = P(A) P(B) P(~C) = 0.4 0.7 0.8 = 0.224 C) P(A eller B eller C) = 1 - P(~A och ~B och ~C) = = 1 - P(~A) P(~B) P(~C) = 1-0.6 0.3 0.8 = 1-0.144 = 0.856 D) Detta är samma sak som att exakt ett ljus visar rött. Det finns tre olika alternativ som uppfyller detta. Vi får då addera de tre sannolikheterna. P(sökt) = P(~A och ~B och C) + P(~A och B och ~C) + P(A och ~B och ~C) = = 0.6 0.3 0.2 + 0.6 0.7 0.8 + 0.4 0.3 0.8 = = 0.036 + 0.336 + 0.096 = 0.468 6

5 a) 0,1 rött 0,4 0,1 0,04 0,4 rött 0,9 grönt 0,4 0,9 0,36 0,6 grönt 0,2 rött 0,6 0,2 0,12 0,8 grönt 0,6 0,8 0,48 b) Det finns tre sätt att få minst ett rött. Antingen rött-grönt, grönt-rött eller rött-rött. Det innebär att det bara är grönt-grönt som inte uppfyller detta. Vi kan använde komplementregeln: P(minst ett rött) = 1 P(grönt grönt) = 1 0,48 = 0,52 (Ett annat alternativ är att använda adderingsregeln och lägga ihop de tre utfallen som uppfyller händelsen.) 6 Ett bra första steg kan vara att skriva ner sannolikhetsfördelningen: Total dricks per dag: Antal dagar sannolikhet 0 x < 20 200 0,40 (200/500) 20 x < 50 100 0,20 (100/500) 50 x < 100 75 0,15 (75/500) 100 x < 200 75 0,15 (75/500) 200 eller mer 50 0,10 (50/500) totalt 500 1 a) 0,10 b) Ja ett visst värde kan bara hamna i en av kategorierna c) Ja eftersom man inte kan få negativ dricks måsta alla värden hamna i någon av kategorierna d) 1 e) 0,4 + 0,2 = 0,6 f) 1 0,10 = 0,9 7

7 Män Kvinnor Totalt Högskoleutbildning 0,78*0,20 = 0,156 0,9*0,80 = 0,72 0,876 Ej 0,044 0,08 0,124 högskoleutbildning totalt 0,20 0,80 1 Män Kvinnor Totalt Högskoleutbildning 0,78 0,90 0,876 Ej 0,22 0,10 0,124 högskoleutbildning totalt 1 1 1 Män Kvinnor Totalt Högskoleutbildning 0,156/0,876=0,178 0,822 1 Ej 0,044/0,124=0,355 0,645 1 högskoleutbildning totalt 0,2 0,8 1 b) 0,08 c) 0,124 d) 0,10 e) Nej eftersom sannolikheten att ha en högskoleutbildning är högre hos kvinnor än hos män är variablerna beroende. 8 a) Binomialfödelning, varje händelse har två utfall, vi räknar antalet ja och det är samma sannolikhet för ja varje gång. b) μ = 12 0,07 = 0,84 Bästa gissningen är att 1 låntagare kommer att misslyckas c) P(x = 0) = 12 C 0 0,07 0 0,93 12 = 12! 0! 12! 0,070 0,93 12 = 0,93 12 = 0,4186 d) P(x = 1) = 12 C 1 0,07 1 0,93 11 = 12! 1! 11! 0,071 0,93 11 = 12 0,07 0,93 11 = 0,3781 e) (x 1) = 1 P(x = 0) = 1 0,4186 = 0,5814 f) (x 2) = 1 P(x = 0) P(x = 1) = 1 0,4186 0,378 = 0,2033 9 a) 7 7 P 2 4 C 2 1 10 10 2 4! 7 7 P 2 1 2! 4 2! 10 10 4 3 2 7 7 P 2 1 2 2 10 10 2 2 P 2 6 0,7 0,3 0, 2 2646 2 2 2 2 8

b) P P P 10 2 2 7 C2 3C2 C 2! 10 7! 7 2! 2! 3 4! 10! 7 6 3 2 1 10 9 8 7 4 3 2 a) μ = 11,96+12,05 2 3! 2! 10 4! 4!6! = 24,01 2 b) σ = (12,05 11,96)2 12 4 7! 3! 2!5! 2!1! 10! 7 6 3 4 3 2 10 9 8 7 2 1 2 0, 30 = 12,005 = (0,09)2 12 = 0,0081 12 c) P(x < 12) = 12 11,96 12,05 11,96 = 0,04 0,09 = 0,44 = 0,000675 = 0,026 d) P(x > 11.98) = 12,05 11,98 12,05 11,96 = 0,07 0,09 = 0,78 e) Eftersom alla sockerpaket väger mer eller lika med 11,96 kommer alla paket väga mer än 11 P(x > 11,00) = 1 11 a. z = X μ σ z = 42000 40000 = 0,40 5000 P(X > 42000) = P(z > 0,4) = 0,5 P(0 < z < 0,4) = 0,5 0,1554 = 0,3446 b. z = 32000 40000 = 1,6 5000 P(X > 32000) = P(z > 1,6) = P(z < 1,6) = 0,5 + P(0 < z < 1,6) = 0,5 + 0,4452 = 0,9452 P(32000 < X < 42000) = P(X > 32000) P(X > 42000) = 0,9452 0,3446 = 0,6006 c. z = 35000 40000 = 1 5000 P(X > 35000) = P(z > 1) = P(z < 1) = 0,5 + P(0 < z < 1) = 0,5 + 0,3413 = 0,8413 P(32000 < X < 35000) = 0,9452 0,8413 = 0,1039 d. 9

Vi söker den gräns där det är 20 procents sannolikhet att dra en anställd med högre lön. För att hitta den behöver vi hitta ett värde på z där sannolikheten att få ett större värde är 20 %. För det z-värdet gäller att: P(0 till z) = 0,3 Enligt tabellen är P(0<z<0,84) = 0,2995 och P(0<z<0,85) = 0,3023. Vi utgår ifrån z värdet 0,84 eftersom det ligger närmast 0,3 X 40 000 0,84 = 5 000 0,84 5 000 = X 40 000 X = 40 000 + 0,84 5 000 = 44 200 20 procent av de anställda har en lön som överstiger 44 200 så den som tjänar minst av de 20 procent som tjänar mest bör ha en lön på ca 44 200 12 a. z = X μ σ z = 2500 1994 450 = 1,12 P(X > 2 500) = P(z > 1,12) = 0,5 - P(0 < z < 1,12) = 0,5-0,3686 = 0,1314 13 procent spenderar mer än 2 500 b. z = 3000 1994 450 = 2,24 P(X > 3 000) = P(z > 2,24) = 0,5 - P(0< z <2,24) = 0,5 0,4875 = 0,0125 P(2 500 < X < 3 000) = 0,1314 0,0125 = 0,1189 12 procent spenderar mellan 2 500 och 3 000 c. z = 1 000 1 994 450 = 2,21 P(X <1 000) = P(z < -2,21) = P(z > 2,21) = 0,5 - P(0 < z < 2,21) = 0,5-0,4864 = 0,0136 1,3 procent spenderar mindre än 1 000 dollar. 10

Undersökningsdesign, konfidensintervall och bortfall 1 Första steget är att beräkna medelvärde och standardavvikelse för urvalsmedelvärdena om en stor mängd urval om 9 observationer dras från denna fördelning: μ X = 60 och σ X = 12 9 a) z = 63 60 0.75 12 / 9 P(X > 63) = P(z > 0,75) = 0,5 P(0 < z < 0,75) = 0,5000 0,2734 = 0,2266 b) 56 60 z 1 12 / 9 P(X < 56) = P(z < 1) = P(z > 1) = 0,5 P(0 < z < 1) = 0,5000 0,3413 = 0,1587 c) Här kan man exempelvis använda sig av komplementregeln som säger att: P(56 < X < 63) = 1 P(X > 63) P(X < 56) = 1 0,2266 0,1587 = 0,6147 2 a) z = X μ σ z = 500 502 = 1 2 P(X < 500) = P(z < 1) = P(z > 1) = 0,5 P(0 < z < 1) = 0,5 0,3413 = 0,1587 Sannolikheten är ca 0,16 b) σ x = σ n = 2 5 = 0,8944 z = 500 502 0,8944 = 2,236 P(X < 500) = P(z < 2,236) = P(z > 2,236) = 0,5 P(0 < z < 2,236) = 0,5 0,4874 = 0,0126 Sannolikheten är ca 0,01 (Det är nog en ganska stor sannolikhet att de fem ostarna kommer från samma leverans och är då kanske tillverkade ungefär samtidigt. Därmed är det nog inte ett slumpmässigt urval av alla företags ostar.) 11

3 X = 3,01 kg frihetsgrader: 35 konfidensnivå: 95% t = 2,030 X ± t s n μ = 3,01 ± 2,03 0,03 36 3,00 < μ < 3,02 Med 95% sannolikhet täcker detta interval det sanna värdet. 4 n = 50 X = 26 s = 6,2 frihetsgrader: 49 konfidensnivå: 95% t = 2,01 μ = 26 ± 2,01 6,2 50 μ = 26 ± 1,76 Konfidensintervallet ligger mellan 24,2 och 27,8 Eftersom 28 ligger utanför konfidensintervallet är det inte så troligt att det sanna värdet är 28. Sannolikheten för det är mindre än 5 %. (Fördelningen av arbetslöshetstider är förmodligen en exponentialfördelning eftersom det är frågan om tidsperioder. Men när vi drar ett urval och beräknar urvalsmedelvärdet kommer fördelningen av alla möjliga utvalsmedelvärden att vara en normalfördelning eftersom vi har så många observationer. Därmed kan vi använda inferensformlerna.) 12

5 n = 400 p = 300 400 = 0,75 a) Vi använder andelen i urvalet som punktestimat, dvs 75% b) konfidensnivå 99% z = 2,576 π = 0,75 ± 2,576 0,75 0,25 400 π = 0,75 ± 2,576 0,02165 π = 0,75 ± 0,0558 0,69 < π < 0,81 c) Hon har mycket goda chanser att bli vald. Med 99 procents sannolikhet kommer hon att få en andel mellan 69 och 81 procent och det räcker ju med 50 % för att bli vald. 6 E = 2 z = 1,96 σ = 10 n = ( Zσ E )2 n = ( 1,96 10 ) 2 = 9,8 2 = 96,04 2 Avrunda uppåt till 97 7. 4800 400 a) Maximal andel bilägare i A: 0.416 A (max) 12500 4800 0 b) Minimal andel bilägare i A: 0.384 A (min) 12500 6300 1400 c) Maximal andel bilägare i B: 0.514 B (max) 15000 6300 0 d) Minimal andel bilägare i B: 0.420 B (min) 15000 e) Eftersom man gjort totalundersökning (fastän med bortfall) förekommer ingen samplingvariation. Differensen π B - π A har följaktligen Max.-värde: π B(max) - π A(min) = 0.514-0.384 = 0.130 Min.-värde: π B(min) - π A(max) = 0.420-0.416 = 0.004 Differensen π B - π A ligger således i intervallet 0.004 --- 0.130. 13

8. Antal svarande är 2550. Bortfallet är 7500-2550 = 4950 I svarsgruppen är 1275 positiva till arbetet. Under de olika antagandena får vi nu: A) 1275 4950 p 0. 83 7500 B) 1275 p 0. 17 7500 C) 1275 0.3 4950 p 0. 368 7500 D) 1275 0.7 4950 p 0. 632 7500 9 Om vi enbart räknat andelen på de som besvarade enkäten hade andelen blivit 300 / 1600 = 0.1875 π = 0,1875 ± z 0,1875(1 0,1875) 1600 π = 0,1875 ± 1,96 0,00976 π = 0,1875 ± 0,0191 Konfidensintervallet ligger mellan 0,168 och 0,207 Punktestimat av antalet i hela urvalet som jagat 300 + 400 55/100 = 300 + 220 = 520 Vilket ger en andel på 520 / 2000 = 26% 10 a) Validitet är den grad med vilken en mätning mäter det begrepp som man avser att mäta b) Reliabilitet, hur noga en mätning är. c) Operationalisering är den process där man gör ett begrepp mätbart så att man kan skapa en variabel. I en enkätundersökning innebär det att formulera en eller flera frågor samt att koda svaren till dessa. Om man konstruerar flera frågor är en del av operationaliseringen också att bestämma hur de olika frågorna ska vägas samman. 11 se diskussion kring liknande frågor i Bryman och Bell kapitel 10 14

Hypotesprövning 1 Hypoteser H 0 : μ = 90 H 1 : μ 90 (Det vi vill bevisa ska vi ha i mothypotesen eftersom vi försöker förkasta nollhypotesen.) Signifikansnivå 10 % Teststatistika: t = X μ s n Frihetsgrader 100 1 = 99 Kritiskt värde: 1,66 Beslutsregel: om värdet på teststatistikan är större än 1,66 eller mindre än -1,66 förkastas nollhypotesen. t = 94 90 22 100 = 1,82 Eftersom 1,82 är större än 1,66 kan nollhypotesen förkastas. Därmed kan vi dra slutsatsen att försäljningstiden har ändrat och inte längre är lika med 90 dagar. 2 Hypoteser: H 0 : μ = 3,13 H 1 : μ 3,13 Signifikansnivå 5 % Teststatistika: t = X μ s n Antal frihetsgrader : 24 Kritiskt värde: 2,064 Beslutsregel: om värdet på teststatistikan är större än 2,064 eller mindre än -2,064 förkastas nollhypotesen.. t = 2,86 3,13 = 1,125 1,20 25 Eftersom -1,125 är större än -2,064 och mindre än 2,064 kan nollhypotesen inte förkastas. Därmed kan vi inte dra några slutssatser från denna undersökning. Donalds undersökningsmetod är det inget fel på men han kan inte dra den slutsats han gör. 15

3 Vi har två populationer, nedan använder jag m för kunder med mjukvaruproblem och h för kunder med hårdvaruproblem. n m = 35 n h = 45 X m = 18 X h = 15.5 s m = 4,2 s h = 3.9 Signifikansnivå 5 % H 0 : μ m μ h H 1 : μ m > μ h 2 df = (4,22 35 +3,92 45 ) ( 4,22 2 35 ) 3,9 ( 2 2 35 1 + 45 ) 45 1 Kritiskt värde:1,667 t = X m X h s m 2 nm + s h 2 n h t = 18 15,5 4,22 35 +3,92 45 = 70 = 2,5 0,9176 = 2,72 Vi förkastar H 0 eftersom 2,72 är större än 1,667. Vi kan dra slutsatsen att det tar längre tid att hjälpa kunder med mjukvaruproblem. 4 a) H 0: Medellönen för centrar, forwards och guards är lika höga. H 1: Minst en av spelarkategorierna har en medellön som avviker från de andras. b) Eftersom p-värdet är större än vår signifikansnivå kan vi inte förkasta nollhypotesen. Därmed kan vi inte dra några slutsatser. c) Populationerna ska vara oberoende, normalfördelade och ha samma standardavvikelse. I det här fallet verkar centrarna ha en större standardavvikelse än de andra två populationerna. d) Konfidensintervallet för centrarnas lön ligger mellan 1213 och 2060 Konfidensintervallet för forwards lön ligger mellan 1310 och 1660 Konfidensintervallet för guards lön ligger mellan 1123 och 1433 e) Eftersom det går att finna värden som ingår i alla tre konfidensintervallen kan vi inte heller från konfidensintervallen dra någon slutsats om att medelvärdena skulle skilja sig åt i de tre populationerna. 16

5 x m = 18,05 x k = 12,19 n m = 42 n k = 48 s m = 9,27 s k = 5,33 a) Hypoteser: H 0 : σ m 2 = σ k 2 H 1 : σ m 2 σ k 2 Teststatistika: F = s 1 2 s2 2 Frihetsgrader täljare: 41 Frihetsgrader nämnare:47 Kritiskt värde: ca 2.05 (använd tabellen för 1 % signifikansnivå, vid dubbelsidigt test används tabellen för halva signifikansnivån.) Beslutsregel: Nollhypotesen förkastas om teststatistikans värde överstiger 2,05 Beräkna teststatistikan, ta alltid den större variansen i täljaren. (Annars fungerar i tabellen i boken, R behöver inte bry sig om bokens tabell så som ni ser i R utskriften nedan har den i det här fallet den lägre variansen i täljaren.) F = 9,272 5,33 2 = 85,93 28,41 = 3,02 Nollhypotesen förkastas då teststatistikans värde överstiger det kritiska värdet. Slutsats. Män och kvinnor har inte samma varians. b) Hypoteser: H 0 : μ m = μ k H 1 : μ m μ k Teststatistika: t = X 1 X 2 df = (85,93 42 +28,41 48 )2 ( 85,93 2 42 ) 41 + (28,41 48 )2 47 Kritiskt värde: 2,66 s 1 2 n1 + s 2 2 n2 = 63,5 17

t = 18,05 12,19 85,93 42 +28,41 48 = 5,86 1,62 = 3,608 Eftersom teststatistikans värde överstiger det kritiska värdet kan vi förkasta nollhypotesen. Vi kan därmed dra slutsatsen att medelvärdet för män avviker från medelvärdet för kvinnor i hela populationen. Män ägnar mer tid åt styrketräning än kvinnor. Nedan visas en R utskrift på denna test. Jag bockade för att jag inte ville anta att varianserna är lika. Om man bockar för att man vill anta att varianserna är samma fr män och kvinnor får man följande resultat. Men vi visade ju tidigare att män och kvinnor har olika varians så i det här fallet är det naturligtvis ett sämre test. 18

6 I urvalet är medelvärdena ganska lika för män och kvinnor men männen har en större varians. Det är större skillnader mellan olika män än mellan olika kvinnor i hur mycket tid man de lägger på konditionsträning. F- testet för att jämföra varianserna har ett p-värde på 0,0001. Vi kan således förkasta nollhypotesen om att varianserna är lika för män och kvinnor. Eftersom vi visat att variansen skiljer sig åt bör vi använda Welch test, p-värdet är 0,3246. Det är inte signifikant så vi kan inte förkasta nollhypotesen att män och kvinnor ägnar lika mycket tid åt konditionsträning. Därmed kan vi inte dra några slutsatser angående medelvärdena. 7 Vi använder t-test för beroende urval H 0 : μ d = 0 H 1 : μ d 0 Teststatistika: t = d 0 s d n Frihetsgrader: 89 Kritiskt värde: 2,63 t = 11,54 0 = 8,0 13,69 90 Då teststatistikans värde överstiger det kritiska värdet kan nollhypotesen förkastas. Vi kan därmed dra slutsatsen att personerna i populationen inte ägnar lika mycket tid åt styrketräning som åt konditionsträning. De ägnar mest tid åt konditionsträning. 19

8 a) Om man inte lyckas förkasta nollhypotesen kan man inte dra några slutsatser alls. Han kan därmed inte dra slutsatsen att kognitiv beteendeterapi är verkningslös. Det är möjligt att det finns en effekt även om han inte lyckats bevisa det. Den teststatistika han använder är för två oberoende urval. Om man ska använda den ska antalet frihetsgrader beräknas med följande formel: df = ( s 1 2 n1 + s 2 2 n2 ) 2 ( s 1 2 2 n1 ) s 2 2 ( n1 1 + n2 ) n2 1 = ( 10,22 2 2 10 +10,1 10 ) ( 10,22 2 10 ) ( 10,12 2 10 ) + Men han missar då att utnyttja det faktum att observationerna är relaterade till varandra. b) Här bör han istället använda t-test för beroende urval. c) Börja med att beräkna differensen för varje patient: 9 9 18 Anders Eva Lotta Per Lars Ove Stina Anna Nils Klas medel std före 153 148 139 126 149 135 138 132 121 135 137,6 10,2 efter 148 138 140 121 141 120 131 126 121 140 132,6 10,1 5 10-1 5 8 15 7 6 0-5 5 5,77 Hypoteser: H 0 : μ d = 0 H 1 : μ d 0 Teststatistika: t = d 0 s d n Frihetsgrader: 9 Kritiskt värde: 2,26 t = 5 0 5,77 10 = 2,74 Då teststatistikans värde överstiger det kritiska värdet kan nollhypotesen förkastas. Vi kan därmed dra slutsatsen att blodtrycket inte är lika före och efter behandlingen. Vi kan således dra slutsatsen att kognitiv beteendeterapi har en effekt på blodtrycket. Här skulle man också kunna tänka sig att göra en enkelsidig test om man anser sig kunna utesluta att behandlingen ökar blodtrycket. I så fall är det kritiska värdet 1,83. 20

Regression 1 a) falsk b) sann c) falsk d) falsk e) sann f) falsk 2 Detta är den justerade förklaringsgraden, eller den justerade determinationskoefficienten. Den anger den andel av variansen i Y som inte finns kvar i residualerna, dvs den andel av variansen som vår regressionsmodell har förklarat. 3 A. Koefficienten för x 2 har värdet -0.185 och anger att om utbildningstiden ökas med 1 år så minskar TV-tittandet i genomsnitt med 0.185 timmar per dag förutsatt oförändrad ålder. B. Insättning av värdet 74 på x 1 och 11 på x 2 ger y ˆ 3.18 0.013 74 0.185 11 2. 1 dvs i genomsnitt 2.1 timmar per dag. 4 A neg B pos C neg D pos (neg?) 5 A) Interceptet är 48, det ska inte tolkas eftersom det förmodligen inte finns några skolor som satsar noll dollar per student och där lärarna inte får lön. Koefficienten för lärarlöner är signifikant eftersom p värdet (0,0000000000572) är lägre än 5 %. Om vi antar att det inte finns något samband från genomströmning till lärarlöner blir tolkningen att om man höjer lärarnas löner med 1000 dollar skulle genomströmningen öka med 0.69 procentenheter vid oförändrade värden på övriga oberoende variabler. Koefficienten för expenditure är signifikant eftersom p värdet (0,0000000000108) är lägre än 5 %. Om vi antar att det inte finns något samband från skolresultat till resurstilldelning blir tolkningen att om vi satsar ytterligare en dollar per elev reduceras andelen som klarar provet med 0,006 procentenheter vid oförändrade värden på övriga oberoende variabler. Koefficienten för bidrag är signifikant eftersom p värdet (0,000000892) är lägre än 5 %. Om vi antar att det inte finns något samband från genomströmning till hur mycket bidrag skolorna får innebär det att om en skola får ytterligare 1 dollar i bidrag kar genomströmingen på matteprovet med 0,004 procentenheter vid oförändrade värden på övriga oberoende variabler. B) Om politikerna ger mer resurser till skolor med låga resultat, för att förbättra resultaten där, finns ett samband från provresultat till expenditure. Detta är nog troligare än att skolresultaten skulle försämras om skolorna får mer resurser. Det är också troligt att det finns ett samband mellan provresultat och hur mycket bidrag skolorna får från välgörenhetsorganisationer. Ofta får man stipendier utifrån hur goda resultat man har uppnått. Detta är därmed ett exempel på en dåligt utför regressionsanalys. 21

Förklaringarna till regressionskoefficienterna för exp och found är förmodligen att politiker tenderar att ge mer resurser till skolor med sämre resultat och att stipendier tenderar att delas ut till elever med goda resultat. Därmed kan vi inte göra de tolkningar vi gjorde i A- uppgiften. För lärarlönerna är det väl inte lika uppenbart att de skulle kunna påverkas av elevernas resultat. Det skulle i så fall vara om skolorna tillämpade någon slags lönesättningssystem där lärarna får extra betalt utifrån resultaten på proven. C) Förklaringsgraden R 2 = SSR SST = 19964 141439 = 0.141 Den justerade förklaringsgraden 2 R adj = 1 SSE n k 1 SST n 1 = 1 121474 546 141439 = 0.136 549 D) Den estimerade regressionsekvationen är: y = 48.5 0.006 X 1 + 0.693 X 2 + 0.004 X 3 Sätt in värdena på de oberoende variablerna: y = 48.5 0.006 6000 + 0.693 40 + 0.004 4000 = 56.22 Bästa gissningen för genomströmningen är drygt 56 % 6 a) Här har vi en bra modell som vi kan vara nöjda med. Residualerna verkar vara skapligt normal-fördelande med samma varians oavsett värde på x. De är jämnt utspridda men de flesta är nära noll. b) Här ökar variansen för höga värden på x. Detta problem kallas heteroskedasticitet. c) Här verkar det inte vara ett linjärt samband eftersom vi kan se ett mönster i residualerna. Låga och höga värden på x har negativa residualer, medan de är positiva för medelstora värden på x. Rekommendationen här skulle vara att lägga in x 2 som förklarande variabel. 22

7 a) Modell 1 Här är antalet våldsbrott beroende variabel Interceptet tolkas ej eftersom det inte finns någon delstat som har värdet noll på alla oberoende variabler. Koefficienten för blackpro är signifikant eftersom p värdet är mindre än 0,05. Tolkas som att om andelen svarta i befolkningen ökar med en procentenhet ökar antalet våldsbrott med 0,1 per 100 000 invånare vid oförändrade värden på övriga oberoende variabler. Koefficienten för incpc är inte signifikant eftersom p värdet är större än 0,05. Och tolkas därför inte. Koefficienten för metropro är signifikant eftersom p värdet är mindre än 0,05. Tolkas som att om andelen i befolkningen som bor i storstäder ökar med en procentenhet ökar antalet våldsbrott med 0,04 per 100 000 invånare vid oförändrade värden på övriga oberoende variabler. Koefficienten för polpc är signifikant eftersom p värdet är mindre än 0,05. Tolkas som att om antal poliser per 100 000 invånare ökar med en polis ökar antalet våldsbrott med 0,024 per 100 000 invånare vid oförändrade värden på övriga oberoende variabler. Koefficienten för unempro är signifikant eftersom p värdet är mindre än 0,05. Tolkas som att om andelen arbetslösa i befolkningen ökar med en procentenhet ökar antalet våldsbrott med 0.53 per 100 000 invånare vid oförändrade värden på övriga oberoende variabler. Modell 2 Här är antalet stölder beroende variabel Interceptet tolkas ej eftersom det inte finns någon delstat som har värdet noll på alla oberoende variabler. Koefficienten för blackpro är inte signifikant eftersom p värdet är större än 0,05. Och tolkas därför inte. Koefficienten för incpc är signifikant eftersom p värdet är mindre än 0,05. Tolkas som att om befolkningens medelinkomst ökar med en dollar sjunker antalet stölder med 0,001 per 100 000 invånare vid oförändrade värden på övriga oberoende variabler. Koefficienten för metropro är signifikant eftersom p värdet är mindre än 0,05. Tolkas som att om andelen i befolkningen som bor i storstäder ökar med en procentenhet ökar antalet stölder med 0,22 per 100 000 invånare vid oförändrade värden på övriga oberoende variabler. Koefficienten för polpc är signifikant eftersom p värdet är mindre än 0,05. Tolkas som att om antal poliser per 100 000 invånare ökar med en polis ökar antalet stölder med 0,09 per 100 000 invånare vid oförändrade värden på övriga oberoende variabler. Koefficienten för unem är inte signifikant eftersom p värdet är större än 0,05. Och tolkas därför inte 23

b) Här kan man exempelvis diskutera om våldsbrotten ökar kanske den vita befolkningen flyttar från delstaten, i så fall skulle sambandet gå från antalet våldsbrott till andel svarta Om våldsbrotten är höga kanske det är mindre attraktivt att starta företageande och anställa folk, då skulle andelen våldbrott påverka arbetslösheten Om våldbrotten ökar kanske man anställer fler poliser, då skulle antalet våldsbrott påverka antalet poliser. c) Förklaringsgraden R 2 = 1 (y i y i) 2 (y i y ) 2 = 1 SSE SST = SSR SST = 827 973 = 0,85 Den justerade förklaringsgraden 2 R adj (y i y i) 2 n k 1 = 1 (y i y ) 2 n 1 = 1 SSE n k 1 SST n 1 = 1 145 45 973 = 0,83 50 Förklaringsgraderna anger den andel av variationen i brottsstatistiken som förklaras av regressionsmodellen d) y = 4,94 + 0,105 20 0,0001 20 000 + 0,039 30 + 0,024 250 + 0,528 6 = 5,5 e) y = 34,48 0,103 20 0,001 20 000 + 0,219 30 + 0,09 250 0,215 6 = 40,2 8 Modell 1 Interceptet är 876; tolkas ej eftersom det antagligen inte finns några länder där genomsnittlig alkoholkonsumtion från vin är noll, vilket skulle innebära att ingen i hela landet dricker vin. Koefficienten för alkohol är -16,3, eftersom p-värdet överstiger 5 % är det dock inte signifikant och tolkas ej. Vi kan inte påvisa något samband mellan allmän dödlighet och vinkonsumtion. Modell 2 Interceptet är 239; tolkas ej eftersom det antagligen inte finns några länder där genomsnittlig alkoholkonsumtion från vin är noll, vilket skulle innebära att ingen i hela landet dricker vin. Koefficienten för alkohol är -19,7, p-värdet är 0,001 så här är koefficienten signifikant. Tolkningen är att om alkoholkonsumtion från vin ökar med 1 liter per år så minskar antal döda i hjärtsjukdomar med 19 per 100 000 invånare. 24

Model 3 Interceptet är 10,9 ; tolkas ej eftersom det antagligen inte finns några länder där genomsnittlig alkoholkonsumtion från vin är noll, vilket skulle innebära att ingen i hela landet dricker vin. Koefficienten för alkohol är 3.6, p-värdet är 0,000 så här är koefficienten signifikant. Tolkningen är att om alkoholkonsumtion från vin ökar med 1 liter per år så ökar antalet döda i leversjukdomar med 3,6 dödsfall per 100 000 invånare. En sammanfattande slutsats är således att vindrickande inte påverkar dödligheten generellt. Vin är bra för hjärtat men dåligt för levern så det minskar antalet döda i hjärtsjukdomar men ökar antalet döda i leversjukdomar. b) I modell 1 förklaras 12.8 procent av variansen i dödstal av modellen. I modell 2 förklaras 40.1 procent av variansen i dödstal i hjärtsjukdomar av modellen. I modell 3 förklaras 51.9 procent av variansen i dödstal i leversjukdomar av modellen. c) 10.8 + 3.6 2 = 18 d) 239 19.7 2 = 200 e) 10.8 + 3.6 10 = 46,8 f) 239 19.7 10 = 42 9 a) I modell 2 tar vi även hänsyn till prisskillnader mellan olika restaurangkedjor. b) Intercepten tolkas ej eftersom det inte finns områden där medianinkomsten är noll. I modell 1 är koefficienten för medianinkomst signifikant eftersom p-värdet är mindre än 0,05. Det skulle tolkas som att när medianinkomsten stiger med en dollar sänker man priset på en huvudrätt med 5 miljondels dollar vid oförändrade värden på övriga oberoende variabler. Någon slags omvänd prisdiskriminering. Det innebär att en höjning av medianinkomsten med 1000 dollar ger en prissänkning på 0,005 dollar eller en halv cent. I modell 2 är inkomst inte längre signifikant och vi tolkar då inte den koefficienten. Dummyvariablerna är däremot signifikanta och tolkningen av dem är att de anger prisskillnaden mellan den vanligaste huvudrätten i respektive restaurangkedja och den vanligaste huvudrätten på Burger Kiing restauranger. Eftersom vi inte har med någon dummyvariabel för Burger King är det dem vi jämför med. 25

c) Det verkar som att restaurangkedjorna har lokaliserat sig till olika typer av områden. King Fried Chicken har den dyraste huvudrätten. Det skulle kunna vara så att de i huvudsak lokaliserat sig i områden med låga inkomster. Vi kan verifiera det genom att titta i korrelationsmatrisen. I kolumnen för income ser vi att korrelationen är negativ med KFC men positiv med de andra båda kedjorna. Vilket innebär att KFC finns i områden med låg inkomst och de andra i område med hög inkomst. (Tolkningen av regressionskoefficienterna gäller ju givet oförändrade värden på övriga variabler. I modell 2 när vi har med dummyvariablerna blir tolkningen prisökningen på en restaurang av samma kedja när medianinkomsten stiger med en enhet. Och då har vi alltså ingen prisökning. I modell 1 där vi inte har med dummyvariablerna jämförs restauranger som tillhör olika kedjor) d) Normalfördelade residualer: Detta antagande stämmer dåligt i modell 1 men ganska bra i modell 2 (I modell 1 ser det snarare ut som om residualerna kommer från olika normalfördelningar kanske beroende på restaurangkedja?) Heteroskedasticitet verkar inte vara något problem i någon av modellerna eftersom spridningen inte ökar eller minskar med ökad inkomst. Vi har inga bågmönster så antagandet av linjärt samband verkar funka i båda modellerna. I modell 1 har vi ett litet lustigt lutande mönster, eftersom det försvinner när vi har med restaurangdummies verkar det vara kopplat till det. e) Förklaringsgraden beräknas enligt: R 2 = SSR = 128,74 = 0,827 SST 155,58 Detta är alltså den andel av variationen som förklaras av regressionen när vi mäter variationen som kvadratsummor. Om vi också tar hänsyn till frihetsgraderna får vi den justerade förklaringsgraden: 2 R adj = 1 SSE n k 1 SST n k = 1 26,84 368 155,58 = 0,826 372 Detta är den andel av variansen som förklaras av regressionen. Förklaringsgraden ökar betydligt när vi tar med restaurangkedjedummies så skillnader mellan olika restaurangkedjor är en stor del i förklaringen av prisskillnaderna. Vilket är ganska naturligt eftersom de inte har exat samma maträtter. King Fried Chicken har kyckling och Burger King hamburgare. f) Modell 1 säger att det finns en omvänd prisdiskriminering, modell två att det inte finns någon prisdiskriminering. Modell två har betydligt högre förklaringsgrad och 2 av restaurangkedjedummies är signifikanta. (samtliga restaurangkedjedummies skulle varit signifikanta om vi använt 10 % signifikansnivå). Dessutom är antagandet om normalfördelade residualer bättre uppfyllt i modell 2. Det mesta talar därför för att modell 2 är att föredra. (Skulle vi enbart ha en modell för att förklara prisskillnader borde vi kanske ta bort variabeln inkomst men eftersom syftet var att studera just den variabeln behöver vi ha den med för att visa att den inte är signifikant) g) Vårt punktestimat för denna prisskillnad är regressionskoefficienten för WE alltså 0,225. Eftersom frihetsgraderna är 368 får vi samma värde ur t fördelningen som ur z fördelningen, vid konfidensgraden 99 % blir t lika med 2,576 Standardavvikelsen är enligt regressionsresultatet 0,042 Vårt konfidensintervall blir därmed: β = b ± t s = 0,225 ± 2,576 0,042 = 0,225 ± 0,108 Prisskillnaden är med 99 procents säkerhet i intervallet mellan 0,117 och 0,333. (Sannolikheten att få ett sådant här värde på koefficienten om det sanna värdet inte finns i detta intervall är mindre än 1 %.) 26

10 a) Modell 1 till 3 undersöker vilka faktorer som påverkar vilken lön man har nu. Den fjärde modellen vilka faktorer som påverkade den lön man hade när man började jobba på nuvarande företag. Skillnaden mellan modell 1 och 2 är att modell två också tar hänsyn till ingångslönen. Skillnaden mellan modell 1 och 3 är att modell 3 antar ett icke linjärt samband mellan år på nuvarande jobb och månadslönen. b) Modell 1: Interceptet, 19 433, skulle i det här fallet ange lönen för en kvinna helt utan erfarenhet och utan examen från high school. Koefficienten för erfarenhet på samma arbete är inte signifikant eftersom p-värdet överstiger 5 % och ska därför inte tolkas. Koefficienten för tidigare erfarenhet är signifikant eftersom p-värdet, 0,029 är lägre än 5 %. Vi tolkar det som att ytterligare ett års erfarenhet från tidigare arbetet ger 104 baht lägre månadslön vid oförändrade värden på övriga oberoende variabler. Koefficienten för man är signifikant eftersom p-värdet, 0,000 är lägre än 5 %. Tolkningen är att män i genomsnitt har 7574 baht högre månadslön än kvinnor vid oförändrade värden på övriga oberoende variabler. Utbildningsdummyvariablerna anger löneskillnaden för denna utbildningsnivå jämfört med en ingenjör som inte ens har high school givet oförändrade värden på övriga oberoende variabler. Av dessa är alla utom high school signifikanta. Modell 2: Interceptet tolkas inte eftersom det inte finns någon som har en ingångslön på noll kronor. Koefficienten för erfarenhet på samma arbete är signifikant eftersom p-värdet, 0,006 är lägre än 5 %. Vi tolkar det som att ytterligare ett års erfarenhet på samma arbetsplats ger 566 baht högre månadslön givet oförändrade värden på övriga oberoende variabler. Koefficienten för erfarenhet från tidigare arbete är signifikant eftersom p-värdet, 0,000 är lägre än 5 %. Vi tolkar det som att ytterligare ett års erfarenhet hos andra arbetsgivare sänker lönen med 236 baht givet oförändrade värden på övriga oberoende variabler. Koefficienten för ingångslön är signifikant eftersom p-värdet, 0,000 är lägre än 5 %. Vi tolkar det som att ytterligare en baht i ingångslön ger 1,7 baht högre månadslön. Den som har en hög startlön har hög lön även senare. Koefficienten för man är signifikant eftersom p-värdet, 0,000 är lägre än 5 % och säger att män i genomsnitt har 2 411 högre lön än kvinnor vid oförändrade värden på övriga oberoende variabler. Utbildningsdummyvariablerna anger löneskillnaden för denna utbildningsnivå jämfört med en ingenjör som inte ens har high school givet oförändrade värden på övriga oberoende variabler. Av dessa är alla utom high scool och polytech signifikanta. c) Alla regressionskoefficienter utom år på nuvarande jobb har lägre värden i modell 2 än i modell 1. En trolig förklaring till det är att de också påverkade ingångslönen och att ingångslönens regressionskoefficient därmed fångar en del av den effekten. Vi kan verifiera det genom att se i modell 4 att de har en signifikant påverkan på ingångslönen. År på nuvarande jobb kunde naturligtvis inte gärna ha påverkat vilken lön man fick när man började och vi ser också att den inte är signifikant i modell 4. Därmed fångar inte ingångslönen effekten av år på nuvarande jobb i modell 2. d) Till en början har antalet år på samma arbetsplats en negativ inverkan på månadslönen men när man varit riktigt länge på samma plats blir effekten positiv. Möjligen ett något märkligt resultat. 27

e) Modell 2 har en förklaringsgrad på drygt 80 procent vilket innebär att mer än 80 procent av variansen i lön kan förklaras av modell 2. Övriga modeller förklarar bara ca 70 procent av variansen i den beroende variabeln. 11 I områden med stor befolkning blir antalet brott liksom antal förvärvsarbetande mödrar högt jämfört med områden där befolkningen är liten. 12 Kausala riktningen - det är snarare så att ju längre en kvinna lever efter en operation desto fler barn kan hon föda. 13 A) I samtliga modeller är regressionskoefficienten för female negativ och signifikant vilket tyder på att kvinnor diskrimineras. B) Koefficienten för non white är inte signifikant i någon av modellerna. Vi kan inte förkasta hypotesen att icke vita får lika hög lön som vita. C) Skillnaden mellan modellerna ligger i antagande om funktionsform. Modell ett antar att det finns linjära samband från samtliga oberoende variabler. Modell 2 antar att det är ett kvadratiskt samband från Exper. Modell tre antar kvadratiska samband från samtliga oberoende variabler som inte är dummyvariabler, modell 4 antar kvadratiska samband från Educ och Exper och linjära samband från övriga oberoende variabler. Eftersom syftet är att studera lönediskriminering och vi får samma slutsats om lönediskriminering från samtliga modeller spelar det inte så stor roll vilken vi väljer. Fördelen med modell 1 är att den är enklast att förstå. Modell 3 har den största förklaringsgraden. Fördelen med modell 4 är att den har med samtliga kvadrerade variabler som är signifikanta men ingen som inte är det. Möjligen är det svårt att argumentera för modell två. Om vi tar med Expersq för att den är signifikant bör vi också ta med Educsq. D) I modell 1 är denna tolkning ganska enkel. Ytterligare ett års yrkeserfarenhet ger i genomsnitt 0,025 dollar mer per timme. I modell två blir det knepigare. Första årets yrkeserfarenhet ger 0,2 dollar mer per timme. (När exper=1 blir även exper 2 = 1 och vi kan summera koefficienterna för exper och expersq) När yrkeserfarenheten ökar minskar effekten av ytterligare ett års yrkeserfarenhet eftersom regressionskoefficienten för expersq är negativ. (För att få den marginella effekten av ytterligare ett års erfarenhet vid olika värden av erfarenhet kan man derivera regressionsekvationen med avseende på erfarenhet.) E) Enligt histogrammen är residualerna något snedfördelade för samtliga modeller men verkar ändå skapligt normalfördelade. I samtliga modeller verkar vi ha heteroskedasticitet för variabeln utbildning. I modell 1 borde vi se bananmönster för educ och exper men inte för tenure eftersom de kvadrerade termerna är signifikanta för educ och exper. Nu var ju p- värdet ganska lågt även för tenure så möjligen borde det vara bananmönster i alla tre plottarna. Enligt modell 3 positiv för educ men negativ för de andra båda. Därmed bör vi ha residualer som ser ut som en glad mun för educ men lessen mun för de båda andra. Vad gäller Educ är det ganska lätt att urskilja den glada munnen. Möjligen lite svårare att se den lessna munnen i de båda andra variablerna. Går vi till modell tre där vi korrigerat för icke linjaritet borde bågmänstrat ha försvunnit. Vilket det väl kanske i någon mån har gjort. Det är ganska svårt att se problemen med icke-linjäritet i residualplottarna så i praktiken är det oftast enklare att prova sig fram och testa om en kvadrerad variabel är signifikant. 28

F) Eftersom frihetsgraderna är mer än 300 får vi samma värde ur t fördelningen som ur z fördelningen. Vid konfidensgraden 95 % blir t lika med 1,96 b ± t s Från modell 1: 1,812 ± 1,96 0,265 1,812 ± 0,519 Löneskillnaden ligger med 95 % sannolikhet mellan 1,3 och 2,3 dollar per timme. Från modell 2: 1,792 ± 1,96 0,258 1,792 ± 0,506 Löneskillnaden ligger med 95 % sannolikhet mellan 1,3 och 2,3 dollar per timme. Från modell 3: 1,653 ± 1,96 0,255 1,653 ± 0,500 Löneskillnaden ligger med 95 % sannolikhet mellan 1,2 och 2,2 dollar per timme. Från modell 4: 1,657 ± 1,96 0,255 1,657 ± 0,500 Löneskillnaden ligger med 95 % sannolikhet mellan 1,2 och 2,2 dollar per timme. G) Förklaringsgraderna anger andelen av varians i löner som respektive modell kan förklara. Om man lägger till fler variabler kan man kanske få upp denna och därmed kunna göra bättre skattningar. Exempel på intressanta variabler att lägga till kan vara typ av befattning (chef, tjänsteman, arbetare) olika yrkeskategorier etc. Om antalet manliga chefer är större än antalet kvinnliga chefer, vilket nog var ganska sannolikt på 70-talet i USA, kan man ana att koefficienten för female inte skulle vara lika negativ i en modell som innehöll den typen av variabler. 29

H) Från modell 1 y = 1,54 + 0,570 10 + 0,025 20 1,81 + 0,14 10 = 4,25 Från modell 2 y = 2,08 + 0,53 10 + 0,21 20 0,0041 20 20 1,79 + 0,13 10 = 5,29 Från modell 3 y = 2,87 0,38 10 + 0,038 10 10 + 0,20 20 0,0041 20 20 1,65 + 0,20 10 0,0027 10 10 = 5,31 Från modell 4 y = 2,93 0,39 10 + 0,039 10 10 + 0,21 20 0,0044 20 20 1,66 + 0,13 10 = 5,02 I) Från modell 1 y = 1,54 + 0,570 10 + 0,025 20 1,81 0,12 + 0,14 10 = 4,13 Från modell 2 y = 2,08 + 0,53 10 + 0,21 20 0,0041 20 20 1,79 0,18 + 0,13 10 = 5,11 Från modell 3 y = 2,87 0,38 10 + 0,038 10 10 + 0,20 20 0,0041 20 20 1,65 0,32 + 0,20 10 0,0027 10 10 = 4,99 Från modell 4 y = 2,93 0,39 10 + 0,039 10 10 + 0,21 20 0,0044 20 20 1,66 0,29 + 0,13 10 = 4,73 J) Från modell 1 y = 1,54 + 0,57 8 + 0,025 3 + 0,14 3 = 3,52 Från modell 2 y = 2,08 + 0,53 8 + 0,21 3 0,0041 3 3 + 0,13 3 = 3,14 Från modell 3 y = 2,87 0,38 8 + 0,038 8 8 + 0,20 3 0,0041 3 3 + 0,20 3 0,0027 3 3 = 3,40 Från modell 4 y = 2,93 0,39 8 + 0,039 8 8 + 0,21 3 0,0044 3 3 + 0,13 3 = 3,28 30

14 a) Regressionskoefficienten för logaritmerat pris på ekologiska äpplen i regressionerna med logaritmerat pris på ekologiska äpplen som beroende variabel dvs modell 1,3 och 4 ger oss egenpriselasticiteten på ekologiska äpplen. I alla tre modeller är denna koefficient signifikant vilket innebär att vi kan dra slutsatsen att elasticiteten inte är noll. Den ligger i alla tre modellerna mellan -0,4 och -0,5 så där någonstans har vi bästa gissningen för egenpriselasticiteten. b) Regressionskoefficienten för logaritmerat pris på konventionella äpplen i regressionerna med logaritmerat pris på ekologiska äpplen som beroende variabel dvs modell 1,3 och 4 ger oss korspriselasticiteten på ekologiska äpplen. I alla tre modeller är denna koefficient ej signifikant vilket innebär att korspriselasticiteten skulle kunna vara lika med noll. Den ligger i alla tre modellerna mellan 0,3 och 0,4 så där någonstans har vi bästa gissningen för korspriselasticiteten. c) Regressionskoefficienten för logaritmerat pris på konventionella äpplen i regressionerna med logaritmerat pris på konventionella äpplen som beroende variabel dvs modell 2 och 5 ger oss egenpriselasticiteten på konventionella äpplen. I båda modellerna är denna koefficient ej signifikant vilket innebär att egenpriselasticiteten skulle kunna vara lika med noll. I modell 2 är den -0,35 och i modell 5-0,296 så där någonstans har vi bästa gissningen för egenpriselasticiteten. d) Regressionskoefficienten för logaritmerat pris på ekologiska äpplen i regressionerna med logaritmerat pris på konventionella äpplen som beroende variabel dvs modell 2 och 5 ger oss korspriselasticiteten på konventionella äpplen. I båda modellerna är denna koefficient ej signifikant vilket innebär att korspriselasticiteten skulle kunna vara lika med noll. I modell 2 är den 0,254 och i modell 5 0,221 så där någonstans har vi bästa gissningen för korspriselasticiteten. e) Att enbart lägga till familjestorlek gjorde ingen större skillnad för att förklara äppelinköpen. Först när vi tar med antalet familjemedlemmar i olika åldersgrupper får vi någon vidare ökning av förklaringsgraden. Men den är fortfarande låg. För ekologiska äpplen är det bara antalet personer över 64 år som har en signifikant påverkan på familjens äppelinköp. I modellen för konventionella äpplen har även barn mellan 5 och 17 år en signifikant påverkan. f) De justerade förklaringsgraderna anger den andel av variansen i äppelinköp som förklaras av modellen. Förklaringsgraderna är väldigt låga i alla modellerna. I modell 5 som har den största förklaringsgraden är den ändå bara 4 % av variansen som förklaras av modellen. Hur mycket äpplen olika hushåll köper beror säkert på en mängd andra faktorer. Speciellt om man tycker om äpplen eller inte. 31

15 16 a) a = 15.1, har ingen rimlig tolkning eftersom priserna aldrig är noll och tolkas därför inte. b 1 = -4.15, förväntad förändring av försäljningen i miljoner kr vid en ökning av priset på den egna produkten med 1 kr/l då genomsnittspriset på konkurrerande produkter ej ändras b 2 = 2.24, förväntad förändring av försäljningen i miljoner kr vid en ökning av konkurrenternas genomsnittspris med 1 kr/l då det egna priset är oförändrat b) Modell 1; b = -3.55, mäter effekten av egna priset på försäljningen men innehåller inverkan från alla variabler som ej ingår i modellen bl a konkurrenternas genomsnittspris. Att denna är lägre än i modell 3 kan bero på att konkurrenterna tenderar att sänka priset samtidigt som vi gör det, vilket innebär att effekten av vår prisförändring blir mindre. Modell 3; b = -4.15, mäter effekten av egna priset på försäljningen då inverkan från konkurrenternas genomsnittspris eliminerats genom att denna variabel nu ingår i modellen c) t-kvot = 6.64 innebär att regressionskoefficienten för variabeln konkurrerande produkters genomsnittspris avviker så mycket från värdet noll att denna skillnad ej kan anses bero enbart på slumpen dvs den variabel som koefficienten står ihop med har med stor sannolikhet betydelse för den beroende variabelns utveckling. Egentligen behöver vi känna antalet frihetsgrader för att kunna tolka t-värdet men här är det så pass stort att koefficienten är signifikant oavsett antalet frihetsgrader. a) Dessa båda variabler uttrycktes i dollar i övning 5 medan de här uttrycks i tusen dollar. I övning 5 kom vi fram till att om vi satsar ytterligare en dollar per elev reduceras andelen som klarar provet med 0,006 procentenheter vid oförändrade värden på övriga oberoende variabler. Här skulle vi tolka det som att om vi satsar ytterligare tusen dollar reduceras andelen som klarar matteprovet med 6 procentenheter. Och innebörden av det är ju precis samma. För att göra om variabeln mätt i dollar till en variabel mätt i tusen dollar divideras alla värden med 1000. Monsekvensen av det blir att regressionskoefficienten blir 1 000 gånger så stor. (Detta illustrerar att det är viktigt att kontrollera enheterna nr man tolkar regressionskoefficienter) b) De log linjära modellerna har genomgående högre justerad förklaringsgrad än motsvarande linjär modell därmed kan vi säga att de loglinjära modellerna förklarar variationen i matematikresultat bättre. c) Modell 4 Interceptet är 76,8, tolkas ej eftersom inte alla oberoende variabler kan vara noll. Kostnad per elev är signifikant eftersom p värdet (0,000) är mindre än 5 %. Koefficientens värde -6,4 tolkas som att om vi ökar kostnaderna per elev med 1 000 dollar så sjunker andelen som klara matteprovet med 6,4 procentenheter vid oförändrade värden på övriga oberoende variabler. Genomsnittlig lärarlön är signifikant eftersom p värdet (0,002) är mindre än 5 %. Koefficientens värde 0,5 tolkas som att om vi ökar den genomsnittliga lärarlönen med 1 000 dollar så ökar andelen som klara matteprovet med 0,5 procentenheter vid oförändrade värden på övriga oberoende variabler. 32

Elever per lärare är signifikant eftersom p värdet (0,043) är mindre än 5 %. Koefficientens värde -0,8 tolkas som att om varje lärare får ytterligare en elev att undervisa så sjunker andelen som klara matteprovet med 0,8 procentenheter vid oförändrade värden på övriga oberoende variabler. Procent av elever med rätt till fri lunch är signifikant eftersom p värdet (0,000) är mindre än 5 %.Koefficientens värde -0,3 tolkas som att om andelen elever med rätt till fri lunch ökar med en procentenhet så sjunker andelen som klara matteprovet med 0.3 procentenheter vid oförändrade värden på övriga oberoende variabler. Bidrag från välgörenhetsorganisationer är signifikant eftersom p värdet (0,002) är mindre än 5 %. Koefficientens värde 5,2 tolkas som att om ett skoldistrikt får ytterligare 1 000 dollar i bidrag från välgörenhetsorganisationer ökar andelen elever som klarar matteprovet med 5,2 procentenheter vid oförändrade värden på övriga oberoende variabler. Vinst per elev är signifikant eftersom p värdet (0,010) är mindre än 5 %. Koefficientens värde -4,0 tolkas som att om vi ökar vinst per elev med 1 000 dollar så sjunker andelen som klara matteprovet med 4 procentenheter vid oförändrade värden på övriga oberoende variabler. Modell 9 Interceptet är 2,6, tolkas ej eftersom inte alla oberoende variabler kan vara noll. Kostnad per elev är signifikant eftersom p värdet (0,000) är mindre än 5 %. Koefficientens värde -1,2 tolkas som att om vi ökar kostnaderna per elev med en procent så sjunker andelen som klara matteprovet med 1,2 procent vid oförändrade värden på övriga oberoende variabler. Genomsnittlig lärarlön är signifikant eftersom p värdet (0,000) är mindre än 5 %. Koefficientens värde 0,5 tolkas som att om vi ökar den genomsnittliga lärarlönen med en procent så ökar andelen som klara matteprovet med 0,5 procent vid oförändrade värden på övriga oberoende variabler. Elever per lärare är signifikant eftersom p värdet (0,000) är mindre än 5 %. Koefficientens värde -0,7 tolkas som att om antalet elever per lärare ökar med en procent så sjunker andelen som klara matteprovet med 0,7 procent vid oförändrade värden på övriga oberoende variabler. Procent av elever med rätt till fri lunch är signifikant eftersom p värdet (0,000) är mindre än 5 %. Koefficientens värde -0,15 tolkas som att om andelen elever med rätt till fri lunch ökar med en procent så sjunker andelen som klara matteprovet med 0.15 procent vid oförändrade värden på övriga oberoende variabler. Bidrag från välgörenhetsorganisationer är signifikant eftersom p värdet (0,005) är mindre än 5 %. Koefficientens värde 0,6 tolkas som att om bidrag från välgörenhetsorganisationer ökar med en procent så ökar andelen elever som klarar matteprovet med 0,6 procent vid oförändrade värden på övriga oberoende variabler. Vinst per elev är signifikant eftersom p värdet (0,0131) är mindre än 5 %. Koefficientens värde -0,05 tolkas som att om vinst per elev ökar med en procent så sjunker andelen som klara matteprovet med 0,05 procent vid oförändrade värden på övriga oberoende variabler. Den genomgående skillnaden mellan den linjära modellen och den log linjära är att jag skriver procentenhet när jag tolkar den linjära modellen och procent när jag tolkar 33