MÄLARDALENS HÖGSKOLA. Akademin för hållbar samhälls- och teknikutveckling. Statistik. Övningar. Statistik och kvantitativa undersökningar 15 HP

Relevanta dokument
MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik. Statistik. Övningar. Statistik och kvantitativa undersökningar 15 HP

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 5. Poäng. Totalt 40. Betygsgränser: G 20 VG 30

MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik. Statistik. Övningar. Statistik och kvantitativa undersökningar 15 HP

MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik. Statistik. Övningar. Statistik och kvantitativa undersökningar 15 HP

MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik. Statistik. Övningar. Statistik och kvantitativa undersökningar 15 HP

Tentamen på Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 4

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars Ten 1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 10 e januari Ten 1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 4 e mars Ten 1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Fredagen den 9 e juni Ten 1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 HP. Ten1 9 HP. 19 e augusti 2015

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 24 e mars Ten 1, 9 hp

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 2

Lösningsförslag till övningar

Lösningsförslag till övningar

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 23 e mars Ten 1, 9 hp

Repetitionsföreläsning

Lösningsförslag till övningar

Lösningsförslag till övningar

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Laboration 2. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att utföra multipel regressionsanalys MÄLARDALENS HÖGSKOLA

Tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 16 e januari 2015

Tentamen på. Statistik och kvantitativa undersökningar STA001, 15 hp. Exempeltenta 1

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Tisdagen den 12 e januari Ten 1, 9 hp

Multipel Regressionsmodellen

Repetitionsföreläsning

Multipel regression och Partiella korrelationer

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Att välja statistisk metod

1. a) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar)

En rät linje ett enkelt samband. En rät linje + slumpbrus. Observationspar (X i,y i ) MSG Staffan Nilsson, Chalmers 1.

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

Uppgift 1. Deskripitiv statistik. Lön

Medicinsk statistik II

Tentamen på. Statistik och kvantitativa undersökningar STA101, 15 hp. Torsdagen den 22 mars TEN1, 9 hp

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik, allmän del Våren 2018

Tentamen Tillämpad statistik A5 (15hp)

Lösningar till SPSS-övning: Analytisk statistik

7.5 Experiment with a single factor having more than two levels

EXAMINATION KVANTITATIV METOD vt-11 (110204)

Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens

Skrivning i ekonometri torsdagen den 8 februari 2007

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

D. Samtliga beräknade mått skall följas av en verbal slutsats för full poäng.

Analytisk statistik. Mattias Nilsson Benfatto, PhD.

Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3

Residualanalys. Finansiell statistik, vt-05. Normalfördelade? Normalfördelade? För modellen

732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet

STOCKHOLMS UNIVERSITET VT 2009 Statistiska institutionen Jörgen Säve-Söderbergh

Laboration 3. Övningsuppgifter. Syfte: Syftet med den här laborationen är att träna på att analysera enkätundersökningar. MÄLARDALENS HÖGSKOLA

Spridningsdiagram (scatterplot) Fler exempel. Korrelation (forts.) Korrelation. Enkel linjär regression. Enkel linjär regression (forts.

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Analytisk statistik. Tony Pansell, optiker Universitetslektor

OBS! Vi har nya rutiner.

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

Tentamen Tillämpad statistik A5 (15hp)

InStat Exempel 4 Korrelation och Regression

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

OBS! Vi har nya rutiner.

EXAMINATION KVANTITATIV METOD vt-11 (110319)

Obligatorisk uppgift, del 1

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Fråga nr a b c d 2 D

ÖVNINGSUPPGIFTER KAPITEL 9

import totalt, mkr index 85,23 100,00 107,36 103,76

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

Samhällsvetenskaplig metod, 7,5 hp

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

Regressions- och Tidsserieanalys - F4

ordinalskala kvotskala F65A nominalskala F65B kvotskala nominalskala (motivering krävs för full poäng)

Tentamen i Statistik, STA A11/STA A14 (8 poäng) 25 augusti 2004, klockan

Föreläsning G60 Statistiska metoder

Linjär regressionsanalys. Wieland Wermke

Tentamen för kursen. Linjära statistiska modeller. 20 mars

Höftledsdysplasi hos dansk-svensk gårdshund

Forsknings- och undersökningsmetodik Skrivtid: 4h

Statistik B Regressions- och tidsserieanalys Föreläsning 1

Föreläsning 8. NDAB02 Statistik; teori och tillämpning i biologi

Ett A4-blad med egna handskrivna anteckningar (båda sidor) samt räknedosa.

Övningshäfte till kursen Regressionsanalys och tidsserieanalys

Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi

Uppgift a b c d e Vet inte Poäng

T-test, Korrelation och Konfidensintervall med SPSS Kimmo Sorjonen

FACIT (korrekta svar i röd fetstil)

Regressions- och Tidsserieanalys - F5

Sänkningen av parasitnivåerna i blodet

STOCKHOLMS UNIVERSITET HT 2008 Statistiska institutionen Johan Andersson

TENTAMEN. HiG sal 51:525A B eller annan ort. Lärare: Tommy Waller ( tel: eller )

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Fredag 8 december 2006, Kl

Transkript:

MÄLARDALENS HÖGSKOLA Akademin för hållbar samhälls- och teknikutveckling Statistik Övningar Statistik och kvantitativa undersökningar 15 HP Höstterminen 2014 1

Innehåll Deskriptiv statistik och index... 3 Sannolikhetslära... 7 Undersökningsdesign, konfidensintervall och bortfall... 11 Hypotesprövning... 15 Regression... 18 Icke parametriska metoder... 56 2

Deskriptiv statistik och index 1 Vilka av följande variabler kan betraktas som kontinuerliga och vilka kan betraktas som diskreta? Ålder Antal dörrar hos en bil Hastighet Antal barn Kroppslängd Intelligenskvot 2 När kan man här nedan tala om kvantitativ och när om kvalitativ variation: Kön Hemvist Kroppsvikt Lydig - olydig Ålder Bilmärke Spritmissbruk Förnamn 3 Diskutera skaltyp vid mätning av var och en av de variabler som omnämns nedan: Hårfärg Kroppsvikt C-vitaminhalt i apelsiner Gruppstorlek Grad av demokratisk ledarstil Alkoholvanor Temperatur Nationalitet Stad - land Hastigheten hos en bil Straffad - icke straffad Kryddningen av en maträtt Regnmängd arbetslöshet 4 Som bilaga till detta övningskompendium visas en enkät som använts i en studie av kompetensutveckling inom hotellbranschen. Diskutera skaltyp för de olika frågorna i enkäten. 3

5 Tabell 1 nedan visar procentuella fördelningen efter kön och tjänsteförhållanden för 400 anställda i företaget ASONAB. Tabell 1 Män Kvinnor Män + Kvinnor Arbetare 46,50 30,25 76,75 Tjänstemän 20,25 3,00 23,25 66,75 33,25 100,00 A B Beräkna antalet kvinnliga arbetare i företaget ASONAB. Ange hur stor andel av de manliga anställda som är tjänstemän i företaget ASONAB. 6 Denna fyrfältstabell anger de 500 anställda vid ett företag fördelade efter kön och ålder. Ålder <35 år >35år Män 50 100 150 Kvinnor 150 200 350 200 300 500 Gör om de absoluta frekvenserna i denna tabell till relativa så att a) varje kolumnsumma är 100% b) varje radsumma är 100% c) totalen 500 är 100% 7 En fårbonde skickade 100 lamm till slakt. Ur dessa drogs ett slumpmässigt urval om 11 lamm. Slaktvikterna i urvalet var: 10, 12, 13, 14, 14, 15, 16, 17, 17, 18, 20 Beräkna medelvärde, median, varians, standardavvikelse och Pearsson measure of skewness. 4

årliliga reparationskostnader 8 Följande diagram illustrerar vikten (i kg) för ett urval bestående av 26 stycken 10-åriga flickor med en viss sjukdom. 35 40 45 50 vikt i kg a) Vad kallas diagramtypen? b) Ange median, medelvärde, kvartilavstånd c) Finns det några extremvärden? d) Ange högsta och minsta värde. 9 Ett bussföretag samlar in följande information om sina 14 bussar Buss nr Ålder månader Årliga reparationskostnader Buss nr Ålder månader Årliga reparationskostnader 1 36 10 000 8 17 5 000 2 39 7 500 9 19 7 000 3 42 12 000 10 23 15 000 4 12 6 000 11 27 13 000 5 27 11 000 12 33 14 000 6 35 13 000 13 45 17 000 7 23 9 000 14 50 16 000 Baserat på den informationen skapas följande plot. 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 0 10 20 30 40 50 60 Bussens ålder i månader Vilka slutsatser kan du dra från diagrammet? 5

10 I nedanstående tabell anges antalet personbilar i trafik respektive antal motorcyklar i trafik i Sverige i december månad åren 1997-2001. Fordonsslag bestånd 1997 1998 1999 2000 2001 Personbilar i trafik 3 702 778 3 792 056 3 889 902 3 999 268 4 018 533 Motorcyklar i trafik 90 647 101 728 120 257 144 255 169 971 Beräkna två jämförbara serier av indextal som beskriver utvecklingen av de båda fordonsslagen under åren 1997-2001. 11 Beträffande prisutvecklingen för en varugrupp under åren 1996-2000 föreligger följande uppgifter, avseende den procentuella prisstegringen från närmast föregående år: År Procentuell prisstegring från närmast föregående år 1996 2,4 1997 4,5 1998 2,8 1999 4,0 2000 4,9 Procenttalen har erhållits genom att man för varje år har beräknat Laspeyres' index med närmast föregående år som basår och från indextalet subtraherat 100. A. Ange de nämnda indextalen. ( L I1995, 96, L I, 97 1996, etc). B. Beräkna ett kedjeindex för vart och ett av de sex åren 1995-2000 med 1995 som basår. 12 Tabellen nedan anger pris och kvantitet för tre olika produkter vid två olika år. År 1 År 2 Pris Kvantitet Pris Kvantitet tvål 20 210 21 200 schampo 30 100 29 130 Tandkräm 15 150 17 120 a) Beräkna Laspeyres pris index b) Beräkna Paasches pris index 13 Antag att löneindex för en viss typ av arbetskraft år 2000 var 123, och att basåret i den indexserien var 1990. Även KPI hade 1990 som basår och indexvärdet för KPI år 2000 var 118 i det här landet. a) Beräkna den procentuella ökningen av den nominella lönen mellan 1990 och 2000 b) Beräkna den procentuella ökningen av reallönen mellan 1990 och 2000. 6

Sannolikhetslära 1 En styrelse bestående av 8 personer, varav 5 män och 3 kvinnor, skall inom sig utse ett utskott. På hur många sätt kan detta ske, om utskottet skall bestå av: a) 3 personer b) 5 personer c) 3 män och 2 kvinnor? 2 Hur stor är sannolikheten att man vid slumpmässig dragning av ett kort ur en vanlig kortlek (52 kort) får a) en ruter b) en röd kung c) en kung eller en dam d) varken dam eller kung 3 Vilka av följande par av händelser är oberoende? a) Att få sexor i två successiva kast med en tärning. b) Att köra bil berusad och bli inblandad i en trafikolycka. c) Att ha körkort och äga bil. d) Två stycken varandra uteslutande händelser. e) Två successiva bestämningar av järnhalten i malm levererad från en och samma gruva. 4 En kvinna passerar tre trafikljus (A, B och C) på sin väg hem från arbetet. Ljusen är vid denna tid på dygnet inställda så att sannolikheten för rött ljus är 0,4 vid A, 0,7 vid B och 0,2 vid C. Rött ljus vid A, B respektive C är oberoende händelser. a) illustrera i ett träddiagram Beräkna sannolikheten: b) att både A och B visar rött ljus men inte C c) att åtminstone ett av de tre ljusen visar rött d) att exakt två ljus inte visar rött. 7

5 Maria kör bil längs huvudleden genom en mindre stad. Det finns två trafikljus på huvudleden, vilka är ihopkopplade i en så kallad grön våg för att underlätta trafikrytmen. Vid första trafikljuset är sannolikheten 0,6 för grönt ljus och 0,4 för rött ljus. Om Maria får rött ljus vid första trafikljuset är det ganska stor sannolikhet att hon får grönt vid nästa eftersom hon då kommer in i den gröna vågen. Den betingade sannolikheten för grönt ljus vid det andra trafikljuset givet att hon får rött vid första är 0,9. Men om Maria får grönt ljus vid första är sannolikheten lite lägre för grönt vid nästa. (Om hon kommer precis innan det slår om kanske hon inte hinner fram innan nästa ljus slår om till rött). Den betingade sannolikheten för grönt ljus vid det andra trafikljuset, givet att hon får grönt ljus vid första är därför bara 0,8. a. Illustrera ovanstående med ett sannolikhetsträd där alla sannolikheter anges, dvs de obetingade sannolikheterna för grönt respektive rött vid första trafikljuset, de betingade sannolikheterna för grönt respektive rött vid andra trafikljuset och de gemensamma sannolikheterna för utfallen vid båda trafikljusen. b. Hur stor är sannolikheten att Maria får rött vid minst ett av trafikljusen? 6 En restaurang som söker personal vill kunna informera de sökande om hur mycket dricks de kan förväntas tjäna på jobbet. Därför tar man fram statistik på hur mycket dricks servitörerna har fått per person och dag. Man väljer ut 500 dagar slumpmässigt och tar fram följande tabell. Total dricks per dag: Antal dagar 0 x < 20 200 20 x < 50 100 50 x < 100 75 100 x < 200 75 200 eller mer 50 a) Vad är sannolikheten att en servitör under en dag får 200 eller mer I dricks. b) Är de fem olika grupperna (0 x < 20, 20 x < 50 etc) ömsesidigt uteslutande? c) Är de fem olika grupperna (0 x < 20, 20 x < 50 etc) kollektivt uttömmande? d) Om vi summerar sannolikheterna för de 5 olika utfallen, vad blir summan då? e) Vad är sannolikheten att en servitör får mindre än 50 i dricks under en dag? f) Vad är sannolikheten att en servitör får mindre än 200 i dricks under en dag? 8

7 Av de anställda på ett stort företag är 80 procent kvinnor och 20 procent män. Av kvinnorna har 90 procent högskoleutbildning men enbart 78 procent av männen har högskoleutbildning. a) Illustrera personalsammansättningen i korstabeller med relativa frekvenser. En tabell där alla celler summerar till 1, en tabell där kolumnsummorna är 1 och en tabell där radsummorna är 1. b) Om man väljer ut en anställd slumpmässigt, vad är sannolikheten att det är en kvinna utan högskoleutbildning? c) Om man väljer ut en anställd slumpmässigt, vad är sannolikheten att det är en anställd utan högskoleutbildning? d) Om man väljer ut en kvinna slumpmässigt vad är sannolikheten att hon inte har högskoleutbildning? e) Är kön och utbildningsnivå oberoende variabler i populationen de anställda på detta företag? 8 Av alla låntagare i en bank har tidigare 7 % inte kunnat betala igen lånet i tid. I förra veckan betalade banken ut nya lån till 12 låntagare. a) Antalet personer som misslyckas med återbetalningen är en slumpvariabel, vad kallar vi dess fördelning? b) Hur många av de nya låntagarna tror du kommer att misslyckas med återbetalningen? Dvs vad är väntevärdet (medelvärdet) för denna sannolikhetsfördelning. c) Vad är sannolikheten att alla låntagare klarar av att betala tillbaka sitt lån. d) Vad är sannolikheten att exakt 1 kommer att misslyckas med återbetalningen? e) Vad är sannolikheten att minst en kommer att misslyckas med återbetalningen? f) Vad är sannolikheten att minst 2 kommer att misslyckas med återbetalningen? 9 En urna innehåller 10 kulor. Av dessa är 7 vita och 3 svarta. Du drar slumpmässigt 4 kulor ur urnan. a) Vad är sannolikheten att exakt 2 av kulorna är vita om du lägger tillbaka kulorna mellan varje dragning? b) Vad är sannolikheten att exakt två kulor är vita om du inte lägger tillbaka dem mellan varje dragning? 9

10 Antag att innehållet i en 12 kg förpackning med socker är en slumpvariabel som är uniformt fördelad mellan 11,96 och 12,05 kg. a) Vad är medelvärdet för förpackningarnas vikt? b) Vad är standardavvikelsen för vikten? c) Vad är sannolikheten att ett slumpvist valt sockerpaket väger mindre än 12 kilo? d) Vad är sannolikheten att ett slumpvis valt sockerpaket väger mer än 11,98 kg? e) Vad är sannolikheten att ett slumpvis valt sockerpaket väger mer än 11 kg? 11 Årslönen hos de anställda på ett amerikanskt storföretag är normalfördelad med medelvärdet 40 000 och standardavvikelsen 5 000 dollar. a) Hur stor andel av de anställda tjänar mer än 42 000 dollar? b) Hur stor andel tjänar mellan 32 000 och 42 000 per år? c) Hur stor andel tjänar mellan 32 000 och 35 000 per år? d) Antag att man väljer ut de 20 procent av de anställda som har högst lön. Hur mycket tjänar den som har lägst lön i den gruppen? 12 Enligt en undersökning är den summa pengar som amerikanska 30 åringar spenderar på restaurangbesök per år normalfördelad med medelvärdet 1 994 dollar och standardavvikelsen 450 a) Hur stor andel av 30 åringarna spenderar mer än 2 500 per år på restaurangbesök? b) Hur stor andel spenderar mellan 2 500 och 3 000 dollar per år på restaurangbesök? c) Hur stor andel spenderar mindre än 1 000 dollar per år på restaurangbesök? 10

Undersökningsdesign, konfidensintervall och bortfall 1 En normalfördelning har medelvärde 60 och standardavvikelse 12. Du drar ett slumpmässigt urval av 9 observationer. Beräkna sannolikheten att urvalsmedelvärdet är: a) Större än 63 b) Mindre än 56 c) Mellan 56 och 63 2 Ett företag tillverkar brieostar som ska väga 500 gram. I tillverkningsprocessen uppkommer dock en viss variation i vikten per ost. Ostarnas vikt är normalfördelad med medelvärdet 502 gram och standardavvikelsen 2 gram. a) Beräkna sannolikheten att en slumpmässigt vald ost väger mindre än 500 gram. b) Pelle ska köpa 5 ostar till sin fest. Beräkna sannolikheten att medelvärdet av de 5 ostarnas vikt är lägre än 500 gram. Betrakta Pelles ostinköp som ett slumpmässigt urval ur populationen alla ostar som är tillverkade av detta företag. c) Finns det skäl att ifrågasätta antagandet om slumpmässigt urval i fråga b? 3 En livsmedelsinspektör kontrollerar förpackningar som ska innehålla 3 kilo äpplen. Han kontrollväger ett slumpmässigt urval om 36 förpackningar och finner att urvalet har medelvärde 3,01 och standardavvikelsen 0,03. Beräkna ett 95 procents konfidensintervall för populationsmedelvärdet. 4 En undersökning av 50 slumpvis utvalda personer som blev uppsagda från jobbet i senaste lågkonjunkturen visar att det tog dem i genomsnitt 26 veckor att finna ett nytt jobb. Urvalets standardavvikelse var 6,2 veckor. Konstruera ett 95 procents konfidensintervall för medelvärdet av arbetslöshetstiden för hela populationen, dvs alla som blev uppsagda i senaste lågkonjunkturen. Är det troligt att medelvärdet för hela populationen är 28 veckor eller mer? 5 En politiker funderar på att ställa upp i landets presidentval. För att undersöka sina chanser att bli vald gör hon en urvalsundersökning. I ett slumpmässigt urval om 400 väljare säger 300 att de kommer att rösta på henne. a) Beräkna ett punktestimat för andelen i hela befolkningen som kommer att rösta på henne. b) Beräkna ett 99 procents konfidensintervall för andelen i hela befolkningen som kommer att rösta på henne. c) Tolka dina resultat 6 En population antas ha standardavvikelsen 10. Vi vill skapa ett 95 procentigt konfidensintervall för medelvärde där felmarginalen (halva konfidensintervallets längd) inte är större än 2. Hur stort urval behöver vi dra? 11

7 Genom totalundersökning av två populationer avsåg man att fastställa skillnaden i proportionen bilägare. Tyvärr lyckades man ej erhålla uppgifter från samtliga personer utan det förekom ett visst bortfall. Undersökningens resultat framgår av följande tabell: Population Antal Bilägare Icke-bilägare Bortfall Summa A 4 800 7 300 400 12 500 B 6 300 7 300 1 400 15 000 a) Vilken är den högsta tänkbara andelen bilägare i A? b) Vilken är den lägsta tänkbara andelen bilägare i A? c) Vilken är den högsta tänkbara andelen bilägare i B? d) Vilken är den lägsta tänkbara andelen bilägare i B? e) Vilket är det högsta respektive lägsta tänkbara värdet på skillnaden mellan A och B beträffande andelen bilägare? 8 Rubriken baseras alltså på de 2 550 som svarat av 7 500 tillfrågade. Beräkna proportionen»positiva till arbetet«bland samtliga 7 500 tillfrågade under antagande att A alla B ingen C 30% D 70% i bortfallsgruppen är positiva till arbetet. 12

9 a) Man vill ta reda på hur stor andel av landsbygdsbefolkningen som deltar i älgjakten och gör ett slumpmässigt urval om 2000 personer. I detta urval var bortfallet 20 %. Av de 1600 som svarade, hade 300 under undersökningsperioden deltagit i älgjakt. Beräkna ett 95 % konfidensintervall där du behandlar de svarande som ett slumpmässigt urval. b) Bland de 400 i bortfallet uttog man slumpmässigt 100. Efter åtskilligt besvär lyckades man få svar från alla 100, av vilka 55 stycken hade deltagit i älgjakt under undersökningsperioden. Beräkna ett punktestimat för andelen som deltagit i Älgjakten där du även tar hänsyn till bortfallsanalysen. 10 Förklara följande begrepp: a) Validitet b) Reliabilitet c) Operationalisering 13

11 Diskutera eventuella problem med formuleringarna av följande enkätfrågor och föreslå förbättringar: a) Hur ofta brukar du resa utomlands? o o o o Ofta Ganska ofta Sällan Aldrig b) Hur ofta brukar du resa utomlands? o o o o 1 gång per år 2-3 gånger per år 3-5 gånger per år Mer än 6 gånger per år c) Hur många anställda finns det på ditt arbete? d) Upplever du att du får uppskattning för dina arbetsprestationer o o o o Mycket ofta Ofta Ganska ofta Sällan e) Anser du att det krävs en hårdare lagstiftning för att begränsa utsläppen av klorerade kolväten? o o Ja Nej f) Klorerade kolväten är en svårnedbrytbar kemisk förening som orsakar svåra hälsoproblem. Anser du att det krävs en hårdare lagstiftning för att begränsa utsläppen av klorerade kolväten? o o Ja Nej g) Klorerade kolväten är mycket användbara som lösningsmedel pga av sina goda fettlösliga egenskaper. Anser du att man bör förenkla regelverket för industrins användning av klorerade kolväten? o o Ja Nej h) Kurslitteratur och andra läromedel gav gott stöd för att jag skulle kunna uppnå kursens lärandemål. Jag håller inte alls med 1 2 3 4 5 jag håller med helt och hållet 14

Hypotesprövning 1 En mäklarfirma hade tidigare en genomsnittlig försäljningstid på sina objekt på 90 dagar. Man misstänker att försäljningstiden har ändrats och gör en undersökning av 100 slumpvis utvalda fastigheter. I det urvalet var den genomsnittliga tiden för en försäljning 94 dagar med en standardavvikelse på 22 dagar. Gör en hypotestest för att undersöka om det har blivit en signifikant förändring av försäljningstiden. Använd 10 procents signifikansnivå. 2 Enligt en undersökning är medelantalet personer i ett hushåll i USA lika med 3,13. Donald tror att hushållen är mindre i hans stad och gör en urvalsundersökning. Han drar ett slumpmässigt urval om 25 hushåll och i det urvalet visar det sig att medelvärdet är 2.86 medlemmar per hushåll. I urvalet var standardavvikelsen 1,20. Donald gör en hypotestest för att se om antalet medlemar per hushåll är mindre än 3.13 i Donalds stad. Han använder 5 % signifikansnivå. Utifrån den undersökningen drar han slutsatsen att hushållen är lika stora i hans stad som i hela USA. Finns det skäl att kritisera Donalds undersökning och slutsats? 3 Ett dataföretags supportavdelning vill undersöka om det tar längre tid att hjälpa kunder med mjukvaruproblem än kunder med hårdvaruproblem. Man tar ett slumpmässigt urval om 35 kunder med mjukvaruproblem och ett annat slumpmässigt urval om 45 kunder med hårdvaruproblem. I urvalet för mjukvaruproblem var medelvärdet för samtalstiden 18 minuter med en standardavvikelse på 4,2 minuter. För kunderna med hårdvaruproblem var medelvärdet för samtalstiden 15,5 minuter med en standardavvikelse på 3,9 minuter. Gör en hypotestest för att undersöka om vi kan hävda att det tar längre tid att lösa ett mjukvaruproblem än ett hårdvaruproblem. Kan vi dra slutsatsen att medelvärdet för samtalstiden i hela populationen kunder med mjukvaruproblem är längre än medelvärdet för hela populationen kunder med hårdvaruproblem? Använd 5 % signifikansnivå. 4 I baseball kan man dela i spelarna i guards, forwards och center. För att se om dessa tre typer av spelare har ungefär lika hög lön gjordes en ANOVA test på ett urval av 269 baseballspelare. Resultatet visas nedan. a) Ange viken noll och alternativhypotes som används i detta ANOVA-test. b) Vilka slutsatser kan dras från detta test om vi vill ha en signifikansnivå på 5%? c) Vilka antaganden ska vara uppfyllda för att ANOVA testen ska vara tillförlitligt. Anser du att de är det i det här fallet? d) Konstruera tre 95 % konfidensintervall för populationsmedelvärdena, ett för varje spelarkategori e) Jämför resultatet i ANOVA-testet med dina konfidensintervall 15

5 I undersökningen om gymvanor i Bryman och Bell var det 42 män och 48 kvinnor i urvalet. På variabeln stryketräningstid föregående träningspass hade männen ett medelvärde på 18,05 minuter med en standardavvikelse på 9,27 minuter. Kvinnorna hade ett medelvärde på 12,19 minuter med en standardavvikelse på 5,33 minuter. a) Gör en lämplig test för att se om variansen är lika för män och kvinnor i hela populationen. Använd 2 % signifikansnivå. b) Gör en lämplig test för att se om medelvärdet är samma för män och kvinnor i hela populationen. Använd 1 % signifikansnivå. 6 SPSS utskriften nedan kommer från gymundersökningen i Bryman och Bell. Det är en test på hur lång tid män och kvinnor ägnar åt konditionsträning. Tolka SPSS resultaten och förklara vilka slutsatser som vi kan dra om vi använder en signifikansnivå på 5%. 7 Vi fortsätter med Gymundersökningen men nu skiljer vi inte mellan män och kvinnor utan betraktar det som ett urval ur en population. I hela urvalet är medelvärdet för konditionsträning 26,47 minuter med standardavvikelsen 26,47 minuter och för styrketräning 14,92 minuter med standardavvikelsen 7,95 minuter. Om vi skapar en variabel för skillnaden mellan den tid en person ägnar åt konditionsträning och den tid han eller hon ägnar åt styrketräning blir medelvärdet för den variabeln 11,54 med standardavvikelsen 13,69. Ägnar personerna i hela populationen lika mycket tid åt konditionsträning som åt styrketräning? Gör en hypotestest där du använder 1 % signifikansnivå. 16

8 En läkare vill undersöka om kognitiv beteendeterapi kan användas för att sänka blodtrycket hos patienter med för högt blodtryck. Han baserar sin studie på 10 slumpvis utvalda patienter. Tabellen nedan visar deras blodtryck före och efter behandlingen. Anders Eva Lotta Per Lars Ove Stina Anna Nils Klas medel std före 153 148 139 126 149 135 138 132 121 135 137,6 10,2 efter 148 138 140 121 141 120 131 126 121 140 132,6 10,1 Läkaren beräknar följande teststatistika. t = 137,6 132,6 10,22 2 10 +10,1 10 = 5 4,53 = 1,1 Eftersom han har ett urval av 10 patienter anser han att denna tesstatiska bör vara t-fördelad med 9 frihetsgrader. Det kritiska värdet givet en signifikansnivå på 5 % blir då 2,26 Eftersom hans teststatistika är lägre än det kritiska värdet drar läkaren slutsatsen att kognitiv beteendeterapi inte har någon effekt på blodtrycket. a) Finns det några skäl att ifrågasätta läkarens analys? b) Föreslå en bättre metod att analysera detta. c) Utför den test du föreslagit i b-frågan. 17

Regression Uppgifter markerade med * är lite mer överkurs. 1 Bilderna nedan visar plottar över observationerna och regressionslinjen från tre olika regressioner som alla har en enda förklarande variabel. Ange om följande uttalanden är sanna eller falska. a) Regressionskoefficienten b är positiv i alla tre regressionerna. b) Korrelationskoefficienten r är positiv i A och C men negativ i B. c) Korrelationskoefficienten r är större i C än i A. d) Regressionskoefficienten b är större i C än i A. e) Korrelationskoefficienten r är positiv i A och negativ i B men har ungefär lika stort absolut värde i både A och B. f) Regressionskoefficienten b är positiv i A och negativ i B men har ungefär lika stort absolut värde i både A och B. 18

2 Vad kallas det mått som erhålls om man dividerar residualvariansen med variansen av en 2 se förklarade variabeln och sedan beräknar 1 den kvoten, dvs1 Förklara den intuitiva 2 s innebörden av måttet. y 3 I en amerikansk undersökning studerades den tid pensionärer dagligen ägnade åt TVtittande. En multipel regressionsmodell anpassades. Som oberoende variabler användes x 1 = ålder och x 2 = utbildningstid i år. Den anpassade regressionsekvationen blev: y = 3.18 + 0.013 x 1 0.185 x 2 A. Gör en tolkning av koefficienten för x 2 i termer av de ingående variablerna. B. Skatta den tid en 74-åring med 11 års utbildning dagligen tittar på TV. 4 För vart och ett av följande variabelpar, tala om, om Du förväntar Dig att regressionskoefficienten skall bli positiv eller negativ. A. X: Familjeinkomst Y: Procent av inkomsten som är matkostnader B. X: Trafiktäthet på en bro vid olika tidpunkter Y: Genomsnittlig tidsåtgång för en bil att passera bron C. X: Familjestorlek Y: Utgifter för nya kläder per person i familjen D. X: Försäljning av en viss vara i ett varuhus Y: Innestående lager av varan. 19

5 Ska vi ge mer resurser till skolorna eller höja lärarnas löner? För att analysera vilka faktorer som är viktiga för att få goda resultat i skolorna samlades data in från ett urval av 550 amerikanska skolor. Vi har information om andel som klarade godkänt resultat på provet i matte i årskurs 7, ekonomiska resurser per elev, lärarlön samt hur stora bidrag skolan har fått från välgörenhetsorganisationer. Variabelförteckning: Procent som klarade matteprovet i årskurs 7, 1998 ekonomiska resurser per elev (dollar) 1998 Genomsnittlig lärarlön (tusen dollar) 1998 bidrag från välgörenhetsorganisationer och fonder (dollar): 1995-98 Källa: Michigan Department of Education web site, www.michigan.gov/mde. En regressionsmodell estimerades på dessa variabler. Resultatet visas på nästa sida. Besvara följande frågar med hjälp av regressionsresultatet. a) Tolka regressionskoefficienterna och deras p-värde under antagandet att det inte finns några kausala samband från den beroende till de oberoende variablerna. Använd 5 % signifikansnivå. b) Finns det anledning att tro att det finns några kausala samband från den beroende variabeln till någon eller några av de oberoende variablerna? Om det är fallet hur påverkar det tolkningen av regressionskoefficienter na? c) Beräkna determinationskoefficienterna. d) Beräkna det predikterade värdet för genomströmningen (andel godkända) på matteprovet i sjunde årskursen i en skola som har genomsnittliga lärarlöner på 40 000 dollar, spenderar 6 000 dollar per elev och får 4 000 dollar i bidrag från välgörenhetsorganisationer. 20

Results from the regression 21

6 Bilderna nedan visar plottar över residualerna mot en av de förklarande variablerna från tre olika regressionsmodeller. Vilken modell skulle du vara mest nöjd med? Vilka problem kan du ana i de andra två? Regression A: Regression B: Regression C: 22

7 Brottslighet För att analysera vilka faktorer som påverkar brottsligheten gjordes en undersökning i USA 1993 där man försökte förklara skillnader i våldsbrott och stölder. Följande variabler samlades in från USA, 51 delstater criv = antal våldsbrott per 100 000 invånare crip = antal stölder per 100 000 invånare black = andel svarta i befolkningen metro = andel av befolkningen som bor i storstäder unem = andel arbetslösa incpc = befolkningens medelinkomst i dollar polpc = antal poliser per 100 000 invånare Källa: S.D. Levitt (1996), The Effect of Prison Population Size on Crime Rates: Evidence from Prison Overcrowding Legislation, Quarterly Journal of Economics 111, 319-351 På de här variablerna har jag gjort två olika regressionsmodeller I SPSS, resultaten redovisas på nästa sida. Baserat på de resultaten ska du besvara följande frågor. Tolka regressionskoefficienterna och deras p-värden, under antagandet att det inte finns någon påverkan från den beroende variabeln till de oberoende variablerna, använd 5 % signifikansnivå. Diskutera om det kan tänkas finnas något orsakssamband från den beroende variabeln till någon av de oberoende variablerna. Beräkna och tolka förklaringsgraderna i modell 1 såväl R2 som R2adj. Beräkna det predikterade värdet på antal våldsbrott per 100 000 invånare i en delstat där andelen svarta är lika med 0,2, andelen storstadsbor är lika med 0,3 andelen arbetslösa är lika med 0,06, befolkningens medelinkomst är 20 000 dollar och antal poliser på 100 000 invånare är 250. Beräkna det predikterade värdet på antal stölder per 100 000 invånare för samma delstat som i d uppgiften. 23

Modell 1 Modell 2 24

8 Hälsoeffekter av vinkonsumtion För att analysera hur hälsan påverkas av vindrickande samlades följande data in från ett urval av 21 länder. alcohol heart liver deaths liter alkohol från vin, per person. antal dödsfall hjärtsjukdomar per 100,000 invånare antal dödsfall leversjukdomar per 100,000 invånare antal dödsfall per 100,000 invånare Source: These data were reported in a New York Times article, December 28, 1994. På denna data estimerades tre olika regressionsmodeller. Resultaten redovisas nedan: Model 1: Model2: 25

26

Model 3: a) Rapportera och tolka regressionskoefficienterna och deras p-värden från alla tre modellerna. Använd en signifikansnivå på 5 % b) Beräkna förklaringsgraden och den justerade förklaringsgraden från modell 3. c) Tolka den justerade förklaringsgraden i alla tre modellerna. d) Vad är det predikterade värdet för antalet döda i leversjukdomar i ett land där befolkningen dricker 2 liter alkohol från vin per person? e) Vad är det predikterade värdet för antalet döda i hjärtsjukdomar i ett land där befolkningen dricker 2 liter alkohol från vin per person? 27

9 Vad styr snabbmatsrestaurangernas prissättning? Ibland försöker företag prisdiskriminera mellan olika kunder, dvs ta ut högre priser från kunder med högre betalningsförmåga. För att undersöka om detta är fallet bland snabbmatsrestauranger insamlas följande data från 410 restauranger tillhörande kedjorna Wendys, Burger King, King Fried Chicken och Roy Rogers. Variabelförteckning: Pentree: Priset på den vanligaste huvudrätten (hamburgare eller kyckling) Income: Medianhushållets inkomst i det postnummer område där restaurangen ligger BK: Dummyvariabelsom tar värdet 1 om Burger King KFC: Dummyvariabelsom tar värdet 1 om King Fried Chicken RR: Dummyvariabelsom tar värdet 1 om Roy Rogers (Restaurangerna som tillhör Wendys har alltså noll på alla tre dummyvariablerna) Source: K. Graddy (1997), "Do Fast-Food Chains Price Discriminate on the Race and Income Characteristics of an Area?" Journal of Business and Economic Statistics 15, 391-401. På dessa variabler har jag gjort en korrelationsmatris och två regressionsmodeller. Besvara frågorna nedan med hjälp av resultaten på de följande sidorna. a) Förklara skillnaden mellan de båda modellerna. b) Tolka regressionskoefficienterna och deras p-värden och förklara vilka slutsatser vi kan dra från koefficienterna. c) Hur kommer det sig att koefficienten för inkomst blir så olika i de båda modellerna? d) Gör en residualanalys e) Beräkna förklaringsgraden i modell två, såväl R 2 som R 2 adjusted. Tolka förklaringsgraderna till båda modellerna. f) Förekommer det prisdiskriminering mellan rika och fattiga områden enligt de båda modellerna, vilken modell tror du mest på motivera. g) Beräkna ett 99 % konfidensintervall för prisskillnaden mellan Burger King och Wendys. Tolka innebörden av intervallet 28

Nedan visas en korrelationsmatris över dessa variabler. Correlations pentree income BK KFC RR pentree Pearson Correlation 1 -,103 * -,498 **,900 ** -,194 ** Sig. (2-tailed),048,000,000,000 N 373 373 373 373 373 income Pearson Correlation -,103 * 1,048 -,140 **,162 ** Sig. (2-tailed),048,352,007,002 N 373 373 373 373 373 BK Pearson Correlation -,498 **,048 1 -,430 ** -,458 ** Sig. (2-tailed),000,352,000,000 N 373 373 373 373 373 KFC Pearson Correlation,900 ** -,140 ** -,430 ** 1 -,277 ** Sig. (2-tailed),000,007,000,000 N 373 373 373 373 373 RR Pearson Correlation -,194 **,162 ** -,458 ** -,277 ** 1 Sig. (2-tailed),000,002,000,000 N 373 373 373 373 373 *. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed). 29

Regressionsmodell 1 Variables Entered/Removed b Variables Variables Model Entered Removed Method 1 income a. Enter a. All requested variables entered. b. Dependent Variable: pentree Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate 1,103 a,011,008,64417 a. Predictors: (Constant), income b. Dependent Variable: pentree ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 1,637 1 1,637 3,944,048 a Residual 153,947 371,415 Total 155,584 372 a. Predictors: (Constant), income b. Dependent Variable: pentree Coefficients a Unstandardized Coefficients Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) 1,559,122 12,772,000 income -4,979E-6,000 -,103-1,986,048 a. Dependent Variable: pentree 30

31

Regressionsmodell 2 Variables Entered/Removed b Variables Variables Model Entered Removed Method 1 RR, income, KFC, BK. Enter a. All requested variables entered. b. Dependent Variable: pentree Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate 1,910 a,27008 a. Predictors: (Constant), RR, income, KFC, BK b. Dependent Variable: pentree ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 128,740 4 32,185 441,225,000 a Residual 26,844 368,073 Total 155,584 372 a. Predictors: (Constant), RR, income, KFC, BK b. Dependent Variable: pentree Coefficients a Unstandardized Coefficients Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) 1,104,059 18,630,000 income 1,367E-6,000,028 1,271,205 BK -,225,042 -,172-5,320,000 KFC 1,303,047,816 27,459,000 RR -,078,047 -,051-1,660,098 a. Dependent Variable: pentree 32

33

10 Ingenjörslöner i Thailand Man vill undersöka vilka faktorer som påverkar lönenivåerna för thailändska Ingenjörer. Följande variabler har samlats in. wage male swage exper pexper månadslön, Thai baht =1 om man ingångslön År på nuvarande jobb Tidigare erfarenhet, år Man samlade även in uppgift om utbildningsnivå och skapade följande dummyvariabler. highdrop highgrad college grad polytech =1 om ingen high school examen =1 om high school examen =1 om college examen =1 om någon högre utbildning =1 om polytech utbildning Källa: Thada Chaisawangwong, a graduate student at MSU, obtained these data for a term project in applied econometrics. They come from the Material Requirement Planning Survey carried out in Thailand during 1998. På de följande sidorna finns resultaten från två olika regressionsmodeller på ovanstående data. Använd dem för att besvara följande frågor a) Förklara skillnaden mellan de båda modellerna. b) Tolka regressionskoefficienterna och deras p-värden och förklara vilka slutsatser vi kan dra från de båda modellerna. c) Varför är värdet på många av regressionskoefficienterna lägre i modell 2? d) Gör en residualanalys e) Tolka förklaringsgraderna f) Beräkna ett 95 % konfidensintervall för skillnaden i lön mellan män och kvinnor enligt modell 1 g) Vilken av de båda modellerna anser du vara mest tillförlitlig. 34

Regressionsmodell 1 Variables Entered/Removed b Variables Model Variables Entered Removed Method 1 polytech, pexper, exper, college, grad, male, highgrad. Enter a. All requested variables entered. b. Dependent Variable: wage Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate 1,825 a,680,675 9722,04256 a. Predictors: (Constant), polytech, pexper, exper, college, grad, male, highgrad b. Dependent Variable: wage ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 7,941E10 7 1,134E10 120,025,000 a Residual 3,733E10 395 94518111,539 Total 1,167E11 402 a. Predictors: (Constant), polytech, pexper, exper, college, grad, male, highgrad b. Dependent Variable: wage Coefficients a Unstandardized Coefficients Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) 19433,003 4224,657 4,600,000 male 7573,664 1211,458,222 6,252,000 exper 253,150 278,460,026,909,364 pexper -103,863 47,447 -,064-2,189,029 highgrad 1592,401 1892,372,046,841,401 college 22550,459 2280,971,429 9,886,000 grad 36427,158 2391,507,693 15,232,000 polytech 4882,770 2059,967,127 2,370,018 a. Dependent Variable: wage 35

36

Regressionsmodell 2 Variables Entered/Removed b Model Variables Entered Variables Removed Method 1 swage, exper, polytech, pexper, college, male, highgrad, grad. Enter a. All requested variables entered. b. Dependent Variable: wage Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate 1,909 a,826,823 7174,48167 a. Predictors: (Constant), swage, exper, polytech, pexper, college, male, highgrad, grad b. Dependent Variable: wage ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 9,647E10 8 1,206E10 234,263,000 a Residual 2,028E10 394 51473187,275 Total 1,167E11 402 a. Predictors: (Constant), swage, exper, polytech, pexper, college, male, highgrad, grad b. Dependent Variable: wage Coefficients a Unstandardized Coefficients Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) -2101,868 3334,563 -,630,529 male 2411,382 937,914,071 2,571,011 exper 566,378 206,211,058 2,747,006 pexper -236,332 35,762 -,145-6,608,000 highgrad 121,393 1398,832,004,087,931 college 7421,262 1877,293,141 3,953,000 grad 7301,757 2382,218,139 3,065,002 polytech 1438,853 1531,903,038,939,348 swage 1,652,091,739 18,202,000 a. Dependent Variable: wage 37

38

11 Korrelationskoefficienten mäter styrkan i det linjära sambandet mellan två variabler. Då undersökningsenheterna är geografiska områden av varierande befolkningsstorlek, får man ofta ett högt värde på korrelationskoefficienten. Exempelvis kan relateras en undersökning av ungdomsbrottslighet där man bl a för ett antal områden beräknade korrelationen mellan antal ungdomsbrott begångna under året och antal förvärvsarbetande mödrar bosatta i området. Korrelationen blev mycket hög. Ge en förklaring varför man i en sådan här situation får en hög korrelation. 12 * Man tror att det efter en viss operation (avlägsnande av bröstvävnad på grund av bröstcancer) är farligt för en kvinna att bli med barn (graviditeten ökar risken för återfall i cancer). En intresserad läkare undersökte en grupp kvinnor som hade genomgått denna operation. För varje kvinna noterades såväl antalet födda barn som överlevelsetiden efter operationen. Läkaren upptäckte att ju fler barn kvinnan fick desto längre (i genomsnitt) levde hon. Hans slutsats blev då att föreställningen om graviditetens farlighet var överdriven. Kommentera! 39

13 Lönediskriminering 1976 samlade Henry Farber från MIT in data over löner, utbildning och arbetserfarenhet i ett OSU om 526 individer för att studera lönediskriminering. Baserat på den datan har jag gjort två olika regressionsmodeller i SPSS. Utskrifter från dessa finns inklistrade nedan. Efter datautskrifterna följer ett antal frågor att besvara. Variabelförteckning: Wage genomsnittlig timlön Educ utbildning antal års skolgång Exper arbetslivserfarenhet, år Expersq arbetslivserfarenhet, år upphöjt till 2. Tenure antal år hos senaste arbetsgivaren Nonwhite dummyvariabel som tar värdet 1 om individen inte är vit, noll annars Female dummyvariabel med värdet 1 om individen är kvinna, noll annars Korrelationsmatris mellan de oberoende variablerna. Correlations female educ exper tenure nonwhite female Pearson Correlation 1 -,085 -,042 -,198 ** -,011 Sig. (2-tailed),051,341,000,803 N 526 526 526 526 526 Educ Pearson Correlation -,085 1 -,300 ** -,056 -,085 Sig. (2-tailed),051,000,198,052 N 526 526 526 526 526 exper Pearson Correlation -,042 -,300 ** 1,499 **,014 Sig. (2-tailed),341,000,000,743 N 526 526 526 526 526 tenure Pearson Correlation -,198 ** -,056,499 ** 1,012 Sig. (2-tailed),000,198,000,791 N 526 526 526 526 526 nonwhite Pearson Correlation -,011 -,085,014,012 1 Sig. (2-tailed),803,052,743,791 N 526 526 526 526 526 **. Correlation is significant at the 0.01 level (2-tailed). 40

Regressionsresultat modell 1. Variables Entered/Removed b Variables Model Variables Entered Removed Method 1 nonwhite, female, exper, educ, tenure. Enter a. All requested variables entered. b. Dependent Variable: wage Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate 1,603 a,364,358 2,96020 a. Predictors: (Constant), nonwhite, female, exper, educ, tenure b. Dependent Variable: wage ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 2603,752 5 520,750 59,427,000 a Residual 4556,662 520 8,763 Total 7160,414 525 a. Predictors: (Constant), nonwhite, female, exper, educ, tenure b. Dependent Variable: wage Coefficients a Unstandardized Coefficients Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) -1,540,732-2,103,036 female -1,812,265 -,245-6,835,000 Educ,570,050,428 11,507,000 Exper,025,012,093 2,188,029 tenure,141,021,276 6,660,000 nonwhite -,116,427 -,010 -,271,786 a. Dependent Variable: wage 41

42

Regressionsresultat modell 2. Variables Entered/Removed b Variables Model Variables Entered Removed Method 1 expersq, nonwhite, female, educ, tenure, exper. Enter a. All requested variables entered. b. Dependent Variable: wage Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate 1,632 a,399,392 2,87983 a. Predictors: (Constant), expersq, nonwhite, female, educ, tenure, exper b. Dependent Variable: wage ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 2856,118 6 476,020 57,397,000 a Residual 4304,296 519 8,293 Total 7160,414 525 a. Predictors: (Constant), expersq, nonwhite, female, educ, tenure, exper b. Dependent Variable: wage Coefficients a Unstandardized Coefficients Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) -2,078,719-2,890,004 female -1,792,258 -,243-6,948,000 Educ,528,049,396 10,818,000 Exper,205,034,754 5,948,000 tenure,134,021,262 6,477,000 nonwhite -,183,416 -,015 -,440,660 expersq -,004,001 -,690-5,516,000 a. Dependent Variable: wage 43

44

A) Förekommer det diskriminering av kvinnor enligt de här regressionsmodellerna? B) Förekommer det diskriminering av icke vita enligt de här regressionsmodellerna? C) Förklara verbalt skillnaden mellan de två olika regressionsmodellerna. D) Tolka regressionskoefficienterna för Exper och Expersq i båda modellerna. E) Gör en analys av residualerna för att se om vi har några statistiska problem i de här två modellerna. F) Vilken av modellerna skulle du välja att presentera om du skulle skriva en rapport från den här analysen? G) Beräkna ett konfidensintervall med 95 % konfidensgrad för skillnaden mellan män och kvinnors löner när vi har tagit hänsyn till skillnader i utbildning och erfarenhet. H) Diskutera vilka slutsatser vi kan dra från värdet på Adjusted R Square i de båda modellerna. Finns det skäl att försöka samla in data över fler variabler? I) Beräkna det predikterade värdet för en vit kvinna med 10 års utbildning och 20 års arbetslivserfarenhet, varav de sista 10 åren har varit hos samma arbetsgivare från respektive regressionsmodell. J) Beräkna det predikterade värdet för en vit man med 8 års utbildning och 3 års yrkeserfarenhet från en och samma arbetsgivare från respektive regressionsmodell. 45

14 Skattning av priselasticiteter på ekologiska respektive konventionellt odlade äpplen. Jeffrey Blend gjorde ett experiment för att skapa data över inköp av äpplen vid olika priser på konventionellt odlade respektive ekologisk odlade äpplen. 660 personer fick en enkät där de fick svara om de skulle köpa ekologiska äpplen eller konventionellt odlade äpplen samt hur stor mängd i ponds, givet vissa hypotetiska priser på dessa båda produkter. Eftersom priserna är påhittade påverkas de inte av efterfrågan och därmed blir det möjligt att skatta priselasticiteter. Genom att priser finns för såväl konventionella som ekologiska äpplen kan vi även skatta korspriselasticiteten. Besvara frågorna på nästa sida med hjälp av regressionsresultaten i tabellen nedan. (I de tidigare uppgifterna har ni fåt resultatet direkt från SPSS för att träna på att tolka datautskrifter, i den här uppgiften redovisar jag istället resultaten så som man brukar redovisa dem när man skriver uppsatser.) Resultat från regressionerna Beroende variabel: Förklarande variabler: Intercept Logaritmerat pris ekologiska äpplen Logaritmerat pris konventionella äpplen Antal familjemedlemmar Antal barn under 5 år Antal barn 5 17 år Antal vuxna 18 64 år Antal vuxna över 64 år Modell 1 Modell 2 Modell 3 Modell 4 Modell 5 Logaritmen av kvantitet ekologiska äpplen 0,273* -0,447* (0,031) 0,344 (0,111) Logaritmen av kvantitet konv. äpplen 0,252* 0,254 (0,319) -0,359 (0,139) Logaritmen av kvantitet ekologiska äpplen 0,236* -0,454* (0,028) 0,352 (0,102) 0,012 (0,215) Logaritmen av kvantitet eklogiska äpplen 0,190* -0,475* (0,022) 0,356 (0,097) -0,001 (0,950) 0,019 (0,200) 0,027 (0,136) 0,102* (0,002) Logaritmen av kvantitet konv. äpplen 0,114* (0,004) 0,221 (0,380) -0,296 (0,217) -0,025 (0,310) 0,058* (0,001) 0,039 (0,051) 0,089* (0,015) R 2 adj 0,007 0,007 0,008 0,022 0,041 Regressionskoefficienternas p-värden anges inom parentes *variabler signifikanta på 5 % nivån markerade med stjärna Data Source: These data were used in the doctoral dissertation of Jeffrey Blend, Department of Agricultural Economics, Michigan State University, 1998. The data were obtained from a telephone survey conducted by the Institute for Public Policy and Social Research at MSU. 46

a) Vad är egenpriselasticiteten för ekologiska äpplen enligt dessa regressioner b) Vad är korspriselasticiteten för ekologiska äpplen med avseende på priset på konventionella äpplen enligt dessa regressioner c) Vad är egenpriselasticiteten för konventionella äpplen enligt dessa regressioner d) Vad är korspriselasticiteten för konventionella äpplen med avseende på priset på ekologiska äpplen enligt dessa regressioner e) Vilka slutsatser kan dras från variablerna om hushållsstorlek och antal familjemedlemmar i olika åldrar. f) Tolka och kommentera förklaringsgraderna i de fyra modellerna 15 Ett företag som säljer diskmedel, genomför en marknadsundersökning för att se i vilken mån den egna försäljningen beror endast på priset på den egna produkten eller om det kan vara så att även konkurrerande varors priser är av betydelse. Följande variabler utnyttjas: y = värdet av den egna försäljningen i miljoner kr x 1 = priset på den egna produkten i kr per liter x 2 = genomsnittspriset på konkurrerande produkter i kr per liter Följande modeller prövades: 1. y = + 1x 1 + 2. y = + 2x 2 + 3. y = + 1x 1 + 2x 2 + De skattade regressionsekvationerna blev 1. yˆ 21.6 3.55x1 R 2 = 0.22 2. yˆ 0.365 2.04x2 R 2 = 0.41 3. yˆ 15.1 4.15x1 2. 24x2 R 2 = 0.70 a) Tolka koefficienterna i den multipla modellen i termer av de ingående variablerna. b) Kommentera förändringen av regressionskoefficienten för egna priset vid en jämförelse mellan modellerna 1 och 3. c) Vid anpassning av modell 3 visar det sig att regressionskoefficienten för konkurrerande varors pris får en t-kvot = 6.64. Hur tolkar Du detta värde? 47

16 Hur ska vi förbättra matematikkunskaperna? I den här frågan ska vi tränga lite djupare in i det dataset som användes i övning 5. Följande variabler samlades in från ett urval av 550 skoldistrikt i Michigan, USA. Tabell 1. Deskriptiv statistik Variabel Medelvärde Standardavvikelse Procent som klarade matteprovet i åk 7 1998 62,7 16,1 Förbättrade mattematikresultat, åk 4 1995 till åk 7 1998 1,0 14,9 Kostnader per elev (tusen dollar), 1998 6,2 1,0 Genomsnittlig lärarlön (tusen dollar), 1998 44,9 6,4 Elever per lärare, 1998 21,0 2,7 Procent av eleverna med rätt till fri lunch, 1998 28,8 16,3 Antal elever, 1998 3 040,1 8 043,9 Bidrag från välgörenhetsorganisationer och fonder (tusen dollar), 1995-98 5,7 1,2 Vinst per elev (tusen dollar), 1998 0,7 0,8 Källa: Michigan Department of Education web site, www.michigan.gov/mde. Tabell 2. Pearsons korrelationskoefficienter Variabel Lön Elever / lärare Fri lunch Antal elever Bidrag Vinst kostnader per elev (dollar), 1998 0,261 * -0,380 * 0,166 * 0,149 * 0,742 * 0,226 * Genomsnittlig lärarlön (tusen dollar), 1998 0,536 * -0,395 * 0,161 * 0,287 * 0,082 (0,054) elever per lärare, 1998-0,144 * (0,001) 0,135 * (0,002) -0,252 * 0,006 (0,886) procent av eleverna med rätt till fri lunch, 1998 0,045 (0,292) -0,140 * (0,001) -0,114 * (0,007) antal elever, 1998 bidrag från välgörenhetsorganisationer och fonder (dollar), 1995-98 0,114 * (0,008) 0,065 (0,129) 0,724 * 48

Nedan följer 20 stycken regressionsmodeller med syfte att hitta faktorer bakom framgångsrika skoldistrikt. I de första 10 modellerna används andelen elever som klarar matematikprovet i årskurs 7 som kvalitetsvariabel. För att försöka komma åt problemet att vissa skolor attraherar elever som har bättre förutsättningar än andra, skapas en variabel för hur mycket skolorna lyckas förbättra elevernas kunskaper. Den beräknas genom att ta andel som klarar matematikprovet i årskurs sju minus andelen som klarade matematikprovet i årskurs 4 tre år tidigare. Det bör ju till stor del vara samma elever. Modell 1 5 och 11 15 är linjära modeller medan 6 10 och 16 20 är loglinjära modeller. Tabell 3a Resultat från regressionerna Beroende variabel: Modell 1 Modell 2 Modell 3 Modell 4 Modell 5 Procent som klarade matteprovet åk 7, 1998 Procent som klarade matteprovet åk 7, 1998 Procent som klarade matteprovet åk 7, 1998 Procent som klarade matteprovet åk 7, 1998 Procent som klarade matteprovet åk 7, 1998 Förklarande variabler: Intercept 75,763* 83,144* 84,090* 76,793* 48,502* kostnader per elev (tusen dollar) -6,352* -4,20* -2,840* (0,003) -6,440* -6,429* Genomsnittlig lärarlön (tusen dollar) 0,526* (0,002) 0,626* 0,610* 0,527* (0,002) 0,693* elever per lärare -0,740 (0,055) -1,005* (0,007) -0,981 (0,010) -0,771* (0,043) procent av eleverna med rätt till fri lunch -0,315* -0,343* -0,373* -0,315* antal elever -4,6 10 5 (0,547) -4,9 10 5 (0,525) -4,7 10 5 (0,535) bidrag från välgörenhetsorg. (tusen dollar): 1995-98 5,226* (0,002) 1,479 (0,068) 5,233* (0,002) 3,981* Vinst per elev (tusen dollar) -3,965* (0,010) 0,268 (0,721) -3,978* (0,010) R 2 adj 0,259 0,251 0,247 0,260 0,136 Regressionskoefficienternas p-värden anges inom parentes *variabler signifikanta på 5 % nivån markerade med stjärna 49

Tabell 3b Resultat från regressionerna Beroende variabel: Modell 6 Modell 7 Modell 8 Modell 9 Modell 10 Log Procent som klarade matteprovet åk 7, 1998 Log Procent som klarade matteprovet åk 7, 1998 Log Procent som klarade matteprovet åk 7, 1998 Log Procent som klarade matteprovet åk 7, 1998 Log Procent som klarade matteprovet åk 7, 1998 Förklarande variabler: Intercept 0,772 (0,290) 1,707* (0,005) 2,701* 2,596* 1,444* Log kostnader per elev (tusen dollar) -1,123* -1,095* -0,726* -1,167* -1,449* Log Genomsnittlig lärarlön (tusen dollar) 0,510* 0,610* 0,610* 0,500* 0,276* (0,002) Log elever per lärare -0,695* -0,830* -0,803* -0,747* Log procent av eleverna med rätt till fri lunch -0,151* -0,155* -0,172* -0,147* Log antal elever -0,012 (0,425) -0,009 (0,536) -0,017 (0,253) Log bidrag från välgörenhetsorg. (tusen dollar): 1995-98 0,588* (0,007) 0,399 (0,053) 0,610* (0,005) 1,352* Log Vinst per elev (tusen dollar) -0,049* (0,040) 0,015 (0,471) -0,051* (0,031) R 2 adj 0,329 0,338 0,320 0,329 0,176 Regressionskoefficienternas p-värden anges inom parentes *variabler signifikanta på 5 % nivån markerade med stjärna 50

Tabell 3c Resultat från regressionerna Modell 11 Modell 12 Modell 13 Modell 14 Modell 15 Beroende variabel: Förbättrade matematikresultat Förbättrade matematikresultat Förbättrade matematikresultat Förbättrade matematikresultat Förbättrade matematikresultat Förklarande variabler: Intercept 12,609 (0,155) 17,894* (0,032) 18,514* (0,028) 14,019 (0,106) 9,086 (0,083) kostnader per elev (tusen dollar) -5,264* (0,001) -3,720* (0,004) -2,773* (0,006) -0,209* (0,001) -2,823* (0,002) Genomsnittlig lärarlön (tusen dollar) 0,208 (0,249) 0,280 (0,113) 0,268 (0,135) 0,209 (0,248) 0,078 (0,452) elever per lärare -0,413 (0,315) -0,603 (0,128) -0,584 (0,148) -0,456 (0,262) procent av eleverna med rätt till fri lunch -0,037 (0,486) -0,016 (0,750) -0,004 (0,929) -0,036 (0,498) antal elever -6,3 10 5 (0,440) -6,5 10 5 (0,426) -6,4 10 5 (0,433) bidrag från välgörenhetsorg. (tusen dollar): 1995-98 3,706* (0,037) 1,023 (0,235) 3,716* (0,036) 1,023 (0,198) Vinst per elev (tusen dollar) -2,839 (0,084) -0,163 (0,838) -2,857 (0,082) R 2 adj 0,019 0,016 0,013 0,020 0,015 Regressionskoefficienternas p-värden anges inom parentes *variabler signifikanta på 5 % nivån markerade med stjärna 51

Tabell 3d Resultat från regressionerna Beroende variabel: Modell 16 Modell 17 Modell 18 Modell 19 Modell 20 Log Förbättrade matematikresultat Log Förbättrade matematikresultat Log Förbättrade matematikresultat Log Förbättrade matematikresultat Log Förbättrade matematikresultat Förklarande variabler: Intercept 0,861 (0,490) 0,694 (0,571) 0,545 (0,651) 2,956 (0,011) 3,036 Log kostnader per elev (tusen dollar) 1,246 (0,311) 0,792 (0,470) 0,324 (0,675) 0,179 (0,884) 2,045* (0,026) Log Genomsnittlig lärarlön (tusen dollar) 0,968 (0,253) 0,785 (0,343) 0,791 (0,338) 0,523 (0,542) -1,762* (0,001) Log elever per lärare -0,544 (0,574) -0,373 (0,693) -0,339 (0,720) -2,164* (0,016) Log procent av eleverna med rätt till fri lunch 0,206 (0,089) 0,206 (0,087) 0,247* (0,029) 0,319* (0,008) Log antal elever -0,366* -0,356* -0,360* Log bidrag från välgörenhetsorg. (tusen dollar): 1995-98 -1,275 (0,336) -0,356 (0,595) -0,929 (0,492) -1,199 (0,217) Log Vinst per elev (tusen dollar) 0,167 (0,268) 0,086 (0,493) 0,114 (0,457) R 2 adj 0,112 0,114 0,112 0,069 0,049 Regressionskoefficienternas p-värden anges inom parentes *variabler signifikanta på 5 % nivån markerade med stjärna 52

Besvara följande frågor med hjälp av resultaten från de 20 regressionsmodellerna. a) Jämför modell 5 med resultatet från regressionen i övning 5 baserad på samma data. Modellerna är snarlika men koefficienterna för ekonomiska resurser per elev och bidrag från välgörenhetsorganisationer är betydligt större i modell 5 i den här uppgiften? Vad beror det på? b) Vilken typ av modeller verkar kunna förklara variationen i mattematikresultat bäst, de linjära eller de log linjära? c) Rapportera och tolka regressionskoefficienterna och deras p-värden från modell 4 och 9. d) *Jämför modellerna 10 och 20. Diskutera orsakerna till att regressionskoefficienterna har olika tecken i de olika modellerna. Vilken av modellerna ger bäst vägledning angående effekten av höjda lärarlöner på skolresultaten? e) *Om politikerna väljer mellan att använda en viss summa pengar antigen till att anställa fler lärare eller till att höja lärarnas löner, vilka råd skulle du ge dem utifrån denna undersökning, om politikernas mål är att förbättra resultaten i matematik? f) *Lyckas stora skoldistrikt, dvs distrikt med många elever, bättre eller sämre än små skoldistrikt? 53

17 Effekten av rökning under graviditeten på barnets hälsa Apgar är en skala som används vid förlossning. När barnet har fötts och är 1 minut gammalt, kontrollerar en barnmorska hur många poäng barnet har fått från apgarskalan nedan. Testet togs fram 1953 av Virginia Apgar. Även om barnen kan få låga poäng direkt efter utdrivningsskedet, så har de flesta runt 9 eller 10 poäng när de testas igen efter 5 minuter. Källa wikipedia För att utvärdera effekterna av mödravård före förlossningen på barnets hälsa vid födsloögonblicket samlades data in från 1 832 födslar: Följande variabler samlades in: omaps Apgar värde 1 minut efter födseln (se fråga 8 för en förklaring av apgar) cigs Antal cigaretter per dag under graviditeten monpre antal månader som modern haft kontakt med barnmorska före förlossningen npvis antal besök hos barnmorska före förlossningen npvissq antal besök hos barnmorska upphöjt i två På ovanstående data kördes två olika regressionsmodeller vilka redovisas på nästa sida. Baserat på de resultaten ska du svara på följande frågor. a) På vilken skaltyp mäts Apgar skalan? b) Rapportera och tolka regressionskoefficienterna och deras p-värde från båda modellerna, använd 10 % signifikansnivå. c) Diskutera om det kan finnas skäl att ifrågasätta metodvalet, är något av den linjära regressionsmodellens antaganden inte uppfyllda i det här fallet. (Delfråga a är ger en ledtråd. d) Regressionskoefficienten för antalet månader som mamman haft kontakt med barnmorska är negativ, försök hitta en intuitiv förklaring till varför. e) Beräkna och tolka förklaringsgraderna i modell 1 såväl R2 som R2adj. f) Beräkna och tolka ett konfidensintervall med 95 procents konfidensgrad för regressionskoefficienten för antalet besök hos barnmorska i modell 2. 54

Regressionsmodell 1 Regressionsmodell 2 55

Icke parametriska metoder 1 Detta är en fortsättning från sista frågan i regressionsavsnittet. a) Baserat på samma data beräknades två typer av korrelationskoefficienter mellan apgar värdet och antalet besök hos barnmorska. Tolka och kommentera. b) Man ville också undersöka om det fanns samband mellan moderns ålder och apgarvärdet. två typer av korrelationskoefficienter beräknades. Tolka och kommentera. 56

c) Man provade också att dela in mödrarna in i tre åldergrupper. Grupp 1 bestod av de som var 22 eller yngre, grupp 2 av 23 till 32 och grupp tre av de som var 33 eller äldre. Därefter gjordes dels en ANOVA test dels en Kruska Wallis test. Resultaten redovisas nedan. Tolka och kommentera. 57

d) För att undersöka om resultatet påverkades av hur åldersvariabeln klassindelas provade man också med 5 åldersgrupper och gjorde återigen en ANOVA test dels en Kruska Wallis test. Resultaten redovisas nedan. Här är grupperna: Grupp 1: upp till 21 Grupp 2: 22 till 25 Grupp 3 26 till 30 Grupp 4 31 till 35 Grupp 5 36 och äldre. Tolka och kommentera. 58

e) För att undersöka alkoholens och rökningens betydelse för apgarvärdet gjordes följande korrelationer 59

2 Enligt en nyhetsartikel i USA får endast en tredjedel av de som slutar college jobb direkt efter avslutande studier. Ett specifikt college vill undersöka om det också gäller på deras skola. I ett slumpmässigt urval om 200 studenter från detta college hade 80 stycken fått jobb direkt efter att de slutade. Skiljer sig andelen som får jobb från genomsnittsvärdet för alla collegestudenter i USA? Gör ett hypotestest med 0,5 procents signifikansnivå. 3 Ett läkemedelsföretag har utvecklat en ny medicin och vill undersöka om den är bättre än deras tidigare produkt. För att göra detta dras två slumpmässiga urval av patienter. Den första gruppen som består av 200 patienter får den nya medicinen. Den andra gruppen som består av 300 patienter får den gamla medicinen. För att undvika placeboeffekter ges dock båda grupperna informationen att de använder den nya medicinen. I gruppen som får den nya medicinen anser 180 patienter att den ger bättre effekt än den gamla medicinen. I gruppen som fortfarande använder den gamla medicinen men tror att de har bytt till den nya anser 261 att den nya medicinen ger bättre effekt. Läkemedelsbolaget hävdar att man har bevisat att den nya medicinen är effektivare än den gamla eftersom andelen som anser så är större i den grupp som använder den nya medicinen. Finns det skäl att kritisera läkemedelsbolagets slutsats? Gör en hypotestest med en signifikansnivå på 5 %. Beräkna också p-värdet. 4 För närvarande köper 20 procent av konsumenterna tvål av ett visst märke. För att utöka sin marknadsandel gör företaget en reklamkampanj. Efter kampanjen tar man ett slumpmässigt urval av 400 potentiella kunder för att undersöka om kampanjen var lyckosam. Av de 400 i urvalet sa 90 att de köper tvål av detta märke. Gör ett hypotestest för att undersöka om kampanjen har ökat företagets marknadsandel. Använd 5 % signifikansnivå. Sätt upp adekvata hypoteser, formulera en teststatistika och dess kritiska värde. Beräkna teststatistikan och förklara vilka eventuella slutsatser som kan dras från testet. 5 Kalle tror att en större andel av tjejerna än av killarna använder facebook. För att undersöka detta gör han en urvalsundersökning. Han gör ett slumpmässigt urval av 60 tjejer och av dem är det 52 stycken som använder facebook. Han gör ett annat slumpmässigt urval av 60 stycken pojkar. Av dem är det 49 stycken som använder facebook. Använd 5 procents signifikansnivå för att göra en hypotestest utifrån dessa urval. Kan du bevisa att Kalle har rätt? a) Sätt upp lämplig nollhypotes och mothypotes. b) Ange formeln för din teststatistika och en beslutregel c) Beräkna värdet på din teststatistika d) Kan vi dra någon slutsats från undersökningen? I så fall vilken? 6 En sexsidig tärning kastas 30 gånger. Följande utfall observeras: Utfall Frekvens Utfall Frekvens 1 3 4 3 2 6 5 9 3 2 6 7 Kan vi dra slutssatsen att tärningen är felkonstruerad, dvs att sannolikheten inte är lika för alla utfallen? Gör en hypotestest med 10 procents signifikansnivå. 60

7 Ur en undersökning baserad på ett slumpmässigt urval studenter skapas korstabeller för variablerna travel: färdsätt till skolan och topics: huvudämne. Variabeln färdsätt till skolan har tre utfall, bike: cyklar drive: kör bil samt walk: går. Variabeln huvudämne har två utfall business: företagsekonomi samt other: annat ämne än företagsekonomi. Man gör också en chi square analys. a) Förklara skillnaden mellan de 4 olika korstabellerna. b) Tolka siffrorna i rutan för bike/business i samtliga 4 korstabeller. c) Vilken slutsats kan du dra från chi square analysen? Antag att man drar en slumpmässig student ur urvalet: d) Hur stor är sannolikheten att studenten går till skolan? e) Hur stor är sannolikheten att det är en företagsekonom som åker bil till skolan? 61

8 På en större arbetsplats tillfrågas de anställda om vilken typ av avtalspension de skulle vilja ha. Resultatet redovisas i korstabellen nedan. Finns det något samband mellan variablerna yrkeskategori och val av avtalspension? Gör en lämplig hypotestest, använd 1% signifikansnivå pensionstyp Yrkeskategori A B C Supervisor 10 13 29 Clerical 19 80 19 Labor 81 57 22 9 Ett urval av 70 personer med magproblem deltog i ett test av en ny medicin. Efter en veckas behandling hävdade 32 personer att deras magproblem minskat, 25 upplevde ingen skillnad och 13 ansåg att problemen förvärrats. a) Gör en hypotestest för att se om du kan bevisa att medicinen minskar upplevda magproblem. Använd 5 % signifikansnivå b) Kan du se några problem med den valda undersökningsdesignen? Föreslå en bättre design. 10 Ett mjukvaruföretag har dels en telefonsupport avdelning dels en chatsupportavdelning. Man vill undersöka vilken typ av support som kunderna är mest nöjda med. Ett slumpvis urval om 11 kunder uppmanas betygsätta respektive avdelning på en skala mellan 1 och 7. Resultatet visas nedan. respondentnummer Betyg av telefonsupport Betyg av chatsupport 1 3 3 2 1 6 3 5 3 4 3 3 5 5 6 6 2 2 7 3 6 8 5 4 9 3 6 10 1 2 11 6 5 12 7 7 13 6 7 14 3 4 15 4 6 Föreslå två olika testmetoder för att undersöka om någon av supportavdelningarna är mer omtyckt än den andra bland företagets kunder. Utför de båda testerna. Förklara varför resultaten avviker om de gör det och ge några argument för och emot de olika metoderna. Kan du föreslå någon förbättring av undersökningens design? 62

11 Nedan visas ett utdrag ur en enkätundersökning. För var och en av frågorna A till H skapas en variabel med betäckningen F_5? Där frågetecknet är bokstaven för respektive fråga. a) Vilken skala är dessa variabler mätta på? b) Vilka slutsatsen kan du dra från nedanstående resultat från SPSS: c) Varför använder man inte Pearsons korrelationskoefficient i det här fallet? d) Vilka slutsatser kan du dra från SPSS resultaten som redovisas på nästa sida? 63