MÄLARDALENS HÖGSKOLA. Akademin för hållbar samhälls- och teknikutveckling. Statistik. Övningar. Statistik och kvantitativa undersökningar 15 HP

Transkript

1 MÄLARDALENS HÖGSKOLA Akademin för hållbar samhälls- och teknikutveckling Statistik Övningar Statistik och kvantitativa undersökningar 15 HP Höstterminen

2 Innehåll Deskriptiv statistik och index... 3 Sannolikhetslära... 7 Undersökningsdesign, konfidensintervall och bortfall Hypotesprövning Regression Icke parametriska metoder

3 Deskriptiv statistik och index 1 Vilka av följande variabler kan betraktas som kontinuerliga och vilka kan betraktas som diskreta? Ålder Antal dörrar hos en bil Hastighet Antal barn Kroppslängd Intelligenskvot 2 När kan man här nedan tala om kvantitativ och när om kvalitativ variation: Kön Hemvist Kroppsvikt Lydig - olydig Ålder Bilmärke Spritmissbruk Förnamn 3 Diskutera skaltyp vid mätning av var och en av de variabler som omnämns nedan: Hårfärg Kroppsvikt C-vitaminhalt i apelsiner Gruppstorlek Grad av demokratisk ledarstil Alkoholvanor Temperatur Nationalitet Stad - land Hastigheten hos en bil Straffad - icke straffad Kryddningen av en maträtt Regnmängd arbetslöshet 4 Som bilaga till detta övningskompendium visas en enkät som använts i en studie av kompetensutveckling inom hotellbranschen. Diskutera skaltyp för de olika frågorna i enkäten. 3

4 5 Tabell 1 nedan visar procentuella fördelningen efter kön och tjänsteförhållanden för 400 anställda i företaget ASONAB. Tabell 1 Män Kvinnor Män + Kvinnor Arbetare 46,50 30,25 76,75 Tjänstemän 20,25 3,00 23,25 66,75 33,25 100,00 A B Beräkna antalet kvinnliga arbetare i företaget ASONAB. Ange hur stor andel av de manliga anställda som är tjänstemän i företaget ASONAB. 6 Denna fyrfältstabell anger de 500 anställda vid ett företag fördelade efter kön och ålder. Ålder <35 år >35år Män Kvinnor Gör om de absoluta frekvenserna i denna tabell till relativa så att a) varje kolumnsumma är 100% b) varje radsumma är 100% c) totalen 500 är 100% 7 En fårbonde skickade 100 lamm till slakt. Ur dessa drogs ett slumpmässigt urval om 11 lamm. Slaktvikterna i urvalet var: 10, 12, 13, 14, 14, 15, 16, 17, 17, 18, 20 Beräkna medelvärde, median, varians, standardavvikelse och Pearsson measure of skewness. 4

5 årliliga reparationskostnader 8 Följande diagram illustrerar vikten (i kg) för ett urval bestående av 26 stycken 10-åriga flickor med en viss sjukdom vikt i kg a) Vad kallas diagramtypen? b) Ange median, medelvärde, kvartilavstånd c) Finns det några extremvärden? d) Ange högsta och minsta värde. 9 Ett bussföretag samlar in följande information om sina 14 bussar Buss nr Ålder månader Årliga reparationskostnader Buss nr Ålder månader Årliga reparationskostnader Baserat på den informationen skapas följande plot Bussens ålder i månader Vilka slutsatser kan du dra från diagrammet? 5

6 10 I nedanstående tabell anges antalet personbilar i trafik respektive antal motorcyklar i trafik i Sverige i december månad åren Fordonsslag bestånd Personbilar i trafik Motorcyklar i trafik Beräkna två jämförbara serier av indextal som beskriver utvecklingen av de båda fordonsslagen under åren Beträffande prisutvecklingen för en varugrupp under åren föreligger följande uppgifter, avseende den procentuella prisstegringen från närmast föregående år: År Procentuell prisstegring från närmast föregående år , , , , ,9 Procenttalen har erhållits genom att man för varje år har beräknat Laspeyres' index med närmast föregående år som basår och från indextalet subtraherat 100. A. Ange de nämnda indextalen. ( L I1995, 96, L I, , etc). B. Beräkna ett kedjeindex för vart och ett av de sex åren med 1995 som basår. 12 Tabellen nedan anger pris och kvantitet för tre olika produkter vid två olika år. År 1 År 2 Pris Kvantitet Pris Kvantitet tvål schampo Tandkräm a) Beräkna Laspeyres pris index b) Beräkna Paasches pris index 13 Antag att löneindex för en viss typ av arbetskraft år 2000 var 123, och att basåret i den indexserien var Även KPI hade 1990 som basår och indexvärdet för KPI år 2000 var 118 i det här landet. a) Beräkna den procentuella ökningen av den nominella lönen mellan 1990 och 2000 b) Beräkna den procentuella ökningen av reallönen mellan 1990 och

7 Sannolikhetslära 1 En styrelse bestående av 8 personer, varav 5 män och 3 kvinnor, skall inom sig utse ett utskott. På hur många sätt kan detta ske, om utskottet skall bestå av: a) 3 personer b) 5 personer c) 3 män och 2 kvinnor? 2 Hur stor är sannolikheten att man vid slumpmässig dragning av ett kort ur en vanlig kortlek (52 kort) får a) en ruter b) en röd kung c) en kung eller en dam d) varken dam eller kung 3 Vilka av följande par av händelser är oberoende? a) Att få sexor i två successiva kast med en tärning. b) Att köra bil berusad och bli inblandad i en trafikolycka. c) Att ha körkort och äga bil. d) Två stycken varandra uteslutande händelser. e) Två successiva bestämningar av järnhalten i malm levererad från en och samma gruva. 4 En kvinna passerar tre trafikljus (A, B och C) på sin väg hem från arbetet. Ljusen är vid denna tid på dygnet inställda så att sannolikheten för rött ljus är 0,4 vid A, 0,7 vid B och 0,2 vid C. Rött ljus vid A, B respektive C är oberoende händelser. a) illustrera i ett träddiagram Beräkna sannolikheten: b) att både A och B visar rött ljus men inte C c) att åtminstone ett av de tre ljusen visar rött d) att exakt två ljus inte visar rött. 7

8 5 Maria kör bil längs huvudleden genom en mindre stad. Det finns två trafikljus på huvudleden, vilka är ihopkopplade i en så kallad grön våg för att underlätta trafikrytmen. Vid första trafikljuset är sannolikheten 0,6 för grönt ljus och 0,4 för rött ljus. Om Maria får rött ljus vid första trafikljuset är det ganska stor sannolikhet att hon får grönt vid nästa eftersom hon då kommer in i den gröna vågen. Den betingade sannolikheten för grönt ljus vid det andra trafikljuset givet att hon får rött vid första är 0,9. Men om Maria får grönt ljus vid första är sannolikheten lite lägre för grönt vid nästa. (Om hon kommer precis innan det slår om kanske hon inte hinner fram innan nästa ljus slår om till rött). Den betingade sannolikheten för grönt ljus vid det andra trafikljuset, givet att hon får grönt ljus vid första är därför bara 0,8. a. Illustrera ovanstående med ett sannolikhetsträd där alla sannolikheter anges, dvs de obetingade sannolikheterna för grönt respektive rött vid första trafikljuset, de betingade sannolikheterna för grönt respektive rött vid andra trafikljuset och de gemensamma sannolikheterna för utfallen vid båda trafikljusen. b. Hur stor är sannolikheten att Maria får rött vid minst ett av trafikljusen? 6 En restaurang som söker personal vill kunna informera de sökande om hur mycket dricks de kan förväntas tjäna på jobbet. Därför tar man fram statistik på hur mycket dricks servitörerna har fått per person och dag. Man väljer ut 500 dagar slumpmässigt och tar fram följande tabell. Total dricks per dag: Antal dagar 0 x < x < x < x < eller mer 50 a) Vad är sannolikheten att en servitör under en dag får 200 eller mer I dricks. b) Är de fem olika grupperna (0 x < 20, 20 x < 50 etc) ömsesidigt uteslutande? c) Är de fem olika grupperna (0 x < 20, 20 x < 50 etc) kollektivt uttömmande? d) Om vi summerar sannolikheterna för de 5 olika utfallen, vad blir summan då? e) Vad är sannolikheten att en servitör får mindre än 50 i dricks under en dag? f) Vad är sannolikheten att en servitör får mindre än 200 i dricks under en dag? 8

9 7 Av de anställda på ett stort företag är 80 procent kvinnor och 20 procent män. Av kvinnorna har 90 procent högskoleutbildning men enbart 78 procent av männen har högskoleutbildning. a) Illustrera personalsammansättningen i korstabeller med relativa frekvenser. En tabell där alla celler summerar till 1, en tabell där kolumnsummorna är 1 och en tabell där radsummorna är 1. b) Om man väljer ut en anställd slumpmässigt, vad är sannolikheten att det är en kvinna utan högskoleutbildning? c) Om man väljer ut en anställd slumpmässigt, vad är sannolikheten att det är en anställd utan högskoleutbildning? d) Om man väljer ut en kvinna slumpmässigt vad är sannolikheten att hon inte har högskoleutbildning? e) Är kön och utbildningsnivå oberoende variabler i populationen de anställda på detta företag? 8 Av alla låntagare i en bank har tidigare 7 % inte kunnat betala igen lånet i tid. I förra veckan betalade banken ut nya lån till 12 låntagare. a) Antalet personer som misslyckas med återbetalningen är en slumpvariabel, vad kallar vi dess fördelning? b) Hur många av de nya låntagarna tror du kommer att misslyckas med återbetalningen? Dvs vad är väntevärdet (medelvärdet) för denna sannolikhetsfördelning. c) Vad är sannolikheten att alla låntagare klarar av att betala tillbaka sitt lån. d) Vad är sannolikheten att exakt 1 kommer att misslyckas med återbetalningen? e) Vad är sannolikheten att minst en kommer att misslyckas med återbetalningen? f) Vad är sannolikheten att minst 2 kommer att misslyckas med återbetalningen? 9 En urna innehåller 10 kulor. Av dessa är 7 vita och 3 svarta. Du drar slumpmässigt 4 kulor ur urnan. a) Vad är sannolikheten att exakt 2 av kulorna är vita om du lägger tillbaka kulorna mellan varje dragning? b) Vad är sannolikheten att exakt två kulor är vita om du inte lägger tillbaka dem mellan varje dragning? 9

10 10 Antag att innehållet i en 12 kg förpackning med socker är en slumpvariabel som är uniformt fördelad mellan 11,96 och 12,05 kg. a) Vad är medelvärdet för förpackningarnas vikt? b) Vad är standardavvikelsen för vikten? c) Vad är sannolikheten att ett slumpvist valt sockerpaket väger mindre än 12 kilo? d) Vad är sannolikheten att ett slumpvis valt sockerpaket väger mer än 11,98 kg? e) Vad är sannolikheten att ett slumpvis valt sockerpaket väger mer än 11 kg? 11 Årslönen hos de anställda på ett amerikanskt storföretag är normalfördelad med medelvärdet och standardavvikelsen dollar. a) Hur stor andel av de anställda tjänar mer än dollar? b) Hur stor andel tjänar mellan och per år? c) Hur stor andel tjänar mellan och per år? d) Antag att man väljer ut de 20 procent av de anställda som har högst lön. Hur mycket tjänar den som har lägst lön i den gruppen? 12 Enligt en undersökning är den summa pengar som amerikanska 30 åringar spenderar på restaurangbesök per år normalfördelad med medelvärdet dollar och standardavvikelsen 450 a) Hur stor andel av 30 åringarna spenderar mer än per år på restaurangbesök? b) Hur stor andel spenderar mellan och dollar per år på restaurangbesök? c) Hur stor andel spenderar mindre än dollar per år på restaurangbesök? 10

11 Undersökningsdesign, konfidensintervall och bortfall 1 En normalfördelning har medelvärde 60 och standardavvikelse 12. Du drar ett slumpmässigt urval av 9 observationer. Beräkna sannolikheten att urvalsmedelvärdet är: a) Större än 63 b) Mindre än 56 c) Mellan 56 och 63 2 Ett företag tillverkar brieostar som ska väga 500 gram. I tillverkningsprocessen uppkommer dock en viss variation i vikten per ost. Ostarnas vikt är normalfördelad med medelvärdet 502 gram och standardavvikelsen 2 gram. a) Beräkna sannolikheten att en slumpmässigt vald ost väger mindre än 500 gram. b) Pelle ska köpa 5 ostar till sin fest. Beräkna sannolikheten att medelvärdet av de 5 ostarnas vikt är lägre än 500 gram. Betrakta Pelles ostinköp som ett slumpmässigt urval ur populationen alla ostar som är tillverkade av detta företag. c) Finns det skäl att ifrågasätta antagandet om slumpmässigt urval i fråga b? 3 En livsmedelsinspektör kontrollerar förpackningar som ska innehålla 3 kilo äpplen. Han kontrollväger ett slumpmässigt urval om 36 förpackningar och finner att urvalet har medelvärde 3,01 och standardavvikelsen 0,03. Beräkna ett 95 procents konfidensintervall för populationsmedelvärdet. 4 En undersökning av 50 slumpvis utvalda personer som blev uppsagda från jobbet i senaste lågkonjunkturen visar att det tog dem i genomsnitt 26 veckor att finna ett nytt jobb. Urvalets standardavvikelse var 6,2 veckor. Konstruera ett 95 procents konfidensintervall för medelvärdet av arbetslöshetstiden för hela populationen, dvs alla som blev uppsagda i senaste lågkonjunkturen. Är det troligt att medelvärdet för hela populationen är 28 veckor eller mer? 5 En politiker funderar på att ställa upp i landets presidentval. För att undersöka sina chanser att bli vald gör hon en urvalsundersökning. I ett slumpmässigt urval om 400 väljare säger 300 att de kommer att rösta på henne. a) Beräkna ett punktestimat för andelen i hela befolkningen som kommer att rösta på henne. b) Beräkna ett 99 procents konfidensintervall för andelen i hela befolkningen som kommer att rösta på henne. c) Tolka dina resultat 6 En population antas ha standardavvikelsen 10. Vi vill skapa ett 95 procentigt konfidensintervall för medelvärde där felmarginalen (halva konfidensintervallets längd) inte är större än 2. Hur stort urval behöver vi dra? 11

12 7 Genom totalundersökning av två populationer avsåg man att fastställa skillnaden i proportionen bilägare. Tyvärr lyckades man ej erhålla uppgifter från samtliga personer utan det förekom ett visst bortfall. Undersökningens resultat framgår av följande tabell: Population Antal Bilägare Icke-bilägare Bortfall Summa A B a) Vilken är den högsta tänkbara andelen bilägare i A? b) Vilken är den lägsta tänkbara andelen bilägare i A? c) Vilken är den högsta tänkbara andelen bilägare i B? d) Vilken är den lägsta tänkbara andelen bilägare i B? e) Vilket är det högsta respektive lägsta tänkbara värdet på skillnaden mellan A och B beträffande andelen bilägare? 8 Rubriken baseras alltså på de som svarat av tillfrågade. Beräkna proportionen»positiva till arbetet«bland samtliga tillfrågade under antagande att A alla B ingen C 30% D 70% i bortfallsgruppen är positiva till arbetet. 12

13 9 a) Man vill ta reda på hur stor andel av landsbygdsbefolkningen som deltar i älgjakten och gör ett slumpmässigt urval om 2000 personer. I detta urval var bortfallet 20 %. Av de 1600 som svarade, hade 300 under undersökningsperioden deltagit i älgjakt. Beräkna ett 95 % konfidensintervall där du behandlar de svarande som ett slumpmässigt urval. b) Bland de 400 i bortfallet uttog man slumpmässigt 100. Efter åtskilligt besvär lyckades man få svar från alla 100, av vilka 55 stycken hade deltagit i älgjakt under undersökningsperioden. Beräkna ett punktestimat för andelen som deltagit i Älgjakten där du även tar hänsyn till bortfallsanalysen. 10 Förklara följande begrepp: a) Validitet b) Reliabilitet c) Operationalisering 13

14 11 Diskutera eventuella problem med formuleringarna av följande enkätfrågor och föreslå förbättringar: a) Hur ofta brukar du resa utomlands? o o o o Ofta Ganska ofta Sällan Aldrig b) Hur ofta brukar du resa utomlands? o o o o 1 gång per år 2-3 gånger per år 3-5 gånger per år Mer än 6 gånger per år c) Hur många anställda finns det på ditt arbete? d) Upplever du att du får uppskattning för dina arbetsprestationer o o o o Mycket ofta Ofta Ganska ofta Sällan e) Anser du att det krävs en hårdare lagstiftning för att begränsa utsläppen av klorerade kolväten? o o Ja Nej f) Klorerade kolväten är en svårnedbrytbar kemisk förening som orsakar svåra hälsoproblem. Anser du att det krävs en hårdare lagstiftning för att begränsa utsläppen av klorerade kolväten? o o Ja Nej g) Klorerade kolväten är mycket användbara som lösningsmedel pga av sina goda fettlösliga egenskaper. Anser du att man bör förenkla regelverket för industrins användning av klorerade kolväten? o o Ja Nej h) Kurslitteratur och andra läromedel gav gott stöd för att jag skulle kunna uppnå kursens lärandemål. Jag håller inte alls med jag håller med helt och hållet 14

15 Hypotesprövning 1 En mäklarfirma hade tidigare en genomsnittlig försäljningstid på sina objekt på 90 dagar. Man misstänker att försäljningstiden har ändrats och gör en undersökning av 100 slumpvis utvalda fastigheter. I det urvalet var den genomsnittliga tiden för en försäljning 94 dagar med en standardavvikelse på 22 dagar. Gör en hypotestest för att undersöka om det har blivit en signifikant förändring av försäljningstiden. Använd 10 procents signifikansnivå. 2 Enligt en undersökning är medelantalet personer i ett hushåll i USA lika med 3,13. Donald tror att hushållen är mindre i hans stad och gör en urvalsundersökning. Han drar ett slumpmässigt urval om 25 hushåll och i det urvalet visar det sig att medelvärdet är 2.86 medlemmar per hushåll. I urvalet var standardavvikelsen 1,20. Donald gör en hypotestest för att se om antalet medlemar per hushåll är mindre än 3.13 i Donalds stad. Han använder 5 % signifikansnivå. Utifrån den undersökningen drar han slutsatsen att hushållen är lika stora i hans stad som i hela USA. Finns det skäl att kritisera Donalds undersökning och slutsats? 3 Ett dataföretags supportavdelning vill undersöka om det tar längre tid att hjälpa kunder med mjukvaruproblem än kunder med hårdvaruproblem. Man tar ett slumpmässigt urval om 35 kunder med mjukvaruproblem och ett annat slumpmässigt urval om 45 kunder med hårdvaruproblem. I urvalet för mjukvaruproblem var medelvärdet för samtalstiden 18 minuter med en standardavvikelse på 4,2 minuter. För kunderna med hårdvaruproblem var medelvärdet för samtalstiden 15,5 minuter med en standardavvikelse på 3,9 minuter. Gör en hypotestest för att undersöka om vi kan hävda att det tar längre tid att lösa ett mjukvaruproblem än ett hårdvaruproblem. Kan vi dra slutsatsen att medelvärdet för samtalstiden i hela populationen kunder med mjukvaruproblem är längre än medelvärdet för hela populationen kunder med hårdvaruproblem? Använd 5 % signifikansnivå. 4 I baseball kan man dela i spelarna i guards, forwards och center. För att se om dessa tre typer av spelare har ungefär lika hög lön gjordes en ANOVA test på ett urval av 269 baseballspelare. Resultatet visas nedan. a) Ange viken noll och alternativhypotes som används i detta ANOVA-test. b) Vilka slutsatser kan dras från detta test om vi vill ha en signifikansnivå på 5%? c) Vilka antaganden ska vara uppfyllda för att ANOVA testen ska vara tillförlitligt. Anser du att de är det i det här fallet? d) Konstruera tre 95 % konfidensintervall för populationsmedelvärdena, ett för varje spelarkategori e) Jämför resultatet i ANOVA-testet med dina konfidensintervall 15

16 5 I undersökningen om gymvanor i Bryman och Bell var det 42 män och 48 kvinnor i urvalet. På variabeln stryketräningstid föregående träningspass hade männen ett medelvärde på 18,05 minuter med en standardavvikelse på 9,27 minuter. Kvinnorna hade ett medelvärde på 12,19 minuter med en standardavvikelse på 5,33 minuter. a) Gör en lämplig test för att se om variansen är lika för män och kvinnor i hela populationen. Använd 2 % signifikansnivå. b) Gör en lämplig test för att se om medelvärdet är samma för män och kvinnor i hela populationen. Använd 1 % signifikansnivå. 6 SPSS utskriften nedan kommer från gymundersökningen i Bryman och Bell. Det är en test på hur lång tid män och kvinnor ägnar åt konditionsträning. Tolka SPSS resultaten och förklara vilka slutsatser som vi kan dra om vi använder en signifikansnivå på 5%. 7 Vi fortsätter med Gymundersökningen men nu skiljer vi inte mellan män och kvinnor utan betraktar det som ett urval ur en population. I hela urvalet är medelvärdet för konditionsträning 26,47 minuter med standardavvikelsen 26,47 minuter och för styrketräning 14,92 minuter med standardavvikelsen 7,95 minuter. Om vi skapar en variabel för skillnaden mellan den tid en person ägnar åt konditionsträning och den tid han eller hon ägnar åt styrketräning blir medelvärdet för den variabeln 11,54 med standardavvikelsen 13,69. Ägnar personerna i hela populationen lika mycket tid åt konditionsträning som åt styrketräning? Gör en hypotestest där du använder 1 % signifikansnivå. 16

17 8 En läkare vill undersöka om kognitiv beteendeterapi kan användas för att sänka blodtrycket hos patienter med för högt blodtryck. Han baserar sin studie på 10 slumpvis utvalda patienter. Tabellen nedan visar deras blodtryck före och efter behandlingen. Anders Eva Lotta Per Lars Ove Stina Anna Nils Klas medel std före ,6 10,2 efter ,6 10,1 Läkaren beräknar följande teststatistika. t = 137,6 132,6 10, ,1 10 = 5 4,53 = 1,1 Eftersom han har ett urval av 10 patienter anser han att denna tesstatiska bör vara t-fördelad med 9 frihetsgrader. Det kritiska värdet givet en signifikansnivå på 5 % blir då 2,26 Eftersom hans teststatistika är lägre än det kritiska värdet drar läkaren slutsatsen att kognitiv beteendeterapi inte har någon effekt på blodtrycket. a) Finns det några skäl att ifrågasätta läkarens analys? b) Föreslå en bättre metod att analysera detta. c) Utför den test du föreslagit i b-frågan. 17

18 Regression Uppgifter markerade med * är lite mer överkurs. 1 Bilderna nedan visar plottar över observationerna och regressionslinjen från tre olika regressioner som alla har en enda förklarande variabel. Ange om följande uttalanden är sanna eller falska. a) Regressionskoefficienten b är positiv i alla tre regressionerna. b) Korrelationskoefficienten r är positiv i A och C men negativ i B. c) Korrelationskoefficienten r är större i C än i A. d) Regressionskoefficienten b är större i C än i A. e) Korrelationskoefficienten r är positiv i A och negativ i B men har ungefär lika stort absolut värde i både A och B. f) Regressionskoefficienten b är positiv i A och negativ i B men har ungefär lika stort absolut värde i både A och B. 18

19 2 Vad kallas det mått som erhålls om man dividerar residualvariansen med variansen av en 2 se förklarade variabeln och sedan beräknar 1 den kvoten, dvs1 Förklara den intuitiva 2 s innebörden av måttet. y 3 I en amerikansk undersökning studerades den tid pensionärer dagligen ägnade åt TVtittande. En multipel regressionsmodell anpassades. Som oberoende variabler användes x 1 = ålder och x 2 = utbildningstid i år. Den anpassade regressionsekvationen blev: y = x x 2 A. Gör en tolkning av koefficienten för x 2 i termer av de ingående variablerna. B. Skatta den tid en 74-åring med 11 års utbildning dagligen tittar på TV. 4 För vart och ett av följande variabelpar, tala om, om Du förväntar Dig att regressionskoefficienten skall bli positiv eller negativ. A. X: Familjeinkomst Y: Procent av inkomsten som är matkostnader B. X: Trafiktäthet på en bro vid olika tidpunkter Y: Genomsnittlig tidsåtgång för en bil att passera bron C. X: Familjestorlek Y: Utgifter för nya kläder per person i familjen D. X: Försäljning av en viss vara i ett varuhus Y: Innestående lager av varan. 19

20 5 Ska vi ge mer resurser till skolorna eller höja lärarnas löner? För att analysera vilka faktorer som är viktiga för att få goda resultat i skolorna samlades data in från ett urval av 550 amerikanska skolor. Vi har information om andel som klarade godkänt resultat på provet i matte i årskurs 7, ekonomiska resurser per elev, lärarlön samt hur stora bidrag skolan har fått från välgörenhetsorganisationer. Variabelförteckning: Procent som klarade matteprovet i årskurs 7, 1998 ekonomiska resurser per elev (dollar) 1998 Genomsnittlig lärarlön (tusen dollar) 1998 bidrag från välgörenhetsorganisationer och fonder (dollar): Källa: Michigan Department of Education web site, En regressionsmodell estimerades på dessa variabler. Resultatet visas på nästa sida. Besvara följande frågar med hjälp av regressionsresultatet. a) Tolka regressionskoefficienterna och deras p-värde under antagandet att det inte finns några kausala samband från den beroende till de oberoende variablerna. Använd 5 % signifikansnivå. b) Finns det anledning att tro att det finns några kausala samband från den beroende variabeln till någon eller några av de oberoende variablerna? Om det är fallet hur påverkar det tolkningen av regressionskoefficienter na? c) Beräkna determinationskoefficienterna. d) Beräkna det predikterade värdet för genomströmningen (andel godkända) på matteprovet i sjunde årskursen i en skola som har genomsnittliga lärarlöner på dollar, spenderar dollar per elev och får dollar i bidrag från välgörenhetsorganisationer. 20

21 Results from the regression 21

22 6 Bilderna nedan visar plottar över residualerna mot en av de förklarande variablerna från tre olika regressionsmodeller. Vilken modell skulle du vara mest nöjd med? Vilka problem kan du ana i de andra två? Regression A: Regression B: Regression C: 22

23 7 Brottslighet För att analysera vilka faktorer som påverkar brottsligheten gjordes en undersökning i USA 1993 där man försökte förklara skillnader i våldsbrott och stölder. Följande variabler samlades in från USA, 51 delstater criv = antal våldsbrott per invånare crip = antal stölder per invånare black = andel svarta i befolkningen metro = andel av befolkningen som bor i storstäder unem = andel arbetslösa incpc = befolkningens medelinkomst i dollar polpc = antal poliser per invånare Källa: S.D. Levitt (1996), The Effect of Prison Population Size on Crime Rates: Evidence from Prison Overcrowding Legislation, Quarterly Journal of Economics 111, På de här variablerna har jag gjort två olika regressionsmodeller I SPSS, resultaten redovisas på nästa sida. Baserat på de resultaten ska du besvara följande frågor. Tolka regressionskoefficienterna och deras p-värden, under antagandet att det inte finns någon påverkan från den beroende variabeln till de oberoende variablerna, använd 5 % signifikansnivå. Diskutera om det kan tänkas finnas något orsakssamband från den beroende variabeln till någon av de oberoende variablerna. Beräkna och tolka förklaringsgraderna i modell 1 såväl R2 som R2adj. Beräkna det predikterade värdet på antal våldsbrott per invånare i en delstat där andelen svarta är lika med 0,2, andelen storstadsbor är lika med 0,3 andelen arbetslösa är lika med 0,06, befolkningens medelinkomst är dollar och antal poliser på invånare är 250. Beräkna det predikterade värdet på antal stölder per invånare för samma delstat som i d uppgiften. 23

24 Modell 1 Modell 2 24

25 8 Hälsoeffekter av vinkonsumtion För att analysera hur hälsan påverkas av vindrickande samlades följande data in från ett urval av 21 länder. alcohol heart liver deaths liter alkohol från vin, per person. antal dödsfall hjärtsjukdomar per 100,000 invånare antal dödsfall leversjukdomar per 100,000 invånare antal dödsfall per 100,000 invånare Source: These data were reported in a New York Times article, December 28, På denna data estimerades tre olika regressionsmodeller. Resultaten redovisas nedan: Model 1: Model2: 25

26 26

27 Model 3: a) Rapportera och tolka regressionskoefficienterna och deras p-värden från alla tre modellerna. Använd en signifikansnivå på 5 % b) Beräkna förklaringsgraden och den justerade förklaringsgraden från modell 3. c) Tolka den justerade förklaringsgraden i alla tre modellerna. d) Vad är det predikterade värdet för antalet döda i leversjukdomar i ett land där befolkningen dricker 2 liter alkohol från vin per person? e) Vad är det predikterade värdet för antalet döda i hjärtsjukdomar i ett land där befolkningen dricker 2 liter alkohol från vin per person? 27

28 9 Vad styr snabbmatsrestaurangernas prissättning? Ibland försöker företag prisdiskriminera mellan olika kunder, dvs ta ut högre priser från kunder med högre betalningsförmåga. För att undersöka om detta är fallet bland snabbmatsrestauranger insamlas följande data från 410 restauranger tillhörande kedjorna Wendys, Burger King, King Fried Chicken och Roy Rogers. Variabelförteckning: Pentree: Priset på den vanligaste huvudrätten (hamburgare eller kyckling) Income: Medianhushållets inkomst i det postnummer område där restaurangen ligger BK: Dummyvariabelsom tar värdet 1 om Burger King KFC: Dummyvariabelsom tar värdet 1 om King Fried Chicken RR: Dummyvariabelsom tar värdet 1 om Roy Rogers (Restaurangerna som tillhör Wendys har alltså noll på alla tre dummyvariablerna) Source: K. Graddy (1997), "Do Fast-Food Chains Price Discriminate on the Race and Income Characteristics of an Area?" Journal of Business and Economic Statistics 15, På dessa variabler har jag gjort en korrelationsmatris och två regressionsmodeller. Besvara frågorna nedan med hjälp av resultaten på de följande sidorna. a) Förklara skillnaden mellan de båda modellerna. b) Tolka regressionskoefficienterna och deras p-värden och förklara vilka slutsatser vi kan dra från koefficienterna. c) Hur kommer det sig att koefficienten för inkomst blir så olika i de båda modellerna? d) Gör en residualanalys e) Beräkna förklaringsgraden i modell två, såväl R 2 som R 2 adjusted. Tolka förklaringsgraderna till båda modellerna. f) Förekommer det prisdiskriminering mellan rika och fattiga områden enligt de båda modellerna, vilken modell tror du mest på motivera. g) Beräkna ett 99 % konfidensintervall för prisskillnaden mellan Burger King och Wendys. Tolka innebörden av intervallet 28

29 Nedan visas en korrelationsmatris över dessa variabler. Correlations pentree income BK KFC RR pentree Pearson Correlation 1 -,103 * -,498 **,900 ** -,194 ** Sig. (2-tailed),048,000,000,000 N income Pearson Correlation -,103 * 1,048 -,140 **,162 ** Sig. (2-tailed),048,352,007,002 N BK Pearson Correlation -,498 **, ,430 ** -,458 ** Sig. (2-tailed),000,352,000,000 N KFC Pearson Correlation,900 ** -,140 ** -,430 ** 1 -,277 ** Sig. (2-tailed),000,007,000,000 N RR Pearson Correlation -,194 **,162 ** -,458 ** -,277 ** 1 Sig. (2-tailed),000,002,000,000 N *. Correlation is significant at the 0.05 level (2-tailed). **. Correlation is significant at the 0.01 level (2-tailed). 29

30 Regressionsmodell 1 Variables Entered/Removed b Variables Variables Model Entered Removed Method 1 income a. Enter a. All requested variables entered. b. Dependent Variable: pentree Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate 1,103 a,011,008,64417 a. Predictors: (Constant), income b. Dependent Variable: pentree ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 1, ,637 3,944,048 a Residual 153, ,415 Total 155, a. Predictors: (Constant), income b. Dependent Variable: pentree Coefficients a Unstandardized Coefficients Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) 1,559,122 12,772,000 income -4,979E-6,000 -,103-1,986,048 a. Dependent Variable: pentree 30

31 31

32 Regressionsmodell 2 Variables Entered/Removed b Variables Variables Model Entered Removed Method 1 RR, income, KFC, BK. Enter a. All requested variables entered. b. Dependent Variable: pentree Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate 1,910 a,27008 a. Predictors: (Constant), RR, income, KFC, BK b. Dependent Variable: pentree ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 128, , ,225,000 a Residual 26, ,073 Total 155, a. Predictors: (Constant), RR, income, KFC, BK b. Dependent Variable: pentree Coefficients a Unstandardized Coefficients Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) 1,104,059 18,630,000 income 1,367E-6,000,028 1,271,205 BK -,225,042 -,172-5,320,000 KFC 1,303,047,816 27,459,000 RR -,078,047 -,051-1,660,098 a. Dependent Variable: pentree 32

33 33

34 10 Ingenjörslöner i Thailand Man vill undersöka vilka faktorer som påverkar lönenivåerna för thailändska Ingenjörer. Följande variabler har samlats in. wage male swage exper pexper månadslön, Thai baht =1 om man ingångslön År på nuvarande jobb Tidigare erfarenhet, år Man samlade även in uppgift om utbildningsnivå och skapade följande dummyvariabler. highdrop highgrad college grad polytech =1 om ingen high school examen =1 om high school examen =1 om college examen =1 om någon högre utbildning =1 om polytech utbildning Källa: Thada Chaisawangwong, a graduate student at MSU, obtained these data for a term project in applied econometrics. They come from the Material Requirement Planning Survey carried out in Thailand during På de följande sidorna finns resultaten från två olika regressionsmodeller på ovanstående data. Använd dem för att besvara följande frågor a) Förklara skillnaden mellan de båda modellerna. b) Tolka regressionskoefficienterna och deras p-värden och förklara vilka slutsatser vi kan dra från de båda modellerna. c) Varför är värdet på många av regressionskoefficienterna lägre i modell 2? d) Gör en residualanalys e) Tolka förklaringsgraderna f) Beräkna ett 95 % konfidensintervall för skillnaden i lön mellan män och kvinnor enligt modell 1 g) Vilken av de båda modellerna anser du vara mest tillförlitlig. 34

35 Regressionsmodell 1 Variables Entered/Removed b Variables Model Variables Entered Removed Method 1 polytech, pexper, exper, college, grad, male, highgrad. Enter a. All requested variables entered. b. Dependent Variable: wage Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate 1,825 a,680, ,04256 a. Predictors: (Constant), polytech, pexper, exper, college, grad, male, highgrad b. Dependent Variable: wage ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 7,941E10 7 1,134E10 120,025,000 a Residual 3,733E ,539 Total 1,167E a. Predictors: (Constant), polytech, pexper, exper, college, grad, male, highgrad b. Dependent Variable: wage Coefficients a Unstandardized Coefficients Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) 19433, ,657 4,600,000 male 7573, ,458,222 6,252,000 exper 253, ,460,026,909,364 pexper -103,863 47,447 -,064-2,189,029 highgrad 1592, ,372,046,841,401 college 22550, ,971,429 9,886,000 grad 36427, ,507,693 15,232,000 polytech 4882, ,967,127 2,370,018 a. Dependent Variable: wage 35

36 36

37 Regressionsmodell 2 Variables Entered/Removed b Model Variables Entered Variables Removed Method 1 swage, exper, polytech, pexper, college, male, highgrad, grad. Enter a. All requested variables entered. b. Dependent Variable: wage Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate 1,909 a,826, ,48167 a. Predictors: (Constant), swage, exper, polytech, pexper, college, male, highgrad, grad b. Dependent Variable: wage ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 9,647E10 8 1,206E10 234,263,000 a Residual 2,028E ,275 Total 1,167E a. Predictors: (Constant), swage, exper, polytech, pexper, college, male, highgrad, grad b. Dependent Variable: wage Coefficients a Unstandardized Coefficients Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) -2101, ,563 -,630,529 male 2411, ,914,071 2,571,011 exper 566, ,211,058 2,747,006 pexper -236,332 35,762 -,145-6,608,000 highgrad 121, ,832,004,087,931 college 7421, ,293,141 3,953,000 grad 7301, ,218,139 3,065,002 polytech 1438, ,903,038,939,348 swage 1,652,091,739 18,202,000 a. Dependent Variable: wage 37

38 38

39 11 Korrelationskoefficienten mäter styrkan i det linjära sambandet mellan två variabler. Då undersökningsenheterna är geografiska områden av varierande befolkningsstorlek, får man ofta ett högt värde på korrelationskoefficienten. Exempelvis kan relateras en undersökning av ungdomsbrottslighet där man bl a för ett antal områden beräknade korrelationen mellan antal ungdomsbrott begångna under året och antal förvärvsarbetande mödrar bosatta i området. Korrelationen blev mycket hög. Ge en förklaring varför man i en sådan här situation får en hög korrelation. 12 * Man tror att det efter en viss operation (avlägsnande av bröstvävnad på grund av bröstcancer) är farligt för en kvinna att bli med barn (graviditeten ökar risken för återfall i cancer). En intresserad läkare undersökte en grupp kvinnor som hade genomgått denna operation. För varje kvinna noterades såväl antalet födda barn som överlevelsetiden efter operationen. Läkaren upptäckte att ju fler barn kvinnan fick desto längre (i genomsnitt) levde hon. Hans slutsats blev då att föreställningen om graviditetens farlighet var överdriven. Kommentera! 39

40 13 Lönediskriminering 1976 samlade Henry Farber från MIT in data over löner, utbildning och arbetserfarenhet i ett OSU om 526 individer för att studera lönediskriminering. Baserat på den datan har jag gjort två olika regressionsmodeller i SPSS. Utskrifter från dessa finns inklistrade nedan. Efter datautskrifterna följer ett antal frågor att besvara. Variabelförteckning: Wage genomsnittlig timlön Educ utbildning antal års skolgång Exper arbetslivserfarenhet, år Expersq arbetslivserfarenhet, år upphöjt till 2. Tenure antal år hos senaste arbetsgivaren Nonwhite dummyvariabel som tar värdet 1 om individen inte är vit, noll annars Female dummyvariabel med värdet 1 om individen är kvinna, noll annars Korrelationsmatris mellan de oberoende variablerna. Correlations female educ exper tenure nonwhite female Pearson Correlation 1 -,085 -,042 -,198 ** -,011 Sig. (2-tailed),051,341,000,803 N Educ Pearson Correlation -, ,300 ** -,056 -,085 Sig. (2-tailed),051,000,198,052 N exper Pearson Correlation -,042 -,300 ** 1,499 **,014 Sig. (2-tailed),341,000,000,743 N tenure Pearson Correlation -,198 ** -,056,499 ** 1,012 Sig. (2-tailed),000,198,000,791 N nonwhite Pearson Correlation -,011 -,085,014,012 1 Sig. (2-tailed),803,052,743,791 N **. Correlation is significant at the 0.01 level (2-tailed). 40

41 Regressionsresultat modell 1. Variables Entered/Removed b Variables Model Variables Entered Removed Method 1 nonwhite, female, exper, educ, tenure. Enter a. All requested variables entered. b. Dependent Variable: wage Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate 1,603 a,364,358 2,96020 a. Predictors: (Constant), nonwhite, female, exper, educ, tenure b. Dependent Variable: wage ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 2603, ,750 59,427,000 a Residual 4556, ,763 Total 7160, a. Predictors: (Constant), nonwhite, female, exper, educ, tenure b. Dependent Variable: wage Coefficients a Unstandardized Coefficients Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) -1,540,732-2,103,036 female -1,812,265 -,245-6,835,000 Educ,570,050,428 11,507,000 Exper,025,012,093 2,188,029 tenure,141,021,276 6,660,000 nonwhite -,116,427 -,010 -,271,786 a. Dependent Variable: wage 41

42 42

43 Regressionsresultat modell 2. Variables Entered/Removed b Variables Model Variables Entered Removed Method 1 expersq, nonwhite, female, educ, tenure, exper. Enter a. All requested variables entered. b. Dependent Variable: wage Model Summary b Model R R Square Adjusted R Square Std. Error of the Estimate 1,632 a,399,392 2,87983 a. Predictors: (Constant), expersq, nonwhite, female, educ, tenure, exper b. Dependent Variable: wage ANOVA b Model Sum of Squares df Mean Square F Sig. 1 Regression 2856, ,020 57,397,000 a Residual 4304, ,293 Total 7160, a. Predictors: (Constant), expersq, nonwhite, female, educ, tenure, exper b. Dependent Variable: wage Coefficients a Unstandardized Coefficients Standardized Coefficients Model B Std. Error Beta t Sig. 1 (Constant) -2,078,719-2,890,004 female -1,792,258 -,243-6,948,000 Educ,528,049,396 10,818,000 Exper,205,034,754 5,948,000 tenure,134,021,262 6,477,000 nonwhite -,183,416 -,015 -,440,660 expersq -,004,001 -,690-5,516,000 a. Dependent Variable: wage 43

44 44

45 A) Förekommer det diskriminering av kvinnor enligt de här regressionsmodellerna? B) Förekommer det diskriminering av icke vita enligt de här regressionsmodellerna? C) Förklara verbalt skillnaden mellan de två olika regressionsmodellerna. D) Tolka regressionskoefficienterna för Exper och Expersq i båda modellerna. E) Gör en analys av residualerna för att se om vi har några statistiska problem i de här två modellerna. F) Vilken av modellerna skulle du välja att presentera om du skulle skriva en rapport från den här analysen? G) Beräkna ett konfidensintervall med 95 % konfidensgrad för skillnaden mellan män och kvinnors löner när vi har tagit hänsyn till skillnader i utbildning och erfarenhet. H) Diskutera vilka slutsatser vi kan dra från värdet på Adjusted R Square i de båda modellerna. Finns det skäl att försöka samla in data över fler variabler? I) Beräkna det predikterade värdet för en vit kvinna med 10 års utbildning och 20 års arbetslivserfarenhet, varav de sista 10 åren har varit hos samma arbetsgivare från respektive regressionsmodell. J) Beräkna det predikterade värdet för en vit man med 8 års utbildning och 3 års yrkeserfarenhet från en och samma arbetsgivare från respektive regressionsmodell. 45

46 14 Skattning av priselasticiteter på ekologiska respektive konventionellt odlade äpplen. Jeffrey Blend gjorde ett experiment för att skapa data över inköp av äpplen vid olika priser på konventionellt odlade respektive ekologisk odlade äpplen. 660 personer fick en enkät där de fick svara om de skulle köpa ekologiska äpplen eller konventionellt odlade äpplen samt hur stor mängd i ponds, givet vissa hypotetiska priser på dessa båda produkter. Eftersom priserna är påhittade påverkas de inte av efterfrågan och därmed blir det möjligt att skatta priselasticiteter. Genom att priser finns för såväl konventionella som ekologiska äpplen kan vi även skatta korspriselasticiteten. Besvara frågorna på nästa sida med hjälp av regressionsresultaten i tabellen nedan. (I de tidigare uppgifterna har ni fåt resultatet direkt från SPSS för att träna på att tolka datautskrifter, i den här uppgiften redovisar jag istället resultaten så som man brukar redovisa dem när man skriver uppsatser.) Resultat från regressionerna Beroende variabel: Förklarande variabler: Intercept Logaritmerat pris ekologiska äpplen Logaritmerat pris konventionella äpplen Antal familjemedlemmar Antal barn under 5 år Antal barn 5 17 år Antal vuxna år Antal vuxna över 64 år Modell 1 Modell 2 Modell 3 Modell 4 Modell 5 Logaritmen av kvantitet ekologiska äpplen 0,273* -0,447* (0,031) 0,344 (0,111) Logaritmen av kvantitet konv. äpplen 0,252* 0,254 (0,319) -0,359 (0,139) Logaritmen av kvantitet ekologiska äpplen 0,236* -0,454* (0,028) 0,352 (0,102) 0,012 (0,215) Logaritmen av kvantitet eklogiska äpplen 0,190* -0,475* (0,022) 0,356 (0,097) -0,001 (0,950) 0,019 (0,200) 0,027 (0,136) 0,102* (0,002) Logaritmen av kvantitet konv. äpplen 0,114* (0,004) 0,221 (0,380) -0,296 (0,217) -0,025 (0,310) 0,058* (0,001) 0,039 (0,051) 0,089* (0,015) R 2 adj 0,007 0,007 0,008 0,022 0,041 Regressionskoefficienternas p-värden anges inom parentes *variabler signifikanta på 5 % nivån markerade med stjärna Data Source: These data were used in the doctoral dissertation of Jeffrey Blend, Department of Agricultural Economics, Michigan State University, The data were obtained from a telephone survey conducted by the Institute for Public Policy and Social Research at MSU. 46

47 a) Vad är egenpriselasticiteten för ekologiska äpplen enligt dessa regressioner b) Vad är korspriselasticiteten för ekologiska äpplen med avseende på priset på konventionella äpplen enligt dessa regressioner c) Vad är egenpriselasticiteten för konventionella äpplen enligt dessa regressioner d) Vad är korspriselasticiteten för konventionella äpplen med avseende på priset på ekologiska äpplen enligt dessa regressioner e) Vilka slutsatser kan dras från variablerna om hushållsstorlek och antal familjemedlemmar i olika åldrar. f) Tolka och kommentera förklaringsgraderna i de fyra modellerna 15 Ett företag som säljer diskmedel, genomför en marknadsundersökning för att se i vilken mån den egna försäljningen beror endast på priset på den egna produkten eller om det kan vara så att även konkurrerande varors priser är av betydelse. Följande variabler utnyttjas: y = värdet av den egna försäljningen i miljoner kr x 1 = priset på den egna produkten i kr per liter x 2 = genomsnittspriset på konkurrerande produkter i kr per liter Följande modeller prövades: 1. y = + 1x y = + 2x y = + 1x 1 + 2x 2 + De skattade regressionsekvationerna blev 1. yˆ x1 R 2 = yˆ x2 R 2 = yˆ x x2 R 2 = 0.70 a) Tolka koefficienterna i den multipla modellen i termer av de ingående variablerna. b) Kommentera förändringen av regressionskoefficienten för egna priset vid en jämförelse mellan modellerna 1 och 3. c) Vid anpassning av modell 3 visar det sig att regressionskoefficienten för konkurrerande varors pris får en t-kvot = Hur tolkar Du detta värde? 47

48 16 Hur ska vi förbättra matematikkunskaperna? I den här frågan ska vi tränga lite djupare in i det dataset som användes i övning 5. Följande variabler samlades in från ett urval av 550 skoldistrikt i Michigan, USA. Tabell 1. Deskriptiv statistik Variabel Medelvärde Standardavvikelse Procent som klarade matteprovet i åk ,7 16,1 Förbättrade mattematikresultat, åk till åk ,0 14,9 Kostnader per elev (tusen dollar), ,2 1,0 Genomsnittlig lärarlön (tusen dollar), ,9 6,4 Elever per lärare, ,0 2,7 Procent av eleverna med rätt till fri lunch, ,8 16,3 Antal elever, , ,9 Bidrag från välgörenhetsorganisationer och fonder (tusen dollar), ,7 1,2 Vinst per elev (tusen dollar), ,7 0,8 Källa: Michigan Department of Education web site, Tabell 2. Pearsons korrelationskoefficienter Variabel Lön Elever / lärare Fri lunch Antal elever Bidrag Vinst kostnader per elev (dollar), ,261 * -0,380 * 0,166 * 0,149 * 0,742 * 0,226 * Genomsnittlig lärarlön (tusen dollar), ,536 * -0,395 * 0,161 * 0,287 * 0,082 (0,054) elever per lärare, ,144 * (0,001) 0,135 * (0,002) -0,252 * 0,006 (0,886) procent av eleverna med rätt till fri lunch, ,045 (0,292) -0,140 * (0,001) -0,114 * (0,007) antal elever, 1998 bidrag från välgörenhetsorganisationer och fonder (dollar), ,114 * (0,008) 0,065 (0,129) 0,724 * 48

49 Nedan följer 20 stycken regressionsmodeller med syfte att hitta faktorer bakom framgångsrika skoldistrikt. I de första 10 modellerna används andelen elever som klarar matematikprovet i årskurs 7 som kvalitetsvariabel. För att försöka komma åt problemet att vissa skolor attraherar elever som har bättre förutsättningar än andra, skapas en variabel för hur mycket skolorna lyckas förbättra elevernas kunskaper. Den beräknas genom att ta andel som klarar matematikprovet i årskurs sju minus andelen som klarade matematikprovet i årskurs 4 tre år tidigare. Det bör ju till stor del vara samma elever. Modell 1 5 och är linjära modeller medan 6 10 och är loglinjära modeller. Tabell 3a Resultat från regressionerna Beroende variabel: Modell 1 Modell 2 Modell 3 Modell 4 Modell 5 Procent som klarade matteprovet åk 7, 1998 Procent som klarade matteprovet åk 7, 1998 Procent som klarade matteprovet åk 7, 1998 Procent som klarade matteprovet åk 7, 1998 Procent som klarade matteprovet åk 7, 1998 Förklarande variabler: Intercept 75,763* 83,144* 84,090* 76,793* 48,502* kostnader per elev (tusen dollar) -6,352* -4,20* -2,840* (0,003) -6,440* -6,429* Genomsnittlig lärarlön (tusen dollar) 0,526* (0,002) 0,626* 0,610* 0,527* (0,002) 0,693* elever per lärare -0,740 (0,055) -1,005* (0,007) -0,981 (0,010) -0,771* (0,043) procent av eleverna med rätt till fri lunch -0,315* -0,343* -0,373* -0,315* antal elever -4, (0,547) -4, (0,525) -4, (0,535) bidrag från välgörenhetsorg. (tusen dollar): ,226* (0,002) 1,479 (0,068) 5,233* (0,002) 3,981* Vinst per elev (tusen dollar) -3,965* (0,010) 0,268 (0,721) -3,978* (0,010) R 2 adj 0,259 0,251 0,247 0,260 0,136 Regressionskoefficienternas p-värden anges inom parentes *variabler signifikanta på 5 % nivån markerade med stjärna 49

50 Tabell 3b Resultat från regressionerna Beroende variabel: Modell 6 Modell 7 Modell 8 Modell 9 Modell 10 Log Procent som klarade matteprovet åk 7, 1998 Log Procent som klarade matteprovet åk 7, 1998 Log Procent som klarade matteprovet åk 7, 1998 Log Procent som klarade matteprovet åk 7, 1998 Log Procent som klarade matteprovet åk 7, 1998 Förklarande variabler: Intercept 0,772 (0,290) 1,707* (0,005) 2,701* 2,596* 1,444* Log kostnader per elev (tusen dollar) -1,123* -1,095* -0,726* -1,167* -1,449* Log Genomsnittlig lärarlön (tusen dollar) 0,510* 0,610* 0,610* 0,500* 0,276* (0,002) Log elever per lärare -0,695* -0,830* -0,803* -0,747* Log procent av eleverna med rätt till fri lunch -0,151* -0,155* -0,172* -0,147* Log antal elever -0,012 (0,425) -0,009 (0,536) -0,017 (0,253) Log bidrag från välgörenhetsorg. (tusen dollar): ,588* (0,007) 0,399 (0,053) 0,610* (0,005) 1,352* Log Vinst per elev (tusen dollar) -0,049* (0,040) 0,015 (0,471) -0,051* (0,031) R 2 adj 0,329 0,338 0,320 0,329 0,176 Regressionskoefficienternas p-värden anges inom parentes *variabler signifikanta på 5 % nivån markerade med stjärna 50

51 Tabell 3c Resultat från regressionerna Modell 11 Modell 12 Modell 13 Modell 14 Modell 15 Beroende variabel: Förbättrade matematikresultat Förbättrade matematikresultat Förbättrade matematikresultat Förbättrade matematikresultat Förbättrade matematikresultat Förklarande variabler: Intercept 12,609 (0,155) 17,894* (0,032) 18,514* (0,028) 14,019 (0,106) 9,086 (0,083) kostnader per elev (tusen dollar) -5,264* (0,001) -3,720* (0,004) -2,773* (0,006) -0,209* (0,001) -2,823* (0,002) Genomsnittlig lärarlön (tusen dollar) 0,208 (0,249) 0,280 (0,113) 0,268 (0,135) 0,209 (0,248) 0,078 (0,452) elever per lärare -0,413 (0,315) -0,603 (0,128) -0,584 (0,148) -0,456 (0,262) procent av eleverna med rätt till fri lunch -0,037 (0,486) -0,016 (0,750) -0,004 (0,929) -0,036 (0,498) antal elever -6, (0,440) -6, (0,426) -6, (0,433) bidrag från välgörenhetsorg. (tusen dollar): ,706* (0,037) 1,023 (0,235) 3,716* (0,036) 1,023 (0,198) Vinst per elev (tusen dollar) -2,839 (0,084) -0,163 (0,838) -2,857 (0,082) R 2 adj 0,019 0,016 0,013 0,020 0,015 Regressionskoefficienternas p-värden anges inom parentes *variabler signifikanta på 5 % nivån markerade med stjärna 51

52 Tabell 3d Resultat från regressionerna Beroende variabel: Modell 16 Modell 17 Modell 18 Modell 19 Modell 20 Log Förbättrade matematikresultat Log Förbättrade matematikresultat Log Förbättrade matematikresultat Log Förbättrade matematikresultat Log Förbättrade matematikresultat Förklarande variabler: Intercept 0,861 (0,490) 0,694 (0,571) 0,545 (0,651) 2,956 (0,011) 3,036 Log kostnader per elev (tusen dollar) 1,246 (0,311) 0,792 (0,470) 0,324 (0,675) 0,179 (0,884) 2,045* (0,026) Log Genomsnittlig lärarlön (tusen dollar) 0,968 (0,253) 0,785 (0,343) 0,791 (0,338) 0,523 (0,542) -1,762* (0,001) Log elever per lärare -0,544 (0,574) -0,373 (0,693) -0,339 (0,720) -2,164* (0,016) Log procent av eleverna med rätt till fri lunch 0,206 (0,089) 0,206 (0,087) 0,247* (0,029) 0,319* (0,008) Log antal elever -0,366* -0,356* -0,360* Log bidrag från välgörenhetsorg. (tusen dollar): ,275 (0,336) -0,356 (0,595) -0,929 (0,492) -1,199 (0,217) Log Vinst per elev (tusen dollar) 0,167 (0,268) 0,086 (0,493) 0,114 (0,457) R 2 adj 0,112 0,114 0,112 0,069 0,049 Regressionskoefficienternas p-värden anges inom parentes *variabler signifikanta på 5 % nivån markerade med stjärna 52

53 Besvara följande frågor med hjälp av resultaten från de 20 regressionsmodellerna. a) Jämför modell 5 med resultatet från regressionen i övning 5 baserad på samma data. Modellerna är snarlika men koefficienterna för ekonomiska resurser per elev och bidrag från välgörenhetsorganisationer är betydligt större i modell 5 i den här uppgiften? Vad beror det på? b) Vilken typ av modeller verkar kunna förklara variationen i mattematikresultat bäst, de linjära eller de log linjära? c) Rapportera och tolka regressionskoefficienterna och deras p-värden från modell 4 och 9. d) *Jämför modellerna 10 och 20. Diskutera orsakerna till att regressionskoefficienterna har olika tecken i de olika modellerna. Vilken av modellerna ger bäst vägledning angående effekten av höjda lärarlöner på skolresultaten? e) *Om politikerna väljer mellan att använda en viss summa pengar antigen till att anställa fler lärare eller till att höja lärarnas löner, vilka råd skulle du ge dem utifrån denna undersökning, om politikernas mål är att förbättra resultaten i matematik? f) *Lyckas stora skoldistrikt, dvs distrikt med många elever, bättre eller sämre än små skoldistrikt? 53

54 17 Effekten av rökning under graviditeten på barnets hälsa Apgar är en skala som används vid förlossning. När barnet har fötts och är 1 minut gammalt, kontrollerar en barnmorska hur många poäng barnet har fått från apgarskalan nedan. Testet togs fram 1953 av Virginia Apgar. Även om barnen kan få låga poäng direkt efter utdrivningsskedet, så har de flesta runt 9 eller 10 poäng när de testas igen efter 5 minuter. Källa wikipedia För att utvärdera effekterna av mödravård före förlossningen på barnets hälsa vid födsloögonblicket samlades data in från födslar: Följande variabler samlades in: omaps Apgar värde 1 minut efter födseln (se fråga 8 för en förklaring av apgar) cigs Antal cigaretter per dag under graviditeten monpre antal månader som modern haft kontakt med barnmorska före förlossningen npvis antal besök hos barnmorska före förlossningen npvissq antal besök hos barnmorska upphöjt i två På ovanstående data kördes två olika regressionsmodeller vilka redovisas på nästa sida. Baserat på de resultaten ska du svara på följande frågor. a) På vilken skaltyp mäts Apgar skalan? b) Rapportera och tolka regressionskoefficienterna och deras p-värde från båda modellerna, använd 10 % signifikansnivå. c) Diskutera om det kan finnas skäl att ifrågasätta metodvalet, är något av den linjära regressionsmodellens antaganden inte uppfyllda i det här fallet. (Delfråga a är ger en ledtråd. d) Regressionskoefficienten för antalet månader som mamman haft kontakt med barnmorska är negativ, försök hitta en intuitiv förklaring till varför. e) Beräkna och tolka förklaringsgraderna i modell 1 såväl R2 som R2adj. f) Beräkna och tolka ett konfidensintervall med 95 procents konfidensgrad för regressionskoefficienten för antalet besök hos barnmorska i modell 2. 54

55 Regressionsmodell 1 Regressionsmodell 2 55

56 Icke parametriska metoder 1 Detta är en fortsättning från sista frågan i regressionsavsnittet. a) Baserat på samma data beräknades två typer av korrelationskoefficienter mellan apgar värdet och antalet besök hos barnmorska. Tolka och kommentera. b) Man ville också undersöka om det fanns samband mellan moderns ålder och apgarvärdet. två typer av korrelationskoefficienter beräknades. Tolka och kommentera. 56

57 c) Man provade också att dela in mödrarna in i tre åldergrupper. Grupp 1 bestod av de som var 22 eller yngre, grupp 2 av 23 till 32 och grupp tre av de som var 33 eller äldre. Därefter gjordes dels en ANOVA test dels en Kruska Wallis test. Resultaten redovisas nedan. Tolka och kommentera. 57

58 d) För att undersöka om resultatet påverkades av hur åldersvariabeln klassindelas provade man också med 5 åldersgrupper och gjorde återigen en ANOVA test dels en Kruska Wallis test. Resultaten redovisas nedan. Här är grupperna: Grupp 1: upp till 21 Grupp 2: 22 till 25 Grupp 3 26 till 30 Grupp 4 31 till 35 Grupp 5 36 och äldre. Tolka och kommentera. 58

59 e) För att undersöka alkoholens och rökningens betydelse för apgarvärdet gjordes följande korrelationer 59

60 2 Enligt en nyhetsartikel i USA får endast en tredjedel av de som slutar college jobb direkt efter avslutande studier. Ett specifikt college vill undersöka om det också gäller på deras skola. I ett slumpmässigt urval om 200 studenter från detta college hade 80 stycken fått jobb direkt efter att de slutade. Skiljer sig andelen som får jobb från genomsnittsvärdet för alla collegestudenter i USA? Gör ett hypotestest med 0,5 procents signifikansnivå. 3 Ett läkemedelsföretag har utvecklat en ny medicin och vill undersöka om den är bättre än deras tidigare produkt. För att göra detta dras två slumpmässiga urval av patienter. Den första gruppen som består av 200 patienter får den nya medicinen. Den andra gruppen som består av 300 patienter får den gamla medicinen. För att undvika placeboeffekter ges dock båda grupperna informationen att de använder den nya medicinen. I gruppen som får den nya medicinen anser 180 patienter att den ger bättre effekt än den gamla medicinen. I gruppen som fortfarande använder den gamla medicinen men tror att de har bytt till den nya anser 261 att den nya medicinen ger bättre effekt. Läkemedelsbolaget hävdar att man har bevisat att den nya medicinen är effektivare än den gamla eftersom andelen som anser så är större i den grupp som använder den nya medicinen. Finns det skäl att kritisera läkemedelsbolagets slutsats? Gör en hypotestest med en signifikansnivå på 5 %. Beräkna också p-värdet. 4 För närvarande köper 20 procent av konsumenterna tvål av ett visst märke. För att utöka sin marknadsandel gör företaget en reklamkampanj. Efter kampanjen tar man ett slumpmässigt urval av 400 potentiella kunder för att undersöka om kampanjen var lyckosam. Av de 400 i urvalet sa 90 att de köper tvål av detta märke. Gör ett hypotestest för att undersöka om kampanjen har ökat företagets marknadsandel. Använd 5 % signifikansnivå. Sätt upp adekvata hypoteser, formulera en teststatistika och dess kritiska värde. Beräkna teststatistikan och förklara vilka eventuella slutsatser som kan dras från testet. 5 Kalle tror att en större andel av tjejerna än av killarna använder facebook. För att undersöka detta gör han en urvalsundersökning. Han gör ett slumpmässigt urval av 60 tjejer och av dem är det 52 stycken som använder facebook. Han gör ett annat slumpmässigt urval av 60 stycken pojkar. Av dem är det 49 stycken som använder facebook. Använd 5 procents signifikansnivå för att göra en hypotestest utifrån dessa urval. Kan du bevisa att Kalle har rätt? a) Sätt upp lämplig nollhypotes och mothypotes. b) Ange formeln för din teststatistika och en beslutregel c) Beräkna värdet på din teststatistika d) Kan vi dra någon slutsats från undersökningen? I så fall vilken? 6 En sexsidig tärning kastas 30 gånger. Följande utfall observeras: Utfall Frekvens Utfall Frekvens Kan vi dra slutssatsen att tärningen är felkonstruerad, dvs att sannolikheten inte är lika för alla utfallen? Gör en hypotestest med 10 procents signifikansnivå. 60

61 7 Ur en undersökning baserad på ett slumpmässigt urval studenter skapas korstabeller för variablerna travel: färdsätt till skolan och topics: huvudämne. Variabeln färdsätt till skolan har tre utfall, bike: cyklar drive: kör bil samt walk: går. Variabeln huvudämne har två utfall business: företagsekonomi samt other: annat ämne än företagsekonomi. Man gör också en chi square analys. a) Förklara skillnaden mellan de 4 olika korstabellerna. b) Tolka siffrorna i rutan för bike/business i samtliga 4 korstabeller. c) Vilken slutsats kan du dra från chi square analysen? Antag att man drar en slumpmässig student ur urvalet: d) Hur stor är sannolikheten att studenten går till skolan? e) Hur stor är sannolikheten att det är en företagsekonom som åker bil till skolan? 61

62 8 På en större arbetsplats tillfrågas de anställda om vilken typ av avtalspension de skulle vilja ha. Resultatet redovisas i korstabellen nedan. Finns det något samband mellan variablerna yrkeskategori och val av avtalspension? Gör en lämplig hypotestest, använd 1% signifikansnivå pensionstyp Yrkeskategori A B C Supervisor Clerical Labor Ett urval av 70 personer med magproblem deltog i ett test av en ny medicin. Efter en veckas behandling hävdade 32 personer att deras magproblem minskat, 25 upplevde ingen skillnad och 13 ansåg att problemen förvärrats. a) Gör en hypotestest för att se om du kan bevisa att medicinen minskar upplevda magproblem. Använd 5 % signifikansnivå b) Kan du se några problem med den valda undersökningsdesignen? Föreslå en bättre design. 10 Ett mjukvaruföretag har dels en telefonsupport avdelning dels en chatsupportavdelning. Man vill undersöka vilken typ av support som kunderna är mest nöjda med. Ett slumpvis urval om 11 kunder uppmanas betygsätta respektive avdelning på en skala mellan 1 och 7. Resultatet visas nedan. respondentnummer Betyg av telefonsupport Betyg av chatsupport Föreslå två olika testmetoder för att undersöka om någon av supportavdelningarna är mer omtyckt än den andra bland företagets kunder. Utför de båda testerna. Förklara varför resultaten avviker om de gör det och ge några argument för och emot de olika metoderna. Kan du föreslå någon förbättring av undersökningens design? 62

63 11 Nedan visas ett utdrag ur en enkätundersökning. För var och en av frågorna A till H skapas en variabel med betäckningen F_5? Där frågetecknet är bokstaven för respektive fråga. a) Vilken skala är dessa variabler mätta på? b) Vilka slutsatsen kan du dra från nedanstående resultat från SPSS: c) Varför använder man inte Pearsons korrelationskoefficient i det här fallet? d) Vilka slutsatser kan du dra från SPSS resultaten som redovisas på nästa sida? 63

Visa mer