1. a) F1(Sysselsättning) F2 (Ålder) F3 (Kön) F4 (känsla av meningslöshet) F5 (okontrollerade känlsoyttringar) nominalskala kvotskala nominalskala ordinalskala ordinalskala b) En möjlighet är att beräkna Spearmans korrelationskoefficient mellan variablerna F2 och F4. Om denna är signifikant och positiv är känslan av meningslöshet minst bland äldre, är den signifikant och negativ är känslan av meningslöshet minst bland yngre. Nollhypotes är att korrelationskoefficienten är lika med noll mothypotes att den avviker från noll. Ett annat alternativ är att gruppindela åldersvariabeln och göra en Kruska Wallis eller Wilcoxon rangsumma. Nollhypotesen i så fall att de olika åldersgrupperna har lika ofta upplever känsla av meningslöshet, mothypotesen att minst en skiljer sig åt. Man kan möjligen också tänka sig en korstabell om man gruppindelar bägge variablerna. Nollhypotes att variablerna är oberoende mothypotes att de är beroende. Men chi2 är det svagaste testet här och därför inte så lämpligt. Såväl Kruska Wallis, wilcoxons rangsumma som spearmans rangkorrelation beräknas utifrån rangtal, korstabellsanalysen baseras på frekvenser i olika grupper. I wilcoxon beräknas en z statistika utifrån ena gruppens rangsumma och båda gruppernas urvalstolekar c) Vi ska nu jämföra två variabler i hela gruppen, F4 (känsla av meningslöshet) och F5 (okontrollerade känlsoyttringar), Teckentest eller teckenrangtest eftersom det är ordinalskala. Nollhypotes att båda problemen är lika vanliga mothypotes att de skiljer sig åt. I teckentest räknas antalet som har högst värde på ena variabeln, i teckenrangtest rangordnas differenserna mellan de båda variablerna och sedan jämförs rangsumman för de negativa och positiva differenserna. Den lägsta rangsumman är teststatistika och den ska vara lägre än ett kritiskt värde.
2 Wilcoxons rangsummetest Om z är större än 1,96 eller mindre än -1,96 förkastas nollhypotesen Beräkna rangsumma arbetar studerar F4 rangtal F4 rangtal 2 3 3 6 4 8,5 5 10,5 1 1 6 12 3 6 5 10,5 2 3 3 6 4 8,5 2 3 Summa 33 Summa 45 Medel 4,7 Medel 9 (Om du utgår från andra gruppens rangsumma blir ) Eftersom z är mindre än det kritiska värdet förkastas nollhypotesen. Därmed kan vi dra slutsatsen att känslan av meningslöshet skiljer sig åt. Eftersom det genomsnittliga rangtalet är lägre bland de som arbetar upplever de känsla av meningslöshet oftare. De har svarat med lägre siffror. 3 median kvartilavstånd medel pearson measure of skewness 27800 5200 27 945 0,12
4 a) boxplot b) min -1,8 första kvartilen -0,4 andra kvartilen / medianen 0 tredje kvartilen 0,65 max 2,1 kvartilavstånd 1 variationsvidd 3,9 det finns inga extremvärden i det här fallet 5 a) När vi beräknar ett konfidensintervall är felmarginalen avståndet mellan punktestimatet och konfidensintervallets övre respektive undre gräns. Om vi har 95 procents konfidensgrad är sannolikheten 95 % att det sanna värdet ligger inom den statistiska felmarginalen. Dvs att avståndet mellan vårt punktestimat och det sanna värdet inte är större än felmarginalen. b) En hypergeometrisk fördelning uppstår om man tar ett urval ur en population och räknar antalet observationer som har en viss egenskap. c) Ett värde som ligger mer än ett och ett halvt kvartilavstånd över tredje kvartilen eller under första kvartilen. Ett värde som kraftigt avviker från de flesta värdena i fördelningen. d) Den största risk att ha fel som vi accepterar när vi drar slutsatser från en statistisk undersökning. 6 a) Ja sannolikheten för A ändras om B inträffar. Den betingade sannolikheten avviker från den obetingade. Samma gäller för sannolikheten för B b) Nej sannolikheten för A ändras inte om C inträffar. Den betingade sannolikheten är lika med den obetingade. Samma gäller för sannolikheten för C c) 0,09 d) 0,31 e) 0,7 7 a) År Inflationstakt KPI 2000 100,0 2001 3 % 103,0 2002 1 % 104,0 2003 2,5 % 106,6 2004 1,5 % 108,2 2005 2 % 110,4 b) lön 2005 omräknad i 2000 års penningvärde 24 276,5 löneökning i 2000 års penningvärde 24 276,5 23 600 = 676,5
8 Modell 1: Interceptet tolkas inte, dels inte signifikant dels finns inga företag som anställer nyfödda som VD. Antal år som VD är signifikant eftersom p-värdet, 0,003 är lägre än 0,05. Koefficienten tolkas som att lönen ökar med 31 tusen dollar om man varit VD ytterligare ett år givet oförändrade värden på övriga oberoende variabler. Ålder är inte signifikant eftersom p-värdet, 0,409 är större än 0,05. Därmed tolkas inte koefficienten. Räntabilitet totalt kapital är inte signifikant eftersom p-värdet, 0,280 är större än 0,05. Därmed tolkas inte koefficienten. Vinstmarginal är signifikant eftersom p-värdet, 0,001 är lägre än 0,05. Koefficienten tolkas som att lönen ökar med 51 tusen dollar om vinstmarginalen ökar med en procentenhet givet oförändrade värden på övriga oberoende variabler. Modell 2: Interceptet tolkas inte, dels inte signifikant dels finns inga företag som anställer nyfödda som VD. Ålder och ålder i kvadrat är signifikanta eftersom p-värdena, 0,018 och 0,022 är mindre än 0,05. Eftersom koeffienten före den icke kvadrerade variabeln är positiv och koefficienten före den kvadrerade variabeln är negativ tolkas den som att man får högre lön om man är äldre men att effekten minskar ju äldre man blir. Eventuellt påverkar åldern negativt för de allra äldsta VD arna. Antal år som VD är signifikant eftersom p-värdet, 0,001 är lägre än 0,05. Koefficienten tolkas som att lönen ökar med 38 tusen dollar om man varit VD ytterligare ett år givet oförändrade värden på övriga oberoende variabler. Vinstmarginal är signifikant eftersom p-värdet, 0,002 är lägre än 0,05. Koefficienten tolkas som att lönen ökar med 48 tusen dollar om vinstmarginalen ökar med en procentenhet givet oförändrade värden på övriga oberoende variabler. Räntabilitet totalt kapital är inte signifikant eftersom p-värdet, 0,312 är större än 0,05. Därmed tolkas inte koefficienten. b) Det nyckeltal som de flesta företag använder för att beräkna bonusen borde ju rimligen påverka lönen eftersom denna beräknas inklusive bonus. Därmed tyder denna analys på att vinstmarginalen används mer än räntabiliteten i företagens bonussystem.
c) Multikollinearitet innebär att några av de oberoende variablerna är korrelerade av varandra. Tittar vi på korrelationsmatrisen skulle det största problemet i så fall vara korrelationen mellan räntabilitet och vinstmarginal. Det är inte så förvånade eftersom bägge är beräknade från vinsten. Inte heller den korrelationen är jättehög så det är nog inte ett stort problem men kanske skulle vi fått ett lägre p-värde på räntabiliteten om vi tar bort vinstmarginalen. d) Förklaringsgraderna är något högre i modell 2. 0,07 istället för 0,06 respektive 0,06 istället för 0,05. Den kvadrerade modellen kan således förklara lite mer av variationen i VD löner. e) Svar det predikterade värdet är 1 850 000 dollar.