Laboration 2 Inferens S0005M VT16

Laboration 2 Inferens S0005M VT16 Allmänt Arbeta i grupper om 2-3 personer. Flertalet av uppgifterna är tänkta att lösas med hjälp av Minitab. Ett lärarlett pass i datorsal finns schemalagt. Var gärna förberedd inför detta pass genom att: läsa Kap 6 och 7 i Moore-bok, läsa igenom uppgifterna och fundera på hur de skall lösas, samt lösa de delar som skall lösas för hand. Det är även bra om man tittat igenom relevanta avsnitt i den minitab-handledning som finns i fronter (Minitabtips där det mesta för Laboration 2 finns: Stat Basic Statistics; se även avsnitt 5.1 och 5.2 i Minitabmanualen). Det är viktigt att i alla tre deluppgifterna klargöra vilken situation det rör sig om och vilket test som passar bäst: ett-stickprov z- eller t-test, två-stickprov t-test eller stickprov i par. Labbrapporterna lämnas in i rätt inlämningsmapp i fronter och de skall innehålla alla uträkningar som ni utfört och utskrifter från Minitab som visar hur ni fått fram de värden som ni använder. Laborationsredogörelsen lämnas in i pdf format senast måndagen den 9 maj, kl 23:55. DEL A I filen lab2_data (hittas i fronterrummet under Laborationer) finns observerade värden som skall användas i del A och i del B av denna laboration. I filen finns reaktionstider för 8 personer. Reaktionstiden för varje person har mätts då personen varit nykter respektive då han/hon varit berusade med en viss promillehalt alkohol i blodet. Varje rad i datamaterialet motsvarar reaktionstider för en av de åtta testpersonerna. Gör en hypotestest på 5% signifikansnivå som prövar om reaktionstiden är längre vid berusat tillstånd jämfört med vid nyktert tillstånd. Vilken typ av test passar bäst i detta sammanhang? Var noga med att ange tydliga hypoteser och dra korrekta slutsatser av ert test. Kontrollera normalfördelningsantaganden (Minitab: Graph Probability Plot, och s 68-70 i Moore). Beräkna först för hand och använd sedan Minitab för att verifiera att du får samma resultat. (Minitab tips: Stat/Basic Statistics/ Välj lämligt test) Beräkna även ett 90% konfidensintervall för skillnaden och tolka resultatet.

DEL B En grupp ekonomistudenter har träffat en grupp teknologer och diskuterat litteraturkostnader. Det uppstod en tro om att ekonomistudenterna har en högre kostnad för litteratur jämfört med teknologerna. För att få bättre stöd för denna tro valde man slumpmässigt ut 10 st ekonomistudenter och 10 st teknologer och varje student fick uppge sina litteraturkostnader under det gångna året. Filen lab2_data innehåller information om deras litteraturkostnader. 1) Jämför de olika studentkategoriernas kostnad med hjälp av låddiagram. Finns det anledning att misstänka att ekonomistudenterna har högre kostnad? 2) Utför ett test på 5 % signifikansnivå (med hjälp av Minitab) för att besvara frågan om det finns stöd för påståendet att ekonomistudenterna har högre litteraturkostnad än teknologerna. Ange tydligt hypoteser och slutsatser av testet. Vilket test är lämpligt i denna situation? 3) Vad blir slutsatsen om vi i stället hade använt signifikansnivån 10 % i testet ovan? 4) Kontrollera om normalfördelningsantaganden är uppfyllda för det test ni utförde i uppgift B2. Kontrollen skall göras med hjälp av en normal quantile plot sid 68-70 i kursboken (Minitab: Graph Probability Plot). DEL C I Del C ska du undersöka banken B:s förmåga att förvalta aktieportföljer i förhållande till Stockholmsbörsens OMXS30-index. Frågorna du ska besvara är dels teoretiska (de teoretiska är märkta med ett (T)), där svaren hittas i boken. Samt några där du tolkar de resultat som återfinns i bilagorna. Dvs, i den här uppgiften ska du tillämpa det du lärt dig i kapitel 6 och 7 i läroboken om hur man använder hypotesprövning och konfidensintervall samt vilka villkor som har att förhålla sig till. Till din hjälp har du ett stickprov med 153 slumpvist utvalda aktieportföljer som beskriver förra kvartalets värdeförändring. Datamaterialet finns i filen lab2_data. Under samma period hade stockholmsbörsens index, OMXS30, minskat i värde med -0,601%. Till saken hör att det var lite strul med datasystemen när detta gjordes så att en del värden hanterades manuellt, vilket ökar risken för felaktiga data. Vid första anblicken av det underlag du fått så ser det ut som inferens är applicerbart: problem där man brukar beräkna konfidensintervall, p-värde och göra lämpliga hypotesprövningar baserade på skattade medelvärden och standardavvikelser. Det vill säga någon typ av t-test eller liknande.

Bifogar ett antal bilagor med resultat (OBS! Inte från Minitab). Vissa av dem finns i 2 versioner. Du har till uppgift att välja den version du finner mest statistiskt rätt. Motivera ditt val. Ett tips: läs bokens exempel noggrant samt ta hänsyn till de varningar och goda råd som ges i de textavsnitten som är märkta med Caution (speciellt s 21, 432-433, 424). 1) Uppfyller ditt stickprov kraven för att det ska vara lämpligt att använda sig av ett One-Sample t-test? a) Vilken fördelning bör man ha på observationerna? (T) b) Hur känsligt är en avvikelse från denna fördelning och hur förhåller det sig till antalet observationer man har tillgång till (s 432-433 i Moore)? (T) c) Nämn några metoder man kan använda sig av för att bedöma om stickprovet följer normalfördelningen, förklara även hur man tolkar dessa. (T) d) Formulera en hypotesprövning utifrån den information du fått för att undersöka om banken B presterat annorlunda än OMXS30 index. Motivera de val du måste göra. (T) e) Uteliggare kan stöka till resultat och analys på ett mycket obehagligt sätt. Hur många uteliggare hittar du i stickprovet och hur får du hantera dessa, dvs vad krävs för att man ska få plocka bort en observation som man tror är en uteliggare. (T) 2) Är det någon genomsnittlig skillnad mellan hur banken presterar (över alla sina aktieportföljer) och OMXS30? Utför hypotestestet och dra slutsatser. Använd Minitab och dra slutsatser utifrån de villkor du kom fram till i 1). Vilken signifikansnivå tycker du det är lämpligt att använda? Kontrollera om resultat du fått stämmer överens med bilagor nedan. 3) 153 observationer är rätt många och det kostar trots allt en del arbete att plocka fram data. Du funderar på hur få du egentligen behöver för att komma fram till samma slutsats som med 153 observationer. a) I boken finns några tips för hur många observationer man bör ha (s 363-365). För ett resonemang kring hur få observationer du vågar välja. Resonera även kring vad som händer när man jobbar med färre observationer, dvs vad händer med parametrarna i exempelvis formeln som används när man beräknar ett konfidensintervall. (T) b) Hur många observationer väljer du och hur kommer du att gå till väga för att dina val av observationer verkligen är randomiserat, dvs slumpmässigt valda? (T) c) Välj ut en mindre delmängd och gör om analysen av utfallet i någon form (t ex ett konfidensintervall). Räckte antalet för att dra samma slutsats som i uppgift 2)?

Här får du en första översikt över hur materialet i uppgift 1 ser ut. Mer hittar du i bilagorna. Mean -5,644706 Std Dev 25,264409 Std Err Mean 2,0425064 N 153

Bilaga 1 Värdeutveckling i % per Aktieportfölj, totalt 153 st. -6,82-4,43-7,63 4,33 2,29 4,98-9,16 0,95-8,61-9,14-17,22-8,7 10,03 0,14-0,25-8,66 0,63-8,61-19,14 0,64-1,77 14,44 0,37-1,22 1,63-5,68-7,38 5,04-3,38 5,64 15,35 0,05-2,03 2,35-1,08-135 -19,25 0,81-1,03-15,03-0,02-0,33 2,34 1,52 2,66 1,28-0,14 40 8,22-0,6-0,42-7,24 0,72-6,25 6,22-6,48 6,07-10,36-8,55-10,19-7,41 1,41-1,05-2,65 1,27-180 -12,93 1,61-2,2-1,14 0,42-0,51 6,13-6,13 26,22-5,35-3,41-120 -10,27-5,14-9,95 5,34-4,65 6,32-7,21-0,94-6,66 8,01-1,05-165 5,03-9,14 7,88-16,13 2,24-4,45-12,7-2,24-1,87-8,36-0,8 1,9 7-2,38 7,94 6,01 0,35-0,42-5,11-5,06-4,85-9,27 0,39-2,15 15,09-0,08 0,33-13,58-1,04-3,36-2,56-1,43-1,91-2,64-1,61-2,01-2,93 0,03-2,32 5,82 0,9 6,32-15,25-11,74-15 -8,16 1,16-6,95-15,8 0,46-0,76 0,63-0,25 5-7,34-0,44 4,63-2,25-1,22-1,15-26,19 0,69-0,52

Bilaga 2 Analysunderlag Uppgift 1, version 1 Resultaten nedan är baserat på data som visas i Bilaga 1. Programvaran som använts heter JMP och ser troligtvis lite annorlunda ut än vad det gör i Minitab. Observera resultaten att bilagorna inte följer samma upplägg, detta är ett medvetet val för att ni ska tränas i att känna igen vad ni behöver för att dra slutsatser. Du ska själv bedöma och motivera vilken av versionerna (bilaga 2 eller bilaga 3) du kommer att använda till din analys och slutsats i de olika uppgifterna. SUMMARY STATISTICS Mean -5,644706 Std Dev 25,264409 Std Err Mean 2,0425064 Upper 95% Mean -1,609338 Lower 95% Mean -9,680073 N 153 Stem and Leaf Histogram, box-plot och normalfördelningsplot

Bilaga 2. Uppgift 1 version 1 t-test baserat på medelvärdet KONFIDENSINTERVALL Parameter Estimate Lower CI Upper CI 1-Alpha Mean -5,64471-9,68007-1,60934 0,950 Std Dev 25,26441 22,71547 28,46278 0,950 Quantiles 100.0% maximum 40 99.5% 40 97.5% 15,129 90.0% 6,106 75.0% quartile 1,215 50.0% median -1,14 25.0% quartile -7,08 10.0% -12,838 2.5% -122,25 0.5% -180 0.0% minimum -180

Bilaga 3, Analysunderlag Uppgift 1, version 2 Resultaten nedan är baserat på delar av data som visas i Bilaga 1. Programvaran som använts heter JMP och ser troligtvis lite annorlunda ut än vad det gör i Minitab. 40-2,33-1,64-1,28-0,67 0,0 0,67 1,28 1,64 2,33 30 20 10 0-10 -20-30 Stem and Leaf 0,0075 0,07 0,2 0,4 0,6 0,8 0,93 Normal Quantile Plot

Bilaga 3. Uppgift 1 - version 2 Konfidensintervall Parameter Estimate Lower CI Upper CI 1-Alpha Mean -1,7694-3,0443-0,49449 0,950 Std Dev 7,875143 7,071065 8,887183 0,950 Hyptesprövning: t Test Test Statistic -1,8110 Prob > t 0,0722 Prob > t 0,9639 Prob < t 0,0361*