Institutionen för teknikvetenskap och matematik S0001M Matematisk statistik LABORATION 1 Laborationen avser att illustrera några grundläggande begrepp inom beskrivande statistik och explorativ dataanalys. Ett viktigt inslag i laborationen är också att bli bekant med den statistiska program vara som används under kursen. En viktig del av laborationen är att på egen hand tillgodogöra sig nytt stoff i statistik och sedan tillämpa det. Det är på detta sätt du kommer att arbeta i framtiden. På den schemalagda tiden i datorsalen beräknas du hinna med de datorkörningar som ska göras, förutsatt du är förberedd när du kommer dit. Dessutom behöver du avsätta tid både före och efter den schemalagda tiden för att genomföra laborationen. Laborationen diskuteras på ett KGB-pass, som är schemalagt en tid efter den schemalagda tiden i datorsalen. Till dess ska en överskådlig sammanställning av resultaten ha gjorts genom att ta ut MINITAB-utskrifter och kommentera varje utskrift. Laborationsredogörelsen skall lämnas in i pdf format via Canvas senast en vecka efter KGB 1 oavsett om du deltar på KGB eller ej. Observera att redogörelsen ska lämnas i pdf format! Litteratur: Vännman, Matematisk statistik, kap 1. Handledning för MINITAB. MINITAB-handledningen finns i mappen Kompletterande material i Canvas. Att göra före det schemalagda labpasset. Innehåll Läs först igenom kap 1 i kursboken, speciellt sid. 8-10, 14-16, 21-35. Läs sedan noggrant igenom hela laborationshandledningen och lämpliga delar av MINITAB-handledningen innan du börjar göra uppgifterna. Innan du kommer till laborationen i datasalen måste du ha samlat in ditt data-material och gjort vissa handräkningar. Se avsnitt 2 nedan. 1 Beskrivning av uppgifter och datamaterial 2 1.1 Kroppsmått.............................. 2 1.2 Insamling av mätvärden....................... 2 2 Stam-bladdiagram och lådagram utan datorstöd 3
3 Beskrivning av materialet med hjälp av dator 3 3.1 Inläsning av data i MINITAB.................... 4 3.2 Beskrivning av datamaterialet.................... 4 3.3 Jämförelser mellan män och kvinnor (två stickprov)....... 5 3.4 Jämförelser mellan dominant och icke-dominant sida (stickprov i par).................................. 6 3.5 Redovisning.............................. 6 3.6 Inlämning i Canvas.......................... 6 1 Beskrivning av uppgifter och datamaterial Om man mäter längden av pekfinger hos en person på dominant och ickedominant sida, kan man då vänta sig att pekfingrarna är ungefär lika långa eller att dom skiljer sig åt? Kan man vänta sig att pekfingrarnas genomsnittliga längd hos kvinnor och män skiljer sig åt? Finns det något samband mellan pekfingerns längd och stortåns längd hos en person? Ett sätt att försöka besvara sådana frågor är att samla in data från ett antal personer och bearbeta den informationen på något lämpligt sätt. 1.1 Kroppsmått Din uppgift består i att mäta och samla in data om kroppsmått och beskriva det insamlade datamaterialet på ett lämpligt sätt för att besvara frågor liknande de dom nämndes ovan. Du ska först av allt bestämma vilket kroppsmått som du vill studera. Du har att välja mellan följande mått (inga andra mått accepteras): handledsmåttet, långfingrets längd. pekfingrets längd. Du ska även ta reda på om personen är höger- eller vänsterhänt, så att du vet vilken som är den personens dominanta sida, samt personens kön. Från redovisningen ska det framgå vad den exakta definitionen av det valda kroppsmåttet. Innan du bestämmer dig för vilket mått du ska studera kan det vara klokt att läsa igenom hela handledningen. 1.2 Insamling av mätvärden Du ska samla in mätvärden på det valda kroppsmåttet. Totalt ska 36 personer mätas: 18 kvinnor och 18 män. Kroppsmåttet ska mätas på både höger och vänster sida. Totalt ska du alltså få 72 observationsvärden på kroppsmåttet, tillsammans med information som anger om måttet mätts på dominant eller icke-dominant sida, samt personens kön. För att välja ut försökspersoner på ett statistiskt korrekt sätt ska man först definiera den population man vill undersöka och uttala sig om och sedan välja försökspersoner ur populationen enligt någon urvalsmetod som bygger på slumpmässigt urval. Av tidsskäl görs inte urvalet på detta sätt här utan du bestämmer själv dina försökspersoner så att det blir praktiskt och enkelt för dig. Redovisa tydligt hur du valt dem. Redovisa vilken mätmetod du har använt och i vilken enhet du mäter. Du ska mäta i en lämpligt vald enhet med minst två siffrors noggrannhet. Observera att det insamlade datamaterialet även kommer att användas i Laboration 2. 2 (6)
2 Stam-bladdiagram och lådagram utan datorstöd Du ska börja med att studera alla 72 värdena av kroppsmåttet sammantaget och på ett överskådligt sätt beskriva hur dina värden ligger och hur de varierar. För att få en känsla för och förståelse av begreppen stam-bladdiagram och lådagram så ska du först göra vissa bearbetningar av materialet för hand. Du ska sedan jämföra dina resultat från handräkningen med de som datorprogrammet MINITAB ger. Se avsnitt 3.2. Stam-bladdiagrammet är ett finurligt mellanting mellan tabell och diagram. Det ger en bild av materialets fördelning samtidigt som man behåller alla ursprungsvärdena. Det är även en bra metod för att snabbt för hand ordna materialet efter storlek. Din uppgift är att för hand göra ett stam-bladdiagram och ett lådagram över hela datamaterialet på 72 värden som beskriver ditt valda kroppsmått. (a) Gör ett stam-bladdiagram på rutat papper som överskådligt beskriver data-materialet och där du tar med alla siffrorna i bladen. Det kan då innebära att bladen kommer att innehålla mer än en siffra. Sätt i så fall ett komma (,) mellan varje fler-siffrigt blad. Se figur 1 nedan. Tänk på att varje blad ska uppta lika stor plats, t ex en ruta. Tänk också på att eventuellt sträcka ut eller dra ihop stammen så att diagrammet ger bra information om fördelningen av värdena. Jämför med figurerna 1.21 och 1.22, sidorna 28-29 i kursboken. (b) Utgå från stam-bladdiagrammet i (a) och beräkna median, kvartiler, stängsel, d v s de värden som avgränsar uteliggarna, och eventuella uteliggare. Stängslen ska anges både för material som har och inte har uteliggare. Rita därefter ett lådagram enligt den mer utvecklade varianten, som tar hänsyn till eventuella uteliggare. Median, kvartilerna och stängslen ska beräknas efter Tukeys definitioner enligt avsnitt 1.4 i kursboken. Observera att stängslen inte ska ritas in i lådagrammet. Jämför med figurerna 1.25, sidan 32, och 1.28, sidan 34, i kursboken. Figur 1: Materialet från figur 1.26, sidan 32 i kursboken givet med två-siffriga blad 3 Beskrivning av materialet med hjälp av dator Om man för hand ska beskriva ett stort ogrupperat material och inte använda EDA brukar man först klassindela sina observationer och sedan får klassmitten approximera alla värden i motsvarande klass, se kap 1.3.3 i kursboken. Numera har man ofta tillgång till någon statistisk programvara på dator som räknar på ursprungsmaterialet utan den approximation som en klassindelning 3 (6)
gör. I följande uppgifter ska du använda programmet MINITAB för att bearbeta mätningarna av ditt kroppsmått. Information om hur man använder MINITAB finns i häftet Handledning för MINITAB. 3.1 Inläsning av data i MINITAB Läs in ditt material i MINITAB och kontrollera noga att du läst in det rätt. Inläsningsfel är en vanlig felkälla vid bearbetning av data. När du läser in ditt material så kan du läsa in det som tre variabler (kolumner) med 36 värden i varje kolumn. Mätvärdena på en rad ska då höra till en och samma person. Kolumnerna ska innehålla kroppsmåttets värde på dominant och icke-dominant sida samt personens kön. En person som är högerhänt har höger sida som dominant och vänster sida som icke-dominant. På motsvarande sätt gäller för en person som är vänsterhänt att vänster sida är dominant och höger är icke-dominant. Det kan t ex se ut så här, där K markerar kvinna och M markerar man i kolumnen för kön. Var noga med att mätvärden och egenskaper som hör till en och samma person ham-nar på samma rad. Sätt tydliga namn på dina variabler. Gör en pappersutskrift av ditt datamaterial, som du bilägger redovisningen. Spara också en kopia av din datafil i din hemmakatalog. Ditt datamaterial ska bearbetas ytterliggare i laboration 2. Om du vill kan du före laborationstillfället läsa in ditt material i Excel och sedan bara kopiera in det i Minitab då du kommer till datorsalen. OBS! Om du skriver en bokstav i en ruta eller anger decimaler med. istället för, så tror MINITAB att kolumnen i fråga skall vara en textkolumn och den får då beteckningen -T (se kolumnen Kön i figuren ovan). Detta ändras inte enbart genom att ta bort bokstaven eller genom att byta ut decimalpunkterna mot kommatecken. Istället måste du använda kommandot change data type/text to numeric i MINITABs Data meny. 3.2 Beskrivning av datamaterialet Du ska till att börja med inte dela upp ditt material i dominant och ickedominant sida eller efter kön utan studera alla 72 värdena sammantaget. Då måste du först bilda en ny kolumn som innehåller alla 72 kroppsmåttvärdena. Det kan du göra genom att kopiera och klistra på vanligt sätt. Glöm inte att sätta namn på den nya variabeln. Beskriv med hjälp av dator ditt datamaterial bestående av 72 värden på följande sätt: (c) Bestäm medelvärde, median, standardavvikelse, största och minsta värde, variations-bredd, nedre och övre kvartil samt kvartilavstånd. Ange för vart och ett av de beräknade måtten om måttet det är ett lägesmått eller ett spridningsmått. Kommentar: Kursboken innehåller inga ordentliga definitioner av begreppen lägesmått och spridningsmått. Intuitivt så säger ett lägesmått något om var fördelningen befinner sig, ett spridningsmått hur utspridd fördelningen är. Mer exakt gäller att ett lägesmått ändras om man lägger till samma konstant till alla mätvärden medan ett spridningsmått inte ändras alls. Dessa beskrivningar duger faktiskt som definitioner av 4 (6)
lägesmått och spridningmått. För att tolka MINITAB-utskriften kan du använda följande tabell: Svenska medelvärde median största/minsta värde variationsbredd kvartil kvartilavstånd standardavvikelse Engelska mean (ibland average) median maximum/minimum value range quartile interquartile range standard deviation (d) Gör ett stam-bladdiagram och ett lådagram. Jämför med resultaten i avsnitt 2 och kommentera likheter och skillnader. (e) Gör histogram. Här ska du experimentera och på skärmen rita några histogram med varierande klassbredder. Gör på skärmen minst tre olika histogram, ett med få klasser, ett med många klasser och ett med, som du bedömmer, ett rimligt antal klasser. (Se MINIMTAB-handledningen i Canvas för hur man justerar antalet klasser.) En vanlig tumregel för antalet klasser är 10-20. En annan regel är att antalet klasser ska vara ungefär lika med kvadratroten ur antalet mätvärden, om antalet mätvärden är stort. Här får du använda sunt förnuft för att hitta ett rimligt antal klasser, som på ett bra sätt beskriver materialet. Redovisa enbart av det histogram, som du anser har ett rimligt antal klasser. (f) Sammanfatta i ord de slutsatser du kan dra om materialet efter att ha beskrivit det enligt ovan, dvs beskriv med ord de framträdande dragen (i form av läge, spridning, snedhet osv) och eventuella underligheter, som du har funnit i ditt material. 3.3 Jämförelser mellan män och kvinnor (två stickprov) Kan man för ditt kroppsmått påstå att det finns skillnad i genomsnitt mellan män och kvinnor? Kanske såg du vid bearbetningen av materialet ovan att det finns en tendens till två olika grupper. Det kan i så fall innebära att det finns en sådan skillnad. Du ska nu studera kroppsmåttet för att undersöka om det finns genomsnittliga skillnader mellan män och kvinnor. När man gör jämförelserna mellan män och kvinnor så gör man s k jämförelser mellan två stickprov. Två stickprov är ett viktigt begrepp och det kommer att behandlas mer i detalj i laboration 2. Bilda ytterligare en ny kolumn, en sk kodkolumn, som anger för varje värde i den 72 värden långa kolumnen om mätvärdet hör till en man eller kvinna. Det görs enkelt genom kopiera och klistra in på motsvarande sätt som ovan. (g) Undersök om det finns en genomsnittlig skillnad mellan män och kvinnor genom att göra jämförande lådagram, d v s båda lådagrammen i samma diagram med samma skala, över ditt studerade kroppsmått. Gör ingen uppdelning efter sida utan använd alla 36 observationerna för män respektive för kvinnor. Vilka slutsatser drar du? Motivera dina slutsatser genom att ta hänsyn till läges- eller spridningsmått i dina lådagram. Formulera dina slutsatser tydligt i ord. 5 (6)
3.4 Jämförelser mellan dominant och icke-dominant sida (stickprov i par) Kan man för ditt kroppsmått påstå att det finns skillnad i genomsnitt mellan dominant och icke-dominant sida? Du ska nu studera kroppsmåttet för att undersöka om det finns genomsnittliga skillnader mellan sidorna. För att göra det så görs jämförelsen på individnivå och man kallar det för jämförelser av stickprov i par. Stickprov i par är ytterligare ett viktigt begrepp som kommer att behandlas mer i detalj i laboration 2, där du kommer att arbeta vidare med ditt material över kroppsmått. (h) För att undersöka om det kan finnas skillnad mellan dominant och ickedominant sida så ska man göra jämförelsen på individnivå. Bilda därför först en ny variabel som är differensen mellan dominant och icke-dominant sida för ditt kroppsmått. Undersök sedan om det finns en genomsnittlig skillnad mellan dominant och icke-dominant sida genom att göra ett lådagram över de nya differensvärdena. Gör ingen uppdelning efter män och kvinnor utan använd alla 36 differensvärdena. Vilka slutsatser drar du? Motivera dina slutsatser genom att ta hänsyn till läges - eller spridningsmått i ditt lådagram. Formulera tydligt dina slutsatser i ord. 3.5 Redovisning Till denna laboration ska du skriva en laborationsrapport. Redovisningen ska göras så att det till det KGB-pass då laborationen ska diskuteras finns en överskådlig sammanställning av resultaten. Ta antingen ut Minitabutskrifter och kommentera varje utskrift för hand eller klistra in dina tabeller och diagram i Word och skriv kommentarerna i direkt anslutning till respektive tabell eller diagram. Tänk på följande Det ska tydligt framgå till vilken uppgift varje utskrift hör. Definiera det valda kroppsmåttet. Redovisa hur försökspersonerna valts ut. Redovisa mätmetoden. Redovisa i vilken enhet du har mätt dina kroppsmått. Varje tabell och diagram ska vara tydligt kommenterade och slutsatserna från varje uppgift ska tydligt framgå. Ta med en pappersutskrift av datafilen till KGB 1 om du planerar att gå. Spara en kopia av datafilen på din hemmakatalog. Du kommer att använda den på Lab 2. 3.6 Inlämning i Canvas Rapporten ska lämnas in i pdf format via Canvas. Innan du lämnar in rapporten ska du och dina labkamrater gå med i en av grupperna i Labgrupper för Lab 1 i Canvas. När alla medlemmar har gått med i en grupp så kan någon gruppmedlem sedan lämna in rapporten via gruppinlämning. Om en eller flera i gruppen går på KGB-passet så ska en utskrift av rapporten tas med till KGB. Men man behöver inte lämna in något i Canvas inför KGB. 6 (6)