Bearbetning och Presentation Vid en bottenfaunaundersökning i Nydalasjön räknade man antalet ringmaskar i 5 vattenprover. Följande värden erhölls:,,,4,,,5,,8,4,,,0,3, Det verkar vara diskreta observationer. - -
Ovanstående kan sammanställas på lite olika sätt Enkel frekvenstabell Antal Frekvens Frekvens proportion Frekvens % 0 0.067 6.7 7 0.467 46.7 0.33 3.3 3 0.067 6.7 4 0.33 3.3 5 0.067 6.7 6 0 0 0 7 0 0 0 8 0.067 6.7 Det går även att presentera grafiska bilder av ovanstående - -
Stolpdiagram 7 6 5 frekvens 4 3 0 0 3 4 5 6 7 8 antal - 3 -
Boxplot 8 7 6 ringmaskar 5 4 3 0-4 -
By default, a boxplot consists of a box, whiskers, and outliers. A line is drawn across the box at the median. By default, the bottom of the box is at the first quartile (Q), and the top is at the third quartile (Q3) value. The whiskers are the lines that extend from the top and bottom of the box to the adjacent values. The adjacent values are the lowest and highest observations that are still inside the region defined by the following limits: Lower Limit: Q -.5 (Q3 - Q) Upper Limit: Q3 +.5 (Q3 - Q) Outliers are points outside of the lower and upper limits and are plotted with asterisks (*). All Rights Reserved. 000 Minitab, Inc. - 5 -
Trappstegskurva 5 kumulativ frekvens 0 5 0 0 3 4 5 antal 6 7 8 9-6 -
Antag nu istället att vi har tagit 00 mätningar på ph-värdet i en pappersprocess, resultat 6,3 6,40 7,00 5,66 7,3 8,3 9,5 6, 5,60 6,8 5,33 6,9 6,64 6,59 6,80 6,49 7,35 7,49 6,95 8,03 6,45 6,7 7,67 7,44 7,07 9,78 7,3 6,56 7,48 7,30 5,87 4,38 7,4 8,08 7,8 7, 6,0 7,6 6,9 6,09 8,30 7,39 9,00 4,04 6,74 3,33 6,47 8,60 6,79 7,7 8,9 7,04 6,68 5,7 4,77 4,64 5,56 7, 6,5 7,74 7,55 7,87 4,46 6,53 7,04 7,95 6,00 8,63 8,5 6,40 7,33 7,83 8,06 8,09 6,40 6,86 5,96 7,39 6,63 6,7 6,49 6,58 6,60 7,36 7,63 7,09 7,50 8,35 5,80 6,98 6,3 6,73 6,50 6,3 4,93 7,77 6,00 6,59 6,44 8,8 7,9 6,7 6,9 3,39 5,53 4,97 7,03 6,69 6,7 8,6 7,8 4,75 6,7 7, 6,6 7,97 6,04 8,7 5,94 8,0 7,98 7,9 7,4 7,9 6,57 6,7 7,5 6,9 6,4 6,48 7,3 8,44 7,79 7,96 7,05 7,34 8,83 6,6 5, 6,63 6,4 7,09 7,40 6,76 6,09 7, 7,0 7,68 4,5 0,44 5,37 6, 6,50 8,0 5,95 5,53 9,3 7,70 7,04 7,4 6,3 5,0 4,36 5,69 8,3 6,67 8, 7,7 7,9 6,66 9,76 7,70 5,9 8, 6,65 7,7 5,86 7,8 7,56 7,0 7,34 5,85 6,44 8,98 5,0 6,68 6,44 4,75 7,74 5,03 7, 8,93 7,05 6,6 7,63 7,95 6,09 5,9 6,88 6,67-7 -
Ganska svårt att säga något om observationerna Låt oss försöka genera lite olika typer av bilder för ovanstående material. Stolpdiagram fungerar nog inte för detta material - 8 -
Dotplot for ph - värden 3,5 4,5 5,5 6,5 7,5 8,5 9,5 0,5 ph - värden Dotplot: - 9 -
40 30 Frequency 0 0 0 3 4 5 6 Histogram: Här har jag inte påverkat Minitab på något sätt utan bara utnyttjat det som Minitab använder som basinställning. 7-0 - 8 ph - värden 9 0
Histogram kan man variera på många olika sätt. 80 70 60 Frequency 50 40 30 0 0 0 3 4 5 6 7 8 9 0 ph - värden Antalet intervall är satt till 8 - -
70 60 50 Frequency 40 30 0 0 0 3 4 5 6 7 8 9 0 ph - värden Klassindelningen är på varje heltal och bredden på varje intervall är satt till och x-axeln ska gå från till - -
,0 Cumulative Density 0,5 0,0 3 4 5 6 7 8 9 0 ph - värden Här är motsvarigheten till trappstegskurvan med samma intervallindelning som i föregående histogram. - 3 -
Boxplot för ph-observationerna 3 4 5 6 7 8 9 0 ph - värden - 4 -
Sammanfattande mått Hur sammanfattar vi ett datamaterial med en eller ett par tal? Central mått - Spridningsmått Central mått Typvärde: Det variabelvärde som förekommer oftast. Vid klassindelat material används klassmitt i den klass med högst frekvens. Median: Det variabelvärde som delar en storleksordnad observationsserie i två lika stora delar. Om antalet observationer är udda blir det mittersta värdet. Om antalet observationer är jämnt blir det medelvärdet av två mittersta värdena. - 5 -
Ex: Antag att vi observerat åldrarna på 0 elever i en klass. De är (i år) 9, 3, 7,, 0,, 0, 9, 4, 0 Bestäm typvärdet och medianen i ovanstående grupp. Börja med att storleksordna gruppen 9, 9, 0, 0, 0,,, 3, 4, 7 Typvärdet: Det variabelvärde som förekommer oftast, dvs 0 år Median: medelvärdet av de två mittersta observationerna; (0+)/ = 0.5 år Nästa centralmått är medelvärde. Det finns beskrivet nedan. Läs själva. - 6 -
Matematikrepetition Lös följande problem ) 4) 3 5 + ) 7 6 3 5 5) 7 6 9 8 + 3 3) 3 5 7 6 6) 3 + 7 6 4 6 + 38 4 7) 4x 6 = 4 6x 8) 4x 6 = 4 6x 9) 3k 6 = 4 6k 0) k = 8 k - 7 -
) Vilket är störst av talen 39 4 och 7? Försök först utan att använda miniräknare. x x 6 ) Lös ekvationen 4 + = 0 3 6 3) Lös ekvationssystemet 5x 3y = 7 3x y = 5-8 -
- 9 - Summationstecken Om vi låter x, x,, x n beteckna n st tal kan deras summa och kvadratsumma skrivas som x + x + + x n = = n i i x respektive = = + + + n i i n x x... x x OBS! = = n i i n i i x x Ex: Låt x =, x = 3, x 3 = 7
n x i= i = = ( + 3 + 7) n i= xi = + 3 + 7 = 59-0 -
Nu passar vi på att även introducera medelvärdet x n = x n i= ( x + x +... x )/ n i = + n I vårt tidigare exempel av åldrarna blir medelvärdet 0 x = xi 0 ( 9 + 3 + 7 + + 0 + + 0 + 9 + 4 + 0).5 i= = /0 = - -
Ex. En demograf ville jämföra livslängden i två populationer (två olika länder). Genom att ta ett slumpmässigt stickprov på livslängder i de två länderna fick man fram följande livslängder (i år): Land : 9, 8, 9, 96, 93, 86, 97 Land : 76, 85, 7, 74, 79, 7, 90, 69 Kan man med dessa observationer säga att livslängderna skiljer sig åt mellan de två länderna? Vi ser att det finns variation inom de två länderna. Vi vill uttala oss om skillnaden mellan de två länderna och då är det nog bättre att använda sig av medellivslängden istället. Med medellivslängd menar vi här vad vi teoretiskt skulle få om vi samlade på oss väldigt många livslängder. - -
Enskilda livslängder är av underordnad betydelse om vi vill jämföra ländernas medellivslängd. Dock, rimligen borde medellivslängderna i demografens urval återspegla de teoretiska genomsnitten. Om vi bestämmer medelvärdena i de båda stickproven: Land : (9+8+ +97) / 7 = 9 Land : (76+85+ +69) / 8 = 77 Att bara jämföra stickprovsmedelvärdena 9 och 77 räcker inte till att avgöra vad som beror på slumpmässig variation och vad som beror på att det är skillnad i stickprovsmedelvärdena. Om alla värden från land varit 9 och alla värden från land varit 77 då skulle vi på goda grunder kunna påstå att skillnaden på 4 år inte beror på slumpen. Slutsatsen då skulle vara att land har längre livslängd. - 3 -
För de data som demografen har måste vi först bedöma den slumpmässiga osäkerheten hos stickprovsmedelvärdena innan vi kan dra någon slutsats. Ett enkelt sätt att få överblick på variationen är att markera de observerade värdena i ett diagram. Låt x vara för land och y för land x x xxx xx y yy y y y y y 65 70 75 80 85 90 95 Som ni ser finns en tendens att x-värdena ligger högre än y-värdena Statistiska metoder finns utvecklade för att ge svar på om förskjutningen enbart beror på slumpen eller inte. Skillnaden sägs vara statistiskt säkerställd om förskjutningen inte kan förklaras av slumpen. I det motsatta fallet sägs skillnaden ligga inom felmarginalen. - 4 -
Den mest kända statistiska metoden är att räknemässigt beskriva variationen inom de två stickproven och med hjälp av detta tillsammans med de observerade stickprovsmedelvärdena dra lämplig slutsats. Metoden är lätt att praktisera. En räknedosa med tangent för kvadrat roten ur x samt en speciell tabell är de hjälpmedel som krävs. x och Att förstå metoden är dock svårare och kräver mer studier! Övning n n Bestäm medelvärde och xi samt xi för de två länderna. Utnyttja i= i= omräkningsformeln, sidan 0 i Sammanfattande mått.pdf och bestäm standardavvikelsen. Land : 9, 8, 9, 96, 93, 86, 97 Land : 76, 85, 7, 74, 79, 7, 90, 69-5 -
- 6 -