Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande tolkning av data. Histogram, spridningsdiagram, medelvärden, standardavvikelser, boxplots, etcetera. Matematisk statistik. Populationer, stickprov, slutsatser, osäkerhet, p-värden, signifikanstest, medelvärden, standardavvikelser, normalfördelningar, skattningar, konfidensintervall etcetera. Fredrik Jonsson Januari 2012, vt12 (1 : 18), vt12 (2 : 18) Vad är ett stickprov? Stickprov och urval Enkelt svar: ett begränsat antal individer som hör till en viss population (ett urval). Att tillämpa statistiska metoder handlar för det mesta om att låta begränsade urval tala för ett större sammanhang. Ofta underförstått: att stickprovet bör vara representativt för populationen. Bör undvikas: att stickprovet enbart innefattar extrema individer av ett eller annat slag. Avsikten med stickprov är: Att det är representativt för hela sammanhanget. Att det är tillräckligt stort så att observerade effekter inte förklaras av enskilda individer. Annan innebörd: att individerna valts slumpmässigt från populationen (sannolikhetsteori). För att öka trovärdigheten kan man: Bredda urvalet, exempelvis över tid eller geografiskt. Engelsk terminologi: sample = stickprov, sampling = att bilda stickprov, välja individer slumpmässigt Göra lägre anspråk vad gäller sammanhanget. Ta med fler individer i undersökningen., vt12 (3 : 18), vt12 (4 : 18)
Vad är ett medelvärde? Vad är en standardavvikelse? Givet n stycken tal x 1,..., x n definierar man medelvärdet x av dessa: x = 1 n n x i. Givet n stycken tal x 1,..., x n definierar man variansen s 2 av dessa: s 2 = 1 n 1 n (x i x) 2. Mäter den kvadratiska variationen kring medelvärdet. Kallas även för aritmetiskt medelvärde (jmf. geometriska och harmoniska dito). Engelska: mean. Uttrycket i genomsnitt motsvaras av on average. Exempel på ett lägesmått. Ett altenativt lägesmått ges av medianen, som anger det mittersta värdet i en storleksordning av x 1,..., x n. Motsvarande standardavvikelse s ges av s = 1 n (x i x) n 1 2. Om x 1,..., x n uttrycks i en viss enhet, så har s samma enhet. Ett spridningsmått., vt12 (5 : 18), vt12 (6 : 18) Hypotesprövning som vetenskaplig metod Hypotesprövning och statistisk signifikans En hypotes påstår något om den verklighet vi undersöker eller tänkt oss att undersöka. Undersökningar eller experiment utförs för att testa om hypotesen stämmer. Statistisk signifikans betyder att man utesluter den slumpmässiga variationen som alltför otrolig förklaring till den uppmätta effekten. Nollhypotes att det som verkar vara en skillnad bara beror på slump. Resultat 1: I linje med vad hypotesen förutspådde Resultat 2: En stark kontrast mot vad hypotesen förutspådde; något som talar emot hypotesen. Alternativ hypotes en förklaring till den uppmätta skillnaden i termer av verkliga skillnader. Slutsats 1: Hypotesen kan inte förkastas. Statistisk signifikans: nollhypotesen förkastas. Slutsats 2: Hypotesen verkar högst otrolig, och förkastas därför. Signifikansnivå: den gräns vid vilket det inträffande bedöms som alltför osannolikt ur noll-perspektivet. (Ex: 5%, 1%, 0,1%), vt12 (7 : 18), vt12 (8 : 18)
Varför statistiskt signifikanta resultat? Vad är ett p-värde? Att säkerställa slutsatser om populationer trots stickprovets begränsningar. Icke-signifikans betyder att man misslyckats. Den lägsta signifikansnivå med vilken den uppmätta effekten fortfarande är signifikant. Med andra ord, statistiska metoder ger ofta en form av kontroll. Sannolikheten att få en minst lika stor effekt enbart på grund av slump. Mer allmänt behandlar statistisk teori även felmarginaler och mätosäkerhet, hur man bäst tar till vara på information från stickprov, etcetera., vt12 (9 : 18), vt12 (10 : 18) Exempel Försöksplanering Vilka frågeställningar/hypoteser intresserar vi oss för? Hur använder vi våra tillgängliga resurser på bästa sätt? Vilken typ av data samlar vi in, och hur pass omfattande behöver studien vara? I mätningarna ovan verkar det finnas en positiv tendens. Motsvarande p-värde för att detta enbart skulle vara slump är (t-test) 1.75% Är insamlad data tillräckligt representativ och omfattande för sammanhanget som vi intresserar oss för? Kan data analyseras och redovisas med några vedertagna metoder? vilket är ett förhållandevis starkt indicium för att det råder en positiv tendens., vt12 (11 : 18) Är det relevant att inkludera någon form av kontrollgrupp?, vt12 (12 : 18) Kan det tänkas finnas andra förklarande faktorer än de som försöket uppmärksammar, och kan vi i så fall inkludera eller kontrollera dessa på något sätt?
... Stolp/stapeldiagram...är ett exempel på ett enklare programpaket utvecklat för statistiska beräkningar. Det påminner om Microsoft Excel i sitt upplägg. Mata in separata stickprov kolumnvis i arbetsfältet. Namnge gärna kolumnerna för att hålla ordning. Under fliken Graph återfinns diverse verktyg för grafiska representationer. För att beräkna medelvärden och standardavvikelser, använd exempelvis Basic statistics under fliken Stat. Kräver diskreta observationer., vt12 (13 : 18), vt12 (14 : 18) Histogram Lådagram (boxplot) Bygger på klassindelning relativt motsvarande data. Bygger på begreppen median och undre/övre kvartil., vt12 (15 : 18), vt12 (16 : 18)
Spridningsdiagram Ett exempel x = 5 och ȳ = 0. Samt s x = 1 och s y = 4. x y Parvisa observationer., vt12 (17 : 18) Centreringen är olika till vänster (5) och höger (0). Variationen till höger är ungefär fyra gånger så stor som den till vänster., vt12 (18 : 18)