Hypotestestning och repetition

Hypotestestning och repetition Statistisk inferens Vid inferens använder man urvalet för att uttala sig om populationen

Centralmått Medelvärde: x= Σx i / n Median Typvärde Spridningsmått Används för att beskriva hur bra centralmåttet är på att sammanfatta den information som data ger Dels för att beskriva det insamlade materialet Dels för att generalisera till populationen (inferens)

Spridningsmått, medelvärde Standardavvikelse: ( x x) = n s i i Beskrivning av det insamlade materialet Variansen = s Spridningsmått, medelvärde Medelvärdets medelfel: SEM= s/ n För att dra slutsatser SEM: standard error of the mean, kallas också SE (standard error) 3

z och t Vid stora urval (>50) används z-fördelningen, alltid f.g x µ z = σ n vid mindre urval används t-fördelningen med n- f.g x µ t = s n Konfidensintervall På samma sätt för z och t x ± t( s ) n t fås ur tabell (n-) f.g 4

Standardiserad normalfördelning Hypotestestning H 0 : Anger att det inte finns någon skillnad H : Anger att det finns en skillnad Testet anger sannolikheten för att H 0 är sann Egentligen: sannolikheten att få ett utfall minst så extremt som det uppmätta värdet om H 0 är sann 5

Klassisk hypotestestning Om z-värdet, eller motsvarande, blir mindre än det gränsvärde man använder förkastas H 0 P-värdesbaserad testning När p-värdet har räknats fram bedöms om sannolikheten är tillräckligt låg för att förkasta H 0 Exempel Glödlampor av ett visst märke har i genomsnitt en brinntid på 600 timmar med en standardavvikelse på 00 timmar. En förbättring av produktionen gör att man tror att brinntiden har förlängts. H 0 : µ=600, σ=00 H : µ>600, stickprov n=5, x=660, s=5 z=(660-600)/(00/5)= 3,0 6

Exempel, forts Klassiskt test Z kritiskt värde =.64 3.0>.64 H 0 förkastas P-värdesbaserat z=3.0 p=0.003 Mycket liten sannolikhet att H 0 är korrekt 8

Sammanfattning Frågeställningen Frågeställningen översätts till hypoteser Slumpmäsigt urval och beräkningar Nollhypotesen accepteras eller förkastas När man inte vet pop.medelvärde eller om variablerna inte är normalfördelade? Populationsmedelvärdet uppskattas med hjälp av ett urval. Andra metoder än de som bygger på normalfördelningen används, oftast ickeparametriska metoder 9

När pop.medelvärdet är okänt Uppskattas med hjälp av ett urval vars medelvärde används istället för pop.medelvärdet Medför att osäkerheten ökar något varför formlerna måste modifieras Jämförelse mellan två medelvärden, Z-test Parvis test: z = d SE d Gruppvis: ( x z = x ) SE x + SE x 0

Parvis test: Jämförelse mellan två medelvärden, t-test t = d SE d Frihetsgrader, fg: fg = n- Gruppvis: t ( = x x) SE x x Frihetsgrader: fg = n +n - Jämförelse mellan två medelvärden, t-test Gruppvis uträkning av SE x+x ( x x ) t = = ( x x) / SE x + s + n n x s = (( n f.g= n +n - ) s + ( n ) s ( n + n )

Exempel Man är intresserad av att undersöka om det går att förhindra allergi hos barn genom att ge ett kosttillskott dels till mamman före födseln och dels till barnet efter födseln. Hur ska studien genomföras? Det enklaste är att räkna hur många barn som blir allergiker och sedan jämföra det med populationen. Det tar dock flera år innan man kan få något svar, och vilken population ska man jämföra med? För att kunna göra en så begränsad studie som möjligt får bara gravida med känd allergi delta i studien. Vilken är populationen? Dessa delas i två grupper, en som får preparatet och en som inte får det. Varför? För att få preliminära resultat beslutar man sig för att mäta antikroppar, t.ex IgE, på så vis kan man se om preparatet har någon påverkan alls på immunförsvaret.

H 0 : Mängden IgE är lika i bägge grupperna H : Mängden IgE skiljer sig åt (egentligen bör mängden IgE vara mindre i den behandlade gruppen) Utfall: Beh.grupp: x=46, s=505, n=5 Obeh.grupp: x=350, s=73, n=54 z = 46 350 505 ( ) 5 73 + ( ) 54 = 74 7 = 4.67 t = 46 6 5 350 + 54 = 74 = 0.5 s t = (5 )*505 + (54 )*73 5+ 54 = 6 3

z: p<0.000, vid p=0.00 är z=3.9 t: p<0.000, vid p=0.00 och 03 f.g är t=3.39 Slutsats: Mängden IgE skiljer sig åt i de bägge grupperna Icke-parametriska tester Kräver inte någon kunskap om den fördelning som ligger bakom variabeln. Ordinalskala, det måste gå att ordna värdena på något sätt. Fullgoda alternativ till t-test och envägs ANOVA. 4

Gruppvisa data Det vanligaste testet är Mann-Whitney s U- test Det finns ett exakt likadant test som heter Wilcoxon s T-test. (W räknas fram lite anorlunda än U, men tolkningen blir densamma). Datorprogram använder benämningen Mann- Whitney Exempel Två grupper, A: 4, 7, 9, 7 B: 6,, 4, H 0 : Ingen tendens för någon av pop. Att komma före den andra. H : Det finns en sådan tendens. 5

Rankning 4, 6, 7, 9,, 4, 7, A, B, A, A, B, B, A, B För den ena gruppen, t.ex A, räkna hur många B som kommer före varje A. U=0+++3=5 U min =0, U max =n A *n B =6 Ranks VAR0000 N Mean Rank Sum of Ranks VAR0000,00 4 3,75 5,00,00 4 5,5,00 Total 8 Test Statistics b Mann-Whitney U Wilcoxon W Z Asymp. Sig. (-tailed) Exact Sig. [*(-tailed Sig.)] a. Not corrected for ties. VAR0000 5,000 5,000 -,866,386,486 a b. Grouping Variable: VAR0000 6

Parvisa data Vid parvisa data används en variant av Wilcoxon s T-test Man rankar differenserna, därefter summerar man de positiva för sig och de negativa för sig. Den siffra som blir minst används därefter som mått. Datorprogram använder Wilcoxon som benämning på parvisa tester Hypotestestning Statistisk signifikans- vetenskaplig signifikans Ett lågt (signifikant) p-värde uttrycker bara sannolikheten för att man kan ha kommit fram till fel slutsats. Den säger ingenting om betydelsen av storleken på resultatet Vetenskaplig signifikans innebär att skillnaden har någon praktisk betydelse 7

Feltyper: Feltyper Typ I fel (α): Att förkasta H 0 när man får ett signifikant resultat, trots att H 0 är sann (falskt positiv). Samma sak som p-värde Typ II fel (β): Att anta att H 0 är sann när man får ett icke-signifikant resultat, trots att H 0 är falsk (falskt negativ). 8

Beslut H 0 accepteras H 0 förkastas H 0 sann Korrekt beslut Typ I fel Verklig- Pr=α heten H 0 falsk Typ II fel Korrekt beslut Pr=β 9