Om statistisk hypotesprövning

Statistikteori för F2 vt 2004 2004-01 - 30 Om statistisk hypotesprövning 1 Ett inledande exempel För en tillverkningsprocess är draghållfastheten en viktig aspekt på de enheter som produceras. Av erfarenhet vet man att följande gäller när processen löper på nuvarande sätt. Enheternas draghållfastheter har genomsnittsvärdet 30. Successiva enheters hållfasthet varierar dock kring genomsnittet, och kan ses som utfall av oberoende N(30, 2) - fördelade stokastiska variabler. Någon hävdar att en viss modifikation av processen troligen skulle leda till förbättrad hållfasthet. Andra menar dock att den föreslagna modifikationen faktiskt skulle kunna leda till försämring. För att utreda saken tillverkas 5 provenheter enligt modifierad process. För dessa uppmäts följande hållfasthetsvärden. x 1 = 32.5, x 2 = 29.3, x 3 = 32.4, x 4 = 34.7, x 5 = 32.3. Fråga : Leder modifikationen till förändrad hållfasthet? När man vill besvara frågan är det (väl?) naturligt att börja med att beräkna medelhållfastheten för provenheterna. Det blir ; x (32.5 + 29.3 + 32.4 + 34.7 + 31.1) / 5 = 32.3. Det medelvärdet ligger som synes över det hittillsvarande genomsnittsvärdet 30. Kan man utifrån det påstå att modifikationen leder till bättre hållfasthet? Inte utan vidare, slumpen finns ju med och stör. Det kanske bara var tillfälligheter som gjorde att provmedelvärdet hamnade över 30? För att komma till en välgrundad slutsats kan man resonera längs något olika, men väsentligen ekvivalenta, linjer. Vi börjar med en av dessa, och kommer till de andra längre fram. En möjlig resonemangslinje Följande statistiska modell för observationerna bedöms vara realistisk. Parametern står för genomsnittlig hållfasthet vid tillverkning enligt modifierad process. ; (x 1, x 2, x 3, x 4, x 5 ) är utfallet av ett slumpmässigt stickprov (X 1, X 2, X 3, X 4, X 5 ) från en N(, 2) - fördelning, > 0, där värdet på är okänt. (1) Modellvalet är baserat på följande saklogiska överväganden. Att de möjliga - värdena ligger såväl under som över 30 innebär att man är öppen för att modifikationen skulle kunna leda till såväl förbättrad som försämrad (som oförändrad) hållfasthet. Att standardavvikelsen sätts till 2 för alla, dvs. densamma som för nuvarande process, återspeglar att man tror att modifikationens effekt inte är större än att variabiliteten är i stort stt oförändrad. Därnäst uppställs nollhypotesen H 0 : "Processmodifikationen har ingen effekt", vilken mer tekniskt formuleras som ; H 0 : = 30. Som mothypotes, H 1, också kallad alternativ hypotes, väljs "motsatsen" till nollhypotesen, att modifikationen har effekt (vilken kan vara positiv eller negativ) ; H 1 : 30. I nästa resonemangssteg "backas tiden" och betraktar situationen innan obsevationer förelåg, och vi ställer frågan : Vilka utfall av stickprovsmedelvärdet X får nollhypotesen att framstå som "skum"? Jo, om X antingen blir rejält större eller rejält mindre än 30. Om så, 1

tror man inte på nollhypotesen. Det innebär att man väljer följande typ av slutsatsstrategi, där storheten k återstår att lägga fast. Om X 30 k förkastas nollhypotesen H 0 till förmån för mothypotesen H 1. (Man tror inte att H 0 är riktig, men att H 1 är det.) Om X 30 k anser man att det inte finns stöd för att förkasta nollhypotesen. (2) Det som återstår är att välja den kritiska gränsen k. Då blir det fråga om att välja vilken "felrisk" man är beredd att ta. Eftersom slumpen finns med i spelet kan den "stöka till", bl.a. så att man gör felslutet att förkasta nollhypotesen trots att den faktiskt är riktig. Det är väl uppenbart att ju större k väljs, desto mindre blir risken för nyssnämnda felslut. Vilken felrisk man vill arbeta under avgör man själv. Det viktiga i det avgörandet är hur "vådliga" konsekvenserna av ett felslut bedöms vara. En i praktiken vanlig felrisk är 5 %, men andra förekommer, t.ex. 1 % och 10 %. Låt oss fastnar för felrisken 5 %. Vilket k - värde hör ihop med den felrisken? För att bestämma det resonerar vi vidare under premissen att H 0 är sann. Vi vill då bestämma k så att följande gäller ; PH 0 ( X 30 k) = 0.05 =. (3) Under modellen (1) och under premissen att H 0 är riktig gäller, som bekant, att X är N(30, 2 / 5 )- fördelad, vilket ger ; X 30 k k P H 0 ( X 30 k ) PH 2, 0 2/ 5 2/ 5 2/ 5 vilket tillsammans med (3) leder till följande bestämning av k ; k k 2 0.05 0. 025 1.96 1.96 2/ 5 k 2/ 5 Därmed har vi kommit fram till följande slutsatsstrategi. 2 5 = 1.75. Om X avviker 1.75 eller mer från 30 tror vi inte på nollhypotesen, utan förkastar den. Saken uttryckas också på följande sätt. H 0 förkastas om testvariabeln X antar sitt värde i det kritiska området ( X < 30-1.75 = 28.25) ( X > 30 + 1.75 = 31.75). (4) Notera att än har observationerna inte kommit in i resonemanget. Först nu tas de in. Det observerade stickprovsmedelvärdet X = 32.3 faller i det kritika området, och slutsatsen blir alltså att nollhypotesen förkastas till förmån för mothypotesen 30. Vidare, eftersom observerat X är större än det hypotetiska värdet 0 = 30 anses belagt (med 5 % felrisk) att det sanna - värdet är större än 30, dvs att modifikationen förbättrar enheternas hållfasthet. Därmed har vi genomfört ett statistiskt test (synonymt en statistisk hypotesprövning) av nollhypotesen H 0 på 5 % signifikansnivå (synonymt med 5 % felrisk). 2 Allmän formulering av gången i en statistisk hypotesprövning I det följande ges resonemanget i ovanstående exempel i mer allmän formulering. Följande situation betraktas. x = (x 1, x 2,..., x n ) är utfallet av ett slumpmässigt stickprov X = (X 1, X 2,.., X n ) från en mer eller mindre okänd fördelning / population F, till vilken parametern är associerad. För enkelhets skull antas vara en endimensionell parameter. På saklogiska grunder utpekas ett av de möjliga parametervärdena som särskilt intressant. Det betecknas 0. Problemet gäller att utifrån observationerna uttala sig om hur det sanna, men okända, - värdet s ligger i förhållande till 0. Man vill pröva / testa om observation- 2

erna talar för att s och 0 skiljer sig åt eller ej. Allmänt sägs att man vill göra en statistisk hypotesprövning, eller ett statistiskt test. Som första steg i prövningen formuleras en nollhypotes H 0 av typen ; H 0 : "Det sanna - värdet är 0 ", vanligen skrivet kortare H 0 : = 0. De möjliga slutsatserna vid en hypotesprövning är endera av ; Nollhypotesen förkastas. (När man är så gott som säker på att H 0 inte är riktig.) Nollhypotesen kan inte förkastas. Vanligen väljs nollhypotesvärdet 0 inte så att det står för ett - värde som man "hoppas på" (t.ex. ett värde som innebär att en ny medicin har bättre effekt än den som redan finns på marknaden), utan 0 står för det "etablerade" eller "påstådda, men ifrågasatta". Påvisad skillnad mellan det sanna s och det hypotetiska 0 innebär oftast att någon förhoppning infrias, men ibland också att någon farhåga besannas. Slutsatsen "nollhypotesen förkastas" innebär vanligen att någon form av förändring bör göras. Normalt är man inte ute efter att bevisa nollhypotesen, utan det är mer intressant om den kan förkastas. Först då har man "bevisat" något av intresse. Här skiljer sig språkbruket från det vanliga i situationer där man vill pröva hypoteser. I mer allmänna hypotessammanhang blir man vanligtvis gladare om en hypotes kan styrkas än om man tvingas förkasta den (men så är alltså inte normalfallet vid statistisk hypotesprövning). Vid utformning av ett statistiskt test spelar också roll hur man, på saklogiska grunder, uppfattar "motsatsen" till nollhypotesen, den alternativa hypotesen H 1 (eller mothypotesen). Vanligtvis är den naturliga "motsatsen" till H 0 rätt och slätt ; H 1 : "Det sanna - värdet skiljer sig från 0 ", kortare skrivet H 1 : 0. Ibland kan man, på saklogiska grunder, apriori säga att om det sanna - värdet inte är lika med 0, så måste det vara större än 0. Då tar man som alternativ hypotes ; H 1 : > 0. Analogt finns situationer där den saklogiskt naturliga alternativa hypotesen är H 1 : < 0. I fallet H 1 : 0 sägs att hypotesprövningen görs med tvåsidig (eller dubbelsidig) mothypotes, och i de senare fallen med ensidig (eller enkelsidig ) mothypotes. Nedan ges en steg - för - steg - beskrivning gången i en hypotesprövning. Steg 1. En statistisk modell, innehållande en parameter, för observationerna formuleras. Steg 2. Nollhypotesen H 0 och alternativhypotesen H 1 angående värdet på formuleras. Steg 3. skattas från observationerna med en (förhoppningsvis bra) estimator *. Steg 4. Skattningen * jämförs med nollhypotesens 0. Normalt föreligger skillnad, eftersom man sällan skattar mitt i prick när slumpen är med i spelet. Om * ligger långt från 0 framstår nollhypotesen H 0 som så "skum" att den bör förkastas. Men om * och 0 ligger nära varandra är nollhypotesen plausibel, och det finns inte grund att förkasta den. Steg 5. Svårigheten steget ovan är att ange vad som skall anses vara "långt ifrån" respektive "nära". Slumpen är ju med och stör, och det gäller att ta hänsyn till den när man tar ställning till om skillnaden mellan * och 0 är "stor" eller "liten". Viss risk att bli vilseledd av slumpen föreligger dock så gott som alltid. För att hålla risken önskvärt låg, resoneras enligt nedan. 3

Man börjar med att tänker efter vilka värden på skattningen * som får H 0 att framstå som "skum". Härvid spelar den alternativa hypotesen H 1 roll. I en tvåsidig situation S T = { H 0 : = 0, H 1 : 0 } framstår H 0 som skum om den absoluta avvikelsen * - 0 är "stor". I en enkelsidig situation S E = {H 0 : = 0, H 1 : > 0 } utgörs de skumma * - värdena bara av sådana som är (rejält) större än 0. Man tar alltså fasta på det värde som estimatorn / statistikan * antar. Vid hypotesprövning kallas den använda statistikan för testvariabeln. De testvariabelvärden som man bestämmer sig för att de får nollhypotesen H 0 att framstå som så "skum" att den bör förkastas utgör testets kritiska område. Slutsatsdragningen sker sedan på följande sätt. Om testvariabeln värde faller i det kritiska området förkastas nollhypotesen H 0 till förmån för den alternativa hypotesen H 1. Om den inte faller där, kan H 0 inte förkastas. I en tvåsidig testsituation S T är det naturliga valet av kritiskt område av typen { * 0 + k} { * 0 - k}, med lämpligt valda kritiska gränser 0 + k och 0 - k. Vidare, när nollhypotesen H 0 förkastas, så förkastes den till förmån för möjligheten ( > 0 ) om * > 0 och till förmån för möjligheten ( < 0 ) om * < 0. Steg 6. Det som återstår är att lägga fast de kritiska gränserna så att risken för att bli vilseledd av slumpen hålls på önskat låg nivå. Vilseledd blir man framför allt om man förkastar nollhypotesen H 0 trots att den faktiskt är riktig. Då sägs att man gör ett fel av första slaget. Risken för fel av första slaget = Sannolikheten att testvariabeln antar sitt värde i det kritiska området när nollhypotesen är riktig. Den risken kallas för testets signifikansnivå eller dess felrisk. I praktiken vanligt använda felrisker är 5 % och 1 %. Motpolen är fel av andra slaget, vilket görs om nollhypotesen H 0 inte förkastas trots att den inte är riktig. Sannolikheten för detta slag av fel inte görs kallas testets styrka. (Sannolikheten ifråga är ett mått på hur "starkt" testet är ifråga om att upptäcka att nollhypotesen inte är riktig.) Sannolikheten ifråga beror av vilket av de möjliga - värdena som är det sanna, och styrkan betraktas som en funktion av ; Testets styrkefunktion S( ) = sannolikheten att testvariabeln antar sitt värde i det kritiska området när det sanna parametervärdet är. Nedan illustreras ett typiskt utseende på en styrkefunktion. Kommentar 1 : Termen signifikansnivå infördes för cirka ett sekel sedan. Så här i efterskott tycker man kanske att saker tyvärr blev litet bakvända, men det kan inte ändras på nu. Det vore (väl?) i bättre samklang med gängse språkbruk om utsagan "H 0 förkastas med felrisk 5 % " vore ekvivalent med utsagan " * och 0 skiljer sig på 95 % signifikansnivå" (för man är ju 95 % säker på 4

att observerad skillnad är "signifikant"). Men så säger man alltså inte, utan att " * och 0 skiljer sig på 5 % signifikansnivå". Det känns litet bakvänt bl.a. när man jämför med hur termen "konfidensnivå" används, men så är det. Följande skall understrykas. Det man vanligen vill vid en hypotesprövming är att kunna förkasta nollhypotesen H 0. Då kan man med viss, men kontrollerad, felrisk dra slutsatsen att H 0 är falsk, eller ekvivalent att mothypotesen är sann, vilket brukar vara en intressant slutsats. Slutsatsen ifråga dras när testvariabelns värde faller i det kritiska området, vilket uttrycks bl.a. genom att säga att man får ett signifikant testresultat. Notera dock (!) att man inte får vända på nyssnämnda stek och säga / anse att H 0 är bevisad vid ej signifikant testresultat (dvs. när testvariabelns värde inte faller i det kritiska området). Det enda som då kan sägas är att "observationerna inte utesluter att H 0 är sann", och det är något helt annat än att "H 0 är sann". 3 Några variationer av hypotesprövningstemat 3.1 Transformation av testvariabeln I ovanstående beskrivning av hypotesprövning tas fasta på att den mest naturliga testvariabeln utgörs av en estimator * för den parameter som nollhypotesen och mothypotesen avser. Av "tabell - praktiska" skäl brukar man dock ofta transformera estimatorn till en testvariabel som relaterar enkelt till de tabeller man har till förfogande. Exempel 1 : Med återknytning till det inledande exemplet, låt den statistiska modellen vara att stickprovet X = (X 1, X 2,.., X n ) kommer från en normalfördelning N(, 2) med okänt väntevärde, där 0 < <, och låt nollhypotes och mothypotes vara H 0 : 0 = 30 resp. H 1 : 0 30. Den naturliga estimatorn för är då, som bekant, * = stickprovsmedelvärdet X. Med X som testvariabel är det kritiska området av typen ; Kritiskt område : * - 30 = X - 30 > en lämpligt vald kritisk gräns k. Enligt tidigare härledning gäller att för att testet skall få på förhand bestämd signifikansnivå / felrisk, skall k väljas som k = /2 2 / n, där /2 som vanligt står för /2 - kvantilen i N(0, 1) - fördelningen, vilken kan hämtas ur en normalfördelningstabell. Det kritiska området vid signifikansnivån 5 % blir då ( X < 30-1.75 = 28.25) ( X > 30 + 1.75 = 31.75). För x 32. 3 antar testvariabeln sitt värde i det kritiska området, och nollhypotesen förkastas (med felrisk 5 %). Man kommer i mer direkt samklang med tabellinformationen om man transformerar testvariabeln innan man går till tabellen. Variabeln T nedan är den under H 0 standardiserade version av * ; * 0 X 30 T. (5) 2/ n 2 / n Vid litet eftertanke inses att det tidigare kritiska området X - 30 /2 2 / n, är ekvivalent med följande kritiska område för testvariabeln T : T /2. Med T som testvariabel kan man alltså gå direkt till standard - normalfördelningstabellen för att få det kritiska området, vilket för = 5 % blir T 0.05/2 = 1.96. För observationerna i exemplet blir (32.3 30)/(2 / 5) 2. 57, som faller i det nu aktuella kritiska området T 1.96. H 0 förkastas alltså. Testvariabeln T exemplet ovan ser bekant ut. Den figurerade (med istället för 0 ) när vi konstruerade konfidensintervall för. Då kallades T för referensvariabeln i sammanhanget. Litet svepande kan sägas att alla referensvariabler i anslutning till tidigare konfidensintervall också kan användas som testvariabler. Finessen med att göra så är att testvariabelns fördelning under nollhypotesen då blir en välkänd fördelning (t.ex. N(0,1) eller en t - fördelning). Därigenom kan det kritiska området fås direkt ur standardtabellerna. Men man måste (naturligtvis) själv tänka ut vilket utseende det kritiska området skall ha, och det beror av mothypotesen. Mer om saken sägs i Bloms avsnitt 22.5-22.7. 5 T obs

3.2 Hypotesprövning med konfidensmetod Den allmänna principen illustreras med ett exempel. Exempel 2 : Vi fortsätter på det tidigare exemplet. Problemet är som förut att testa nollhypotesen H 0 : 0 = 30 med mothypotes H 1 : 0 30, med felrisk 5 %. Ett alternativt sätt att resonera är som följer. Ett (100-5) % = 95 % konfidensintervall för beräknas. Enligt tidigare formler blir det (32.3-1.96 2 / 5, 32.3 + 1.96 2 / 5) = (30.55, 34.05). När man har det, kan konstateras att nollhypotesens värde 0 = 30 ligger utanför konfidensintervallet, vilket tas som belägg för att förkasta nollhypotesen. Vid eftertanke inses att ovanstående förfarande faktiskt är ekvivalent med hypotesprövning enligt vad som sagts tidigare. Man talar här om hypotesprövning med konfidensmetod. Se Bloms Avsnitt 22.4. 3.3 Hypotesprövning enligt direktmetod Istället för att precist bestämma testets kritiska gränser nöjer man sig med att tänka ut strukturen på det kritiska området. För att ta ställning till om observationer och nollhypotes strider mot varandra, börjar man med att beräkna värdet på en lämplig testvariabel, men sedan vänder man på steken jämfört med tidigare. Istället för att se om testvariabelns värde faller i ett angivet kritiskt område, ställer man och besvarar, följande fråga : Vad är sannolikheten att få ett "så extremt, eller ännu extremare" testvariabelvärde som det man fick? Sannolikheten ifråga kallas testets p - värde. Därefter tar man ställning till om det erhållna p - värdet ligger under eller över den felrisk som bedöms vara adekvat i sammanhanget. Ligger p - värdet under den önskade signifikansnivån förkastas nollhypotesen, annars inte. Fördelen med den resonemangslinjen är att p - värdet inte bara ger svar på 0-1 - frågan : "Förkasta H 0 eller ej?", utan det ger också viss kvantitativ information om med vilken "kraft" H 0 kan förkastas (om nu H 0 kan förkastas). Ju mindre p - värdet är, desto starkare talar observationerna mot H 0. Metoden ifråga kallas hypotesprövning med direktmetod. Mer om det i Bloms Avsnitt 22.3. Exempel 3 : Återigen fortsätter vi på det tidigare exemplet. Problemet är som förut att testa nollhypotesen H 0 : 0 = 30 med mothypotes H 1 : 0 30, med felrisk 5 %. Som testvariabel används T enligt (5), som är N(0, 1) - fördelad under nollhypotesen. Enligt Exempel 1 är T obs = 2.57. p - värdet blir då P( T 2.57) = (enligt tabell) = 2 (1-0.9949) = 1.0 %. Detta innebär att man är beredd att förkasta nollhypotesen på varje signifikansnivå 1 %. 6