Matematsk statstk för STS vt 00 00-05 - Bengt Rosén Test av anpassnng, homogentet och oberoende med χ - metod Det stoff som behandlas det fölande återfnns Blom Avsntt 7 b sdorna 6-9 och Avsntt 85 sdorna 68-70 De vktgaste formlerna sammanhanget fnns också FT - samlngens Avsntt 5 och 6 Anpassnngstest För att få konkret bakgrund börar v med att dskutera Exempel 6 problemsamlngen Exempel 6 : Vd ett botanskt korsnngsförsök får avkomme - plantorna, oberoende av varandra, en av fyra frukttyper ; I, II, III eller IV Enlgt genetsk förstahandsteor skall frukttyperna förekomma proportonerna : : 6 : Nedan anges fördelnngen för 80 observerade plantor Frukttyp : I II III IV Antal plantor : 5 0 8 77 Fråga : Är teorn är tllämplg detta fall? Dskusson : Att plantorna fördelar sg efter frukttyper proportonerna : : 6 : betraktas som nollhypotesen sammanhanget Uttryckt sannolkheter nnebär den med,,, stälet för I, II, III och IV ; 6 H 0 : p, p, p, p När nollhypotesen H 0 är rktg förväntas 80 plantor fördela sg på fölande sätt Antal av typ I : 80 / 0, av typ II : 80 / 0, av typ III : 80 6 / 0, av typ IV : 80 / 80 Nedan ges en sammanställnng av observerade och under H 0 förväntade antal plantor med de olka frukttyperna Frukttyp I II III IV Observerade antal plantor 5 = X 0 = X 8 = X 77 = X Under H 0 förväntade antal 0 0 0 80 Observerade och förväntade antal skler sg som synes Frågan är om de skler sg så mycket att nollhypotesen framstår som så "skum" att den bör förkastas, eller om skllnaderna kan förklaras av slumpens spel? Det gäller att på lämplgt sätt ta ställnng tll om de förelggande avvkelserna X - 0 = 5-0 = 5, X - 0 = 0-0 = 0, X - 0 = 8-0 = - och X - 80 = 77-80 = - kan ses som naturlga slumpavvkelser, eller om de ndkerar att H 0 nte är rktg Ett första men mndre lyckat analysförsök : V börar med att konstatera att under H 0 gäller fölande, där n står för antalet observatoner här n = 80 ; X Bnn, / vlket medför EX = n p = 0 och X n p p, X Bnn, / vlket medför EX = n p = 0 och X n p p, X Bnn, 6 / vlket medför EX = n p = 0 och X n p p, X Bnn, / vlket medför EX = n p = 80 och X n p p Med som bakgrund är väl? fölande mått Q prel på "total dskrepens mellan observerade och förväntade värden" rätt naturlgt ;
X n p X n p X n p X n p Q prel n p p n p p n p p n p p Enlgt CGS: N0, N0, N0, N0 Under H 0 är Q prel summan av kvadraterna på approxmatvt N0, - fördelade sv Med Sats på sdan 9 Blom som bakgrund är en mölg gssnng att Q prel under H 0 är approxmatvt - fördelad Men om H 0 nte är rktg bör Q prel anta ett för en - fördelad sv osannolkt stort värde Den gssnngen är nästan rätt, men nte rktgt Haken är att X, X, X och X nte är oberoende stokastska varabler, vlket är en förutsättnng nyss nämnda Sats Det som framför allt stör oberoendet är att summan av X, X, X och X är gven på förhand, X + X + X + X = n Får man tex veta värdena på X, X och X, så kan man beräkna värdet på X Så uppför sg nte oberoende sv Ett andra försök : Måttet Q prel på "total dskrepens" modferas tll Q enlgt nedan Det måttet är, förutom att det är bättre, också ltet enklare än Q prel, även om de lknar varandra mycket ; X n p Q n p X n p n p X n p n p X n p n p För måttet Q gäller fölande, men det bevsar v nte, och det gör nte heller Blom Under H 0 är Q approxmatvt - fördelad med - = frhetsgrader 5 Påståendet 5 är ett specalfall av det allmänna resultat som fnns på sdan 6 Blom Det säger att under nedanstående nollhypotes H 0 : Stckprovet kommer från en fördelnng med r mölga varabelvärden / kategorer, och dessa värden antas med de gvna sannolkheterna p, p, p r, så gäller, bara n är "någorlunda stort" ; r X n p Q n p är approxmatvt - fördelad med r - frhetsgrader 6 Det resultatet är baserat på asymptotska betraktelser när n För att 6 skall gälla med god approxmaton och ge approx korrekt konfdensnvå måste stckprovet vara "någorlunda stort" Tumegeln för god approxmaton är se Blom sda 6 ; Under nollhypotesen H 0 är Q med god approxmaton - fördelad med angvet antal frhetsgrader så snart alla under H 0 förväntade antal är 5 7 Fortsättnng på Exempel 6 : Här är r = För att avgöra om ett observerat Q - värde är osannolkt stort eller e under H 0, skall man alltså vända sg tll - fördelnngen Enlgt tabellen FT - samlngen är 5 %- kvantlen - fördelnngen 005 78 Krtskt område vd 5 % felrsk är alltså { Q 78} Med observerade och förväntade värden enlgt tablån på föregående sda blr Q - värdet ; Q obs 5 0 0 0 8 0 77 80 67 8 0 0 0 80 Notera att approxmatonsregeln "förväntade antal 5" är uppfylld Eftersom Q obs 78 blr slutsatsen att H 0 nte kan förkastas Dskrepenserna mellan observerade och under H 0 förväntade antal kan mycket väl tllskrvas slumpens spel
En utvdgad varant av anpassnngstest I föregående avsntt var nollhypotesen att stckprovet kommer från en helt specfcerad dskret fördelnng En varaton av temat är att den hypotetska fördelnngen har specfcerad form, men att värdet på en eller flera parametrar är okänt Exempel Vd en undersöknng av sprckbldnng en vss typ av ärnbalkar nspekterades 00 balkar med nedanstående resultat Antal sprckor : 0 5 Antal balkar : 0 5 0 7 5 Antalet sprckor olka balkar betraktas som utfall av oberoende sv med samma fördelnng Tag med 5 % felrsk ställnng tll om den fördelnngen är en Posson - fördelnng Dskusson : Här väler man lämplgen nollhypotesen ; H 0 : De observerade sprckantalen är ett stckprov från en Po - fördelnng, dvs en fördelnng med sannolkhetsfunkton p X k = e - k / k!, k = 0,,, 9 Första kruxet är att man nte känner värdet på, och därmed nte vet precs vlken hypotetsk fördelnng observatonerna skall skall ställas emot Det fnns u många Posson - fördelnngar, en för vare > 0 Ett naturlgt sätt att komma runt den svårgheten är att böra med att skatta värdet på Enlgt tdgare resultat görs det lämplgen med ; * = stckprovsmedelvärdet = 0 0 + + 5 + 0 + 7 + 5 5 / 00 = 6 0 Sedan prövas, på stort sett samma sätt som förut, om stckprovet kommer från Po6 - fördelnngen För detta behövs sannolkhetsfuktonsvärden för Po6 p0 = e - 6 = 0, p = p0 6 / =09, p = p 6 / = 08, p = p 6 / = 00, p = p 6 / = 00, p5 + = - 0 + 09 + 08 + 00 + 00 = 007 Nedan anges observerade och förväntade antal balkar med olka sprcktal när n = 00 Sprckantal 0 5 + Observerade antal balkar 0 5 0 7 5 Förväntade antal vd Po6 - fördelnng 9 8 0 7 Även denna typ av stuaton gäller den tdgare approxmatonsregeln : Alla förväntade antal skall vara 5 Den regeln är, som synes, nte uppfylld här, men det kan åtgärdas på ett enkelt sätt, nämlgen genom att slå hop kategorerna " sprckor" och "5 + sprckor", vlket ger nedanstående tablå Sprckantal 0 + Observerade antal balkar 0 5 0 Förväntade antal vd Po6 - fördelnng 9 8 0 6 Nu är approxmatonsregeln uppfylld och v beräknar v dskrepensmåttet Q helt analog med det tdgare 0 9 5 8 0 0 6 Q obs 9 9 9 0 6 Även detta Q är - fördelat under nollhypotesen, men nu skall antal frhetsgrader beräknas på fölande, något annorlunda, sätt se Blom sdan 69 ; Antal frhetsgrader = r - - antal skattade parametrar
Här är r = 5 och en parameter har skattats För att bedöma om Q är sgnfkant stort på 5 % sgnfkansnvå skall man alltså se om det överskrder 5 % - kvantlen - fördelnngen med 5 - - = frhetsgrader Den är se tabell 0 05 78 Eftersom 9 > 78 blr slutsatsenatt nollhypotesen om Posson - fördelnng förkastas Ovanstående förfarande kan också användas för att pröva formen på en kontnuerlg fördelnng, genom att på lämplgt sätt "dskretsera" fördelnngen Förfarandet llustreras Bloms Exempel 8 på sdan 69-70 Homogentets - och oberoendetest För att få konkret bakgrund fortsätter v att betrakta samma typ av stuaton som Exempel 6 Nu gäller ntresset dock nte allmänna genetska lagar, utan huruvda besprutnng med nsektsgfter har genetska effekter Som förut studeras hur avkommor fördelar sg på de fyra frukttypern Nu har tre olka stckprov observerats Plantorna stckprov med n = 80 kommer från frön som vuxt gftfr mlö, medan de stckprov med n = 50 kommer från frön som vuxt en mlö där besprutnng skett med nsektsgft A och de stckprov med n = 0 kommer från frön som vuxt en mlö där besprutnng skett med nsektsgft B Frukterna fördelade sg på typer enlgt tablån nedan, vlken är ett konkret fall av den allmänna tablå som anges mtt på sdan 7 Blom Observerade antal Typ, I II III IV Alla Plantor från gftfr mlö 5 0 8 77 80 Plantor från mlö med A 8 56 5 50 Plantor från mlö med B 0 9 7 8 0 Totalt 66 7 57 0 870 Intresset gäller som sagt om gftbesprutnng påverkar plantorna genetskt Som nollhypotes antas att ngen påverkan sker, utan att de tre stckproven kommer från homogena populatoner En mer teknsk formulerng av nollhypotesen ges H 0 nedan Sätt ; p = sannolkheten att en planta stckprov bär frukt av typ, =,,, =,,, H 0 : p = p = p och detta gemensamma värde betecknas p, p = p = p och detta gemensamma värde betecknas p, p = p = p och detta gemensamma värde betecknas p, p = p = p och detta gemensamma värde betecknas p 5 Under H 0 nnehåller problemet fyra parametrar, nämlgen p, p, p och p Fölande skattnngar av dem känns väl? som de naturlga ; 66 7 57 0 p*, p*, 870 p*, 870 p* 870 6 870 Hur förväntar man sg att de tre stckproven skall fördela sg på frukttyper om H 0 är sann? En bra gssnng är väl? fölande ; Antal observatoner cell, = för frukttyp stckprov förväntas bl n p*, 7 vlket leder tll förväntade antal enlgt tablån nedan
Förväntade antal Typ, I II III IV Alla Plantor från gftfr mlö 6 5 969 80 Plantor från mlö med A 90 65 06 6 50 Plantor från mlö med B 06 65 57 5 0 Totalt 66 7 57 0 870 För att ta ställnng tll om nollhypotesen H 0 verkar rmlg eller e, ställer man observerade värden mot "under H 0 förväntade värden" med användande av dskrepensmåttet Q på sdan 7 Blom I sn allmänna tappnng ser det ut enlgt nedan ; X n p* Q 8 n p*, I den aktuella typen av stuaton kan man vsa att fölande gäller, där s = antalet stckprov och r = antalet utfallskategorer Under H 0 är Q 8 approxmatvt - fördelad med s - r - frhetsgrader, bara n är "någorlunda stort" 9 Regeln för god approxmaton är densamma som förut : Under nollhypotesen skall förväntat antal 5 vare cell Den regeln är som synes uppfylld exemplet Där blr ; Q obs 5 6 6 0 5 5 8 5 osv genom alla celler 5 För att bedöma om detta Q - värde är osannolkt stort under H 0 vänder man sg tll - fördelnngen med - - = 6 frhetsgrader Dess 5 % - kvantl är 005 6 6 Eftersom Q obs > 6 tom mycket större förkastas H 0 Nollhypotesen kan alltså förkastas Trolgtvs är dock nte det saklogska problemet därmed avklarat Det man kan säga är att åtmnstone någon av nsektsgfterna har påverkan på en plantas växtförlopp I praktken vll man naturlgtvs kunna svara på om det är "bara A" eller "bara B" eller "såväl A som B" som har påverkan? V har bara kommt halvvägs den frågeställnngen Hur fortsätter man? Det fnns förfaranden för det också, men de ngår nte den här kursen, så de lämnas därhän Ovanstående typ av test kallas, som redan ndkerats, ett homogentetstest Man testar om poulatonerna bakom stckproven är homogena Ibland kallas test - typen också för oberoende - test De två benämnngarna kan ses som stort sett synonyma Bakgrunden för termen oberoende - test kan konkretseras av att nollhypotesen 5 också kan uttryckas ; H 0 : Det förelgger oberoende = nget beroende mellan besprutnng och en plantas utvecklng 0 5