Test av anpassning, homogenitet och oberoende med χ 2 - metod

Relevanta dokument
Tentamen i Dataanalys och statistik för I den 5 jan 2016

Slumpvariabler (Stokastiska variabler)

F13. Förra gången (F12) Konfidensintervall och hypotesprövning Chi-tvåtest. Stratifierat urval

Centrala Gränsvärdessatsen:

ENKEL LINJÄR REGRESSION

a) B är oberoende av A. (1p) b) P (A B) = 1 2. (1p) c) P (A B) = 1 och P (A B) = 1 6. (1p) Lösningar: = P (A) P (A B) = 1

Flode. I figuren har vi också lagt in en rät linje som någorlunda väl bör spegla den nedåtgående tendensen i medelhastighet för ökande flöden.

Mätfelsbehandling. Lars Engström

Beräkna standardavvikelser för efterfrågevariationer

Experimentella metoder 2014, Räkneövning 5

När vi räknade ut regressionsekvationen sa vi att denna beskriver förhållandet mellan flera variabler. Man försöker hitta det bästa möjliga sättet

Föreläsning G70 Statistik A

FORMELSAMLING HT-15 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMS086 & MASB02. Sannolikhetsteori. Beskrivning av data

Del A Begrepp och grundläggande förståelse.

1. Anpassningstest. Chi-Square test. Multinomial experiment. Multinomial experiment. Vad gör g r ett anpassningstest?

FÖRDJUPNINGS-PM. Nr Kommunalt finansierad sysselsättning och arbetade timmar i privat sektor. Av Jenny von Greiff

på fråga 6 i tävlingen för matematiklärare. 'l.

Vinst (k) Sannolikhet ( )

732G70 Statistik A. Föreläsningsunderlag skapad av Karl Wahlin Föreläsningsslides uppdaterade av Bertil Wegmann

Primär- och sekundärdata. Undersökningsmetodik. Olika slag av undersökningar. Beskrivande forts. Beskrivande forts

Företagsrådgivning i form av Konsultcheckar. Working paper/pm

Steg 1 Arbeta med frågor till filmen Jespers glasögon

Dödlighetsundersökningar på KPA:s

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 6. Regression & Korrelation. (LLL Kap 13-14) Inledning till Regressionsanalys

KVALITETSDEKLARATION

Stokastisk reservsättning med Tweedie-modeller och bootstrap-simulering

Skoldemokratiplan Principer och guide till elevinflytande

Sammanfattning, Dag 1

Kompenserande löneskillnader för pendlingstid

Grön Flagg-rapport Förskolan Kalven 20 jan 2016

FÖRDJUPNINGS-PM. Nr Kommunalt finansierad sysselsättning och arbetade timmar i privat sektor. Av Jenny von Greiff

Kvalitetsjustering av ICT-produkter

Introduktionsersättning eller socialbidraghar ersättningsregim betydelse för integrationen av flyktingar? 1

Förbättrad KPI-konstruktion från januari 2005: Teknisk beskrivning

Grön Flagg-rapport Förskolan Duvan 4 jun 2014

Konsoliderad version av

Tentamen i Tillämpad matematisk statistik för MI3 och EPI2 den 15 december 2010

Utbildningsavkastning i Sverige

Komplettering av felfortplantningsformeln

Arbetslivsinriktad rehabilitering för sjukskrivna arbetslösa funkar det?

Att identifiera systemviktiga banker i Sverige vad kan kvantitativa indikatorer visa oss?

Modellering av antal resor och destinationsval

Stresstest för försäkrings- och driftskostnadsrisker inom skadeförsäkring

En studiecirkel om Stockholms katolska stifts församlingsordning

Variansanalys ANOVA. Idé. Experiment med flera populationer. Beteckningar. Beteckningar. ANOVA - ANalysis

Sammanfattning. Härledning av LM - kurvan. Efterfrågan, Z. Produktion, Y. M s. M d inkomst = Y >Y. M d inkomst = Y

Mätfelsbehandling. Medelvärde och standardavvikelse

Förberedelse INSTALLATION INFORMATION

Optimering i samband med produktionsplanering av, och materialförsörjning vid, underhåll av flygmotorer

2 Jämvikt. snitt. R f. R n. Yttre krafter. Inre krafter. F =mg. F =mg

Hållbar skolutveckling Skolplan för Eskilstuna kommun Förslag till barn- och utbildningsnämnden/torshälla stads nämnd

Redovisning av demonstrationsodling Optimal kvävegödsling till blandvallar Jan Jansson Hushållningssällskapet Sjuhärad

Beräkning av Sannolikheter för Utfall i Fotbollsmatcher

2B1115 Ingenjörsmetodik för IT och ME, HT 2004 Omtentamen Måndagen den 23:e aug, 2005, kl. 9:00-14:00

Kvalitetssäkring med individen i centrum

1. a Vad menas med medianen för en kontinuerligt fördelad stokastisk variabel?

Tillämpningar av dekomposition: Flervaruflödesproblemet. Flervaruflödesproblemet: Lagrangeheuristik

rm o rs W e d n r: A e n tio stra Illu Grön Flagg-rapport Hässlegårdens förskola 15 apr 2014

Stresstest för försäkrings- och driftskostnadsrisker inom skadeförsäkring

Handlingsplan. Grön Flagg. Stadionparkens förskola

Fond-i-fonder. med global placeringsinriktning. Ett konkurrenskraftigt alternativ till globalfonder? En jämförelse med fokus på risk och avkastning.

Beräkna standardavvikelser för efterfrågevariationer

unicon ANALYS AV DATORER I KONTROLLRUM FÖR KÄRNKRAFTVERK SLUTRAPPORT UNICON FÖRENADE KONSULTER

Postadress: Internet: Matematisk statistik Matematiska institutionen Stockholms universitet Stockholm Sverige

Optimering av underhållsplaner leder till strategier för utvecklingsprojekt

Lösningar modul 3 - Lokala nätverk

Problem i sammanfattande mått i ASI

N A T U R V Å R D S V E R K E T

IN1 Projector. Snabbstart och referenshandbok

TNK049 Optimeringslära

Partikeldynamik. Fjädervåg. Balansvåg. Dynamik är läran om rörelsers orsak.

Grön Flagg-rapport Berga förskola 2 jun 2015

rm o rs W e d n r: A e n tio stra Illu Grön Flagg-rapport Talavidskolan 15 aug 2013

Riktlinjer för avgifter och ersättningar till kommunen vid insatser enligt LSS

2014 års brukarundersökning inom socialtjänstens vuxenavdelning i Halmstads kommun

Mos. Statens väg- ochtrafi V" NationalRoad&Traffic Research Institute- $-58101Li: Lä & t # % p. i E d $ åv 3 %. ISSN

rm o rs W e d n r: A e n tio stra Illu Grön Flagg-rapport Tryserums friskola 20 feb 2014

Handlingsplan. Grön Flagg. Förskolan Trollet

BEREDSKAP MOT ATOMOLYCKOR I SVERIGE

Handlingsplan. Grön Flagg. Hamregårds förskola

Citeringsstudie av natur och samhällsvetenskapliga institutioner vid Stockholms universitet,

Blixtkurs i komplex integration

Repetition. Repetition. Repetition. X: slumpvariabel (s.v.) betraktas innan ett försök är genomfört. x: observerat värde efter försöket är genomfört.

Grön Flagg-rapport Förskolan Arken 14 nov 2014

Grön Flagg-rapport Förskolan Näckrosen 9 dec 2014

Gymnasial yrkesutbildning 2015

Handlingsplan. Grön Flagg. Bosgårdens förskolor

Grön Flagg-rapport Peter Pans förskola 12 aug 2016

SVÅRT UTAN SNARARE OMÖJLIGT - PA DET STADIUM., SOM PROJEKTET F N BEFINNER SIG.

Grön Flagg-rapport Förskolan Linden 6 sep 2015

Förberedelse INSTALLATION INFORMATION

Om ja, hur har ni lagt upp och arbetat i Grön Flagg-rådet/samlingarna med barnen och hur har det upplevts?

Grön Flagg-rapport Vallaskolan 4 jul 2014

Thomas Macks beräkning av standardfelet för reservavsättningar

Handlingsplan. Grön Flagg. Förskolan Dalbystugan

Beställningsintervall i periodbeställningssystem

Veckoblad 2. Kapitel 2 i Matematisk statistik, Blomqvist U.

Handlingsplan. Grön Flagg. Sagomossens förskola

Hur har Grön Flagg-rådet/elevrådet arbetat och varit organiserat? Hur har rådet nått ut till resten av skolan?

socialen.info 1 of 14 Antal svar i procent Antal svar Mycket viktigt 81,6% 40 Ganska viktigt 18,4% 9 Mindre viktigt 0,0% 0 Oviktigt 0,0% 0

Transkript:

Matematsk statstk för STS vt 00 00-05 - Bengt Rosén Test av anpassnng, homogentet och oberoende med χ - metod Det stoff som behandlas det fölande återfnns Blom Avsntt 7 b sdorna 6-9 och Avsntt 85 sdorna 68-70 De vktgaste formlerna sammanhanget fnns också FT - samlngens Avsntt 5 och 6 Anpassnngstest För att få konkret bakgrund börar v med att dskutera Exempel 6 problemsamlngen Exempel 6 : Vd ett botanskt korsnngsförsök får avkomme - plantorna, oberoende av varandra, en av fyra frukttyper ; I, II, III eller IV Enlgt genetsk förstahandsteor skall frukttyperna förekomma proportonerna : : 6 : Nedan anges fördelnngen för 80 observerade plantor Frukttyp : I II III IV Antal plantor : 5 0 8 77 Fråga : Är teorn är tllämplg detta fall? Dskusson : Att plantorna fördelar sg efter frukttyper proportonerna : : 6 : betraktas som nollhypotesen sammanhanget Uttryckt sannolkheter nnebär den med,,, stälet för I, II, III och IV ; 6 H 0 : p, p, p, p När nollhypotesen H 0 är rktg förväntas 80 plantor fördela sg på fölande sätt Antal av typ I : 80 / 0, av typ II : 80 / 0, av typ III : 80 6 / 0, av typ IV : 80 / 80 Nedan ges en sammanställnng av observerade och under H 0 förväntade antal plantor med de olka frukttyperna Frukttyp I II III IV Observerade antal plantor 5 = X 0 = X 8 = X 77 = X Under H 0 förväntade antal 0 0 0 80 Observerade och förväntade antal skler sg som synes Frågan är om de skler sg så mycket att nollhypotesen framstår som så "skum" att den bör förkastas, eller om skllnaderna kan förklaras av slumpens spel? Det gäller att på lämplgt sätt ta ställnng tll om de förelggande avvkelserna X - 0 = 5-0 = 5, X - 0 = 0-0 = 0, X - 0 = 8-0 = - och X - 80 = 77-80 = - kan ses som naturlga slumpavvkelser, eller om de ndkerar att H 0 nte är rktg Ett första men mndre lyckat analysförsök : V börar med att konstatera att under H 0 gäller fölande, där n står för antalet observatoner här n = 80 ; X Bnn, / vlket medför EX = n p = 0 och X n p p, X Bnn, / vlket medför EX = n p = 0 och X n p p, X Bnn, 6 / vlket medför EX = n p = 0 och X n p p, X Bnn, / vlket medför EX = n p = 80 och X n p p Med som bakgrund är väl? fölande mått Q prel på "total dskrepens mellan observerade och förväntade värden" rätt naturlgt ;

X n p X n p X n p X n p Q prel n p p n p p n p p n p p Enlgt CGS: N0, N0, N0, N0 Under H 0 är Q prel summan av kvadraterna på approxmatvt N0, - fördelade sv Med Sats på sdan 9 Blom som bakgrund är en mölg gssnng att Q prel under H 0 är approxmatvt - fördelad Men om H 0 nte är rktg bör Q prel anta ett för en - fördelad sv osannolkt stort värde Den gssnngen är nästan rätt, men nte rktgt Haken är att X, X, X och X nte är oberoende stokastska varabler, vlket är en förutsättnng nyss nämnda Sats Det som framför allt stör oberoendet är att summan av X, X, X och X är gven på förhand, X + X + X + X = n Får man tex veta värdena på X, X och X, så kan man beräkna värdet på X Så uppför sg nte oberoende sv Ett andra försök : Måttet Q prel på "total dskrepens" modferas tll Q enlgt nedan Det måttet är, förutom att det är bättre, också ltet enklare än Q prel, även om de lknar varandra mycket ; X n p Q n p X n p n p X n p n p X n p n p För måttet Q gäller fölande, men det bevsar v nte, och det gör nte heller Blom Under H 0 är Q approxmatvt - fördelad med - = frhetsgrader 5 Påståendet 5 är ett specalfall av det allmänna resultat som fnns på sdan 6 Blom Det säger att under nedanstående nollhypotes H 0 : Stckprovet kommer från en fördelnng med r mölga varabelvärden / kategorer, och dessa värden antas med de gvna sannolkheterna p, p, p r, så gäller, bara n är "någorlunda stort" ; r X n p Q n p är approxmatvt - fördelad med r - frhetsgrader 6 Det resultatet är baserat på asymptotska betraktelser när n För att 6 skall gälla med god approxmaton och ge approx korrekt konfdensnvå måste stckprovet vara "någorlunda stort" Tumegeln för god approxmaton är se Blom sda 6 ; Under nollhypotesen H 0 är Q med god approxmaton - fördelad med angvet antal frhetsgrader så snart alla under H 0 förväntade antal är 5 7 Fortsättnng på Exempel 6 : Här är r = För att avgöra om ett observerat Q - värde är osannolkt stort eller e under H 0, skall man alltså vända sg tll - fördelnngen Enlgt tabellen FT - samlngen är 5 %- kvantlen - fördelnngen 005 78 Krtskt område vd 5 % felrsk är alltså { Q 78} Med observerade och förväntade värden enlgt tablån på föregående sda blr Q - värdet ; Q obs 5 0 0 0 8 0 77 80 67 8 0 0 0 80 Notera att approxmatonsregeln "förväntade antal 5" är uppfylld Eftersom Q obs 78 blr slutsatsen att H 0 nte kan förkastas Dskrepenserna mellan observerade och under H 0 förväntade antal kan mycket väl tllskrvas slumpens spel

En utvdgad varant av anpassnngstest I föregående avsntt var nollhypotesen att stckprovet kommer från en helt specfcerad dskret fördelnng En varaton av temat är att den hypotetska fördelnngen har specfcerad form, men att värdet på en eller flera parametrar är okänt Exempel Vd en undersöknng av sprckbldnng en vss typ av ärnbalkar nspekterades 00 balkar med nedanstående resultat Antal sprckor : 0 5 Antal balkar : 0 5 0 7 5 Antalet sprckor olka balkar betraktas som utfall av oberoende sv med samma fördelnng Tag med 5 % felrsk ställnng tll om den fördelnngen är en Posson - fördelnng Dskusson : Här väler man lämplgen nollhypotesen ; H 0 : De observerade sprckantalen är ett stckprov från en Po - fördelnng, dvs en fördelnng med sannolkhetsfunkton p X k = e - k / k!, k = 0,,, 9 Första kruxet är att man nte känner värdet på, och därmed nte vet precs vlken hypotetsk fördelnng observatonerna skall skall ställas emot Det fnns u många Posson - fördelnngar, en för vare > 0 Ett naturlgt sätt att komma runt den svårgheten är att böra med att skatta värdet på Enlgt tdgare resultat görs det lämplgen med ; * = stckprovsmedelvärdet = 0 0 + + 5 + 0 + 7 + 5 5 / 00 = 6 0 Sedan prövas, på stort sett samma sätt som förut, om stckprovet kommer från Po6 - fördelnngen För detta behövs sannolkhetsfuktonsvärden för Po6 p0 = e - 6 = 0, p = p0 6 / =09, p = p 6 / = 08, p = p 6 / = 00, p = p 6 / = 00, p5 + = - 0 + 09 + 08 + 00 + 00 = 007 Nedan anges observerade och förväntade antal balkar med olka sprcktal när n = 00 Sprckantal 0 5 + Observerade antal balkar 0 5 0 7 5 Förväntade antal vd Po6 - fördelnng 9 8 0 7 Även denna typ av stuaton gäller den tdgare approxmatonsregeln : Alla förväntade antal skall vara 5 Den regeln är, som synes, nte uppfylld här, men det kan åtgärdas på ett enkelt sätt, nämlgen genom att slå hop kategorerna " sprckor" och "5 + sprckor", vlket ger nedanstående tablå Sprckantal 0 + Observerade antal balkar 0 5 0 Förväntade antal vd Po6 - fördelnng 9 8 0 6 Nu är approxmatonsregeln uppfylld och v beräknar v dskrepensmåttet Q helt analog med det tdgare 0 9 5 8 0 0 6 Q obs 9 9 9 0 6 Även detta Q är - fördelat under nollhypotesen, men nu skall antal frhetsgrader beräknas på fölande, något annorlunda, sätt se Blom sdan 69 ; Antal frhetsgrader = r - - antal skattade parametrar

Här är r = 5 och en parameter har skattats För att bedöma om Q är sgnfkant stort på 5 % sgnfkansnvå skall man alltså se om det överskrder 5 % - kvantlen - fördelnngen med 5 - - = frhetsgrader Den är se tabell 0 05 78 Eftersom 9 > 78 blr slutsatsenatt nollhypotesen om Posson - fördelnng förkastas Ovanstående förfarande kan också användas för att pröva formen på en kontnuerlg fördelnng, genom att på lämplgt sätt "dskretsera" fördelnngen Förfarandet llustreras Bloms Exempel 8 på sdan 69-70 Homogentets - och oberoendetest För att få konkret bakgrund fortsätter v att betrakta samma typ av stuaton som Exempel 6 Nu gäller ntresset dock nte allmänna genetska lagar, utan huruvda besprutnng med nsektsgfter har genetska effekter Som förut studeras hur avkommor fördelar sg på de fyra frukttypern Nu har tre olka stckprov observerats Plantorna stckprov med n = 80 kommer från frön som vuxt gftfr mlö, medan de stckprov med n = 50 kommer från frön som vuxt en mlö där besprutnng skett med nsektsgft A och de stckprov med n = 0 kommer från frön som vuxt en mlö där besprutnng skett med nsektsgft B Frukterna fördelade sg på typer enlgt tablån nedan, vlken är ett konkret fall av den allmänna tablå som anges mtt på sdan 7 Blom Observerade antal Typ, I II III IV Alla Plantor från gftfr mlö 5 0 8 77 80 Plantor från mlö med A 8 56 5 50 Plantor från mlö med B 0 9 7 8 0 Totalt 66 7 57 0 870 Intresset gäller som sagt om gftbesprutnng påverkar plantorna genetskt Som nollhypotes antas att ngen påverkan sker, utan att de tre stckproven kommer från homogena populatoner En mer teknsk formulerng av nollhypotesen ges H 0 nedan Sätt ; p = sannolkheten att en planta stckprov bär frukt av typ, =,,, =,,, H 0 : p = p = p och detta gemensamma värde betecknas p, p = p = p och detta gemensamma värde betecknas p, p = p = p och detta gemensamma värde betecknas p, p = p = p och detta gemensamma värde betecknas p 5 Under H 0 nnehåller problemet fyra parametrar, nämlgen p, p, p och p Fölande skattnngar av dem känns väl? som de naturlga ; 66 7 57 0 p*, p*, 870 p*, 870 p* 870 6 870 Hur förväntar man sg att de tre stckproven skall fördela sg på frukttyper om H 0 är sann? En bra gssnng är väl? fölande ; Antal observatoner cell, = för frukttyp stckprov förväntas bl n p*, 7 vlket leder tll förväntade antal enlgt tablån nedan

Förväntade antal Typ, I II III IV Alla Plantor från gftfr mlö 6 5 969 80 Plantor från mlö med A 90 65 06 6 50 Plantor från mlö med B 06 65 57 5 0 Totalt 66 7 57 0 870 För att ta ställnng tll om nollhypotesen H 0 verkar rmlg eller e, ställer man observerade värden mot "under H 0 förväntade värden" med användande av dskrepensmåttet Q på sdan 7 Blom I sn allmänna tappnng ser det ut enlgt nedan ; X n p* Q 8 n p*, I den aktuella typen av stuaton kan man vsa att fölande gäller, där s = antalet stckprov och r = antalet utfallskategorer Under H 0 är Q 8 approxmatvt - fördelad med s - r - frhetsgrader, bara n är "någorlunda stort" 9 Regeln för god approxmaton är densamma som förut : Under nollhypotesen skall förväntat antal 5 vare cell Den regeln är som synes uppfylld exemplet Där blr ; Q obs 5 6 6 0 5 5 8 5 osv genom alla celler 5 För att bedöma om detta Q - värde är osannolkt stort under H 0 vänder man sg tll - fördelnngen med - - = 6 frhetsgrader Dess 5 % - kvantl är 005 6 6 Eftersom Q obs > 6 tom mycket större förkastas H 0 Nollhypotesen kan alltså förkastas Trolgtvs är dock nte det saklogska problemet därmed avklarat Det man kan säga är att åtmnstone någon av nsektsgfterna har påverkan på en plantas växtförlopp I praktken vll man naturlgtvs kunna svara på om det är "bara A" eller "bara B" eller "såväl A som B" som har påverkan? V har bara kommt halvvägs den frågeställnngen Hur fortsätter man? Det fnns förfaranden för det också, men de ngår nte den här kursen, så de lämnas därhän Ovanstående typ av test kallas, som redan ndkerats, ett homogentetstest Man testar om poulatonerna bakom stckproven är homogena Ibland kallas test - typen också för oberoende - test De två benämnngarna kan ses som stort sett synonyma Bakgrunden för termen oberoende - test kan konkretseras av att nollhypotesen 5 också kan uttryckas ; H 0 : Det förelgger oberoende = nget beroende mellan besprutnng och en plantas utvecklng 0 5