Uwe Menzel, 2017 uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de Syfte: o statistiska test om parametrar för en fördelning o förkasta eller acceptera hypotesen hypotes: = 20 (väntevärdet är 20) hypotes: = (sannolikhet att lyckas ) Hypotesen prövas med hjälp av ett stickprov: Exempel: o ett bolag tillverkar färg, påstår: genomsnittlig torrtid = 20 minuter. o Konsumentverket vill testa påståendet (hypotesen) o målar 36 brädor (n=36) o mäter torrtiden o = 36) o Normalfördelning antas, hypotesen är alltså = 20 ;,
Val av kritiskt värde / kritiskt område: Konsumentverket bestämmer sig för att tillbakavisa (förkasta) påståendet (hypotesen) om > 20.75 acceptera hypotesen förkasta hypotesen = 20 påståendet, hypotes 20.75 kritiskt värde (genomsnittlig torrtid i stickprovet) Vi ska senare se att det kritiska värdet beräknas på grundval av felrisken. Feltyper: när ett sådant kritiskt värde fixeras, är det oundvikligt att riskera två typer av fel: Fel typ I: det är möjligt att > 20.75 även om hypotesen = 20 stämmer: förkasta hypotesen, fastän den är sann Fel typ II: det är möjligt att < 20.75 även om hypotesen = 20 är falsk: acceptera hypotesen, fastän den är falsk Dessa fel kan förekomma för att vi fattar vara beslut på grundval ett (eller fler) stickprov, som styrs av slumpen. acceptera H förkasta H H är sann korrekt fel typ I H är falsk fel typ II korrekt
Fel typ I: förkasta hypotesen, fastän den är sann antar att är känd: = 2.4 Om hypotesen är sann: = 20 = 36 (när H sann) quantile_plots.r = 20 20.75 3% risk att göra ett fel typ I Fel typ II: acceptera hypotesen, fastän den är falsk antar att är känd: = 2.4 hypotesen är falsk, t.ex. = 21 = 36 (när H falsk) quantile_plots.r 20.75 = 21 26% risk att göra ett fel typ II
= 27% verkar vara mycket. Varför inte förskjuta det kritiska värdet till mindre värden, t. ex. 20.5? 20.75 20.5 = 21 20.75 20.5 felrisk typ II = blir mindre felrisk typ I = blir större I praktiken justeras som kan beräknas med hjälp av det hypotetiska värdet för parametern. kallas sinifikansnivå. Ofta väljs = 0.05 eller = 0.01. Att justera är däremot mest svårt: i exemplet antog vi att = 21 om hypotesen är falsk. Detta kan vi dock inte veta eftersom den sanna fördelningsparametern är ju okänd. Man kan eventuellt beräkna för flera förväntade värden, eller en funktion ( ) för ett visst intervall: Om blir större förskjuts fördelningen mot höger. Om samma kritiska värdet bibehålls blir mindre:
I praktiken är målet ofta att förkasta hypotesen: o vill visa att en ny stålsort har större hållfastighet än den gamla = 0 o vill visa att en fjärilart har längre vingar än en andra = 0 o vill visa att parti A har större andel sympatisörer på landsbygden än i storstäder ställer upp hypotesen att båda andelar är lika: = 0 försöker att förkasta denna hypotes Hypotesen säger alltså ofta att skillnaden är noll. Därför brukar den kallas nollhypotesen ( ). För att genomföra testet ställs nollhypotesen mot en mothypotes, eller alternativ hypotes ( ). Det finns olika möjligheter att formulera den alternativa hypotesen: test = > ensidigt förkasta > för = kritiskt värde test = < ensidigt förkasta < för test = tvåsidigt förkasta för < eller >
Exempel, tvåsidigt test: En byggelement måste ha diametern 30 cm, den får inte avvika till högre eller mindre värden. Nollhypotes ( ): = 30 ; förkasta om > 30.5 eller < 29.5 Exempel, ensidigt test: En gammal maskin producerar genomsnittligt 2500 komponenter per dag: = 2500. (för den nya maskinen) är högre! : > kan förkastas! 1. Definiera nollhypotes ( ) och alternativ hypotes ( ) 2. Slå fast signifikansnivån = 3. Bestäm testvariabeln (, ) och det kritiska värdet för den 4. Beräkna testvariabeln på grundval av stickprovet. 5. Avgör om nollhypotesen förkastas eller inte. Step 2: I praktiken sätter man alltså, och bestämmer sedan det kritiska värdet, inte tvärtom (som i exemplet torrtiden ). Mindre betyder att man kan vara mera säker att verkligen är falsk om den förkastas, risken för ett fel typ I förminskas ju. när = förkastas först när avviker ännu mer från quantile_plots.r = 0.05 = 0.01
= 0.05 betyder: i det långa loppet blir felaktigt förkastat i 1 av 20 test = 0.01 betyder: i det långa loppet blir felaktigt förkastat i 1 av 100 test Konsekvenserna av valet för måste övervägas noggrant: för exemplet torrtiden : mindre, t.ex. = 0.01 o är bättre för tillverkaren konsumentverket förkastar inte så lätt deras påstående (att torkningstiden är kortare än konkurrenternas) o men kanske sämre för konsumenterna möjligtvis är torkningstiden inte bättre än konkurrenternas likvärdig produkt för mest pengar Steg 2: I praktiken sätter man alltså, och bestämmer sedan det kritiska värdet... = 0.05 ensidigt test; : > under = kritiskt område ( förkastas om hamnar i det kritiska området) = kritiskt värde, början av vi vet att
kritiskt värde, känd ; ensidigt test; : > förkasta om > dvs. om kritiskt värde, känd ; ensidigt test; : < förkasta om < dvs. om kritiska värden, känd ; tvåsidigt test; : förkasta om < eller > okänd: ( 1) och (se föreläsning Intervallskattning ) förkasta om > dvs. om kritiskt värde, okänd ; ensidigt test; : > förkastas inte om alltså om Kom ihåg det ensidiga konfidensintervallet för (föreläsning intervallskattning): Detta betyder att vi accepterar : = på signifikansnivå om ligger i respektive konfidensintervall med konfidensgrad 1.
1. Beräkna ett konfidensintervall med konfidensgrad 1 för parametern som ska testas på grundval av stickprovet. 2. Acceptera : = på signifikansnivå om ligger i detta konfidensintervall, dvs. om. 3. Förkasta på signifikansnivå om ligger utanför detta konfidensintervall, dvs. om. Testvariabelmetoden och konfidensmetoden leder till samma slutsatser. Detta fungerar för ensidiga och tvåsidiga test. Om ligger i konfidensintervallet betyder det ju att finns bland de troliga värden för sanna parametern. En 3:e, kanske den viktigaste metoden, är direktmetoden o används mest i praktiken o p-värdet beräknas ( p-value ) Definition p-värdet: P-värdet = sannolikheten för att erhålla ett utfall minst så extrem som det faktiskt observerade, givet att nollhypotesen är sann. Utfall anses som extrema om de ligger längre bort från nollhypotesen, gentemot den alternativa hypotesen; de är mindre sannolik än om är sann. ensidigt test : = : > p Inget kritiskt område defineras, p- värdet räknas ut direkt. Om p-värdet är (mycket) litet betyder det att det observerade utfallet - och de ännu mer extrema utfallen - är (mycket) osannolika om antas vara sann. förkastas därför.
1. Definiera nollhypotes ( ) och alternativ hypotes ( ) 2. Slå fast signifikansnivån 3. Beräkna testvariabeln på grundval av stickprovet 4. Beräkna p-värdet. 5. Förkasta på signifikansnivå om <, annars acceptera ensidigt test : = : > p Direktmetoden, exempel: (ur: Alm, Britton:, Liber AB, Stockholm 2008) En person påstår sig vara tillräckligt fingerfärdig för att kunna påverka vilken sida som kommer upp vid myntkast, så att han får krona oftare än klave, dvs. = >. Vi är skeptiska och tror att =. För att testa påståendet får han göra 10 kast och vi är beredda att tro honom om han får tillräckligt många krona vid försöket. : = ; : > (ensidigt test) : antal krona i 10 försök. ~ (10, 0.5) under. Vi vill testa på signifikansnivå = 0.01 dvs. vi tror honom om < 0.01. Försöket gav = 8 krona i 10 försök. Facit: > 0.01 förkastas inte på signifikansnivå 0.01. (Den förkastas inte ens på signifikansnivå 0.05) inte att han kan påverka slantsingling.
Direktmetoden, exempel: tjock. Ytorna av 10 komponenter har mätts, med resultat = 32.2 ; 32.0 ; 30.4 ; 31.0 ; 31.2 ; 31.2 ; 30.3 ; 29.6 ; 30.5 ; 30.8. = 30.91 Av lång erfarenhet vet man att tjockleken är normalfördelad med = 0.788 (vi kommer att räkna med okänd senare ). : = 30 ; : 30 (tvåsidigt test) om är sann Direktmetoden, exempel: = 30.91 : = 30 ; : 30 (tvåsidigt test) under Vi kan utnyttja symmetrin: båda markerade områden är lika stora: 29.09 = 30 = 30.91 tvåsidigt test: båda markerade områden extremare än! < : förkastas. Stickprovet avslöjar på signifikansnivån 0.0005 (!) att avvikelserna är för stora! Det finns en statistiskt signifikant differens mellan det observerade och det hypotetiska värdet.