, s a. , s b. personer från Alingsås och n b

Relevanta dokument
F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

TMS136. Föreläsning 13

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

F3 Introduktion Stickprov

F22, Icke-parametriska metoder.

Föreläsning 5. Kapitel 6, sid Inferens om en population

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Föreläsning 4: Konfidensintervall (forts.)

Samplingfördelningar 1

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Föreläsning G60 Statistiska metoder

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 4 juni 2004, kl

TMS136. Föreläsning 11

2. Test av hypotes rörande medianen i en population.

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

F9 SAMPLINGFÖRDELNINGAR (NCT

π = proportionen plustecken i populationen. Det numeriska värdet på π är okänt.

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Hur man tolkar statistiska resultat

Kapitel 10 Hypotesprövning

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Föreläsning 11: Mer om jämförelser och inferens

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Parade och oparade test

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Studietyper, inferens och konfidensintervall

Lektionsanteckningar 11-12: Normalfördelningen

FÖRELÄSNING 8:

34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Statistik 1 för biologer, logopeder och psykologer

Föreläsning G60 Statistiska metoder

Tentamen i Statistik, STA A13 Deltentamen 2, 5p 21 januari 2006, kl

TMS136. Föreläsning 10

TMS136. Föreläsning 7


8 Inferens om väntevärdet (och variansen) av en fördelning

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Föreläsning G60 Statistiska metoder

Tentamen i Matematisk statistik Kurskod S0001M

TENTAMEN I STATISTIKENS GRUNDER 2

Föreläsning 12: Regression

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Hur skriver man statistikavsnittet i en ansökan?

TENTAMEN I STATISTIKENS GRUNDER 2

Konfidensintervall, Hypotestest

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 26 april 2004, klockan

Uppgift a b c d e Vet inte Poäng

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Föreläsning 6. NDAB01 Statistik; teori och tillämpning i biologi

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 7 ( ) OCH INFÖR ÖVNING 8 ( )

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 5: Hypotesprövningar

Jämförelse av två populationer

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Tentamen i Statistik, STA A10 samt STA A13 9p 24 augusti 2005, kl

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) 16 januari 2004, kl

Föreläsning 6: Hypotestester (forts.)

Aktivitetsuppgifter i kurs 602 Ekonomisk statistik, del 2, våren 2006

Tentamen i Statistik, STA A10 och STA A13 (9 poäng) Måndag 14 maj 2007, Kl

χ 2, chi-två Test av anpassning: sannolikheter specificerade Data: n observationer klassificerade i K olika kategorier:

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

FÖRELÄSNING 7:

P(ξ > 1) = 1 P( 1) = 1 (P(ξ = 0)+P(ξ = 1)) = ξ = 2ξ 1 3ξ 2

Föreläsning 12: Repetition

Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II

FACIT: Tentamen L9MA30, LGMA30

Avd. Matematisk statistik

Medicinsk statistik II

OMTENTAMEN I GRUNDLÄGGANDE STATISTIK FÖR EKONOMER

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Tentamen i Statistik, STG A01 och STG A06 (13,5 hp) Torsdag 5 juni 2008, Kl

Tentamen i Matematisk statistik Kurskod S0001M

10. Konfidensintervall vid två oberoende stickprov

STATISTISK POWER OCH STICKPROVSDIMENSIONERING

9. Konfidensintervall vid normalfördelning

Hypotestestning och repetition

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Föreläsning G60 Statistiska metoder

Uppgift 3 Vid en simuleringsstudie drar man 1200 oberoende slumptal,x i. Varje X i är likformigt fördelat mellan 0 och 1. Dessa tal adderas.

F9 Konfidensintervall

Innehåll. Frekvenstabell. II. Beskrivande statistik, sid 53 i E

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Lufttorkat trä Ugnstorkat trä

Lösningsförslag till Matematisk statistik LKT325 Tentamen

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Laboration 4: Hypotesprövning och styrkefunktion

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

TENTAMEN I SF2950 (F D 5B1550) TILLÄMPAD MATEMATISK STATISTIK, TORSDAGEN DEN 3 JUNI 2010 KL

Transkript:

Skillnader i medelvärden, väntevärden, mellan två populationer I kapitel 8 testades hypoteser typ : µ=µ 0 där µ 0 var något visst intresserant värde Då användes testfunktionen där µ hämtas från, s är populationsstandardavvikelsen och n är stickprovsstorleken (Nämnaren är stickprovsmedelvärdets standardavvikelse, ) Allmänt kan vi skriva testfunktionen som Om vi tex har en normalfördelad variabel som vi kallar Y så är normalfördelad med väntevärde 0 och standardavvikelse 1 Antag nu att du är intresserad av om medelvärdet i två populationer är lika Vi kan som exempel ta längden på personer i två städer, Alingsås och Boden Vi antar att längderna är normalfördelade X a =Längden på personer i Alingsås X a är N(µ a, s a ) X b =Längden på personer i Boden X b är N(µ b, s b ) Vi vill nu testa =µ b Om är sann så är ju differenserna mellan väntevärdena lika med noll Dvs vi kan skriva vår hypotes som =0 För att kunna testa hypotesen måste vi samla in data Vi gör två oberoende stickprov, ett från vardera populationen Vi väljer slumpmässigt ut n a personer från Alingsås och n b personer från Boden Innan vi genomför vårt test kan vi gå en liten omväg för att dra direkta paralleller med kapitel 8 Vi inför en ny variabel Y Eftersom både X a och X b är normalfördelade så är Y normalfördelad

Variansen för Y får vi genom Standardavvikelsen för Y blir då Vi kan nu genomföra ett hypotestest med hjälp av Y och teorin i kapitel 10 Enligt så är ju µ a =0, så E(Y)=0 Vi använder oss av testfunktionen Vi behöver ingen ytterligare teori utan kan nu genomföra testet enligt kapitel 10 Om vi inte vill gå omvägen via Y kan vi i testfunktionen skriva ut vad Y står för Om båda stickproven är stora, dvs vi har åtminstone 30 observationer i vardera stickprovet så behöver vi inte kravet på att variablerna X a och X b skall vara normalfördelade z kommer ändå enligt CGS (centrala gränsvärdessatsen) att vara approximativt N(0, 1) I regel är ju inte populationernas standardavvikelser kända Vi får då skatta dessa från stickproven Vid stora stickprov får vi då I boken har de inte med (-0) i testfunktionen, men den kan var bra att vänja sig att sätta dit Vid ett annat tillfälle kanske vi inte tror att medelvärdena är exakt lika utan att tex Alingsåsare är 5 cm längre än Bodensare I det läget vill vi testa =5 Vi får då enkelt testfunktionen

Rekommendationen är alltså att i tesfunktionen skriva ut värdet från även då det är 0 och konsekvent skriva testfunktionen på formen eller i detta fall Ska vi nu genomföra vårt test? Vi antar att vi samlat in n a =36 observationer från Alingsås Dessa gav oss ett stickprovsmedelvärde på 175 cm och en stickprovsstandardavvikelse på 6 cm I ett annat stickprov samlar vi information från n b =49 Bodensare Dessa var i snitt 173 cm med en standardavvikelse på 7 cm Hypoteser =0 H 1 0 Signifikansnivå Vi använder signifikansnivån a=5% Testfunktion Beslutsregel Vi hämtar de kritiska gränserna från normalfördelningstabellen Eftersom vi har dubbelsidig mothypotes förkastar vi i båda svansarna och fördelar signifikansnivån med 25% i varje svans Beslutsregeln blir då: Förkasta om z >196 Resultat

Slutsats 141 <196 Vi kan ej förkasta Vi kan inte på 5% signifikansnivå påstå att medellängden för invånarna i de båda städerna skiljer sig åt OBSERVERA!! Detta betyder inte att vi bevisat att Alingsåsare och Bodensare är lika långa i genomsnitt Det betyder bara att den skillnad vi fick mellan stickproven inte är tillräckligt stor för att det skall räcka att förkasta Det finns ju alltid risk att vi råkat ut för ett typ II-fel och sannoliketen för detta är okänd (Se kapitel 10) Små stickprov Vi gör här följande antaganden; 1 Båda populationerna är normalfördelade 2 Vi har två oberoende stickprov 3 Standardavvikelserna för de båda populationerna är lika, s a =s b Det går att genomföra testet även om villkor 3 inte är uppfyllt, men hur man då går tillväga ligger utanför ramen för denna kurs Vi ser tillbaka på vår testfunktion då s är känd Enligt villkor 3 så är s a =s b Vi kan strunta i indexeringen och bara skriva s s a =s b =s Om vi i testfunktionen bryter ut variansen får vi Oftast är ju s okänd och måste skattas från stickprovet Eftersom vi har normalfördelade variabler, skattad standardavvikelse och små stickprov blir vår testfunktion t-fördelad Men hur ska vi beräkna s 2? Vi har från våra två stickprov s 2 a och s2 b Båda två är ju skattningar av s2 Vilken skall

vi välja? Svaret är; Båda Om vi väljer den ena kommer vi ju att kasta bort all information om spridning som vi samlat in från den population vi väljer bort Det gäller att ta tillvara all information vi har för att få en så bra skattning som möjligt Vi skulle kunna ta medelvärdet av de två skattningarna Men om det ena stickprovet är större än det andra så har vi ju en "bättre" skattning i det stora urvalet och den skattningen borde få lite större tyngd Vi bildar att ett vägt medelvärde, en sammanvägd varians (pooled variance) och är då t-fördelad med n a +n b -2 frihetsgrader (Vi har ju n a -1 frihetsgrader i första stickprovet och n b -1 frihetsgrader i det andra, så totalt har vi n a +n b -2 frihetsgrader) Exempel Vi tar exemplet ovan ännu en gång Men vi antar att stickproven var mindre n a =12 och n b =16 Vi lägger även till antagandet att s a =s b =s För enkelhets skull antar vi att resultaten från stickproven blev det som finns i exemplet ovan Hypoteser =0 H 1 0 Signifikansnivå Vi använder signifikansnivån a=5% Testfunktion Beslutsregel Vi hämtar de kritiska gränserna från t-fördelningstabellen Eftersom vi har dubbelsidig mothypotes förkastar vi i båda svansarna och fördelar signifikansnivån med 25% i varje

svans Vi har 12+16-2=26 frihetsgrader Beslutsregeln blir då: Förkasta om t >2056 Resultat Slutsats 079 <2056 Vi kan ej förkasta Vi kan inte på 5% signifikansnivå påstå att medellängden för invånarna i de båda städerna skiljer sig åt Konfidensintervall I kapitel 10 konstaterade vi att det finns ett samband mellan test och konfidensintervall Det gäller fortfarande Konfidensintervall bildar vi genom Skattning ± konstant skattningens medelfel Vid stora stickprov får vi ett konfidens intervall för µ a genom Om s är känt så använder vi naturligtvis det istället för s Vid små stickprov blir intervallet I vårt andra exempel skulle vi få ett 95% konfidensintervall för µ a genom 2±52 [-32, 72] 95% Med 95% säkerhet ligger differensen µ a inom intervallet -32 cm och +72 cm Vi kan alltså inte förkasta nollhypotesen Differensen kan ju vara noll Men notera igen att vi inte på något sätt har visat att nollhypotesen är sann Differensen kan ju ligga var som helst inom intervallet Det enda vi säger är vi inte kan utesluta 0, lika lite som vi kan utesluta tex -1 eller +3 Vi konstaterar bara att vi inte kan förkasta

Skillnader mellan två populationsproportioner Repetera exemplet från kapitel 10 med Unos tärning Även där skapade vi vår testfunktion enligt principen och fick då Vi behövde inte skatta standardavvikelsen eftersom vi när testet genomförs antar att är sann, och vi hämtar p därifrån Nu ska vi se på differensen mellan två proportioner och testa om p 1 =p 2 : p 1 =p 2 eller enligt principen ovan : p 1 -p 2 =0 Om vi följer resonemanget om test av differenser mellan medelvärden skulle vi argumentera för att p 1 =p 2 =p och vi skulle bilda testfunktionen Men hur skall vi kunna räkna ut detta? p är ju okänt (Om p vore känt behövde vi ju inte göra något test!) Vi har heller inget värde att hämta från eftersom vi inte gjort något antagande om värdet på p, utan vi har enbart sagt att proportionerna i de båda populationerna är lika Enda möjligheten är att skatta p från stickproven Vid skattningen slår vi ihop de båda stickproven till ett enda stort stickprov och beräknar p Eftersom vi under antar att proportionerna är lika får vi bästa skattningen genom att räkna totala antalet som har den egenskap vi söker i de två stickproven och dela på den totala stickprovsstorleken Vi kallar skattingen för p c (c står för combined = sammanslaget) X 1 och X 2 är antalet i respektive urval som har sökt egenskap Testfunktionen blir då Ett genomräknat exempel finns i boken

Stickprov i par, beroende stickprov Antag att du vill testa två gödningsmedel A och B för att se vilket av dessa som ger den största genomsnittliga skörden Till ditt förfogande har du 20 stycken åkrar Du skulle kunna välja ut 10 åkrar slumpmässigt där du gödslade med A och 10 åkrar där du gödslade med B Sedan kan du med de metoder som beskrivs i början av kapitlet testa =µ b eller =0 Om vi antar att skörden (mätt i tex ton/hektar) är normalfördelad och att standardavvikelsen är densamma oavsett vilket gödningsmedel vi använder blir testfunktionen enligt ovan s 2 p mäter den variation som finns i data Om vi funderar lite över vilka orsaker som finns till variation så kan vi hitta många olika anledningar Naturligtvis kan skördemängden skilja just beroende på att vi har använt olika gödningsmedel och det ju just den variationskällan vi är intresserade av Men det finns även andra orsaker Tex har solen lyst olika mycket på olika åkrar om vi tänker oss att åkrarna ligger utspridda över ett stort geografisk område Det har fallit olika mycket regn på olika åkrar Någon åker kanske ligger nära en fabrik som släpper ut föroreningar som påverkar skörden En annan åker kanske ligger nära ett vattendrag som på ett naturligt sätt bidrar till fuktighet i jorden Jorden på åkrarna kan vara av olika god kvalitet På vissa åkrar kan det förekomma skadedjur som inte finns på andra Listan kan göras lång Och ALLA dessa bidrag till variation i skördemängd samlas i s 2 p Det betyder att om vi har mycket "störande" variation så kommer nämnaren i t att bli stor, vilket medför att vi får svårt att hitta signifikanta skillnader, även om A och B ger olika resultat Test har låg styrka (se kapitel 10) Vi önskar skala bort all oväsentlig variation och enbart ha kvar den som orsakats av att vi använt olika gödningsmedel Om vi då istället delar in varje åker i två delar På den ena delen gödslar vi med A och på den andra delen gödslar vi med B Sen mäter vi för varje åker differensen i skördemängd mellan den del som är gödslad med A och den som är gödslad med B Vi bildar d=x a -X b Inom varje åker bör förutsättningarna vara desamma vad gäller sol, regn, jordmån, skadedjur, föroreningar etc Så hittar vi skillnader mellan X a och X b så bör de bero på gödningsmedel Du har alltså till din analys 20 differenser Du använder dessa och gör ett hypotestest enligt kapitel 10 Eftersom skördemängden antogs var normalfördelad så är även d normalfördelad Och om gödningsmedlen är lika bra så är E(D)=µ d =0 Med teorin i kapitel 10 skulle vi i detta läge testa

: µ=0 med Nu har vi bytt namn på variabeln från X till D Så vi fixar till testfunktionen så att beteckningarna stämmer där s d är den vanliga stickprovsstandardavvikelsen beräknad på de n stycken differenserna t är t-fördelad med n-1 frihetsgrader (Vi får alltså inte n a +n b -2 frihetsgrader här eftersom vi i beräkningen enbart räknar med differenserna, och de är n stycken) Allt detta kommer från URL: http://wwwcskause/stat/staa14/vt04/kapitel/kap11shtml