Binomialfördelning, två stickprov

Relevanta dokument
Repetition 2, inför tentamen

Hypotestest och fortsättning av skattningar och konfidensintervall

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 4: Konfidensintervall (forts.)

TMS136. Föreläsning 4

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

F11 Två stickprov. Måns Thulin. Uppsala universitet Statistik för ingenjörer 26/ /11

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

Föreläsning 12: Regression

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Samplingfördelningar 1

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Föreläsning 5: Hypotesprövningar

TMS136. Föreläsning 7

4.1 Grundläggande sannolikhetslära

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

FÖRELÄSNING 8:

4 Diskret stokastisk variabel

Formel- och tabellsamling i matematisk statistik

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

Mer om konfidensintervall + repetition

TMS136. Föreläsning 11

Föreläsning 12: Repetition

Matematisk statistik KTH. Formelsamling i matematisk statistik

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

FÖRELÄSNING 7:

F3 Introduktion Stickprov

Föreläsning 9, Matematisk statistik 7.5 hp för E Konfidensintervall

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Föreläsning 11, FMSF45 Konfidensintervall

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2010

TENTAMEN I STATISTIKENS GRUNDER 2

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Jörgen Säve-Söderbergh

LMA521: Statistisk kvalitetsstyrning

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Styrkeberäkningar och diskreta data

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

LMA522: Statistisk kvalitetsstyrning

Föreläsning 12, FMSF45 Hypotesprövning

Matematisk statistik 9.5 hp, HT-16 Föreläsning 11: Konfidensintervall

Laboration 4: Intervallskattning och hypotesprövning

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

9. Konfidensintervall vid normalfördelning

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Kap 3: Diskreta fördelningar

Föreläsning 7: Punktskattningar

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

TMS136. Föreläsning 10

F10 Problemlösning och mer om konfidensintervall

Några extra övningsuppgifter i Statistisk teori

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

TMS136. Föreläsning 13

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

0 om x < 0, F X (x) = c x. 1 om x 2.

Föreläsningsanteckningar till kapitel 8, del 2

Repetitionsföreläsning

F9 Konfidensintervall

Statistiska metoder för säkerhetsanalys

Föreläsning 7: Punktskattningar

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

TAMS65 - Föreläsning 6 Hypotesprövning

Avd. Matematisk statistik

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Avd. Matematisk statistik

TAMS65 - Föreläsning 6 Hypotesprövning

Avd. Matematisk statistik

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

bli bekant med summor av stokastiska variabler.

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Thomas Önskog 28/

Statistik och epidemiologi T5

Föreläsning 5. Kapitel 6, sid Inferens om en population

Föreläsning 8, FMSF45 Binomial- och Poissonfördelning, Poissonprocess

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

4.2.1 Binomialfördelning

Föreläsning 8, Matematisk statistik Π + E

FACIT: Tentamen L9MA30, LGMA30

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

b) Beräkna väntevärde och varians för produkten X 1 X 2 X 10 där alla X i :na är oberoende och R(0,2). (5 p)

Laboration 4: Intervallskattning och. Hypotesprövning. 1 Förberedelseuppgifter LABORATION 4 MATEMATISK STATISTIK AK FÖR ED, FMS022, VT02

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar

Föreläsning 11, Matematisk statistik Π + E

Tentamen i Matematisk statistik Kurskod S0001M

10. Konfidensintervall vid två oberoende stickprov

Transkript:

Diskreta data

Binomialfördelning, två stickprov

Hypotesprövning måste inte grunda sig på normalfördelning 1948 visste man inte om streptomycin var effektivt mot tuberkulos, men man misstänkte det. För att undersöka saken gav man slumpmässigt streptomycin till 55 patienter och lät 52 stanna i sängen utan medicin. Frågan är om övervikten av döda bland dem som inte fått är större än vad slumpen kan förklara.

Ett något bredare intervall än det som gavs. Oklart varför Jag skulle misstänka felräkning.

Är detta ett bra intervall? Villkoren för att normalapproximation är inte uppfyllda. n1p1q1 uppskattas till 3.7, gränsen är 10. Man kan simulera under förutsättning att 4/55 och 14/52 är de korrekta sannolikheterna och se hur ofta ett konfidensintervall konstruerat på detta sätt täcker rätt skillnad. Det går förvånansvärt bra: Övertäckningssannolikhet: 94 %.

Men vad betyder det? De TBCpatienter som behandlades i studien är inte något slumpmässigt urval ur någon population. Den väsentliga informationen är att obalansen är långt större än vad slumpen tillåter. Konfidensintervallet ger en vink om effektens storlek, men ska inte övertolkas.

Ett problematiskt exempel hos Olbjer 9.8 och 9.9 Låt oss låtsas att det handlar om elektroniska komponenter och två metoder att framställa dem. (Står inte hos Olbjer) Trasig Fungerar Totalt Grupp 1 15 85 100 Grupp 2 18 182 200 Totalt 33 267 300

Intervallet blir: >> p1 = 15/100 [0.1500] >> p2 = 18/200 [0.0900] >> sderror = sqrt(p1*(1p1)/100+p2*(1p2)/200) [0.0410] 95 % tvåsidigt konfidensintervall: >> QN = norminv(0.975) [1.9600] >> p1p2qn*sderror [0.0204] >> p1p2+qn*sderror [0.1404] (0.02,0.14)

Hypotesprövning När man för hypotesprövning, antar man att p1=p2 och gör en gemensam skattning: >> sqrt(.11*.89)*sqrt(3/200) [0.0383] Under H0: p1=p2 gäller att approximativt:

Vi kan inte förkasta H0 >> (p1p2)/0.0383 [1.5666] >> norminv(0.95) [1.6449] >> norminv(0.975) [1.9600] >> 1normcdf(1.5666) [0.0586] Men varför problematiskt? Jo, hypotesprövning och konfidensintervall är ju två sidor av samma sak. För din trovärdighets skull är det klokt att använda samma uppskattning av medelfelet i båda metoderna. Annars kan det hända att du får konfidensintervall och Pvärde ger motstridiga resultat. (I praktiken ett litet problem här, men ändå bra att tänka på.) Ja är ja, nej är nej och tvivlet tiger still.

Poissonfördelningen

Poissonfördelningen

De små talens lag Många försök som med samma lilla sannolikhet, oberoende av varandra, ger positivt resultat har tillsammans ungefär poissonfördelat antal positiva resultat.

Bin(n,p) närmar sig Po(np) när p blir mindre och np hålls konstant. Variansen för binomialfördelningen är som bekant n*p*(1p). När p blir litet blir den n*p, dvs detsamma som väntevärdet. Därför är en första kontroll av Poissonfördelning om skattningarna av varians och väntevärde är någorlunda lika.

Slumpmässiga punkter i ett plan I princip är naturligtvis antal punkter som hamnar i en yta Bin(N,p)fördelad, där N är antal punkter och p den andel av arean som hamnar i den aktuella ytan. Dock är N sällan känd. Detta är inga problem, eftersom Poissonfördelningen inte behöver N utan bara det förväntade värdet. Notera att detta är precis problemet med bomberna över London.

Antal gånger något ovanligt händer Grovt överslag: Poissonfördelningen har samma varians som förväntat värde. Alltså är roten ur 183, 13.5, en skattning av standardavvikelsen. Från 183 till 122 är det i så fall 4.5 standardavvikelser, vilket är en osannolik förändring om förhållandena inte skulle ha ändrats. Alltså har förmodligen något hänt som inte bara är en slumpvariation.

Dödsfall av skjutning ur dödsorsaksregistret

Mycket ovanliga händelser, men är de Poisson? Nej. Trolig orsak: Vissa typer av skjutningar tenderar att ske i grupp. Antagandet om oberoende är alltså inte uppfyllt.

Fall från stup verkar ganska poissonfördelade > mean(y) [1.75] > var(y) [1.88]

Antal fall i pancreascancer 19972016. Poisson? Nej, inte sett som ett homogent datamaterial. Det är tydligt att det finns en tidstrend. Först om man tar hänsyn till tiden börjar poissonfördelningen att te sig rimlig. Man kan anpassa en poissonfördelning där λ beror av olika faktorer med poissonregression, men det är överkurs.

Bokens exempel: Bakteriehalt Bakteriehalten i en vätska får vara högst 10 000 bakterier/ml. Den späds 100 gånger och tre prov på 1 ml vardera tas ut. Det förväntade värdet av antalet bakterier i varje prov är μx. Resultat: 123, 137, 115. Olbjer gör det inte, men det kan vara klokt att se på varians och medelvärde: >> var([123 137 115]) [124] >> mean([123 137 115]) [125]

Summan av poissonfördelningar är poisson Om X är antalet bomber i en area och Y i en annan, så är naturligtvis X+Y också poissonfördelad med väntevärde μx+μy. Summan av antal bakterier i de tre proven är ju samma sak som om vi istället tagit ett enda prov på 3 ml, som enligt samma resonemang kan antas poissonfördelat. Alltså är 123+137+115=375 en observation av Po(3μX). Om =100, är alltså standardavvikelsen roten ur 300, dvs ungefär 17. En sådan variabel överstiger med ytterst liten sannolikhet värdet 375.

Fast varför approximera? >> 1poisscdf(374,300) [1.6716e05] Att göra ett 95 % konfidensintervall är också intressant. U = X/3 är en väntevärdesriktig skattare av μx.

En annan utmärkt lösning: http://statpages.info/confint.html (338.00/3,414.94/3)=(112.7,138.3) Boken ger följande lösning: >> 0.5*[chi2inv(0.025,750) chi2inv(0.975,752)]/3 [112.7 138.3]

Färdighetstest Resten av föreläsningen ägnas åt färdighetstesterna. (Detta läggs inte ut på nätet.)