FÖRELÄSNING 8:

Relevanta dokument
FÖRELÄSNING 7:

TMS136. Föreläsning 11

27,5 27,6 24,8 29,2 27,7 26,6 26,2 28,0 (Pa s)

TMS136. Föreläsning 13

TMS136. Föreläsning 10

Lektionsanteckningar 11-12: Normalfördelningen

FÖRELÄSNING 3:

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

(a) Anta att Danmarksprojektet inte lyckas hålla budgeten. Vad är då sannolikheten att Sverigeprojektet inte heller lyckas hålla budgeten? Motivera!

Föreläsning 12: Repetition

Föreläsning 11: Mer om jämförelser och inferens

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Föreläsning 12: Regression

8 Inferens om väntevärdet (och variansen) av en fördelning

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Konfidensintervall, Hypotestest

Lösningsförslag till Matematisk statistik LKT325 Tentamen

Samplingfördelningar 1

SF1901 Sannolikhetsteori och statistik I

Thomas Önskog 28/

F9 Konfidensintervall

9. Konfidensintervall vid normalfördelning

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Betrakta kopparutbytet från malm från en viss gruva. För att kontrollera detta tar man ut n =16 prover och mäter kopparhalten i dessa.

Statistik 1 för biologer, logopeder och psykologer

F3 Introduktion Stickprov

Föreläsning G60 Statistiska metoder

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

TMS136: Dataanalys och statistik Tentamen

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Jämförelse av två populationer

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

Föreläsning 5. Kapitel 6, sid Inferens om en population

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Datorlaboration 8/5 Jobba i grupper om 2-3 personer Vi jobbar i Minitab Lämna in rapport via fronter senast 22/5 Förbered er genom att läsa och se

Föreläsning 3. NDAB02 Statistik; teori och tillämpning i biologi

SF1922/SF1923: SANNOLIKHETSTEORI OCH INTERVALLSKATTNING. STATISTIK. Tatjana Pavlenko. 24 april 2018

Uppgift a b c d e Vet inte Poäng

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

Föreläsning 2 (kap 3): Diskreta stokastiska variabler

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Statistik 1 för biologer, logopeder och psykologer

Kapitel 10 Hypotesprövning

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Föreläsning 12: Linjär regression

Tentamen i Tillämpad Matematik och statistik för IT-forensik. Del 2: Statistik 7.5 hp

Varför statistik? det finns inga dumma frågor, bara dumma svar! Serik Sagitov

Repetitionsföreläsning

Tentamen i Matematisk statistik Kurskod S0001M

4.1 Grundläggande sannolikhetslära

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Avd. Matematisk statistik

Föreläsning 8: Konfidensintervall

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

SF1901: SANNOLIKHETSLÄRA OCH STATISTIK. MER HYPOTESPRÖVNING. χ 2 -TEST. Jan Grandell & Timo Koski

Föreläsning 12, FMSF45 Hypotesprövning

7.1 Hypotesprövning. Nollhypotes: H 0 : µ = 3.9, Alternativ hypotes: H 1 : µ < 3.9.

Formel- och tabellsamling i matematisk statistik

, s a. , s b. personer från Alingsås och n b

Tentamen i Matematisk statistik Kurskod S0001M

TMS136. Föreläsning 4

Föreläsning 5: Hypotesprövningar

Avd. Matematisk statistik

Föreläsningsanteckningar till kapitel 8, del 2

(a) på hur många sätt kan man permutera ordet OSANNOLIK? (b) hur många unika 3-bokstavskombinationer kan man bilda av OSANNO-

Avd. Matematisk statistik

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Föreläsning 4: Konfidensintervall (forts.)

F22, Icke-parametriska metoder.

Mer om konfidensintervall + repetition

TENTAMEN I STATISTIKENS GRUNDER 2

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Bestäm med hjälp av en lämplig och välmotiverad approximation P (X > 50). (10 p)

Föreläsning 7: Punktskattningar

Matematisk statistik TMS064/TMS063 Tentamen

b) antalet timmar Lukas måste arbeta för att sannolikheten att han ska hinna med alla 112 datorerna ska bli minst (3 p)

Formler och tabeller till kursen MSG830

MVE051/MSG Föreläsning 7

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Sannolikheten för att barnet skall få blodgrupp A0 A0 1/2 AA 1 AB 1/2 Övriga 0

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Del I. Uppgift 1 Låt A och B vara två oberoende händelser. Det gäller att P (A) = 0.4 och att P (B) = 0.3. Bestäm P (B A ). Svar:...

Föreläsning 7: Punktskattningar

TT091A, TVJ22A, NVJA02 Pu, Ti. 50 poäng

Tentamen i Dataanalys och statistik för I den 28 okt 2015

(b) Bestäm sannolikheten att minst tre tåg är försenade under högst tre dagar en given vecka.

Några extra övningsuppgifter i Statistisk teori

Transkript:

FÖRELÄSNING 8: 016-05-17 LÄRANDEMÅL Konfidensintervall för väntevärdet då variansen är okänd T-fördelningen Goodness of fit-test χ -fördelningen Hypotestest Signifikansgrad Samla in data Sammanställ data Gissa modell för data Testa modellen Använd modellen för att förutsäga information om ny data okonfidensintervall ogoodness of fit-test KONFIDENSINTERVALL FÖR μ DÅ σ ÄR OKÄND Förra föreläsningen gick vi igenom konfidensintervall för väntevärdet μ då standardavvikelsen σ var känd. Vi använde oss av följande slumpvariabel för att konstruera konfidensintervall för μ, Z = X μ σ n Z~Normal(0,1) Realistiskt är det sällan vi saknar/söker information om μ då σ är känd. För att kunna konstruera ett konfidensintervall för väntevärdet då variansen är okänd behövs, Skattning av standardavvikelsen från stickprovet Fördelningen av slumpvariabeln vi får om vi byter ut σ mot skattningen σ i uttrycket ovan För att skatta standardavvikelsen använder vi stickprovsstandardavvikelsen, σ = S = S = 1 n (X n 1 i=1 i X ) Det visar sig att om standardavvikelsen σ byts ut mot stickprovsstandardavvikelsen i uttrycket ovan, och om stickprovet är draget från en normalfördelning, så följer den nya slumpvariabeln t-fördelningen. Definition, Låt X 1, X,, X n vara ett stickprov med oberoende observationer dragna från en normalfördelning med väntevärde μ och standardavvikelse σ. Slumpvariabeln T kommer då vara t-fördelad med ν = n 1 frihetsgrader, T = X μ S n T~t(n 1)

Hur ser frekvensfunktionen för t-fördelningen ut? Symmetrisk kring väntevärdet μ = 0 Desto färre frihetsgrader, desto planerare kurva En t-fördelning med oändligt många frihetsgrader = standardnormalfördelning Både fördelnings- och frekvensfunktion för t-fördelningen är komplicerade och därför använder vi istället tabell för fördelningsfunktionen. Tvärt emot standardnormalfördelningstabellen så listas inte värdet på fördelningsfunktionen för vissa värden av t. Istället listas värdet på t för vissa värden av fördelningsfunktionen (tabellkolumner) och olika antal frihetsgrader (rader). Definition, Låt X 1, X,, X n vara ett stickprov med storlek n draget från en normalfördelning med väntevärde μ och okänd standardavvikelse σ. Ett 100(1 α)% två-sidigt konfidensintervall ges då av, X ± t α,n 1 S/ n Frihetsgrader förkortas ofta df som i degrees of freedom. Exempel (samma som förra föreläsningen, nu med okänd varians), Slumpvariabeln X betecknar uppmätt värmekapaciteten i ett nytt material och vi antar att X är normalfördelad. Ett stickprov av 30 bitar testas och väntevärdet av X punktskattas till stickprovsmedelvärdet, μ = x = 0.643. Hur exakt är denna skattning? Finn ett 95%-igt tvåsidigt konfidensintervall för väntevärdet av X, α = 1 95 100 = 0.05 α = 0.05 Skatta standardavvikelsen med stickprovsstandardavvikelsen, σ = s = 1 n (x n 1 i=1 i x ) = 1 30 (x 9 i=1 i 0.643) = 0.00983 Antalet frihetsgrader n 1 = 9. Använd tabell för att finna t 0.05,9 Area in One tail: α = 0.05 ν = 9 t 0.05,9 =.045 Alltså ges det 95%-iga konfidensintervallet av, (kolumn i t-fördelningstabellen) (rad i t-fördelningstabellen) X ± t α,n 1 S/ n 0.643 ±.045 0.00983/ 30 0.643 ± 0.0037

Jämför vi detta konfidensintervall med det vi fick förra föreläsningen, 0.643 ± 0.0035, då vi visste att σ = 0.01, så ser vi här får ett bredare konfidensintervall trots att vi underskattat variansen till σ = 0.00983. Detta på grund av att z α t α,n 1. GOODNESS OF FIT-TEST Detta test kan användas för att se om insamlad data följer en viss fördelning. Exempel, Resultatet från den första duggan såg ut på följande sett, Antal poäng Antal studenter 0 9 1 3 16 3 7 4 1 5 11 6 1 SUMMA= 70 Eftersom vi uppfyller nedanstående punkter skulle man kunna tänka sig att antalet poäng en slumpmässigt vald student fick på första duggan, X, är binomial-fördelat med en okänd parameter p, Ett fixt antal försök, n = 6 frågor Varje försök har ett win/fail-utfall, antingen klaras frågan eller inte Slumpvariabeln X betecknar antalet wins, total antal poäng på duggan Om det är rimligt att anta att alla försöken är identiska och oberoende av varandra återstår att se, men för stunden antar vi att sannolikheten att klara en fråga är samma för alla frågor och att frågorna är oberoende av varandra. Första steget är att sätta upp en hypotes om vilken fördelning X följer, men vi saknar ett värde på parametern p, X~Binomial(6, p). Alltså måste vi punktskatta p med hjälp av stickprovet. Man kan visa att x n är en väntevärdesriktig skattning av binomial-parametern p (se föreläsning 6). Nedan är n binomialparametern (alltså antalet frågor på duggan) och N är storleken på stickprovet (alltså antalet studenter som skrev duggan), p = x = 1 n n (1 N x N i=1 i) = 1 ( 1 (0 9 + 1 3 + 16 + 3 7 + 4 1 + 5 11 + 6 1)) = 0.55 6 70 Nu kan vi sätta upp vår hypotes som vi kan testa! Denna kallas nollhypotesen, H 0 : Antalet poäng en student fick på första duggan är binomialfördelat med parametrar n = 6 och p = 0.55. X~Binomial(6, 0.55)

Motsatsen till nollhypotesen kallas den alternativa hypotesen, H 1 : Antalet poäng en student fick på första duggan är inte binomialfördelat med parametrar n = 6 och p = 0.55 Med hjälp av nollhypotesen om fördelningen av X kan vi sätta upp en χ -tabell med de observerade värdena och förväntade värden. i O i Poäng Observerat antal studenter Förväntat antal studenter givet att H 0 är sann 0 9 N P[X = 0] = 70 0.0083 = 0.6 1 3 N P[X = 1] = 70 0.061 = 4.3 16 N P[X = ] = 70 0.19 = 13.0 3 7 N P[X = 3] = 70 0.30 = 1. 4 1 N P[X = 4] = 70 0.8 = 19.5 5 11 N P[X = 5] = 70 0.14 = 9.5 6 1 N P[X = 6] = 70 0.08 = 1.9 Total 70 70 Hur skall vi kunna jämföra de observerade värdena med de förväntade för att se om de avviker orimligt mycket från varandra? Sats, Om 5 för alla utfall(-grupper) i, så är följande summa approximativt χ -fördelad med ν frihetsgrader, (O i ) ~χ (ν) I vårt exempel är E 0, E 1 och E 6 lägre än 5 så vi klumpar ihop dem till följande grupper och beräknar (O i ), i O i O i (O i ) (O i ) 0-1 9+3=1 0.6 + 4.3 = 4.9 1 4.9 = 7. 7. = 51. 51. 4.9 16 13.0 16 13.0 = 3.0 3.0 = 9.0 9.0 13.0 3 7 1. 7 1. = 14. ( 14.) 0.4 = 0.4 1. 4 1 19.5 1 19.5 = 7.5 ( 7.5) = 55.6 55.6 19.5 5-6 11+1=3 9.5 + 1.9 = 11.4 3 11.4 = 11.6 11.6 133.4 = 133.4 11.4 11.7 Summa 70 70 35.3 (O i ) = 35.3

Definition, Antalet frihetsgrader i Goodness of fit-testet beräknas som ν = i antalet skattade parametrar 1 Vi har skattat en parameter, p, och har 5 utfallsgrupper alltså är ν = 5 1 1 = 3. För att veta om detta är rimligt eller udda givet att nollhypotesen är sann (alltså X~Binomial(6, 0.55)) jämför vi vårt observerade värde på (O i ) med χ -fördelningen med 3 frihetsgrader, (O i ) ~χ 3 Med hjälp av dator kan man beräkna att om (O i ) ~χ 4 så är, P [ (O i ) 35.5] = 0.00000011. Givet att nollhypotens är sann är det alltså väldigt osannolikt att observera den data vi observerat eller ännu extremare data. Denna sannolikhet kallas för p-värde. Sannolikheten att observera data minst så extrem som den som faktiskt observerades, givet att nollhypotesen är sann, kallas p-värde. Är p-värdet väldigt lågt förkastar vi nollhypotesen och antar istället den alternativa hypotesen. I detta fall betyder det att vi drar slutsatsen att X inte följer en binomial-fördelning med parametrar n = 6 och p = 0.55. Låt oss istället test om X är likformigt fördelad (fortfarande gäller att X: antalet poäng en slumpmässigt vald student fick på första duggan). Den diskreta uniforma fördelningen har en parameter: antalet möjliga utfall. I detta fall finns det 7 olika utfall, man kan få 0, 1,, 6 poäng på duggan, så vi behöver inte skatta någon parameter. H 0 : X~Uniform(7) H 1 : X är inte uniformt fördelad med parameter 7 P[X = x i ] = 1 7 (O i ) = 10.4 ν = 7 1 = 6 P[Y 10.4] = 0.11 Detta p-värde är inte tillräckligt lågt för att vi skulle kunna förkasta nollhypotesen, alltså verkar det rimligt att datan följer en diskret uniform fördelning med 7 olika utfall. Eftersom vi inte har en dator på tentan får vi ta hjälp av en tabell. Enligt χ -tabellen så kommer endast 5% av alla slumpvariabler som följer χ 6 -fördelningen vara högre än 1.59. Eftersom det observerade värdet på summan blev 10.4 < 1.59 så kan vi inte förkasta nollhypotesen. Alltså stödjer stickprovet hypotesen att X~Uniform(7).

Punktlista för Goodness of fit-test, 1. Sätt upp nollhypotes om vilken fördelning du tror stickprovet är draget från. H 0 : X~Fördelning(parameter 1, parameter ) H 1 : X följer inte Fördelning med parameter 1 och parameter.. Punktskatta eventuella parametrar du saknar med hjälp av stickprovet. Dessa behövs i nollhypotesen ovan. 3. Sätt upp en χ -tabell. Gruppera eventuella utfall som har < 5. i, Utfall(-grupper) O i, Observerat antal, Förväntat antal givet att H 0 är sann (O i ) Summa: Stickprovsstorleken Stickprovsstorleken 4. Beräkna (O i ) samt ν = i antal skattade parameterar 1 5. Slå upp kritiskt värde i χ -tabellen för χ ν med angiven signifikansgrad. 6. Om (O i ) > χ ν förkasta H 0 och anta H 1.