Repetitionsföreläsning

Relevanta dokument
FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

Matematisk statistik KTH. Formelsamling i matematisk statistik

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Formel- och tabellsamling i matematisk statistik

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Tentamen i Matematisk Statistik, 7.5 hp

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Kap 2. Sannolikhetsteorins grunder

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

9. Konfidensintervall vid normalfördelning

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

TMS136. Föreläsning 4

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 12: Regression

SF1901 Sannolikhetsteori och statistik I

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Föreläsning 11: Mer om jämförelser och inferens

FÖRELÄSNING 7:

Mer om konfidensintervall + repetition

F3 Introduktion Stickprov

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Kurssammanfattning MVE055

F9 Konfidensintervall

Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning 12: Linjär regression

Tentamen i Tillämpad Matematik och statistik för IT-forensik. Del 2: Statistik 7.5 hp

Matematisk statistik för B, K, N, BME och Kemister

Föreläsning 12: Repetition

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

Föreläsning 7: Punktskattningar

Föreläsning 15: Försöksplanering och repetition

Matematisk statistik för B, K, N, BME och Kemister

Statistik 1 för biologer, logopeder och psykologer

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

0 om x < 0, F X (x) = c x. 1 om x 2.

TMS136. Föreläsning 11

SF1901 Sannolikhetsteori och statistik I

Slumpvariabler och sannolikhetsfördelningar

Lärmål Sannolikhet, statistik och risk 2015

Matematisk statistik för D, I, Π och Fysiker

TMS136. Föreläsning 10

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

TAMS65 - Föreläsning 2 Parameterskattningar - olika metoder

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

FÖRELÄSNING 8:

Avd. Matematisk statistik

Föreläsning 7: Punktskattningar

FACIT för Förberedelseuppgifter: SF1911 STATISTIK FÖR BI0TEKNIK inför tentan MÅDAGEN DEN 9 DECEMBER 2016 KL Examinator: Timo Koski

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Föreläsning 12, FMSF45 Hypotesprövning

Föreläsning 7: Punktskattningar

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 14 18

SF1911: Statistik för bioteknik

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson,

Föreläsning G60 Statistiska metoder

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Föreläsning 4: Konfidensintervall (forts.)

Grundläggande matematisk statistik

Kap 3: Diskreta fördelningar

Lufttorkat trä Ugnstorkat trä

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Föreläsning 4. Kapitel 5, sid Stickprovsteori

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

a) Beräkna sannolikheten att en följd avkodas fel, det vill säga en ursprungliga 1:a tolkas som en 0:a eller omvänt, i fallet N = 3.

Matematisk statistik 9hp Föreläsning 2: Slumpvariabel

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

SF1901: SANNOLIKHETSTEORI OCH HYPOTESPRÖVNING. STATISTIK. Tatjana Pavlenko. 4 oktober 2016

Grundläggande matematisk statistik

Matematisk statistik 9hp Föreläsning 5: Summor och väntevärden

Föreläsning 3. Sannolikhetsfördelningar

SF1901: Sannolikhetslära och statistik

(a) på hur många sätt kan man permutera ordet OSANNOLIK? (b) hur många unika 3-bokstavskombinationer kan man bilda av OSANNO-

Diskussionsproblem för Statistik för ingenjörer

TMS136. Föreläsning 7

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

Formler och tabeller till kursen MSG830

Sannolikheter och kombinatorik

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Introduktion till statistik för statsvetare

Demonstration av laboration 2, SF1901

Samplingfördelningar 1

Avd. Matematisk statistik

TAMS79 / TAMS65 - vt TAMS79 / TAMS65 - vt Formel- och tabellsamling i matematisk statistik. TAMS79 / TAMS65 - vt 2013.

SF1901: Medelfel, felfortplantning

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Föreläsning 7. Statistikens grunder.

Matematisk statistik TMS064/TMS063 Tentamen

F13 Regression och problemlösning

SF1901: Sannolikhetslära och statistik

Matematisk statistik KTH. Formel- och tabellsamling i Matematisk statistik, grundkurs

Jesper Rydén. Matematiska institutionen, Uppsala universitet Tillämpad statistik 1MS026 vt 2014

TMS136. Föreläsning 13

F9 SAMPLINGFÖRDELNINGAR (NCT

Föreläsning 5, FMSF45 Summor och väntevärden

Transkript:

Slumpförsök Repetitionsföreläsning Föreläsning 15 Sannolikhet och Statistik 5 hp Med händelser A B... avses delmängder av ett utfallsrum. Slumpförsök = utfallsrummet + ett sannolikhetsmått P. Fredrik Jonsson Maj 2010 Exempel på räkneregler: P(A c ) = 1 P(A) P(A B) = P(A) + P(B) P(A B) Den klassiska sannolikhetsdefinitionen Ett ändligt utfallsrum Ω = {u 1... u n } där alla utfall är lika troliga dvs: P({u 1 }) = P({u 2 }) = P({u n }) = 1/n. Likformigt sannolikhetsmått. Kombinatoriska principer (1.) Multiplikationsprincipen. Att två oberoende val med m respektive n valmöjligheter ger upphov till totalt m n möjligheter. (2.) Succesivt urval. Det finns n (n 1) (n m + 1) möjligheter att skapa en lista med m av n element (1 m n). (3.) Urval. Det finns ( ) n m = n (n 1) (n m+1) m (m 1) 1 möjligheter att välja ut en delgrupp om m element av n element (1 m n). Då gäller P(A) = A antal gynnsamma utfall = n antal möjliga utfall = andelen gynnsamma utfall

Betingade sannolikheter i nivåer. Inom A vad är sannolikheten för B? Betecknas P(B A). Oberoende händelser A och B är oberoende om P(A B) = P(A) P(B). En generalisering av multiplikationsprincipen. Definition: P(B A) = P(A B)/P(A) Oberoende är samma sak som att betingning med avseende på den ena händelsen inte inverkar på sannolikheten för den andra. I sannolikhetsresonemang är oberoende ofta en del i en intuitiv beskrivning eller ett grundantagande som man utgår ifrån. Snabbtest för TBC-smitta Bayes sats (att vända på en betingning): P(B A) = P(A B) P(B)/P(A) Tre typer av funktioner Betecknas med stora bokstäver i slutet av alfabetet X Y Z etc. Diskret eller kontinuerlig. Att X är diskret innebär att den antar värden x 1 x 2 x 3... med sannolikheter p(1) p(2) p(3).... En kontinuerlig övergång av denna beskrivning är att fördelningen beskrivs av en täthetsfunktion f (x) < x <. Det diskreta fallet F (x) = p(k) F (y) F (x) = p(k) k: x k x k: x<x k y Det kontinuerliga fallet F (x) = x F (x) = f (x) f (z) dz F (y) F (x) = y x f (z) dz

Likformiga fördelningar Standard-normal-fördelning Sannolikhetsmassan jämnt utspridd över de möjliga observationerna. X är standard-normal-fördelad: f X (x) = 1 2π e x2 /2 x R E(X ) = 0 D(X ) = 1 X antar punktvisa värden i det första (diskreta) fallet och alla värden inom ett ändligt intervall i det andra (kontinuerliga). x Φ(x) = P(X x) = f X (y)dy P(X > λ α ) = α 0 α 1 Normalsannolikheter och normalkvantiler Y är normalfördelad med parametrar µ och σ om Y = µ + σx med X standard-normal-fördelad Exempel Y N(µ σ 2 ) ( y µ ) P(Y y) = Φ σ ( y µ ) ( x µ ) P(x Y y) = Φ Φ σ σ Kvantiler x α = µ + σλ α Man skriver Y N(µ σ 2 ) och X N(0 1) dvs. µ = fördelningens genomsnittliga värde. E(Y ) = µ. P(Y > x α ) = α σ = standardavvikelsen. D(Y ) = σ.

Stickprov från en normalfördelning Föregående skattningars statistiska egenskaper x 1... x n är ett stickprov från N(µ σ 2 ). n stycken slumptal genererade från fördelningen: ett urval. Utfallen av oberoende likafördelade slumpvariabler X 1... X n med X i N(µ σ 2 ). Parametrar och skattningar Stickprovsmedelvärde: x = 1 n n i=1 x i. 1 Stickprovsstandardavvikelse: s = n n 1 i=1 (x i x) 2. Medelvärdet eller med andra ord Dessutom X N(µ σ 2 /n) X µ σ/ N(0 1) n X µ s/ n Standardavvikelsen t(n 1) Den bakomliggande fördelningens medelvärde: µ (n 1) s 2 χ 2 (n 1) Den bakomliggande fördelningens standardavvikelse : σ Konfidensintervall för µ Allmänt formulerad statistisk modell Med säkerhet 1 α gäller x λ α/2 σ/ n µ x + λ α/2 σ/ n x λ α σ/ n µ µ x + λ α σ/ n Beteckningar I µ = x ± λ α/2 σ/ n µ = x λ α σ/ n µ = x + λ α σ/ n Med σ okänd I µ = x ± t α/2 (n 1) s/ n µ = x t α (n 1) s/ n µ = x + t α (n 1) s/ n Slumpvariabel/observationer: X θ Parameter: θ Parameterrum: Fördelningen för X θ beror av värdet θ. Skattning θ en funktion av X θ. Skattningen känner alltså inte till värdet på θ utan baseras enbart på observationerna. Därför blir den osäker. Statistisk analys uttalar sig om denna osäkerhet.

s egenskaper Allmänt om medelvärden Skattningens genomsnittsbeteende Skattningen är väntevärdesriktig om E(θ ) = θ oberoende av värdet θ. Om motsatsen gäller talar man om systematiskt fel särskilt om avvikelsen är markant. Skattningens osäkerhet/variation/spridning Ett lämpligt mått är ofta standardavvikelsen D(θ ) som ofta beror på θ. En skattning av D(θ ) betecknas d(θ ) och kallas för medelfel. Många eller få observationer i stickprovet Om x 1... x n är ett stickprov från en godtycklig fördelning med väntevärde µ och standardavvikelse σ: Stora talens lag: Centrala gränsvärdessatsen: E( X n ) = µ D( X n ) = σ/ n X n µ då n X approx N(µ σ 2 /n) I de vanligaste rimliga fallen har man konvergens E(θ n) θ och D(θ n) 0 då stickprovsstorleken n. Detta kallas konsistens och betyder att önskvärd precision uppnås med tillräckligt stor stickprovsstorlek. Approximationen blir godtyckligt bra om n är tillräckligt stort för att kompensera för eventuell skevhet och andra icke-normaliteter i fördelningen. Väntevärden Varians och standardavvikelse Varians Väntevärdet för en slumpvariabel X : { k E(X ) = x k p(k) X diskret x f (x) dx X kontinuerlig Linjär egenskap E(a + b X + c Y ) = a + b E(X ) + c E(Y ) Vid oberoende Standardavvikelse V (X ) = E ( (X E(X )) 2) V (a + bx ) = b 2 V (X ) V (X + Y ) = V (X ) + V (Y ) D(X ) = V (X ) D(a + bx ) = b D(X ) för konstanter a b c och slumpvariabler X Y. Vid oberoende D(X + Y ) = (D(X )) 2 + (D(Y )) 2

Binomialmodellen Normalapproximations perspektivet Binär stickprovsundersökning. n = stickprovsstorleken p = andelen positiva i hela populationen. x = antalet positiva i stickprovet. x/n = p = andelen positiva i stickprovet. E(X ) = np D(X ) = npq vilket medför E(p ) = p D(p ) = pq/n d(p ) = p q /n Med tumregel npq > 5 gäller p approx N(p pq/n) Opinionsundersökningar och väljarsympatier Approximativa konfidensintervall I p = p ± λ α/2 p q /n Slumpmodell p = p λ α p q /n x är ett utfall av slumpvariabeln X Bin(n p) p = p + λ α p q /n För små stickprov... Vid väldigt små eller väldigt stora p...... är det lämpligare att räkna exakt på sannolikheterna. Tabeller som sammanfattar fördelningsfunktioner för n 19 och ett urval värden på p finns att tillgå.... kombinerat med stora värden på n finns det något som kallas poisson approximation av binomialfördelningar. Hur många träffas av blixten varje år?

Tillämpning av exponentialfördelningar X Exp(λ) betyder att X är exponentialfördelad med intensitet λ. f (x) = λe λx x > 0 F (x) = 1 e λx x > 0 X = tidsåtgång mellan inkommande samtal till en kundtjänst är exempel på en företeelse som eventuellt skulle kunna beskrivas av en lämpligt vald exponentialfördelning. λ = intensitet = genomsnittligt antal samtal per tidsenhet E(X ) = 1/λ D(X ) = 1/λ 1/λ = förväntat värde på X = genomsnittligt tidsåtgång mellan inkommande samtal Två stickprov Frågeställning vid två oberoende stickprov x 1... x n1 från N(µ 1 σ 2 1 ). y 1... y n2 från N(µ 2 σ 2 2 ). Om σ 1 = σ 2 = σ...... så kan informationen om σ vägas samman till så kallad poolad stickprovsstandardavvikelse (n 1 1)sx 2 + (n 2 1)sy 2 s p = n 1 + n 2 2 Har den ena populationen högre genomsnitt än den andra? µ 1 > µ 2 eller vice versa? Referensvariabler relativt µ 1 µ 2 X Ȳ (µ 1 µ 2 ) s p 1 n 1 + 1 n 2 t(n 1 + n 2 2) X Ȳ (µ 1 µ 2 ) approx N(0 1) sx 2 n 1 + s2 y n 2 Den första används vid antagande om lika varianser den andra vid någorlunda stora stickprov och utan antagande om lika varianser. Används till I µ1 µ 2 samt motsvarande konfidensgränser.

och stickprovsandelar Stickprov i par Två oberoende binära stickprovsundersökningar. n 1 n 2 = stickprovsstorlekar p 1 p 2 = andelen positiva i respektive populationer. x y= antalet positiva i respektive stickprov. x/n 1 = p1 = andelen positiva i första stickprovet. y/n 2 = p2 = andelen positiva i första stickprovet. Referensvariabel p 1 p 2 (p 1 p 2 ) p 1 q 1 n 1 + p 2 q 2 n 2 approx N(0 1) x 1... x n och y 1... y n. Men vi antar inte att det är två separata stickprov. Däremot att differenserna z 1... z n z i = y i x i är ett stickprov från N( σ 2 ) för några parametervärden. Man räknar därefter på z och som ett fristående stickprov. Används till I p1 p 2 samt motsvarande konfidensgränser. Kalkning av sura sjöar Exempel Nollhypotes H 0 : µ 1 = µ 2 Mothypotes H 1 : µ 1 > µ 2 Mätningar ger x > ȳ Talar mätningarna för mothypotesen eller ligger den observerade skillnaden i medelvärden inom rimliga felmarginaler? Konfidensmetoden Frågan besvaras genom att beräkna en undre konfidensgräns för µ 1 µ 2 relativt en lämplig felrisk. Om detta värde är positivt kan vi förkasta H 0 annars är den observerade skillnaden icke signifikant. Direktmetoden Att räkna ut med vilken felrisk konfidensgränsen precis på gränsen klarar av att ge signifikant resultat. Enkel linjär regression Fixa värden x 1... x n. Observationer y 1... y n från oberoende slumpvariabler Y 1... Y n som beskrivs av Y i = α + βx i + ε med ε N(0 σ 2 ). Okända parametrar α β σ. Kokboksmetoder för hur man bör skatta parametrarna (minsta-kvadrat-metoden). Förklaringsgrad R 2. Ett mått på graden av linjäritet i data. 0 R 2 1. Ett värde på 0.7 eller lägre är inte speciellt högt medan över 0.9 får anses relativt högt. Relevant vid jämförelse av olika datamaterial. Recept Beräkna x ȳ S xx S xy och S yy med hjälp av miniräknare. Stoppa in i formler (formelsamling) och beräkna eventuellt konfidensintervall utifrån angivna referensvariabler.