Introduktion till statistik för statsvetare

Relevanta dokument
Introduktion till statistik för statsvetare

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Grundläggande matematisk statistik

4.1 Grundläggande sannolikhetslära

Finansiell statistik, vt-05. Kontinuerliga s.v. variabler. Kontinuerliga s.v. F7 Kontinuerliga variabler

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

SF1901 Sannolikhetsteori och statistik I

Grundläggande matematisk statistik

Kap 3: Diskreta fördelningar

Summor av slumpvariabler

Statistik 1 för biologer, logopeder och psykologer

Repetition och förberedelse. Sannolikhet och sta.s.k (1MS005)

TMS136. Föreläsning 4

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

Formel- och tabellsamling i matematisk statistik

modell Finansiell statistik, vt-05 Modeller F5 Diskreta variabler beskriva/analysera data Kursens mål verktyg strukturera omvärlden formellt

Exempel för diskreta och kontinuerliga stokastiska variabler

F3 Introduktion Stickprov

MVE051/MSG Föreläsning 7

Kap 2. Sannolikhetsteorins grunder

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Tentamen i Matematisk statistik Kurskod S0001M

SF1901 Sannolikhetsteori och statistik I

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Laboration med Minitab

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Repetitionsföreläsning

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

4 Diskret stokastisk variabel

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

F9 SAMPLINGFÖRDELNINGAR (NCT

Grundläggande matematisk statistik

Några extra övningsuppgifter i Statistisk teori

Föreläsning G60 Statistiska metoder

Väntevärde och varians

1.1 Diskret (Sannolikhets-)fördelning

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Mer om slumpvariabler

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

SF1901: Sannolikhetslära och statistik

Samplingfördelningar 1

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Föreläsning 6, Repetition Sannolikhetslära

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

Kurssammanfattning MVE055

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II

bli bekant med summor av stokastiska variabler.

Diskussionsproblem för Statistik för ingenjörer

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

Introduktion till statistik för statsvetare

SF1901: Sannolikhetslära och statistik

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

0 om x < 0, F X (x) = x. 3 om 0 x 1, 1 om x > 1.

Matematisk statistik 9hp Föreläsning 2: Slumpvariabel

Lektionsanteckningar 11-12: Normalfördelningen

Stokastiska signaler. Mediesignaler

SF1901: SANNOLIKHETSTEORI OCH MER ON VÄNTEVÄRDE OCH VARIANS. KOVARIANS OCH KORRELATION. STORA TALENS LAG. STATISTIK.

Föreläsning 7. Statistikens grunder.

Våra vanligaste fördelningar

Föreläsning 7: Punktskattningar

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Tentamen i Matematisk statistik Kurskod S0001M

FÖRELÄSNING 7:

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Finansiell statistik, vt-05. Slumpvariabler, stokastiska variabler. Stokastiska variabler. F4 Diskreta variabler

Statistiska metoder för säkerhetsanalys

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

Föreläsning 8, Matematisk statistik Π + E

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

Demonstration av laboration 2, SF1901

4.2.1 Binomialfördelning

TMS136. Föreläsning 7

F9 Konfidensintervall

FÖRELÄSNING 8:

Föreläsning 2, FMSF45 Slumpvariabel

SF1901: Sannolikhetslära och statistik. Väntevärde; Väntevärde för funktioner av s.v:er; Varians; Tjebysjovs olikhet. Jan Grandell & Timo Koski

F10 Problemlösning och mer om konfidensintervall

Föreläsning 11: Mer om jämförelser och inferens

Övning 1 Sannolikhetsteorins grunder

Matematisk statistik TMS064/TMS063 Tentamen

Jörgen Säve-Söderbergh

Formler och tabeller till kursen MSG830

Föreläsning 4: Konfidensintervall (forts.)

FACIT: Tentamen L9MA30, LGMA30

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Föreläsning 8, FMSF45 Binomial- och Poissonfördelning, Poissonprocess

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Föreläsning 3. Sannolikhetsfördelningar

F13 Regression och problemlösning

Forskningsmetodik 2006 lektion 2

SF1911: Statistik för bioteknik

Transkript:

"Det finns inget så praktiskt som en bra teori" November 2011

Repetition Vad vi gjort hitills Vi har börjat med att studera olika typer av mätningar och sedan successivt tagit fram olika beskrivande mått och figurer för dessa: på beskrivande mått är aritmetiskt medelvärde (balanseringspunkt), spridning, kvartiler, median, IQR, skevhet och toppighet. på beskrivande figurer är stolpdiagram, histogram, kumulerade diagram och lådagram. Vi har sedan, via resonemang, tagit fram deras motsvarande teoretiska storheter: 1 Förväntat värde (väntevärde), median, kvartil, varians, skevhet och toppighet 2 Sannolikhetsfunktion och täthetsfunktion samt deras gemensamma fördelningsfunktion

Vad den statistiska teorin bygger på I varje statistisk rapport skall modell anges dvs X = vad som mätes därefter skall antaganden om sannolikheter anges dvs I det diskreta fallet p 1, p 2, p 3,... I det kontinuerliga fallet F (x) Till sist skall man ange vilket problem man försöker lösa Vi skall nu undersöka några vanliga modeller inom statistiken och börjar med den enklaste diskreta modellen Bernoullimodellen.

Bernoullimodell Bernoullimodellen Denna modell har vi tidigare studerat; den lyder tex X = { 1 om sannt 0 om falskt I Bernoullimodellen sätts allmänt X = en dikotom händelse P (X = a) = p { a om sannt allmänt X = b om falskt P (X = b) = 1 p = q där q är en vedertagen beteckning för 1 p. Det vanligaste exemplet är kast med ett mynt där vi sätter { 1 om krona p1 = p X = 0 om klave p 2 = q

Väntevärdet i en Bernoullimodell Bernoullimodellen Vi kan nu ställa frågor som vad är sannolikheten att få krona? Om vi satsar en krona vad kan vi förvänta oss att få tillbaks? Den sökta sannolikheten följer direkt ur vår modell den är p. Vad kan vi förvänta oss att vinna vid ett kast? Vi har tidigare kommit fram till att 1 E (X ) = x i p i = 1 p + 0 q = p i=0 så vid ett kast kan vi förvänta oss att vinna p kronor. Vad kan vi förvänta oss att vinna vid 2 kast? Observera att vi nu har två beskrivningar av en och samma modell { 1 om krona p X 1 = och X 0 om klave q 2 = { 1 om krona p 0 om klave q

Bernoullimodellen Väntevärdet av en summa är en summa av väntevärden Självklart kan vi nu vinna p + p = 2p kronor dvs vi har E (X 1 + X 2 ) = E (X 1 ) + E (X 2 ) Tror man på detta så är det inte svårt att övertyga sig om den allmänna formeln dvs E (X 1 + X 2 + + X n ) = E (X 1 ) + E (X 2 ) + + E (X n ) ( n ) n E X i = E (X i ) i=1 i=1 Denna formel gäller faktiskt alltid och är mycket praktisk: Stort problem blir summan av små problem

Variansen i en Bernoullimodell Bernoullimodellen Vi har tidigare definierat den deskriptiva variansen som ˆσ 2 = 1 n n (x i x) 2 = (x j x) 2 ˆp j i=1 j Ω där Ω = {1, 2,..., k} Definiera nu den teoretiska variansen [ V (X ) = E (X E (X )) 2] = (x j E (X )) 2 p j j Ω där Ω = {x 1, x 2,..., x k }. Kast med mynt ger därför (genomför räkningarna i detalj) V (X ) = (1 p) 2 p + (0 p) 2 q = (1 p) 2 p + p 2 (1 p) = p (1 p) (1 p + p) = p (1 p)

Bernoullimodellen Variansen av en summa är det en summa av varianser? Om vi nu kastar samma mynt två gånger vad blir då variansen för summan av de två kasten? Dvs vi skall bestämma V (X 1 + X 2 ) =? Detta är mycket svårare och ingår inte i kursen. Däremot ingår resultatet V (X 1 + X 2 ) = V (X 1 ) + V (X 2 ) om X 1 och X 2 är oberoende Att två slumpvariabler är oberoende innebär just det du tror de påverkar inte varandra. Självklart påverkar kasten i en Bernoullimodell inte varandra de är oberoende

För Bernoullimodellen gäller Bernoullimodellen Eftersom alla Bernoullimodeller kan överföras i { 1 om krona p X = 0 om klave q ser vi att E (X ) = p V (X ) = p (1 p) = pq Kan du visa påståendet ovan?

Bernoullimodellen är den naturliga utvidgningen av den föregående modellen. I denna modell gäller att X = summan av flera lika dikotoma händelser = n X i i=1 där X i = { 1 om krona p 0 om klave q Observera att vi pratar om en och samma Bernoullimodell dvs sannolikheten för en 1:a är densamma. Vi kräver också att slumpvariablerna X 1, X 2,..., X n är oberoende av varandra.

s sannolikheter Bernoullimodellen I gäller att ( ) n P (X = k) = p k q n k, där k = 0, 1, 2,..., n k Här definieras ( ) n = k n! k! (n k)! där n! = 1 2 3 n och motsvarande för k! och (n k)! (! utläses fakultet och ( n k ) utläses n över k) Vi inför beteckningen X Bin (n, p) för ovanstående.

Bernoullimodellen s väntevärde och varians Eftersom följer att X = n { 1 om krona p X i där X i = 0 om klave q i=1 ( n ) E (X ) = E X i = i=1 detta gäller alltid samt att ( n ) V (X ) = V X i = i=1 n E (X i ) = i=1 n V (X i ) = i=1 när gäller det? Jo när X 1, X 2,..., X n är oberoende. n p = np i=1 n pq = npq i=1

Bernoullimodellen I betraktas X = antal oberoende händelser under en tidsperiod Slumpvariabeln X kan till exempel vara antalet försäkringsfall under ett år och dessa kan bli hur många som helst även om sannolikheten för detta är liten. Denna modell används även för att beskriva antalet olyckor på en speciell vägsträcka, eller i ett område, under en viss tidsperiod; antalet telefonsamtal till en växel under en viss tidsperiod; antalet beridna preussiska soldater som blir ihjälsparkade av sina egna hästar under ett år; osv

s sannolikheter Bernoullimodellen För gäller att och Ω = {0, 1, 2, 3,...} P (X = k) = λk k! e λ där k = 0, 1, 2, 3,... här är λ en konstant som mäter intensiteten med vilken händelser inträffar. Det gäller att E (X ) = λ och märkligt nog V (X ) = λ Vi inför beteckningen X Po (λ) för ovanstående.

Bernoullimodellen Ge exempel på olika bernoulli, binomial och poisson

Exponentialmodellen Gaussmodellen χ 2 -fördelningen är lite svårare att få grepp på eftersom vi måste fundera på en oändlighet som inte är uppräknelig. De är dock av mycket stor betydelse - främst på grund av en mycket grundläggande egenskap hos summor av slumpvariabler. De modeller vi skall betrakta är den exponentiella modellen som hanterar tid mellan händelser, gaussmodellen som berättar om det aritmetiska medelvärdet dvs summor av slumpvariabler och slutligen χ 2 modellen som berättar om variansen och konstigt nog en grupp av väntevärden.

Exponentialmodellen Exponentialmodellen Gaussmodellen χ 2 -fördelningen Betrakta tiden mellan två händelser, tex tiden mellan två olyckor. Om tiden till den andra olyckan saknar minne om den första olyckan då är tiden mellan två olyckor exponentialfördelad. Sätt X = tiden mellan två händelser där tider mellan händelser är oberoende. Om det gäller att { 1 e µ x x 0 F (x) = P (X x) = 0 x 0 f (x) = F (x) = 1 µ e x µ så säges X vara exponentialfördelad µ. Här är µ den förväntade tiden och variansen blir µ 2. Vi inför beteckningen X Exp (µ) för ovanstående.

Normalfördelningsmodellen Exponentialmodellen Gaussmodellen χ 2 -fördelningen För normalfördelningsmodellen finns ingen naturlig och självklar beskrivning som ger den. Denna modell dyker upp som gränsfall av andra modeller. Om det för en slumpvariabel X gäller att F (x) = P (X x) = x f (x) = F 1 (x) = 1 2πσ 2 e 2σ 1 2πσ 2 e 1 2σ 2 (y µ)2 dy 2 (x µ)2 så säges X vara normalfördelad med väntevärde µ och varians σ 2. Vi inför beteckningen X N ( µ, σ 2) för ovanstående.

Exponentialmodellen Gaussmodellen χ 2 -fördelningen För normalfördelade slumpvariabler gäller ax + b N ( aµ + b, a 2 σ 2) Om X 1 N ( µ 1, σ1 2 ) och X2 N ( µ 2, σ2 2 ) så gäller att X 1 + X 2 N ( µ 1 + µ 2, σ1 2 + 2σ 12 + σ2 2 ) Storheten σ 12 = 0 om X 1 och X 2 är oberoende. Mer om denna konstant längre fram.

Exponentialmodellen Gaussmodellen χ 2 -fördelningen Example Om X N ( µ, σ 2) hur ser då fördelningen för Y = ax + b ut? Vi har ( P (Y y) = P (ax + b y) = P X y b ) a samt att E (Y ) = E (ax + b) = aµ + b V (Y ) = V (ax + b) = a 2 σ 2

chi-två fördelningen Exponentialmodellen Gaussmodellen χ 2 -fördelningen Vi kommer också behöva en speciell fördelning som kallas χ 2 -fördelningen och den är kvadraten på en normalfördelning. Låt därför X vara normalfördelad med väntevärde µ och varians σ 2. Bilda nu ( ) X µ 2 Y = σ För Y gäller nu att Y χ 2 (1). Observera 1 den är viktig. För denna fördelning gäller att µ = 1 och varians σ 2 = 2. Om vi har n normalfördelade slumpvariabler så gäller att Y = n i=1 är χ 2 (n) och µ = n samt σ 2 = 2n ( Xi µ σ ) 2

Exponentialmodellen Gaussmodellen χ 2 -fördelningen Det finns inget enkelt sätt att ta fram normalfördelningen på och därmed ej heller chi-2 fördelningen. Varför bryr vi oss om dem då? Jo detta har att göra med att vi tidigare funnit att x n µ n 1 n (x i x n ) 2 σ 2 i=1 (visa bilder) På första bilden noterade vi att x närmar sig µ när antalet observationer växer. För σ 2 gäller motsvarande. Nämligen att 1 n n i=1 (x i x) 2 närmar sig värdet σ 2 när antalet observationer växer. Men vi kan säga mer än så!

Stora talens lag och Centrala gränsvärdessatsen Stora talens lag och centrala gränsvärdessatsen Antag att det gjorts n mätningar av en slumpvariabel X X i = mätning nr i i = 1, 2,..., n och antag att mätningarna är oberoende dvs mätning 4 (i) påverkar ej mätning nummer 1 (j) och vice versa. Om E (X i ) = µ och V (X i ) = σ för alla i så gäller: 1 X = 1 n n i=1 X i närmar sig nästan säkert µ (statistiskt garderingspråk). Detta kallas stora talens lag. 2 X µ σ har en fördelning som approximativt beskrivs av kurvan 1 1 2πσ 2 e 2σ 2 (x µ)2 Detta kallas centrala gränsvärdessatsen

Stora talens lag och Centrala gränsvärdessatsen Ge exempel på olika exponential, normal och χ 2