Introduktion till statistik för statsvetare

Relevanta dokument
Introduktion till statistik för statsvetare

Introduktion till statistik för statsvetare

Introduktion till statistik för statsvetare

Statistik 1 för biologer, logopeder och psykologer

Slumpvariabler och sannolikhetsfördelningar

Föreläsning G60 Statistiska metoder

Grundläggande matematisk statistik

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Statistik 1 för biologer, logopeder och psykologer

Laboration med Minitab

2 Dataanalys och beskrivande statistik

Introduktion till statistik för statsvetare

Introduktion till statistik för statsvetare

Mer om slumpvariabler

SF1901: Sannolikhetslära och statistik

FÖRELÄSNING 3:

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Stokastiska signaler. Mediesignaler

4.1 Grundläggande sannolikhetslära

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

1.1 Diskret (Sannolikhets-)fördelning

Diskussionsproblem för Statistik för ingenjörer

SF1901: Sannolikhetslära och statistik

Finansiell statistik, vt-05. Slumpvariabler, stokastiska variabler. Stokastiska variabler. F4 Diskreta variabler

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Föreläsning G70 Statistik A

Föreläsning 7: Punktskattningar

Föreläsning 2, Matematisk statistik för M

F4 Beskrivning av ett datamaterial. Val av diagram, lägesmått och spridningsmått.

Föreläsning 3. Sannolikhetsfördelningar

Kap 3: Diskreta fördelningar

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

Föreläsning 7. Statistikens grunder.

Föreläsning 7: Punktskattningar

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Stora talens lag eller det jämnar ut sig

Något om sannolikheter, slumpvariabler och slumpmässiga urval

Grundläggande matematisk statistik

13.1 Matematisk statistik

Lektionsanteckningar 11-12: Normalfördelningen

732G01/732G40 Grundläggande statistik (7.5hp)

Deskriptiv statistik. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Grundläggande matematisk statistik

bli bekant med summor av stokastiska variabler.

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

Föreläsning 7: Punktskattningar

Grundläggande matematisk statistik

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

TAMS79: Föreläsning 4 Flerdimensionella stokastiska variabler

Finansiell statistik, vt-05. Kontinuerliga s.v. variabler. Kontinuerliga s.v. F7 Kontinuerliga variabler

SF1901 Sannolikhetsteori och statistik I

1 Mätdata och statistik

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Föreläsning 2, FMSF45 Slumpvariabel

Övning 1 Sannolikhetsteorins grunder

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

Datorövning 1: Fördelningar

Statistikens grunder HT, dagtid Statistiska institutionen

Repetitionsföreläsning

Arbeta med normalfördelningar

F3 Introduktion Stickprov

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.

Matematisk statistik 9hp Föreläsning 2: Slumpvariabel

4 Diskret stokastisk variabel

Diskreta slumpvariabler

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 5. Funktioner av slumpvariabler. Ett centralt resultat.

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Högskoleprovet Kvantitativ del

Föreläsning G60 Statistiska metoder

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

Satsen om total sannolikhet och Bayes sats

STA101, Statistik och kvantitativa undersökningar, A 15 p Vårterminen 2017

Beskrivande statistik

SF1901 Sannolikhetsteori och statistik I

Kapitel 4. Kontinuerliga slumpvariabler och deras sannolikhetsfördelningar. Sannolikhetslära och inferens II

Jörgen Säve-Söderbergh

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar

F2 Beskrivning av ett datamaterial. Tabellering och val av diagram. Summatecknet

Exempel för diskreta och kontinuerliga stokastiska variabler

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

SF1901: SANNOLIKHETSTEORI OCH KONTINUERLIGA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 7 september 2016

Föreläsning 1: Introduktion

Exempel: Väljarbarometern. Föreläsning 1: Introduktion. Om Väljarbarometern. Statistikens uppgift

Kapitel 5 Multivariata sannolikhetsfördelningar

Lektionsanteckningar 2: Matematikrepetition, tabeller och diagram

Högskoleprovet Kvantitativ del

händelsen som alltid inträffar. Den tomma mängden representerar händelsen som aldrig inträffar.

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

Föreläsning 1: Introduktion

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Transkript:

Stockholms universitet November 2011

Data på annat sätt - I Stolpdiagram Data på annat sätt - II Histogram För kvalitativa data som nominal- och ordinaldata infördes stapeldiagram. För kvantitativa data som intervall- och kvotdata infördes histogram. Dessa senare data delar vi upp i ytterligare två kategorier diskreta och kontinuerliga. Definition Med diskreta data menas data som kan räknas upp dvs vi kan skapa ett 1-1 förhållande mellan data och talen 1,2,3,.... Definition Med kontinuerliga data menas data som ej kan räknas upp dvs vi kan inte skapa ett 1-1 förhållande mellan data och talen 1,2,3,....

Data på annat sätt - I Stolpdiagram Data på annat sätt - II Histogram Example Till registret RTB inkommer varje dag ändringar. Under 60 dagar har man noterat följande antal per dag 3 5 7 7 8 6 12 8 7 4 2 9 4 9 3 9 8 9 9 5 10 5 9 2 4 6 6 5 4 7 5 7 6 8 5 5 6 5 8 5 2 2 2 6 7 2 5 8 6 4 4 7 9 7 6 6 4 2 5 8 Varje ändring tar vanligtvis mellan en till två timmar att utföra. Hur mycket personal behövs? I ovanstående exempel betraktar vi diskreta data men även kontinuerliga. Detta följer av att alla tidpunkter mellan en och två timmar är överuppräkneligt.

Data på annat sätt - I Stolpdiagram Data på annat sätt - II Histogram Lämplig figur för diskreta data är stolpdiagram. Dessa skiljer sig från stapeldiagram genom att de saknar bas. De är linjer. För uppgifterna i exemplet finner vi följande stolpdiagram 0.2 p 0.1 1 2 3 4 5 6 7 8 9 101112 Ändringar Vi ser att vi har en tvåa i ca 11% (7/60) av alla fall, en tolva i ett fall. Stolpdiagrammet ger oss frekvensen ändringar en specifik dag. Om vi vill veta frekvensen för 5 till 8 ändringar per dag går det också att utläsa men det är mycket svårare.

Data på annat sätt - I Stolpdiagram Data på annat sätt - II Histogram Då kan man istället använda sig av ett kumulerat stolpdiagram p 1.0 0.8 0.6 0.4 0.2 1 2 3 4 5 6 7 8 9 101112 Anrop Varför skall man nu göra en dylik figur? Hur bygger man upp denna figur? Vad är det för tankar som ligger bakom? Sammanfattning: Sätt X =antal ändringar. Då gäller P (5 X 8) = P (X 8) P (X 4) = P (X = 5) + P (X = 6) + P (X = 7) + P (X = 8)

Skogsområde mätningar Data på annat sätt - I Stolpdiagram Data på annat sätt - II Histogram Vid försäljning av ett skogsområde skall områdets värde i form av avverkningsbart timmer uppmätas. För att göra denna mätning indelades området i ett rutnät om N rutor ur vilka 49 rutor togs slumpmässigt. I varje utvald ruta uppmättes volymen timmer varvid följande värden, i något mått, erhölls 0.7 0.9 1.0 1.3 1.9 2.7 3.2 3.4 3.4 3.5 3.5 4.3 5.2 5.9 6.0 6.3 6.5 6.6 7.1 7.4 7.6 7.9 8.3 8.3 8.3 8.3 8.7 10.0 10.0 10.3 12.0 13.4 14.1 14.8 16.7 16.8 17.1 17.7 18.9 19.0 19.4 19.7 24.3 26.2 26.2 28.3 31.7 39.3 44.8 Detta exempel har vi tidigare studerat men skall nu göra det från en annan utgångspunkt.

Data på annat sätt - I Stolpdiagram Data på annat sätt - II Histogram Vi sätter som tidigare X i = mängd timmer m 3 sk ruta i, i = 1, 2, 3,..., 49 och ställer oss frågan vad är chansen för att denna mängd ligger mellan 10 och 30 m 3 sk. Vi har förvisso ett begränsat antal mätningar även här men uppenbarligen kan i stort sett vilket värde som helst förekomma. Dvs vi har här kontinuerliga data. Från tidigare resonemang har vi via histogram sett att en skev fördelning erhålls. Frågan är hur ser ett kumulerat histogram ut? Vad kan detta säga oss?

Data på annat sätt - I Stolpdiagram Data på annat sätt - II Histogram Vi finner kurvan p 1.0 0.8 0.6 0.4 0.2 5 10 15 20 25 30 35 40 m 3 sk I denna gör vi ett litet hopp vid varje mätvärde x i och liksom tidigare gör vi dubbelhopp, trippelhopp osv när vi finner samma tal fler gånger. Skillnaden är att vi gör dessa hopp vid tidpunkterna x i och inte som tidigare endast vid heltalen i.

En definition Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Vi har nu två olika sätt att uttrycka frekvenser för en händelse 1 I det diskreta fallet betyder P (X x) tex att vi har mindre än eller lika med x ändringar under en dag. 2 I det kontinuerliga fallet betyder P (X x) tex att vi har mindre än eller lika med x m 3 sk i en ruta. Båda betyder egentligen inget annat än att vi betraktar kvoten antal gynnsamma utfall antal möjliga utfall och om vi gör många mätningar (under samma betingelser) så konvergerar denna kvot mot ett tal som kallas sannolikheten för händelsen {X x}. Vi använder beteckningarna F (x) och P (X x) där F (x) = P (X x) Det framgår av sammanhanget om X är diskret eller kontinuerlig.

En definition (forts) Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Vi har nu följande första definition av begreppet sannolikhet Definition Med en sannolikhet för en händelse A skall vi mena talet P (A) = antal gynnsamma utfall för A antal möjliga utfall Att denna definition fungerar för diskreta/kvalitativa variabler är klart ty dessa kan vi räkna upp. Men hur blir det med kontinuerliga variabler? Dessa går ju inte att räkna upp! Låt oss betrakta ett exempel

En definition (forts) Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Example Tunnelbanan går med 10 minuters intervaller. Du anländer till station vid en slumpmässig tidpunkt som är x minuter till nästa avgång. Vår slumpvariabel blir X = x minuter till nästa avgång och vi söker sannolikheten att du får vänta i högst 4 minuter. Det är uppenbart att antalet gynsamma och möjliga utfall är oändliga. Vi behöver därför något som innehåller denna oändlighet men som samtidigt ger oss en relation mellan dessa utfall. Detta får vi om vi betraktar intervall längden av (0, 4) P (X 4) = längden av (0, 10) = 4 10 = 0.4

En definition (forts) Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Denna betraktelse leder oss till följande allmäna definition av sannolikhet Definition Med en sannolikhet för en händelse A skall vi mena talet P (A) = gynsamma utfall för A möjliga utfall Sättet att beräkna kvoten beror på vår slumpvariabels egenskaper.

Hur saker hänger ihop - I Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Vi skall nu koppla ihop de två begreppen aritmetiskt medelvärde och sannolikhet för en händelse A. Till vår hjälp tar vi företaget med attitydundersökningen Attityd Kön Positiv Negativ K 328 82 och betraktar händelsen A = {positiv attityd}. Vi söker sannolikheten för att en kvinna skall ha en positiv attityd. Från definition får vi direkt P (A) = 328 410 = 0.8.

Hur saker hänger ihop - I (forts) Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Om vi definierar slumpvariablen { 1 om kvinna i har en positiv attityd X = 0 om kvinna i har en negativ attityd så finner vi att det aritmetiska medelvärdet (balanseringspunkten) är detsamma som sannolikheten i detta fall x = 1 410 410 x i = 328 antal med positiv attityd = 0.8 = i=1 410 samtliga Vi har således knutit ihop vår nydefinerade sannolikhet med vårt tidigare aritmetiska medelvärde. Dock på ett inexakt sätt. Vi har blandat observerade storheter, x i, med teoretiska, P (A).

Definition av förväntat värde Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Vi har tidigare för aritmetiska medelvärden funnit x n = 1 n n x i = i=1 k ˆp j x j = j=1 k x j ˆp j j=1 (i attitydundersökningen var k = 2). Om vi nu antar att vår slumpvariabel kan anta värdena {x 1, x 2,..., x k } och att den gör det med sannolikheterna {p 1, p 2,..., p k } så kan vi definera den teoretiska storheten E (X ) = k k x j p j = x j P (X = x j ) j=1 j=1 Denna storhet kallas det förväntade värdet av slumpvariabeln X.

Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Speciellt finner vi för slumpvariabeln { 1 om A P (X = 1) = p X = 0 annars P (X = 0) = 1 p att E (X ) =1 p + 0 (1 p) = p. Här är P (X = 1) = p och i mellanledet har vi använt oss av likheten P (A) + P (icke A) = 1 Denna sista likhet följer av vår definition på sannolikhet ty vi har trivialt att gynnsamma för A möjliga + icke gynnsamma för A möjliga = möjliga möjliga En sannolikhet kan därför betraktas som ett väntevärde och vice versa.

Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Tidigare använde (mätserie 1) vi oss av storheten x n för att komma fram till relativa frekvenser och medelvärden. Samma idéer ger att x n = 1 410 antal kvinnor med positiv attityd 410 x i = i=1 antal tillfrågade kvinnor Därför blir x n en approximation av P (A) och därmed av E (X ) Vi har således lyckats knyta ihop P (A), x n och E (X ) för diskreta variabler (till vilka de kvalitativa hör). Men vad gäller för de kontinuerliga variablerna? Tyvärr behövs betydligt mycket mer matematik för att genomföra motsvarande resonemang. Dock det viktiga är att det går och att begreppet balanseringspunkt fungerar lika bra i det kontinuerliga fallet som i det diskreta. Det förväntade värdet och balanseringspunkten är en och samma sak oberoende av variabeltyp

Sannolikhetsfunktion Sannolikhetsfunktion Täthetsfunktion Om vi har en diskret slumpvariabel X så har denna ett visst antal, ömsesidigt uteslutande, möjliga utfall x i. Alla de enskilda, uteslutande, möjliga utfallen betecknar vi framgent med Ω. Det gäller därför Ω = {x 1, x 2, x 3,...} = {x i i = 1, 2, 3,...} För vart och ett av dessa utfall gäller att det finns tal p i sådana att P (X = x i ) = p i i = 1, 2, 3,... och för p i :na gäller att i=1 p i = 1 (de summerar sig till 1, jämför de normerade pinnarna). Vi kan nu rita pinnar från x i och med höjd p i. Den figur som då erhålls kallas sannolikhetsfunktionen för den diskreta variabeln X.

Täthetsfunktion Sannolikhetsfunktion Täthetsfunktion Om vi har en kontinuerlig slumpvariabel X så är dess "sannolikhetsfunktion" inte lika intuitiv. Det finns ju överuppräkneligt många punkter. Vi kallar den täthetsfunktion och den blir en jämn kurva med egenskapen att ytan under blir 1. I detta fall har vi allmänt att Ω = {x < x < }. Ge exempel på sannolikhets-/täthets- och fördelningsfunktioner Help, Search, Distribution