Introduktion till statistik för statsvetare

Stockholms universitet November 2011

Data på annat sätt - I Stolpdiagram Data på annat sätt - II Histogram För kvalitativa data som nominal- och ordinaldata infördes stapeldiagram. För kvantitativa data som intervall- och kvotdata infördes histogram. Dessa senare data delar vi upp i ytterligare två kategorier diskreta och kontinuerliga. Definition Med diskreta data menas data som kan räknas upp dvs vi kan skapa ett 1-1 förhållande mellan data och talen 1,2,3,.... Definition Med kontinuerliga data menas data som ej kan räknas upp dvs vi kan inte skapa ett 1-1 förhållande mellan data och talen 1,2,3,....

Data på annat sätt - I Stolpdiagram Data på annat sätt - II Histogram Example Till registret RTB inkommer varje dag ändringar. Under 60 dagar har man noterat följande antal per dag 3 5 7 7 8 6 12 8 7 4 2 9 4 9 3 9 8 9 9 5 10 5 9 2 4 6 6 5 4 7 5 7 6 8 5 5 6 5 8 5 2 2 2 6 7 2 5 8 6 4 4 7 9 7 6 6 4 2 5 8 Varje ändring tar vanligtvis mellan en till två timmar att utföra. Hur mycket personal behövs? I ovanstående exempel betraktar vi diskreta data men även kontinuerliga. Detta följer av att alla tidpunkter mellan en och två timmar är överuppräkneligt.

Data på annat sätt - I Stolpdiagram Data på annat sätt - II Histogram Lämplig figur för diskreta data är stolpdiagram. Dessa skiljer sig från stapeldiagram genom att de saknar bas. De är linjer. För uppgifterna i exemplet finner vi följande stolpdiagram 0.2 p 0.1 1 2 3 4 5 6 7 8 9 101112 Ändringar Vi ser att vi har en tvåa i ca 11% (7/60) av alla fall, en tolva i ett fall. Stolpdiagrammet ger oss frekvensen ändringar en specifik dag. Om vi vill veta frekvensen för 5 till 8 ändringar per dag går det också att utläsa men det är mycket svårare.

Data på annat sätt - I Stolpdiagram Data på annat sätt - II Histogram Då kan man istället använda sig av ett kumulerat stolpdiagram p 1.0 0.8 0.6 0.4 0.2 1 2 3 4 5 6 7 8 9 101112 Anrop Varför skall man nu göra en dylik figur? Hur bygger man upp denna figur? Vad är det för tankar som ligger bakom? Sammanfattning: Sätt X =antal ändringar. Då gäller P (5 X 8) = P (X 8) P (X 4) = P (X = 5) + P (X = 6) + P (X = 7) + P (X = 8)

Skogsområde mätningar Data på annat sätt - I Stolpdiagram Data på annat sätt - II Histogram Vid försäljning av ett skogsområde skall områdets värde i form av avverkningsbart timmer uppmätas. För att göra denna mätning indelades området i ett rutnät om N rutor ur vilka 49 rutor togs slumpmässigt. I varje utvald ruta uppmättes volymen timmer varvid följande värden, i något mått, erhölls 0.7 0.9 1.0 1.3 1.9 2.7 3.2 3.4 3.4 3.5 3.5 4.3 5.2 5.9 6.0 6.3 6.5 6.6 7.1 7.4 7.6 7.9 8.3 8.3 8.3 8.3 8.7 10.0 10.0 10.3 12.0 13.4 14.1 14.8 16.7 16.8 17.1 17.7 18.9 19.0 19.4 19.7 24.3 26.2 26.2 28.3 31.7 39.3 44.8 Detta exempel har vi tidigare studerat men skall nu göra det från en annan utgångspunkt.

Data på annat sätt - I Stolpdiagram Data på annat sätt - II Histogram Vi sätter som tidigare X i = mängd timmer m 3 sk ruta i, i = 1, 2, 3,..., 49 och ställer oss frågan vad är chansen för att denna mängd ligger mellan 10 och 30 m 3 sk. Vi har förvisso ett begränsat antal mätningar även här men uppenbarligen kan i stort sett vilket värde som helst förekomma. Dvs vi har här kontinuerliga data. Från tidigare resonemang har vi via histogram sett att en skev fördelning erhålls. Frågan är hur ser ett kumulerat histogram ut? Vad kan detta säga oss?

Data på annat sätt - I Stolpdiagram Data på annat sätt - II Histogram Vi finner kurvan p 1.0 0.8 0.6 0.4 0.2 5 10 15 20 25 30 35 40 m 3 sk I denna gör vi ett litet hopp vid varje mätvärde x i och liksom tidigare gör vi dubbelhopp, trippelhopp osv när vi finner samma tal fler gånger. Skillnaden är att vi gör dessa hopp vid tidpunkterna x i och inte som tidigare endast vid heltalen i.

En definition Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Vi har nu två olika sätt att uttrycka frekvenser för en händelse 1 I det diskreta fallet betyder P (X x) tex att vi har mindre än eller lika med x ändringar under en dag. 2 I det kontinuerliga fallet betyder P (X x) tex att vi har mindre än eller lika med x m 3 sk i en ruta. Båda betyder egentligen inget annat än att vi betraktar kvoten antal gynnsamma utfall antal möjliga utfall och om vi gör många mätningar (under samma betingelser) så konvergerar denna kvot mot ett tal som kallas sannolikheten för händelsen {X x}. Vi använder beteckningarna F (x) och P (X x) där F (x) = P (X x) Det framgår av sammanhanget om X är diskret eller kontinuerlig.

En definition (forts) Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Vi har nu följande första definition av begreppet sannolikhet Definition Med en sannolikhet för en händelse A skall vi mena talet P (A) = antal gynnsamma utfall för A antal möjliga utfall Att denna definition fungerar för diskreta/kvalitativa variabler är klart ty dessa kan vi räkna upp. Men hur blir det med kontinuerliga variabler? Dessa går ju inte att räkna upp! Låt oss betrakta ett exempel

En definition (forts) Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Example Tunnelbanan går med 10 minuters intervaller. Du anländer till station vid en slumpmässig tidpunkt som är x minuter till nästa avgång. Vår slumpvariabel blir X = x minuter till nästa avgång och vi söker sannolikheten att du får vänta i högst 4 minuter. Det är uppenbart att antalet gynsamma och möjliga utfall är oändliga. Vi behöver därför något som innehåller denna oändlighet men som samtidigt ger oss en relation mellan dessa utfall. Detta får vi om vi betraktar intervall längden av (0, 4) P (X 4) = längden av (0, 10) = 4 10 = 0.4

En definition (forts) Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Denna betraktelse leder oss till följande allmäna definition av sannolikhet Definition Med en sannolikhet för en händelse A skall vi mena talet P (A) = gynsamma utfall för A möjliga utfall Sättet att beräkna kvoten beror på vår slumpvariabels egenskaper.

Hur saker hänger ihop - I Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Vi skall nu koppla ihop de två begreppen aritmetiskt medelvärde och sannolikhet för en händelse A. Till vår hjälp tar vi företaget med attitydundersökningen Attityd Kön Positiv Negativ K 328 82 och betraktar händelsen A = {positiv attityd}. Vi söker sannolikheten för att en kvinna skall ha en positiv attityd. Från definition får vi direkt P (A) = 328 410 = 0.8.

Hur saker hänger ihop - I (forts) Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Om vi definierar slumpvariablen { 1 om kvinna i har en positiv attityd X = 0 om kvinna i har en negativ attityd så finner vi att det aritmetiska medelvärdet (balanseringspunkten) är detsamma som sannolikheten i detta fall x = 1 410 410 x i = 328 antal med positiv attityd = 0.8 = i=1 410 samtliga Vi har således knutit ihop vår nydefinerade sannolikhet med vårt tidigare aritmetiska medelvärde. Dock på ett inexakt sätt. Vi har blandat observerade storheter, x i, med teoretiska, P (A).

Definition av förväntat värde Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Vi har tidigare för aritmetiska medelvärden funnit x n = 1 n n x i = i=1 k ˆp j x j = j=1 k x j ˆp j j=1 (i attitydundersökningen var k = 2). Om vi nu antar att vår slumpvariabel kan anta värdena {x 1, x 2,..., x k } och att den gör det med sannolikheterna {p 1, p 2,..., p k } så kan vi definera den teoretiska storheten E (X ) = k k x j p j = x j P (X = x j ) j=1 j=1 Denna storhet kallas det förväntade värdet av slumpvariabeln X.

Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Speciellt finner vi för slumpvariabeln { 1 om A P (X = 1) = p X = 0 annars P (X = 0) = 1 p att E (X ) =1 p + 0 (1 p) = p. Här är P (X = 1) = p och i mellanledet har vi använt oss av likheten P (A) + P (icke A) = 1 Denna sista likhet följer av vår definition på sannolikhet ty vi har trivialt att gynnsamma för A möjliga + icke gynnsamma för A möjliga = möjliga möjliga En sannolikhet kan därför betraktas som ett väntevärde och vice versa.

Vad skall vi mena med en sannolikhet Det aritmetiska medelvärdet Det förväntade värdet Tidigare använde (mätserie 1) vi oss av storheten x n för att komma fram till relativa frekvenser och medelvärden. Samma idéer ger att x n = 1 410 antal kvinnor med positiv attityd 410 x i = i=1 antal tillfrågade kvinnor Därför blir x n en approximation av P (A) och därmed av E (X ) Vi har således lyckats knyta ihop P (A), x n och E (X ) för diskreta variabler (till vilka de kvalitativa hör). Men vad gäller för de kontinuerliga variablerna? Tyvärr behövs betydligt mycket mer matematik för att genomföra motsvarande resonemang. Dock det viktiga är att det går och att begreppet balanseringspunkt fungerar lika bra i det kontinuerliga fallet som i det diskreta. Det förväntade värdet och balanseringspunkten är en och samma sak oberoende av variabeltyp

Sannolikhetsfunktion Sannolikhetsfunktion Täthetsfunktion Om vi har en diskret slumpvariabel X så har denna ett visst antal, ömsesidigt uteslutande, möjliga utfall x i. Alla de enskilda, uteslutande, möjliga utfallen betecknar vi framgent med Ω. Det gäller därför Ω = {x 1, x 2, x 3,...} = {x i i = 1, 2, 3,...} För vart och ett av dessa utfall gäller att det finns tal p i sådana att P (X = x i ) = p i i = 1, 2, 3,... och för p i :na gäller att i=1 p i = 1 (de summerar sig till 1, jämför de normerade pinnarna). Vi kan nu rita pinnar från x i och med höjd p i. Den figur som då erhålls kallas sannolikhetsfunktionen för den diskreta variabeln X.

Täthetsfunktion Sannolikhetsfunktion Täthetsfunktion Om vi har en kontinuerlig slumpvariabel X så är dess "sannolikhetsfunktion" inte lika intuitiv. Det finns ju överuppräkneligt många punkter. Vi kallar den täthetsfunktion och den blir en jämn kurva med egenskapen att ytan under blir 1. I detta fall har vi allmänt att Ω = {x < x < }. Ge exempel på sannolikhets-/täthets- och fördelningsfunktioner Help, Search, Distribution