Något om sannolikheter, slumpvariabler och slumpmässiga urval

Relevanta dokument
Lektionsanteckningar 11-12: Normalfördelningen

Föreläsning G60 Statistiska metoder

F9 SAMPLINGFÖRDELNINGAR (NCT

Statistik 1 för biologer, logopeder och psykologer

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Samplingfördelningar 1

Föreläsning 4. Kapitel 5, sid Stickprovsteori

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

4 Diskret stokastisk variabel

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Föreläsning 7. Statistikens grunder.

F3 Introduktion Stickprov

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

1 Mätdata och statistik

Några extra övningsuppgifter i Statistisk teori

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

Kap 3: Diskreta fördelningar

4.1 Grundläggande sannolikhetslära

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

DATORÖVNING 6: CENTRALA GRÄNSVÄRDES-

Föreläsning 3. Kapitel 4, sid Sannolikhetsfördelningar

Kap 6: Normalfördelningen. Normalfördelningen Normalfördelningen som approximation till binomialfördelningen

Föreläsning 7: Punktskattningar

Finansiell statistik, vt-05. Slumpvariabler, stokastiska variabler. Stokastiska variabler. F4 Diskreta variabler

Introduktion till statistik för statsvetare

FÖRELÄSNING 7:

SF1901: Sannolikhetslära och statistik

Mer om slumpvariabler

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Föreläsning 5. Kapitel 6, sid Inferens om en population

Föreläsning 7: Punktskattningar

Föreläsning G70 Statistik A

Föreläsning G60 Statistiska metoder

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

FÖRELÄSNING 8:

TMS136. Föreläsning 7

Sannolikhetsbegreppet

TMS136. Föreläsning 10

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Finansiell Statistik (GN, 7,5 hp, HT 2008) Föreläsning 2

Introduktion. Konfidensintervall. Parade observationer Sammanfattning Minitab. Oberoende stickprov. Konfidensintervall. Minitab

Föreläsning 1: Introduktion

Föreläsning 12: Regression

1.1 Diskret (Sannolikhets-)fördelning

Kapitel 7 Samplingfördelningar och Centrala gränsvärdessatsen

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Diskussionsproblem för Statistik för ingenjörer

Föreläsning 7: Punktskattningar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

FMSF55: Matematisk statistik för C och M OH-bilder på föreläsning 5, a 2 e x2 /a 2, x > 0 där a antas vara 0.6.

F2 SANNOLIKHETSLÄRA (NCT )

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall)

DATORÖVNING 2: STATISTISK INFERENS.

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

F6 STOKASTISKA VARIABLER (NCT ) Används som modell i situation av följande slag: Slh för A är densamma varje gång, P(A) = P.

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

, s a. , s b. personer från Alingsås och n b

Studietyper, inferens och konfidensintervall

Tentamen i TMA321 Matematisk Statistik, Chalmers Tekniska Högskola.

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Kapitel 3 Diskreta slumpvariabler och deras sannolikhetsfördelningar

Hypotesprövning. Andrew Hooker. Division of Pharmacokinetics and Drug Therapy Department of Pharmaceutical Biosciences Uppsala University

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Kap 2: Några grundläggande begrepp

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 1 Mängdlära Grundläggande sannolikhetsteori Kombinatorik Deskriptiv statistik

TMS136. Föreläsning 1

Föreläsning 12: Repetition

SF1901: Sannolikhetslära och statistik. Statistik: Intervallskattning (konfidensintervall) Jan Grandell & Timo Koski

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Tentamen MVE301 Sannolikhet, statistik och risk

Sannolikhetslära. 19 februari Vad är sannolikheten att vinna om jag köper en lott?

Statistikens grunder HT, dagtid Statistiska institutionen

Introduktion till statistik för statsvetare

Exempel: Väljarbarometern. Föreläsning 1: Introduktion. Om Väljarbarometern. Statistikens uppgift

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

Tentamen i Matematisk statistik Kurskod S0001M

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK

Föreläsning 1: Introduktion

ÖVNINGSUPPGIFTER KAPITEL 9

TMS136. Föreläsning 4

Föreläsning 2. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

SF1901: Sannolikhetslära och statistik

Övning 1 Sannolikhetsteorins grunder

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

Tabell- och formelsamling. A4 Grundläggande Statistik A8 Statistik för ekonomer

SF1901 Sannolikhetsteori och statistik I

F9 Konfidensintervall

Demonstration av laboration 2, SF1901

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Transkript:

LINKÖPINGS UNIVERSITET Matematiska institutionen Statistik Stig Danielsson 004-0-3 Något om sannolikheter, slumpvariabler och slumpmässiga urval 1. Inledning Observerade data innehåller ofta någon form av information om en företeelse som man vill studera. Vill man t.ex. belysa trafikolyckor och deras uppkomst, samlar man förutom antalet olyckor in en mängd information om olycksförarna, fordonen, vägen, väderförhållanden etc. Bl.a. vill man kanske belysa sambandet mellan antal olyckor och fordonens hastigheter samt kanske trafikmängden. Sådana analyser kan göras rent deskriptivt med olika tabeller och diagram, men ofta syftar man litet längre och vill uttala sig mera generellt. Det är då man kan se uttalanden av typen: "hastigheterna har en statistiskt säkerställd påverkan på antalet olyckor", "en sänkning av hastigheterna med 1 km i timmen leder till en statistiskt säkerställd minskning av antalet dödolyckor med mellan a och b stycken per år". Förutom sådana uttalanden ser man ofta också sådana som har med "felmarginal" att göra: "ökningen av antalet dödsolyckor sedan förra året ligger inom den statistiska felmarginalen". Bakom utsagor av denna typ döljer sig någon statistisk modell (eller population) som man uttalar sig om, och man har då också mer eller mindre tydligt anammat ett begrepp som kallas sannolikhet.. Vad är sannolikhet? Sannolikhet är ett väldefinierat matematiskt begrepp, men det skulle föra alldeles för långt att gå in i dessa detaljer. Vi nöjer oss därför med vissa intuitiva resonemang. Grunden för sannolikheter är att man studerar företeelser, som kan resultera i olika utfall och att man inte säkert kan förutsäga vilket utfall som kommer att inträffa. Om vi t.ex. kastar en tärning, så vet vi att en, två, tre, fyra, fem eller sex prickar kommer upp när vi kastar den, men vi kan inte säkert förutsäga resultatet i ett enskilt kast. Däremot är vi kanske beredda att säga att alla sex utfallen är lika sannolika (om tärningen är symmetrisk). Förutom att den företeelse man studerar skall kunna resultera i flera utfall, kräver vi också något mera för att prata om sannolikheter, nämligen att den situation man studerar i princip skall kunna upprepas ett godtyckligt antal gånger under samma yttre betingelser. Detta är något som uppenbart bör vara uppfyllt vid kast av en tärning. Skälet till upprepbarhet är, att man vill definiera sannolikheter så att de "liknar" motsvarande relativa frekvenser. Med "liknar" menar vi dels att sannolikheter och relativa frekvenser skall ha samma matematiska egenskaper, men också att en explicit modell för sannolikheter är till praktisk nytta, bara om sannolikheterna och relativa frekvenserna är rimligt lika varandra. Om vi t.ex. orkar kasta en symmetrisk tärning säg 6000 gånger, är vi väl alla beredda på att sätta en slant på att frekvensen ettor, tvåor etc. alla ligger nära 1000, och att de relativa frekvenserna ligger mycket nära 1/6. En rimlig modell är då att sannolikheterna för etta, tvåa etc. alla sätts till 1/6. 1

Vad skall vi då kräva för egenskaper hos en sannolikhet för en händelse? Beteckna händelsen med A och skriv sannolikheten som P(A). Eftersom alla relativa frekvenser måste ligga mellan 0 och 1, kräver vi förstås också att 0 P ( A) 1. Vidare gäller ju för en händelse som säkert inträffar (t.ex. att man vid tärningskast får en etta eller en tvåa eller...eller en sexa) att relativa frekvensen är 1, och då kräver vi även detta för sannolikheter. Med motsvarande motivering får en omöjlig händelse sannolikheten 0. Man brukar också postulera ytterligare ett par matematiska krav för att definiera sannolikheten för en händelse, men vi hoppar över detta här. Nu räcker det ju inte att bara postulera egenskaperna hos sannolikheter, utan i praktiken måste man också ange sannolikheterna explicit (utom möjligen att vissa parametrar är okända). Detta kan ibland göras med teoretiska argument, men ofta är det observerade data som ligger till grund för modellvalen (t.ex. att man kan stödja sig på relativa frekvenser). Datas roll återkommer vi till nedan och tar här upp ett så enkelt experiment att det bör vara lätt att sätta upp en sannolikhetsmodell. Exempel. Kast med mynt. Antag att man har en enkrona som man kastar slumpmässigt på ett bord och noterar vilken sida som kommer upp (krona eller klave). De flesta skulle nog vara beredda att ansätta modellen P(krona) = P(klave) = 1/, och denna modell är förstås den rimliga om myntet kan anses vara symmetriskt. Antag nu att vi inte har en vanlig enkrona, utan myntet kan ev. vara manipulerat. Den modell vi då kan ansätta är bara P( krona) p och därmed P( klave) 1 p, och det enda vi kan säga om parametern p är att den ligger mellan 0 och 1. För att komma längre måste vi kasta myntet ett antal gånger och uppskatta p med relativa frekvensen för krona. Antag att vi har två symmetriska enkronor som vi kastar samtidigt och observerar vilka sidor som kommer upp. De tre möjliga utfallen är två st. krona, två st. klave resp. en klave och en krona. Eftersom vi kastar symmetriska mynt bör väl de tre utfallen vara lika sannolika, dvs vi ansätter sannolikheten 1/3 för vardera utfallet? Om vi genomför ett antal kast med de två mynten, kommer vi snart bli varse att relativa frekvenserna inte alls ligger kring 1/3, utan i stället kring 1/4, 1/4 resp. 1/ (det sista värdet för utfallet en krona och en klave). Med litet eftertanke inser vi att detta är teoretiskt korrekt, eftersom utfallet en krona och en klave kan uppkomma på två olika sätt från de två mynten. De utfall som har lika sannolikheter är följande fyra, där vi skriver ut resultaten på mynt 1 resp. mynt : (kr, kr), (kl, kl), (kr, kl) och (kl, kr) De två sista resulterar båda i en klave och en krona, och därför får denna händelse sannolikheten 1/. Vi skall inte gå djupare in på ren sannolikhetslära utan nöjer oss här med dessa ganska intuitiva resonemang. I stället skall vi något djupare behandla den situation som är mera praktiskt användbar, nämligen att de möjliga utfallen består av reella tal eller att man intresserar sig bara för beskrivningar som är reella tal. Vi kan anknyta till kastet med två mynt ovan, där vi har skrivit upp fyra (lika sannolika) utfall på de två mynten. Alternativt skulle vi kunna ha nöjt oss med att notera t.ex. antalet krona, som ju har de möjliga värdena 0, 1 eller. Troligen är denna beskrivning av försöket till fyllest för de flesta ändamål, och man säger då att man studerar en slumpvariabel (i detta fall antalet krona).

3. Slumpvariabler och sannolikhetsfördelningar Vi utgår nu ifrån att vi studerar en slumpmässig företeelse (kallas ibland för slumpmässigt försök) i den dubbla betydelse som vi diskuterade ovan. Vi är bara intresserade av utfall som kan formuleras i reella tal, och då säger vi att vi studerar en slumpvariabel (ibland används ordet stokastisk variabel) X. Denna slumpvariabel bör vanligen ha flera möjliga utfall x, eftersom vi betraktar slumpmässiga företeelser. Vi håller oss här till konventionen att en slumpvariabel betecknas med stor bokstav, medan en slumpvariabels möjliga värden (utfallen) betecknas med liten bokstav. De möjliga värdena x kan ibland vara diskret många och ibland alla värden i ett intervall (eller kanske t.o.m. alla reella tal). Oavsett typen av möjliga värden på X, måste vi på något sätt ange en s.k. sannolikhetsfördelning för att specificera vår modell. Om de möjliga värdena är diskreta så är situationen enkel i den meningen, att man i princip kan ange sannolikheten för varje enskilt värde. Självfallet måste man då se till att summan av dessa sannolikheter är 1. Om de möjliga värdena utgör ett helt intervall, kan man inte specificera en sannolikhet för varje enskilt värde. I stället brukar man definiera en s.k. sannolikhetstäthet (eller frekvensfunktion) för X, som gör det möjligt att beräkna sannolikheter att utfallen hamnar inom olika delintervall. En sådan sannolikhet definieras som arean under täthetsfunktionen begränsad till det aktuella intervallet. Hela arean under täthetsfunktionen måste förstås vara 1. Det resonemang vi nu har genomfört känns förmodligen ganska teoretiskt och abstrakt, varför vi genast skall exemplifiera med två av de vanligaste sannolikhetsfördelningarna. Binomialfördelningen är ett exempel på en diskret fördelning, där de möjliga värdena är ändligt många. Vi går tillbaka till exemplet med kast av två mynt och låter X vara antalet krona som 1 1 erhålls. Vi har kommit fram till att P ( X 0) P( X ), medan P ( X 1). 4 Detta är ett exempel på en binomialfördelning och vi noterar att summan av sannolikheterna är 1, dvs P ( X x) 1. x 0 Litet mera generellt kan vi betrakta en situation, där man upprepar ett försök n gånger oberoende av varandra. Varje gång noterar vi om en viss händelse A inträffar eller inte (t.ex. om vi får krona eller inte på ett mynt). Vi intresserar oss bara för antalet gånger A inträffar och betecknar detta antal med slumpvariabeln X. De möjliga värdena på X är 0, 1,..., n, och man kan visa att X har sannolikhetsfördelningen n! x n x P( X x) p (1 p) för x 0,1,..., n. x!( n x)! Det är kanske litet svårt att inse detta, men det är däremot ganska lätt att se att 1 myntexemplet är ett specialfall med n och p. 3

Frequency Normalfördelningen. De observationer som vi har i många datamaterial kan ofta ses som oberoende mätningar på någon slumpmässig företeelse. T.ex. vill man studera kvävehalten i en sjö och tar därför ett antal prover över sjön och mäter provernas kvävehalter. Om man sedan gör ett histogram över mätningarna, ser man ofta att histogrammet är relativt symmetriskt med en tydlig topp, en s.k. "klockkurva". Den s.k. normalfördelningen har typiskt ett sådant utseende, och skulle därför kunna vara en rimlig modell för observationerna. Vi skall inte djupare gå in på fördelningen, men för den intresserade kan vi ange sannolikhetstätheten för en slumpvariabel X som är normalfördelad: 1 1 ( x ) f ( x) e ; x Här är populationens medelvärde (väntevärde) och populationens standardavvikelse. I exemplet ovan skall vi tolka detta så, att är den verkliga kvävehalten i sjön (som vi är ute efter att uppskatta med hjälp av mätningarna). Ett viktigt specialfall har vi när väntevärdet är 0 och standardavvikelsen är 1. För denna fördelning finns tabeller, som visar sannolikheten att en observation hamnar t.ex. till höger om ett givet värde z. Denna sannolikhet är då arean till höger om z under sannolikhetstätheten för normalfördelningen (se någon lämplig tabell). T.ex. är sannolikheten att hamna till höger om 0 exakt 50%, medan sannolikheten är 15.9% att hamna till höger om 1. Vi kan illustrera normalfördelningen genom att simulera data i Minitab. Nedan finns ett histogram med anpassad normalfördelningskurva för 60 observationer som är normalfördelade med väntevärde 0 och standardavvikelse 1: Histogram of C1, with Normal Curve 15 10 5 0 -,0-1,5-1,0-0,5 0,0 0,5 1,0 1,5,0,5 C1 Med 60 observationer får inte histogrammet någon självklar klockform, trots att observationerna kommer från en "riktig" normalfördelning. Däremot har man en hyggligt symmetrisk fördelning och väsentligt flera observationer i mitten än ute i svansarna. Slutligen ett teoretiskt besvärligt resultat att visa men praktiskt mycket viktigt: Om man har oberoende observationer på en slumpvariabel X och bildar medelvärdet av 4

observationerna, dvs X, så gäller att detta medelvärde är approximativt normalfördelat bara antalet observationer n är stort. Och detta gäller oavsett vilken fördelning X har från början!. Normalfördelningen blir därför mycket användbar i många praktiska sammanhang som vi kommer att se senare. 4. Slumpmässiga urval Vi har hittills litet löst pratat om oberoende observationer, slumpmässiga mätvärden och populationer. Det är nu dags att något förtydliga dessa begrepp. Population kan beteckna något mycket konkret och något ganska vagt. Om man ser på en mätsituation (t.ex. att få grepp över kvävehalten i en sjö), så är ju populationen i någon mening alla tänkbara observationer som kan göras, och den måste då ses som oändligt stor. Det rimliga sättet att beskriva denna population är att säga att observationerna är oberoende mätningar på någon slumpvariabel X, och man försöker att finna en rimlig sannolikhetsfördelning för denna slumpvariabel. Ett intressant mått på fördelningen är väntevärdet (populationsmedelvärdet), som man ofta vill skatta och dessutom vill man ange osäkerheten i skattningen. En population kan också vara högst konkret, t.ex. bestå av alla individer i Sverige. Man säger då att man har en ändlig population. Det kan vara av intresse att få kännedom om någon parameter i populationen, t.ex. andelen individer som vill att vi skall gå med i EMU. I princip skulle vi kunna ta reda på detta genom att tillfråga alla i populationen, men i praktiken skattar man andelen genom att ta ett slumpmässigt urval och mäta andelen EMU-sympatisörer i detta. Självfallet kan vi då inte vara säkra på att observera den sanna andelen i populationen, utan i olika urval kommer andelen att variera en del. Denna variation kommer vi att kunna kvantifiera och hantera med statistiska metoder och sannolikhetsteoretiska argument. Men man bör observera att vi här inte antar att vi har observationer på någon slumpvariabel, utan det är själva sättet att göra urvalet som skapar slumpmässigheten i resultaten. Slumpmässiga urval ur en ändlig population kan göras på många sätt. Vi begränsar oss här till s.k. OSU, obundet slumpmässigt urval (enkelt slumpmässigt urval). Man väljer då sitt urval helt på måfå, dvs så att alla individer har samma sannolikhet att komma med i urvalet. Om dragningen görs med återläggning blir de n observationerna oberoende av varandra. Detta gäller inte om dragningen görs utan återläggning, eftersom en redan dragen individ inte kan dras igen. Om populationen är stor kan dock dragning utan återläggning ses som dragning med återläggning, och man kan utnyttja samma typ av statistiska metoder, som när man har oberoende observationer på en slumpvaraiabel. Vi avslutar detta avsnitt med ett enkelt exempel att öva på. Antag att vi har en ändlig population bestående av 5 element, och att mätvärdena på en variabel är, 4,, 6, 10. Vi gör ett enkelt slumpmässigt urval utan återläggning av individer och noterar deras variabelvärden. Hur många olika urval kan vi dra? Skriv upp alla och beräkna urvalsmedelvärdena. Beräkna fördelningen för de olika medeltalen (den s.k. samplingfördelningen) och notera hur pass stor variation vi kan räkna med. Beräkna också medelvärdet för alla urvalsmedeltal och notera att det är lika med populationsmedelvärdet. Och detta är inte en slump, utan man kan teoretiskt visa att urvalsmedeltalet i snitt alltid blir lika med populationsmedelvärdet (oavsett att enskilda urvalsmedelvärden varierar kraftigt). Praktiskt innebär detta att om man i sitt 5

urval använder medeltalet som uppskattning av populationsmedelvärdet, så har man en skattningsmetod som är vettig i den meningen, att den i snitt kan förväntas ge skattningar som träffar rätt. Även när man gör dragningen med återläggning erhålls motsvarande resultat. Det är lätt att genomföra motsvarande beräkningar som ovan och konstatera detta faktum. 5. Statistisk slutledning (inferens) Vi har flera gånger nämnt att vi med hjälp av observationer skall skatta t.ex. ett medelvärde eller en andel i en population. Det praktiska intresset att göra detta är lätt att föreställa sig, men hur hänger detta ihop med den sannolikhetslära som vi har antytt behovet av? Antag att vi har en slumpvariabel X med en viss fördelning, t.ex. normalfördelning. Om alla parametrar är kända i fördelningen kan vi då beräkna alla efterfrågade sannolikheter. Om vi gör oberoende observationer på X, kan vi också med sannolikhetsteorin uttala oss om dessa observationer, t.ex. säga med vilken sannolikhet medelvärdet hamnar i ett visst intervall. I praktiken har vi dock oftast ett omvänt problem. Vi har observationer på en slumpvariabel som kanske är normalfördelad, men vi vet inte dess väntevärde, dvs populationsmedelvärdet. Med hjälp av observationerna vill vi skatta t.ex. genom att beräkna observationernas medelvärde. Som vi har sett i enkla exempel har dock skattningen en variation beroende på vilka observationer man råkar ha fått. Men nu kommer sannolikhetsläran till hjälp. Variationen kan uttryckas i sannolikhetstermer, och det blir möjligt att kvantifiera säkerheten/osäkerheten i den beräknade skattningen. När vi har klarat detta har vi genomfört en statistisk slutledning om parametern. 6. Grundläggande teoretiska resultat för stickprov Vi behandlar nu den teoretiskt enklaste situationen, nämligen att vi har gjort n oberoende observationer på en slumpvariabel X. Sådana data kan man ibland ha genom att man gjort oberoende mätningar av någon "företeelse", eller att man har gjort ett slumpmässigt urval ur en stor population. För att förenkla beskrivningen säger man att man i sådana situationer har ett stickprov. Vanligen vill vi dra slutsatser till väntevärdet (populationsmedelvärdet) eller ibland till en populationsandel P, dvs den andel i populationen som har en viss egenskap (P kan också i en oändlig population tolkas som sannolikheten att en slumpmässigt vald individ har egenskapen i fråga). En sådan andel kan också tolkas som ett medelvärde, nämligen medelvärdet av en variabel som antar värdet 1 för den aktuella egenskapen och värdet 0 i övrigt. Vi kan därför nöja oss med att fortsättningsvis behandla väntevärden. Den ganska självklara skattningen av är ju stickprovets medelvärde. Med resonemang liknande det i föregående avsnitt kan man övertyga sig om, att denna skattning i genomsnitt träffar rätt, och detta brukar formuleras som att stickprovsmedelvärdet är en väntevärdesriktig skattning av. Hur pass säker/osäker är nu skattningen? Vi måste då studera spridningen, dvs standardavvikelsen för skattningen. Intuitivt känner vi väl på oss att medelvärdet av 6

många observationer borde vara mycket säkrare än medelvärdet av några få, och detta är också något man matematiskt kan visa. Det gäller att standardavvikelsen för ett stickprovsmedelvärde är, där är populationens standardavvikelse. En n observation har alltså standardavvikelsen, medelvärdet av 4 observationer har standaravvikelsen, etc. Standardavvikelsen avtar alltså med roten ur antalet observationer, och med ett mycket stort antal observationer har vi nästan ingen spridning alls i medelvärdet, dvs medelvärdet blir nästan exakt lika med! Detta kan sägas vara grunden till all statistisk metodik, nämligen att medelvärdesbildning gör att man kan få stabila skattningar. Ytterligare ett teoretiskt resultat måste lyftas fram. I resonemanget ovan om standardavvikelsen för ett medelvärde ingick populationsstandardavvikelsen. Denna är normalt inte känd, utan behöver skattas från stickprovet. Vi använder då naturligen stickprovsstandardavvikelsen s. Man kan visa att detta är en vettig skattning, i den meningen att s är en väntevärdesriktig skattning av. Och här har vi förklaringen till att man använder nämnaren n - 1 i stickprovsvariansen. Man behöver nämligen den nämnaren för att skattningen skall bli väntevärdesriktig! 7

7. Övningar 7.1 I stort sett föds lika många pojkar som flickor i Sverige sett över varje år. Betrakta en slumpmässigt vald fyrabarnsfamilj. a) Hur många flickor bör man vänta sig att familjen har? b) Vilken är sannolikheten att familjen har bara flickor? c) Vilken är sannolikheten att familjen har två flickor och två pojkar? d) Beräkna sannolikhetsfördelningen för antalet flickor. 7. Ett lotteri har 100 lotter, varav 10 ger vinst. a) Drag en lott på måfå. Vilken är sannolikheten för att få en nitlott? b) Om man tar fem lotter på måfå, vilken är då sannolikheten att man får bara nitlotter? c) Dragning som i b) men beräkna nu sannolikheten att man får exakt en vinstlott. 7.3 Betrakta en slumpvariabel Z som är normalfördelad med väntevärde 0 och standardavvikelse 1, vilket brukar benämnas att den är standardiserat normalfördelad. Beräkna genom att använda tabell: a) P ( Z 0.43) b) P ( Z 1.96) c) P ( 0. Z 1.8) d) P ( Z 0.33) 7.4 Betrakta en slumpvariabel X som är normalfördelad med väntevärde och standardavvikelse Man kan visa att en sådan variabel alltid kan göras standardiserat normalfördelad med transformationen Z X. Antag nu att X har väntevärdet 10 och standardavvikelsen. Beräkna a) P ( X 10) b) P ( X 13) c) P ( 11 X 13) 7.5 Antag att vi har tagit 186 vattenprover ur en sjö och mätt halten av ett giftigt ämne. Antag vidare att denna halt i genomsnitt bör vara 0.6 och med standardavvikelsen 0.09. Vilken är (den approximativa) sannolikheten att medelvärdet hos de 186 vattenproven överstiger värdet 0.7? 7.6 I en tillverkningsprocess under kontroll räknar man med att 90% av alla tillverkade enheter är helt felfria. Vid en kvalitetskontroll undersöker man 10 enheter valda på måfå ur en dagsproduktion. Bestäm sannolikheten att högst 85% av dessa enheter är helt felfria om processen är under kontroll. 7.7 Vikten hos en viss typ av äpple kan antas vara normalfördelad med genomsnittsvikt 10 g och med standardavvikelse 10g. Äpplena packas i korgar och man lägger i äpplen till dess vågen visar kg eller mer. Hur stor är sannolikheten att en korg innehåller högst 16 stycken äpplen? 8

Svar: 7.1 a) st. b) 1/16. c) 6/16. d) 1/16, 4/16, 6/16, 4/16, 1/16. 90 89 8887 86 10 90 89 8887 5 7. a) 0.9. b). c). 10099 98 97 96 10089 8887 86 7.3 a) 33.4%. b) 97.5%. c) 38.5%. d) 37.1%. 7.4 a) 50%. b) 6.7%. c) 4.%. 7.5 6.4%. 7.6 3.4% 7.7.3%. 9