Sannolikheter och kombinatorik



Relevanta dokument
Formler och tabeller till kursen MSG830

Tentamen i Matematisk Statistik, 7.5 hp

MSG830 Statistisk analys och experimentplanering

Statistik 1 för biologer, logopeder och psykologer

MSG830 Statistisk analys och experimentplanering

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Matematisk statistik KTH. Formel- och tabellsamling i matematisk statistik

Kurssammanfattning MVE055

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

MSG830 Statistisk analys och experimentplanering

Föreläsning 12: Regression

Matematisk statistik KTH. Formelsamling i matematisk statistik

Tentamen MVE302 Sannolikhet och statistik

Exempel. Kontinuerliga stokastiska variabler. Integraler i stället för summor. Integraler i stället för summor

MSG830 Statistisk analys och experimentplanering

Föreläsning 7: Punktskattningar

MSG830 Statistisk analys och experimentplanering

Föreläsning 15: Försöksplanering och repetition

Statistik 1 för biologer, logopeder och psykologer

Föreläsning 7: Punktskattningar

Föreläsning 12: Repetition

Repetitionsföreläsning

LINKÖPINGS UNIVERSITET EXAM TAMS 27 / TEN 2

SF1901 Sannolikhetsteori och statistik I

MSG830 Statistisk analys och experimentplanering

Formel- och tabellsamling i matematisk statistik

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

8 Inferens om väntevärdet (och variansen) av en fördelning

Lärmål Sannolikhet, statistik och risk 2015

FORMELSAMLING HT-18 MATEMATISK STATISTIK FÖR B, K, N, BME OCH KEMISTER; FMSF70 & MASB02. Sannolikhetsteori. Beskrivning av data

Kap 2. Sannolikhetsteorins grunder

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Matematisk statistik 9hp Föreläsning 7: Normalfördelning

Lektionsanteckningar 11-12: Normalfördelningen

LÖSNINGAR TILL. Matematisk statistik, Tentamen: kl FMS 086, Matematisk statistik för K och B, 7.5 hp

Tentamen i matematisk statistik (9MA241/9MA341, STN2) kl 08-12

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

TMS136. Föreläsning 10

FACIT: Tentamen L9MA30, LGMA30

Matematisk statistik för D, I, Π och Fysiker

4 Diskret stokastisk variabel

Föreläsning 11: Mer om jämförelser och inferens

FÖRELÄSNING 8:

Föreläsning 7: Stokastiska vektorer

Tenta i Statistisk analys, 15 december 2004

(a) på hur många sätt kan man permutera ordet OSANNOLIK? (b) hur många unika 3-bokstavskombinationer kan man bilda av OSANNO-

Övning 1 Sannolikhetsteorins grunder

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

MS-A0509 Grundkurs i sannolikhetskalkyl och statistik Sammanfattning, del I

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Standardfel (Standard error, SE) SD eller SE. Intervallskattning MSG Staffan Nilsson, Chalmers 1

Stokastiska vektorer och multivariat normalfördelning

Föreläsning 12: Linjär regression

ESS011: Matematisk statistik och signalbehandling Tid: 14:00-18:00, Datum:

Föreläsning 7: Punktskattningar

Tentamen i Tillämpad Matematik och statistik för IT-forensik. Del 2: Statistik 7.5 hp

SF1901: Sannolikhetslära och statistik

Några extra övningsuppgifter i Statistisk teori

F9 SAMPLINGFÖRDELNINGAR (NCT

F14 HYPOTESPRÖVNING (NCT 10.2, , 11.5) Hypotesprövning för en proportion. Med hjälp av data från ett stickprov vill vi pröva

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 6 Väntevärden Korrelation och kovarians Stora talens lag. Jörgen Säve-Söderbergh

FÖRELÄSNING 7:

Väntevärde och varians

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE302 Sannolikhet och statistik

F3 Introduktion Stickprov

Föreläsning 6, Repetition Sannolikhetslära

Uppgift 1. f(x) = 2x om 0 x 1

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

en observerad punktskattning av µ, ett tal. x = µ obs = 49.5.

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Matematisk statistik TMS063 Tentamen

Avd. Matematisk statistik

LINKÖPINGS UNIVERSITET EXAM TAMS 79 / TEN 1

Tentamen Statistik och dataanalys 1, 5p Institutionen för matematik, natur- och datavetenskap, Högskolan i Gävle

Matematisk statistik för D, I, Π och Fysiker

STOCKHOLMS UNIVERSITET Statistiska institutionen Michael Carlson,

Stat. teori gk, ht 2006, JW F7 STOKASTISKA VARIABLER (NCT 5.7) Ordlista till NCT

Avd. Matematisk statistik

Matematisk statistik 9 hp Föreläsning 6: Linjärkombinationer

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Del I. Uppgift 1 För händelserna A och B gäller att P (A) = 1/4, P (B A) = 1/3 och P (B A ) = 1/2. Beräkna P (A B). Svar:...

Matematisk statistik för B, K, N, BME och Kemister

MVE051/MSG Föreläsning 7

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen i statistik (delkurs C) på kursen MAR103: Marina Undersökningar - redskap och metoder.

732G71 Statistik B. Föreläsning 1, kap Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 20

MSG830 Statistisk analys och experimentplanering

SF1901 Sannolikhetsteori och statistik I

TAMS65. Formel- och tabellsamling i matematisk statistik TAMS65. Martin Singull TAMS65 TAMS65

Föreläsning 6, Matematisk statistik Π + E

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT

Analys av medelvärden. Jenny Selander , plan 3, Norrbacka, ingång via den Samhällsmedicinska kliniken

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

2. Test av hypotes rörande medianen i en population.

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 5, Matematisk statistik 7.5hp för E Linjärkombinationer

Preliminära lösningar för Tentamen Tillämpad statistik A5 (15hp) Statistiska institutionen, Uppsala universitet

Transkript:

Sannolikheter och kombinatorik En sannolikhet är ett tal mellan 0 och 1 som anger hur frekvent en händelse sker, där 0 betyder att det aldrig sker och 1 att det alltid sker. När vi talar om sannolikheter är det underförstått att det nns utfall och ett utfallsrum (S) som är en mängd av utfall. Utfallen är alltså element i utfallsrummet. Delmängder av utfallsrummet kallas händelser. Sannolikheter kan bestämmas på några olika sätt. I vardagslivet omger vi oss med subjektiva sannolikheter som vägledning i vårt agerande. Hur stor är risken att räntan går upp? etc. För risken att få bröstcancer under livet utnyttjar vi empiriskt baserade skattningar som i princip är enkla relativa frekvenser. I en kohort av 10000 kvinnor ck 1000 bröstcancer och vår empiriska sannolikhet blir då 0.1 eller 10%. När vi t ex spelar spel kan vi använda andra tekniker för att beräkna sannolikheter. Sannolikheten att en tärning ska visa en sexa bestämmer vi till 1 6 genom att utnyttja tärningens symmetri och den klassiska formeln för sannolikheter när varje möjligt utfall i utfallsrummet är lika sannolikt. För en händelse A gäller då antal utfall i A P (A) = antal utfall i S Exempel I Fia startar man med etta eller sexa. Sannolikheten att få starta är alltså P (starta) = 2 6 För att beräkna klassiska sannolikheter är det alltså väsentligt att kunna räkna antal utfall. Kombinatorik Multiplikationsprincipen: Antag att man har k grupper av objekt, n 1 i den första, n 2 i den andra,... och n k i den kte gruppen. Man vill plocka objekt så att man plockar en från varje grupp. Antalet olika sätt att göra detta på är n 1 n 2 n k Permutation: En ordnad följd av objekt Exempel 1243 och 1324 är olika permutationer av elementen i mängden {1,2,3,4}. Totalt nns det 4 3 2 1 = 24 olika permutationer av denna mängd. Allmänt gäller att n objekt kan permuteras på n! = n (n 1) 1 1

olika sätt. Man utläser n! som n-fakultet. Antalet ordnade urval av r objekt är np r = n (n 1) (n r + 1) = n! (n r)! Kombination: Ett urval av objekt utan hänsyn till ordning. Exempel: När en lottorad dras (ur mängden av heltal från 1 till 35) kan följden bli 2,7,34,12,25,13,1. Det ger samma resultat som om vi dragit med ordningen12,34,25,1,7,2,13 och är alltså samma urval. Allmänt gäller att antalet sätt att välja r objekt från en mängd av n objekt är nc r (uttyds n choose r på engelska). Observera att ( ) ( n r = n ) n r nc r = ( ) n n! = r r!(n r)! Man förstår formeln genom att antalet möjliga ordnade dragningar är n P r och till varje urval av r object svarar r! dragningar. Alltså är nc r = n P r r! = n!/(n r)! r! = n! r!(n r)! = ( ) n r Exempel: Antalet lottorader är ( 35 7 ). Beräknas genom 35 34 29 7 6 1 = 6 724 520 Permutationer av oskiljbara objekt : Mängden {1,2,3,4,5,6} kan permuteras på 6! sätt, men på hur många sätt kan man permutera mängden M={1,1,1,2,2,3}? Detta ges av formeln för permutationer av en n objekt som är indelade i k grupper där objekten inom varje grupp är identiska. n! n 1! n 2! n k! där n i är antalet identiska objekt i grupp i. För mängden M nns alltså 6! = 60 permutationer 3!2!1! 2

Axiom 1. P (S) = 1, där S är utfallsrummet 2. P (A) 0 för varje händelse A 3. P (A 1 A 2 ) = P (A 1 ) + P (A 2 ) + om A 1, A 2, är disjunkta händelser Om A B så är P (A B) = P (A) + P (B) P (A B) Två händelser A och B är oberoende om och endast om P (A B) = P (A)P (B) En betingad sannolikhet P (A B) läses P av A givet B deneras genom P (A B) = P (A B) P (B) Deskriptiva mått När vi har en datamängd av en kvantitativ variabel kan vi sammnfatta den med lägesmått och spridningsmått. Om datamängden är x 1, x 2,, x n är medelvärdet x = 1 n xi och standardavvikelsen s = 1 (xi x) n 1 2 de vanligast använda. Spridningsmåttet s 2 kallas (stickprovs)varians. Andra mått som kan hjälpa till att beskriva datamängden är percentiler. Om 27 är en 80%-percentil betyder det att 80% av observationerna är mindre än 27. De vanligaste percentilerna är medianen (50) och de övriga kvartilerna (25 och 75). Stokastiska variabler En diskret variabel kan anta ett begränsat (eller eventuellt uppräkneligt) antal värden a 1, a 2. Till varje a i hör en sannolikhet p i. Sannolikhetsaxiomen ger pi = 1 3

Den stokastiska variablen har ett väntevärde: µ = E[X] = p i a i som är ett slags teoretiskt medelvärde och en motsvarande teoretisk varians σ 2 = V ar(x) = E[(X µ) 2 ] = E[X 2 ] µ 2 En klassisk diskret fördelning är binomialfördelningen bin(n, p) p(x) = ( ) n p x (1 p) n x x En kontinuerlig variabel beskrivs av en täthetsfunktion f(x) med egenskaperna f(x) 0 och f(x)dx = 1 Man beräknar sannolikheten för intervallet (a,b) genom b P (a X b) = f(x)dx a dess fördelningsfunktion är x F (x) = f(t)dt F (x) är således en primitiv funktion till f(x) och har betydelsen F (x) = P (X x) och alltså är P (a X b) = F (b) F (a) Väntevärdet är E[X] = xf(x)dx och för att beräkna variansen precis som i det diskreta fallet behöver vi också E[X 2 ] = x 2 f(x)dx Om X och Y är stokastisk variabler och a en konstant gäller: E[aX] = ae[x] E[X + Y ] = E[X] + E[Y ] V ar(ax) = a 2 V ar(x) V ar(x + Y ) = V ar(x) + V ar(y ) om X och Y är oberoende 4

Normalfördelningen En viktig kontinuerlig fördelning är normalfördelningen som också kallas Gaussfördelning. Dess täthetsfunktion är f(x) = 1 σ (x µ) 2 2π exp 2σ Denna integral kan man inte lösa på vanligt sätt utan det görs med numerisk metoder av datorprogram. I gamla tider använde man färdiga tabeller för standard normalfördelingen N(0,1). Man utnyttjade då att om X N(µ, σ) så är Z = X µ σ N(0, 1) Så om vi t ex vet att kvinnors längd är normalfördelad N(165,6), så kan vi räkna ut hur många som är längre än 180 genom Z = 180 165 6 = 2.5 och mha tabell över standardnormalfördelningen få sannolikheten 0.0062 dvs andelen är 0.62% Figur 1: Standard normalfördelning N(0,1) 5

T-fördelningen T-fördelningen påminner till formen om standard normalfördelningen men är lite ackare. Den används främst vid hypotesprövning av medelvärden då variansen inte är känd. Det är en familj av fördelningar som bestäms av antalet frihetsgrader (df). Ju större stickprov desto större df och desto mer lik N(0, 1) är T-fördelningen. Figur 2: T-fördelning Skattningar För en punktskattning ˆθ av en populationsparameter θ nns önskvärda egenskaper i form av E[ˆθ] = θ dvs att skattningen är väntevärdesriktig. Dessutom önskar man att variansen av ˆθ är låg. En punktskattning är en stokastisk variabel och blir därför olika för varje gång vi utför ett experiment. I stället för ett enskilt värde kan vi ange ett kondensintervall (L 1, L 2 ) för skattningen. Om P (L 1 < θ < L 2 ) = 1 α 6

säger vi att (L 1, L 2 ) är ettkondensintervall för θ med kondensgraden 100(1 α)%. Ett stickprov av en variabel X är en följd av oberoende likafördelade variabler X i i = 1,, n. Om X har medel µ och varians σ 2 gäller att E[ X] = µ V ar( X) = σ2 n Eftersom vi skattar σ 2 med s 2 kan vi därför skatta standardavvikelsen för med SE = s n X SE står för standard error, vilket betecknar att det handlar om en standardavvikelse för en skattning. Ordet error syftar på att man bedömer i vilken storleksordning felet i skattningen ligger. Som synes minskar felet med n vilket ju är rimligt. När det är just ett medelvärde som skattas kallas det även för SEM. Hypotesprövning När vi vill göra troligt att en viss hypotes H 1 är sann gör vi det genom att först deniera dess motsats H 0. Vanligen är H 0 av typen H 0 : θ = θ 0, där θ är en populationsparameter. Man samlar data och xar till en funktion (en statistika) av dessa data som säger något om θ. För vissa värden på T kommer vi att förkasta H 0 och för andra att acceptera H 0. Risken att förkasta H 0 när H 0 är sann kallas för testets signikansnivå (α). Risken att acceptera H 0 när H 1 är sann betecknas med β och man talar oftast om testets styrka (1 β) som är sannolikheten att förkasta H 0 när H 1 är sann. Styrkan beror på θ som vi ju inte känner till, men också på stickprovsstorleken. I praktiken beräknar man (dvs statistikprogrammet) den lägsta signikansnivå som H 0 kan förkastas på. Detta kallas p-värdet. Om p α kan man alltså förkasta H 0. Annorlunda uttryckt blir det sannolikheten att få lika extrema (i rikting mot H 1 ) data som de vi har observerat om H 0 är sann. Notera att det betyder INTE sannolikheten att H 0 är sann. Formuleringen av H 1 är antingen ensidig: eller tvåsidig: H 1 : θ < θ 0 alt H 1 : θ > θ 0 H 1 : θ θ 0 Valet av H 1 påverkar det kritiska värdet på T för att förkasta H 0 och påverkar alltså också p-värdet. 7

Teststatistikor Om X är antalet success vid ett stickprov av strl n på en binär kategorisk variabel så är X bin(n, p). Det kan direkt användas för att testa H 0 : p = p 0 I många situationer med symmetri är p 0 = 1/2 det naturliga värdet att testa mot, t ex i teckentestet i en parad design. Om vi har ett stickprov från en normalfördelning N(µ, σ) kan vi testa en hypotes om medelvärdet H 0 : µ = µ 0 med Z = X µ 0 σ/ n N(0, 1) och X ± z α/2 σ/ n är ett 100(1 α)% kondensintervall för µ. Även om X i inte är normalfördelade så är Z approximativt standard normalfördelat för stora n. Normalt vet man inte vad σ är, men då använder man skattningen s i stället. Om n är stort så är s så nära σ att det inte har någon betydelse, men för mindre stickprov från en normalfördelning använder vi t-testet T = X µ 0 S x / n T n 1 och X ± t α/2 s/ n är ett 100(1 α)% kondensintervall med fraktilen t α/2 från en T n 1 -fördelning I situationen med ett parat t-test är då oftast µ 0 = 0 För två oberoende stickprov av storlek n 1 och n 2 från normalfördelningar N(µ 1, σ) respektive N(µ 2, σ) testar man skillnad i medelvärden H 0 : µ 1 = µ 2 med X 1 T = X 2 T n 2 1 s p n 1 + 1 n 2 där är den poolade variansskattningen. s 2 p = (n 1 1)s 2 1 + (n 2 1)s 2 2 n 1 + n 2 2 8

Ett 100(1 α)% kondensintervall får man med X 1 X 2 ± t α/2 s p 1 n 1 + 1 n 2 där fraktilen t α/2 kommer från en T n 2 -fördelning Linjära samband mellan två variabler X och Y kan studeras som enkel linjär regression. Antingen har man en experimentsituation där man väljer sina x- värden eller också har man ett stickprov på en bivariat fördelning, men väljer att betrakta x-värdena som förutbestämda och ansätter modellen Y i = β 0 + β 1 x i + E i där E i N(0, σ) och β 0 + β 1 x är en regressionslinje som beskriver ett slags genomsnittligt samband mellan x och Y. Skattningar för β 1 och β 0 får man genom att välja dem så att summan av kvadratavståndet till linjen blir så litet som möjligt. Detta minsta kavdratavstånd betecknas SSE = (y i ˆβ 0 ˆβ 1 x i ) 2 För att testa om lutningen är noll dvs H 0 : β 1 = 0 används teststatistikan T = ˆβ 1 s/ (xi x) 2 T n 2 där s skattas genom s 2 = SSE/(n 2). Om X, Y är ett stickprov från en bivariat fördelning kan man alternativt göra en korrelationsanalys. I en bivariat fördelning denieras kovariansen av Cov(X, Y ) = E[XY ] E[X]E[Y ] och korrelationen som är ett skalat mått mellan 1 och 1 av ρ = Cov(X, Y ) V ar(x)v ar(y ) Man skattar ρ med med beteckningarna r = S xy Sxx S yy S xx = n x 2 ( x) 2 S yy = n y 2 ( y) 2 S xy = n xy ( x)( y) 9

Man kan nu testa H 0 : ρ = 0 med T = r n 2 1 r 2 T n 2 Denna teststatistika är exakt samma som för H 0 : β 1 = 0 Notera att man bör bara betrakta det som ett korrelationsproblem om man har ett stickprov från en bivariatfördeling. För att fastställa ett samband mellan X och Y kan man välja att fokusera på att samla på sig låga och höga X. Det ger ett starkare test av H 0 : β 1 = 0 och ˆβ 1 är fortfarande en väntevärdesriktig skattning av β 1, däremot är inte längre r en vvr skattning av ρ. 10