Föreläsning 1: Introduktion

Relevanta dokument
Föreläsning 1: Introduktion

Exempel: Väljarbarometern. Föreläsning 1: Introduktion. Om Väljarbarometern. Statistikens uppgift

Föreläsning 1: Introduktion

Matematisk Statistik och Disktret Matematik, MVE051/MSG810, VT19

SF1901: Sannolikhetslära och statistik

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

Föreläsning 7: Punktskattningar

Föreläsning 2. Kapitel 3, sid Sannolikhetsteori

Statistikens grunder HT, dagtid Statistiska institutionen

Föreläsning G60 Statistiska metoder

SF1901: Sannolikhetslära och statistik

Matematisk statistik - Slumpens matematik

Statistisk slutledning (statistisk inferens): Sannolikhetslära: GRUNDLÄGGANDE SANNOLIKHETSLÄRA. Med utgångspunkt från ett stickprov

Föreläsning 1, Matematisk statistik Π + E

TMS136. Föreläsning 1

Sannolikhetsbegreppet

TMS136. Föreläsning 2

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 1 Mängdlära Grundläggande sannolikhetsteori Kombinatorik Deskriptiv statistik

2 Dataanalys och beskrivande statistik

Matematisk statistik 9 hp för I, Pi, C, D och fysiker Föreläsning 1: Introduktion och Sannolikhet

1 Föreläsning I, Vecka I: 5/11-11/11 MatStat: Kap 1, avsnitt , 2.5

Statistik 1 för biologer, logopeder och psykologer

Matematisk statistik 9hp för: C,D,I, Pi

Grundläggande matematisk statistik

TAMS79: Föreläsning 1 Grundläggande begrepp

SF1901: SANNOLIKHETSTEORI OCH STATISTIK GRUNDLÄGGANDE SANNOLIKHETSTEORI, KORT OM BESKRIVANDE STATISTIK. Tatjana Pavlenko.

F2 SANNOLIKHETSLÄRA (NCT )

Sannolikhetsteori. Måns Thulin. Uppsala universitet Statistik för ingenjörer 23/ /14

Föreläsning 12: Repetition

Introduktion till sannolikhetslära. Människor talar om sannolikheter :

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

Statistik 1 för biologer, logopeder och psykologer

13.1 Matematisk statistik

F5 STOKASTISKA VARIABLER (NCT , samt del av 5.4)

Föreläsning 8: Konfidensintervall

händelsen som alltid inträffar. Den tomma mängden representerar händelsen som aldrig inträffar.

Finansiell statistik, vt-05. Sannolikhetslära. Mängder En mängd är en samling element (objekt) 1, 2,, F2 Sannolikhetsteori. koppling till verkligheten

Föreläsning 1. Grundläggande begrepp

Föreläsning 1, Matematisk statistik för M

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

4 Diskret stokastisk variabel

732G70, 732G01 Statistik A 7hp

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

TMS136. Föreläsning 1

Föreläsning 12: Regression

4.1 Grundläggande sannolikhetslära

Föreläsning 7: Punktskattningar

MVE051/MSG Föreläsning 7

Lektionsanteckningar 11-12: Normalfördelningen

Institutionen för lingvistik och filologi VT 2014 (Marco Kuhlmann 2013, tillägg och redaktion Mats Dahllöf 2014).

Utfall, Utfallsrummet, Händelse. Sannolikhet och statistik. Utfall, Utfallsrummet, Händelse. Utfall, Utfallsrummet, Händelse

1 Föreläsning I, Mängdlära och elementär sannolikhetsteori,

Kombinatorik och sannolikhetslära

MATEMATIK ARBETSOMRÅDET LIKABEHANDLING Kränkande handlingar, nätmobbning, rasism och genus

Beskrivande statistik

1 Mätdata och statistik

Kolmogorovs Axiomsystem Kolmogorovs Axiomsystem Varje händelse A tilldelas ett tal : slh att A inträar Sannolikheten måste uppfylla vissa krav: Kolmog

732G01/732G40 Grundläggande statistik (7.5hp)

Introföreläsning i S0001M, Matematisk statistik LP3 VT18

Kap 2: Några grundläggande begrepp

Slumpförsök för åk 1-3

TMS136. Föreläsning 2

Något om sannolikheter, slumpvariabler och slumpmässiga urval

F9 SAMPLINGFÖRDELNINGAR (NCT

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 2 HT07

Introföreläsning i S0001M Matematisk statistik Läsperiod 2, HT 2018

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

Kapitel 2. Grundläggande sannolikhetslära

Beskrivande statistik Kapitel 19. (totalt 12 sidor)

1.1 Diskret (Sannolikhets-)fördelning

KLEINLEKTION. Område statistik. Lektionens upplägg. Lämplig inom kurserna Matematik 2b och 2c. Engage (Väck intresse) Explore (Upptäck laborera)

SF1922/SF1923: SANNOLIKHETSTEORI OCH DISKRETA STOKASTISKA VARIABLER STATISTIK. Tatjana Pavlenko. 23 mars, 2018

Beskrivande statistik

Sannolikhetslära. 1 Enkel sannolikhet. Grunder i matematik och logik (2015) 1.1 Sannolikhet och relativ frekvens. Marco Kuhlmann

Matematisk statistik fo r B, K, N, BME och Kemister. Matematisk statistik slumpens matematik. Beskriva Data Florence Nightingale.

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 1

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

Olika typer av variabler och skalor. 1. Nominalskala 2. Ordinalskala 3. Intervallskala 4. Kvotskala. Intervallskala. Nominalskala.

FÖRELÄSNING 3:

Sannolikhetslära och statistik, grundkurs

Fö relä sning 1, Kö system vä ren 2014

Statistiska metoder för säkerhetsanalys

Fö relä sning 1, Kö system 2015

Föreläsning G60 Statistiska metoder

Sannolikheter och kombinatorik

Finansiell Statistik (GN, 7,5 hp,, VT 2009) Föreläsning 2. Diskreta Sannolikhetsfördelningar. (LLL Kap 6) Stokastisk Variabel

3 Grundläggande sannolikhetsteori

Föreläsning 6 (kap 6.1, 6.3, ): Punktskattningar

TAMS65 - Föreläsning 1 Introduktion till Statistisk Teori och Repetition av Sannolikhetslära

Föreläsning G70 Statistik A

Övning 1 Sannolikhetsteorins grunder

En typisk medianmorot

Föreläsningsmanus i matematisk statistik för lantmätare, vecka 5 HT06

Statistik och epidemiologi T5

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

Föreläsning 11: Mer om jämförelser och inferens

Matematisk statistik för D, I, Π och Fysiker. Matematisk statistik slumpens matematik. Tillämpningar för matematisk statistik.

Finansiell statistik, vt-05. Slumpvariabler, stokastiska variabler. Stokastiska variabler. F4 Diskreta variabler

Transkript:

Föreläsning 1: Introduktion Matematisk statistik Chalmers University of Technology August 29, 2016

Lärare : Rum: E-mail: Anders Hildeman: Rum: E-mail: Sandra Eriksson Barman: Rum: E-mail: Kursansvarig och föreläsare H3028 david.bolin@chalmers.se Övningsledare L2121 hildeman@chalmers.se Övningsledare L3091 barmane@chalmers.se Intro Kursinformation

Tider och litteratur Dag Tid Plats Notera Föreläsning Måndag 13-15 FB Övning Tisdag 10-12 FL71, FL72 Ibland andra salar Föreläsning Onsdag 10-12 KB Övning Fredag 8-10 KS11, KS32 v6 Mån v7 Datorövning Fredag 13-15 HB105, HB110 Endast v3-6 Vasa A & B v3 Återlämning Torsdag 13-15 KD1 v8 Kurslitteratur: Milton & Arnold: Introduction to probability and statistics (4 ed) Hemsida: http://www.math.chalmers.se/stat/grundutb/cth/tma074/1617/ Intro Kursinformation

Examimation Examinationen har två moment Skriftlig tentamen i slutet av kursen. En projektuppgift. Projektuppgiften: Genomförs i grupper om två eller tre studenter. Redovisas med en skriftlig rapport. Är obligatorisk men påverkar inte graderingen 3,4 eller 5. Kommer att jobbas på under datorövningarna. Mer information kommer i samband med att projektet delas ut, innan den första datorövningen. Intro Kursinformation

Kursinnehåll Kursens syfte: Kursen avser att ge grunderna av sannolikhetsläran och statistiken med speciellt beaktande av sådana moment som är av betydelse för kemister. Lärandemål: Efter fullgjord kurs ska studenten behärska grundläggande begrepp inom sannolikhetsteori och statistik. Kursen ska även ge de studerande förmågan att planera statistiska undersökningar och utföra enkla statistiska analyser. Upplägg: Vecka 1-3: Sannolikhetsteori Vecka 4-7: Inferens, regressionsanalys och försöksplanering Intro Kursinformation

Intuition för statistik och sannolikheter är svårt! Gå till b.socrative.com och gå in i rum BOLIN2542. På ett sjukhus skriver man ner könet på sex barn som föds efter varandra en dag. Sekvensen av pojkar och flickor är uppenbart helt slumpmässig eftersom barnen föds oberoende av varandra. Vilken av följande tre sekvenser är mest sannolik? FFFPPP FFFFFF FPPFPF antag att pojkar och flickor föds lika ofta. Anna drar 4 kort efter varandra från en kortlek och räknar hur många röda kort hon får. Per gör det samma fast drar istället 7 kort. Jämfört med Per, hur mycket mer sannolikt är det att alla Annas kort är röda? Vi kommer se fler exempel under kursens gång och förhoppningsvis lära oss att känna igen vanliga fallgropar. Intro Kursinformation

Statistikens uppgift Statistikens uppgift är att bidra med metoder för att analysera och dra slutsatser kring data som innehåller olika typer av osäkerhet och variation. Några viktiga områden är Beskrivande statistik: används för att summera och strukturera data. Utforskande statistik: används för att få idéer om samband mellan variabler och för att få utökad förståelse hos studerade processer. Inferens: används för att skatta parametrar i statistiska modeller eller för att dra formella slutsatser genom att motbevisa hypoteser kring data. Försöksplanering: används för att planera och genomföra statistiska undersökningar. Intro Statistik

Typiska problemställningar Det som typiskt karakteriserar ett statistiskt problem är att vi har en stor grupp (population) som vi vill analysera. Vi kan inte studera populationen i sin helhet och måste därför uttala oss om dess egenskaper baserat på ett urval (sampel). Några vanliga statistiska problemställningar är att studera en parameter i en statistik modell, som till exempel andelen defekta enheter i en produktion. att jämföra olika grupper, som till exempel att jämföra effektiviteten hos olika produktionsanläggningar eller luftförorening i olika städer. att analysera samband mellan olika variabler, som till exempel hur höjd över havet påverkar lufttemperaturen. att optimera en process, för att till exempel maximera utbytet eller minimera utsläppen hos en produktion. Intro Statistik

Exempel: Skattning av luftförorening 5150 1.0 5100 0.8 5050 0.6 5000 0.4 4950 0.2 4900 0.0 350 400 450 500 Vänster: Mätstationer i Piemonte i norra Italien. Höger: Skattning av punktvisa sannolikheter att överstiga gränsvärdet för PM10. Intro Statistik

Exampel: Prediktion av havsnivå RCP 2.6 RCP 4.5 Anomaly (cm) 0 20 40 60 80 Anomaly (cm) 0 20 40 60 80 1950 2000 2050 2100 Year 1950 2000 2050 2100 Year RCP 6.0 RCP 8.5 Anomaly (cm) 0 20 40 60 80 Anomaly (cm) 0 20 40 60 80 1950 2000 2050 2100 1950 2000 2050 2100 Year Year Intro Statistik

Sannolikhetsteori och dess förhållande till statistiken I sannolikhetsteori konstruerar och analyserar man matematiska modeller som kan användas för att beskriva fenomen som uppvisar variation. Inom statistiken vill man baserat på data uttala sig egenskaper hos en tänkt modell för fenomenet. Antag till exempel att vi har en perfekt tärning, då är sannolikheten att få en femma 1/6. Med hjälp av detta kan vi uttala oss om sannolikheten för andra händelser, som att få två femmor i rad. Inom statistikteorin är frågan snarare att vi vill testa om en given tärning är symmetrisk, dvs att sannolikheten att få t.ex. en femma är 1/6 och inte något annat. Vi kan göra detta genom att kasta tärningen många gånger och räkna andelen femmor vi får. Intro Statistik

Beskrivande statistik Beskrivande statistik

Beskrivande statistik När man ska analysera en datamängd är det en bra idé att först illustrera den grafiskt. Detta kan ge idéer om hypoteser att testa eller om samband mellan variabler. Frekvenstabell: För diskret data, dvs data som bara kan anta ett ändligt antal värden, kan man sammanfatta datan i en frekvenstabell som visar hur många observationer vi har för varje möjligt utfall. Stolpdiagram: Med hjälp av en frekvenstabell kan vi sedan rita ett stolpdiagram (även kallat stapeldiagram) där man till varje värde ritar en stapel vars höjd är proportionell mot antalet observationer för detta värde. Sekvensdiagram: Det kan också vara intressant att visa data med hjälp av ett sekvensdiagram för att studera trender i värden. Vi ritar då upp värdena i en följd. Beskrivande statistik Grafisk beskrivning

Exempel 1 Antag att vi slår en tärning 20 gånger med följande resultat: Frekvenstabell: 1, 3, 3, 3, 1, 6, 6, 5, 1, 4, 6, 1, 4, 5, 1, 1, 2, 3, 6, 5 Utfall 1 2 3 4 5 6 Antal gånger 6 1 4 2 3 4 Andel gånger 0.30 0.05 0.20 0.10 0.15 0.20 Beskrivande statistik Grafisk beskrivning

Histogram För kontinuerlig data, det vill säga data som kan anta ett oändligt (överuppräknerligt) anatal värden, används ofta histogram: Dela in datan i ett antal klasser (intervall) och räkna sedan antalet observationer i varje klass. Rita ett stolpdiagram där höjden är proportionell mot antalet i klassen och bredden är den samma som intervallbredden för den klassen. I regel väljer man alla klassbredder lika, och ju mer data man har desto smalare kan man göra intervallen. Beskrivande statistik Grafisk beskrivning

Histogram med olika antal klasser Sammanfatta följande 1000 reella tal: 12.15, 17.33, 0.96, 13.44, 11.27, 4.76, 8.26, 11.37, 24.31, 21.07,... 4 klasser 7 klasser 9 klasser Beskrivande statistik Grafisk beskrivning

Numerisk beskrivning av data Förutom att visa data grafiskt brukar man också beräkna vissa numeriska tal som beskriver datamängden. Man brukar beräkna: Lägesmått som beskriver vara datan är centrerad. Spridningsmått som beskriver variationen kring lägesmåttet. Vanliga lägesmått är: Medelvärde: Medelvärdet (stickprovsmedelvärdet) av en datamängd x 1,..., x n ges av x = 1 n x i = 1 n n (x 1 + x 2 +... + x n ) i=1 Median: Medianen av en datamängd x 1,..., x n ges av det mittersta värdet efter att man har sorterat värdena. Om antalet, n, är jämnt brukar man ta medelvärdet av de två mittvärdena. Beskrivande statistik Numerisk beskrivning

Numerisk beskrivning av data Medelvärdet är också tyngdpunkten i ett stolpdiagram. Medelvärdet påverkas av värdet på alla observationer, och framförallt om man har någon enstaka observation som skiljer sig kraftigt mot de andra (en sk outlier) påverkar den medelvärdet men inte medianen. Vanliga spridningsmått är Stickprovsvarians: Variansen av en datamängd x 1,..., x n ges av s 2 = 1 n (x i x) 2 = 1 n 1 n 1 ((x 1 x) 2 +... + (x n x) 2 ) i=1 Variansen kan också beräknas som s 2 = 1 n n 1 ( x 2 i n x 2 ) = 1 n 1 (x2 1 +... + x 2 n n x 2 ) i=1 Standardavvikelse: ges av s 2, dvs kvadratroten av variansen. Beskrivande statistik Numerisk beskrivning

Exempel 1 (fortsatt) Antag att vi slår en tärning 20 gånger med följande resultat: 1, 3, 3, 3, 1, 6, 6, 5, 1, 4, 6, 1, 4, 5, 1, 1, 2, 3, 6, 5 Vi beräknas medelvärde: x = (1 + 3 + 3 +... + 3 + 6 + 5)/20 = 67/20 = 3.35 Vi beräknar medianen genom att sortera värdena och välja det tioende värdet, vilket är 3. Variansen fås som s 2 = ((1 3.35) 2 + (3 3.35) 2 +... + (5 3.35) 2 )/19 = 3.8184 och standardavvikelsen är s = 1.9541. Beskrivande statistik Numerisk beskrivning

Sannolikhetsteori Sannolikhetsteori

Utfall och utfallsrum Man brukar säga att ett slumpmässigt försök är ett försök som kan upprepas under väsentligen identiska förhållanden där utfallet av försöket inte exakt kan förutsägas i det enskilda fallet. Till exempel 1 kasta en tärning och räkna antalet prickar. 2 singla ett mynt två gånger och registrera resultatet i varje kast. 3 Undersök en enhet från en tillverkningsprocess och se om den är hel. Resultatet av ett försök brukar kallas för ett utfall ω, och mängden av alla möjliga utfall kallas för utfallsrummet Ω. I exemplen ovan är utfallsrummet 1 Ω = {1,2,3,4,5,6}. 2 Ω = {(krona,krona),(krona,klave),(klave,krona),(klave,klave)}. 3 Ω = {defekt,hel}. Sannolikhetsteori Utfallsrum

Händelser Man kan också sätta samman olika utfall till händelser. En händelse A är en mängd av utfall, det vill säga en delmängd av utfallsrummet Ω. Från exemplen ovan har vi till exempel händelser 1 A = {1,3,5}, dvs vi får ett udda tal. 2 A = {(krona,krona),(klave,krona)}, dvs andra kastet ger krona. 3 A = {hel}, dvs enheten är hel. Sannolikhetsteori Händelser

Komplement A c A Att händelsen A inträffar betyder att något av utfallen i A inträffar. Om något av utfallen i A inte inträffar säger vi att komplementet till A inträffar A c = Ω \ A. I exemplet med tärningen inträffar t.ex. A om vi får en etta, om vi däremot får en tvåa säger vi att A c inträffat. Sannolikhetsteori Händelser

Union (A B) c A B Om vi har två händelser A och B så kan vi även definiera A B som är unionen av A och B. Om ett utfall i A B inträffar så säger vi att A eller B inträffar. Sannolikhetsteori Händelser

Snitt (A B) c A B Vi kan även definiera snittet A B som är mängden av element som finns i A och B. Om ett utfall i A B inträffar så säger vi att A och B inträffar. Den tomma mängden brukar kallas för en omöjlig händelse. Om A B = så säger vi att A och B är oförenliga, eller utesluter varandra. Sannolikhetsteori Händelser

Tolkning av sannolikhetsbegreppet Om vi har en händelse A så menar vi lite löst att sannolikheten för A, P(A), är troligheten för att A ska inträffa. Sannolikheter är tal mellan 0 och 1. Om sannolikheten för A är nära 1 betyder det att det är troligt att A inträffar. Om sannolikheten för A är nära 0 betyder det att det inte är troligt att A inträffar. Om sannolikheten för A är 0.5 så är det lika troligt att A inträffar som att A inte inträffar. Ibland beskriver man sannolikheter i procent, dvs en sannolikhet på 0.1 kan skrivas som 10%. Sannolikhetsteori Sannolikhetsbegreppet

Tolkning av sannolikhetsbegreppet Exakt hur man ska relatera sannolikhetsbegreppet till verkligheten har varit en stor filosofisk tvistefråga, och hur denna tolkning görs påverkar hur vi utformar våra statistiska metoder senare. Vi kommer i regel använda oss av den så kallade frekventistiska tolkningen. Antag att vi har ett slumpmässigt försök som vi kan upprepa under identiska förhållanden. När antalet försök, n, växer så konvergerar erfarenhetsmässigt den relativa frekvensen, n A /n för en händelse A mot ett tal mellan noll och ett. Detta tal definierar vi som sannolikheten för A. Det vill säga n A n P(A), när n Sannolikhetsteori Sannolikhetsbegreppet

Den klassiska tolkningen av sannolikhet Den klassiska tolkningen av sannolikhet kommer från spelteori och fungerar endast om det är rimligt att anta att alla möjliga utfall är lika troliga. Sannolikheten för en händelse A definieras i detta fall som P(A) = antal sätt A kan inträffa på Totalt antal möjliga utfall I exemplet när vi singlar ett mynt två gånger hade vi totalt fyra möjliga utfall i Ω. Om vi har händelsen A att vi får krona på andra kastet kan detta inträffa på två sätt och vi får därför P(A) = 2 4 = 1 2 Sannolikhetsteori Sannolikhetsbegreppet

Permutationer Det kan ofta vara lite besvärligt att beräkna det totala antalet möjliga utfall. En vanligt förekommande situation är att vi behöver beräkna antalet permutationer av olika objekt. Permutation En specifik ordning av ett antal objekt En annan vanlig situation är att vi behöver beräkna antalet kombinationer av olika objekt. Kombination Ett urval av ett antal objekt utan hänsyn till ordning Permutationer och kombinationer

Att räkna antalet permutationer Exempel (permutation) Vid en modevisning deltar en designer med tre olika plagg. I hur många olika ordningsföljder kan plaggen visas upp? Multiplikationsprincipen Om det finns a sätt att utföra ett val och b sätt att utföra ett annat val så finns det ab sätt att utföra det kombinerade valet. Fakultet För n N definierar vi n! = n (n 1) (n 2) 2 1 där 0! = 1. n! utläses som n-fakultet. Permutationer och kombinationer

Att räkna antalet kombinationer Exempel (kombination) Det finns fyra olika modeller som kan visa upp plaggen. Hur många olika sätt kan vi välja ut tre av de fyra modellerna när ordningen inte spelar någon roll? Sats Antalet sätt vi kan plocka ut r av totalt n objekt, med hänsyn tagen till ordningen ges av np r = n! (n r)! Permutationer och kombinationer

Att räkna antalet kombinationer Sats Antalet sätt vi kan plocka ut r av totalt n objekt, utan hänsyn tagen till ordningen ges av nc r = ( ) n = k n! r!(n r)! n C r brukar kallas för en binomialkoefficient. Vi kommer återkomma till detta senare. Bevisa satsen genom att notera att n P r = n C r r! Permutationer och kombinationer