repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Relevanta dokument
träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Lunds tekniska högskola Matematikcentrum Matematisk statistik

Lunds tekniska högskola Matematikcentrum Matematisk statistik

Laboration 1: Beskrivande statistik

Laboration 3: Parameterskattning och Fördelningsanpassning

Datorövning 1: Fördelningar

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Laboration 1: Mer om Matlab samt Deskriptiv statistik

Datorövning 1 Fördelningar

1 Syfte. 2 Förberedelseuppgifter DATORLABORATION 1 MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT-03

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid 1

bli bekant med summor av stokastiska variabler.

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

Datorövning 1: Fördelningar

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Två parametrar: µ (väntevärdet) och σ (standardavvikelsen) µ bestämmer normalfördelningens läge

Föreläsning 7. Statistikens grunder.

Lektionsanteckningar 11-12: Normalfördelningen

Projekt 1: Om fördelningar och risker

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Weibullanalys. Maximum-likelihoodskattning

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

TMS136. Föreläsning 7

Laboration 4: Lineär regression

Demonstration av laboration 2, SF1901

Datorövning 3 Bootstrap och Bayesiansk analys

Laboration med Minitab

Matematisk statistik kompletterande projekt, FMSF25 Övning om regression

Kapitel 4 Sannolikhetsfördelningar Sid Föreläsningsunderlagen är baserade på underlag skrivna av Karl Wahlin

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

4 Diskret stokastisk variabel

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Matematisk statistik för B, K, N, BME och Kemister

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIKTE- ORIN (INFERENSTEORIN):

Finansiell Statistik (GN, 7,5 hp,, HT 2008) Föreläsning 3

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

Laboration 2: Sannolikhetsteori och simulering

Laboration 1: Introduktion till R och Deskriptiv statistik

MVE051/MSG Föreläsning 7

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Institutionen för teknikvetenskap och matematik, S0001M LABORATION 2

Datorövning 3 Bootstrap och Bayesiansk analys

Laboration 4: Hypotesprövning och styrkefunktion

Datorövning 1 Introduktion till Matlab Fördelningar

LKT325/LMA521: Faktorförsök

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Föreläsning 3, Matematisk statistik Π + E

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

1 Stora talens lag. Laboration 2 Matematisk statistik allmän kurs, MASA01:A, HT Teori. 1.2 Uppgifter

Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012

SF1920/SF1921 Sannolikhetsteori och statistik 6,0 hp Föreläsning 3 Diskreta stokastiska variabler. Jörgen Säve-Söderbergh

Tentamen i Matematisk statistik Kurskod S0001M

1 Förberedelser. 2 Teoretisk härledning av värmeförlust LABORATION 4: VÄRMEKRAFTVERK MATEMATISK STATISTIK AK, MAS 101:A, VT-01

Föreläsning 4, Matematisk statistik för M

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Statistiska metoder för säkerhetsanalys

BIOSTATISTISK GRUNDKURS, MASB11 ÖVNING 6 ( ) OCH INFÖR ÖVNING 7 ( )

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

KURSPROGRAM HT-10 MATEMATISK STATISTIK AK FÖR CDI, FMS 012

1 Introduktion till projektuppgiften

SF1901 Sannolikhetsteori och statistik I

förstå modellen enkel linjär regression och de antaganden man gör i den Laborationen är dessutom en direkt förberedelse inför Miniprojekt II.

Föreläsning 2, FMSF45 Slumpvariabel

SF1920/SF1921 Sannolikhetsteori och statistik, VT 2018 Laboration 1 för CELTE2/CMATD3

Provmoment: Tentamen 6,5 hp Ladokkod: A144TG Tentamen ges för: TGMAI17h, Maskiningenjör - Produktutveckling. Tentamensdatum: 28 maj 2018 Tid: 9-13

Matematisk statistik 9hp Föreläsning 2: Slumpvariabel

1.1 Diskret (Sannolikhets-)fördelning

Föreläsning 7: Punktskattningar

Laboration 2: Statistisk hypotesprövning

KURSPROGRAM HT-18 MATEMATISK STATISTIK AK FÖR D, I OCH PI, FMSF45 & MASB03

Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Resultat till ett försök är ofta ett tal. Talet kallas en stokastisk variabel (kortare s. v.).

1 Bakgrund DATORÖVNING 3 MATEMATISK STATISTIK FÖR E FMSF Något om Radon och Radonmätningar. 1.2 Statistisk modell

Laboration 2: Sannolikhetsteori och simulering

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

FORMELSAMLING MATEMATISK STATISTIK FÖR W; FMSF75 UPPDATERAD Sannolikhetsteori. Beskrivning av data. Läges-, spridnings- och beroendemått

FÖRELÄSNING 7:

Grundläggande matematisk statistik

Tentamen i Matematisk statistik Kurskod S0001M

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Rättningstiden är i normalfall 15 arbetsdagar, till detta tillkommer upp till 5 arbetsdagar för administration, annars är det detta datum som gäller:

SF1910 Tillämpad statistik, HT 2016 Laboration 1 för CSAMHS, CLGYM-TEMI

Transkript:

Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF25: MATEMATISK STATISTIK KOMPLETTERANDE PROJEKT DATORLABORATION 1, 14 NOVEMBER 2017 Syfte Syftet med dagens laboration är att du ska träna på att hantera olika numeriska mått (medelvärde, median, standardavvikelse och varians) och figurer (histogram och empirisk fördelningsfunktion) som används när man studerar ett datamaterial repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion träna på att simulera slumptal från en fördelning träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från Datamaterial och åtkomst av data Ni kommer att titta på mätningar av fordonshastigheter på Södra Esplanaden i Lund. Filen som ni behöver till dagens laboration heter oldesplanaden.mat och finns på kurshemsidan www.maths.lth.se/matstat/kurser/fmsf25/ Förberedelseuppgifter Hemuppgift 1: Läs igenom avsnitt 1.3 Beskrivande statistik i boken Vännman: Matematisk statistik. Koncentrera dig på hur de olika begreppen definieras. Fördjupa dig inte de många numeriska omskrivningarna som görs i avsnittet. Hemuppgift 2: Läs igenom följande beskrivning av hur man gör en empirisk fördelningsfunktion: Med hjälp av ett stickprov, x 1, x 2,..., x n, kan man rita den s.k. empiriska fördelningsfunktionen. Datapunkterna, x i sorteras från minsta till största. Andelen datapunkter som är mindre eller lika med x i plottas sedan mot x i. Det blir en växande trappstegsfunktion som tar ett skutt med höjd 1/n för varje datapunkt. I formler: Vi har mätningarna x 1, x 2,...,x n. (a) Först sorteras stickprovet i växande ordning, betecknas x (1), x (2),...,x (n). (b) Den empiriska fördelningsfunktionen F n (x) definieras som: 0, x < x (1), F n (x) = i/n, x (i) x < x (i+1), 1, x (n) x (c) Därefter plottas de n stycken talparen (x (i), i n ) så att ett hopp från (i 1)/n till i/n med höjd 1/n bildas för varje x (i). Hemuppgift 3: Läs om fördelningspapper i avsnittet 10.1 i kursboken samt om lognormalfördelningen i den stencil som finns på kurshemsidan. 1

1 Mätningar av fordonshastigheter från Södra Esplanaden För några år sedan gjordes en omskyltning från 50 till 30 km/h i Lunds innerstad. För att undersöka om sänkningen i hastighet hade någon effekt på en väg som låg precis utanför innerstadsområdet gjorde man mätningar på Södra Esplanaden före och efter omskyltningen. Hastigheten på denna väg blev oförändrad 50 km/h utom på en bit som har 30 km/h under dagtid vardagar. Ni ska titta på mätningar som är gjorda vid två olika mätstationer, station 5 respektive station 6, på Södra Esplanaden. Båda stationerna ligger på en raksträcka, station 6 ligger precis i gränsen till området med 30 km/h på dagtid. För båda stationerna finns det mätningar före respektive efter omskyltningen. Vid varje mättillfälle bestämdes hastigheten hos 100 fordon. 1.1 Intressanta frågeställningar Hur ska vi göra en lämplig översikt av materialet? Hur stor är hastigheten i genomsnitt, hur stor är spridningen i materialet? Hur fördelar sig hastigheterna? I trafiktekniska sammanhang använder man ofta 85:te-percentilen för hastighetsfördelningen som ett sammanfattande mått på hur fort folk kör på en viss vägsträcka, hur stor är den i detta fall? Hur påverkade omskyltningen innerstaden hastigheterna vid de två mätstationerna? Har det skett en sänkning av hastigheterna på Södra Esplanaden? Hur stor är den i så fall? 1.2 Datafilen Data finns lagrat i filen oldesplanaden.mat, och ni kan läsa in filen i Matlabs arbetsarea med kommandot load oldesplanaden. Med kommandot whos kan ni se vilka variabler som finns i Matlabs arbetsminne. De uppmätta hastigheterna före omskyltning finns lagrade i vektorerna f5 respektive f6. Resultatet av hastighetsmätningarna efter omskyltning finns i vektorerna e5 respektive e6. Genom att skriva namnet på vektorn får ni de aktuella mätningarna på skärmen. 1.3 Överblick av materialet Vi skall börja med att undersöka om omskyltningen haft någon märkbar effekt på hastighetsfördelningen vid mätstation 6. Lämpliga Matlabkommandon anges oftast i uppgifterna - använd help, eller kursens Matlablathund för att se hur kommandot ska användas. Uppgift 1.1: För att få en första överblick av datamaterialet, rita ett punktdiagram med olika symboler för hastigheter före respektive efter omskyltning. (plot, hold on, xlabel, ylabel, title) Uppgift 1.2: För att få en bättre bild av de två hastighetsfördelningarna kan man rita histogram. Rita histogram över hastigheterna, dels före och dels efter omskyltningen. Lägg gärna de två histogrammen i var sin delfigur under varandra så kan ni jämföra bättre. Glöm inte att skriva titel på alla figurer och beteckningar på alla axlar. (subplot, hist, xlabel, ylabel, title) Uppgift 1.3: Beräkna medelvärde, standardavvikelse samt variationsbredd för de två datamaterialen. (mean, std, range) 2

Uppgift 1.4: Har omskyltningen haft någon effekt på fordonens hastighet vid mätstation 6? Gör en uppskattning av hur mycket hastigheterna minskades efter förändringen. I trafiktekniska sammanhang använder man ofta 85:te-percentilen för hastighetsfördelningen som ett sammanfattande mått på hur fort folk kör på en viss vägsträcka, (i viss litteratur använder man 15 %-kvantilen som motsvarar 85:te-percentilen). Uppgift 1.5: Vad menas med 85:te-percentilen i ett datamaterial? Vad är 85:te-percentilen för mätningarna före respektive efter omskyltningen vid mätstation 6? (prctile) 1.4 Empirisk fördelningsfunktion Då man har mätningar, x 1, x 2,..., x n, fås mycket information genom att rita upp den s.k. empiriska fördelningsfunktionen som betecknas F n (x). Datapunkterna, x i sorteras från minsta till största. Andelen datapunkter som är mindre eller lika med x i plottas sedan mot x i. Det blir en växande trappstegsfunktion som tar ett skutt med höjd 1/n för varje datapunkt. I Matlab kan kommandot cdfplot användas för att rita upp den empiriska fördelningsfunktionen F n (x). Uppgift 1.6: Rita F n (x) för hastighetsmätningarna före omskyltningen vid mätstation 6. Empiriska fördelningsfunktionen kan användas för att avläsa percentilerna i ett datamaterial. Den kan också (med hjälp av den klassiska sannolikhetsdefinitionen) ge oss uppskattningar om sannolikheter: värdet på y-axeln för ett visst x ger oss andelen bilar med en hastighet som understiger x. Det är därmed ett mått på sannolikheten att en bil har en hastighet som understiger x km/h. Uppgift 1.7: Avläs 85:te-percentilen från F n (x) och jämför med er tidigare beräkning. Använd också den ritade funktionen för att ta reda på vad medianen är i materialet. Uppgift 1.8: Använd F n (x) för att uppskatta sannolikheten att en bil före omskyltningen har en hastighet som understiger 35 km/h. Hur troligt är det att hastigheten överstiger 45 km/h? 3

Uppgift 1.9: Rita i samma figur även ut den empiriska fördelningsfunktionen för hastigheterna vid mätstation 6 efter omskyltningen. Hur troligt är det att hastigheten understiger 35 km/h efter omskyltningen? 2 På jakt efter en fördelning till data Nu ska ni fundera på problemet hur man hittar en lämplig fördelning till sina mätningar. Det finns ett antal standardfördelningar som man av erfarenhet vet passar i olika situationer. Exempel på sådana standardfördelningar är poissonfördelning, ffg-fördelning och binomialfördelning för diskreta data. När det gäller kontinuerliga data, är fördelningar som normalfördelning, lognormalfördelning, Weibullfördelning, Gumbelfördelning och gammafördelning vanliga i V/L-tillämpningar. En del av dessa stöter ni på i dagens labb, andra arbetar ni med i MiniprojektI. Det finns tre olika grafiska metoder för att avgöra om en fördelning passar bra till data. De är: att jämföra ett histogram över data med fördelningens frekvensfunktion (i det diskreta fallet blir det att jämföra ett stolpdiagram med sannolikhetsfunktionen) att jämföra den empiriska fördelningsfunktionen med standardfördelningens fördelningsfunktion att rita ut data i ett fördelningspapper Av dessa tre metoder är det den sista som rekommenderas och som används flitigt ute i industrin. 3 Fordonshastigheter igen I samband med forskning och planering vill man ofta simulera olika förlopp med hjälp av datormodeller. Då är det till stor hjälp om man kan beskriva hastighetsfördelningen med hjälp av någon känd teoretisk sannolikhetsfördelning. Av erfarenhet vet man att hastigheter hos ostörda fordon brukar beskrivas ganska väl av normalfördelningen. Låt oss se om det verkar vara så med våra mätningar från mätstation 5, d.v.s. de data som finns i variablerna f5 (före omskyltningen) och i e5 (efter omskyltningen) i filen oldesplanaden. 3.1 Kort om normalfördelning Normalfördelningen, N ( μ, σ ) har två parametrar: väntevärdet μ och standardavvikelsen σ. Parametern μ anger var den symmetriska fördelningen är centrerad medan σ är ett mått på spridningen. I figuren visas frekvensfunktion respektive fördelningsfunktion för en normalfördelning med μ=35 och σ=7. I Matlab används kommandona normpdf respektive normcdf för att rita upp funktionerna. 4

0.06 FREKVENSFUNKTION 0.05 0.04 0.03 0.02 0.01 0 15 20 25 30 35 40 45 50 55 1 FÖRDELNINGSFUNKTION 0.8 0.6 0.4 0.2 0 15 20 25 30 35 40 45 50 55 3.2 Fördelningpapper Ett alternativ, som används mycket inom industrin, är fördelningspapper. Olika typer av sådana papper beskrivs i kapitel 10.1 i Vännman, vanligast är normalfördelningspapper och weibullpapper. Kortfattat kan man säga att skalan på y-axeln på ett sådant papper är avpassat så att om man ritar ut data från en viss fördelning i motsvarande fördelningspapper kommer de att ligga ungefär på en rät linje. Omvänt gäller alltså att om datapunkterna avviker allt för mycket från en rät linje drar vi slutsatsen att denna fördelning inte passar till våra data. I Matlab kan man direkt plotta ett stickprov i normalfördelningspapper med kommandot normplot. Använd help normplot för att komma underfund med funktionen. Uppgift 3.1: Undersök med hjälp av normalfördelningspapper om hastighetsmätningarna före omskyltning vid mätstation 5 verkar vara normalfördelade. Uppgift 3.2: Undersök också om hastighetsmätningarna efter omskyltning vid mätstation 5 verkar vara normalfördelade. 3.3 Hur mycket kan normalfördelade data avvika i ett fördelningspapper? Förmodligen såg ni att en del av era mätningar inte låg helt utmed en linje i normplotten. Hur mycket avvikelse kan man acceptera innan man säger att en normalfördelning inte passar till data? För att undersöka det kan vi simulera slumptal från en normalfördelning och plotta dem i ett normalfördelningspapper för att se hur de beter sig. Uppgift 3.3: Skapa 50 slumptal från en normalfördelning med väntevärde 35 och standardavvikelse 7, d.v.s. från en N (35, 7). Rita upp dessa i ett normalfördelningspapper. Matlabkommandon: >> normslump=normrnd(35,7,50,1) %slumptalen läggs i matrisen normslump av storlek 50 x 1 >> normplot(normslump) 5

Upprepa gärna de två kommandona ovan så ni får en uppfattning om hur normalfördelade slumptal ser ut i ett normalfördelningspapper. Observera att även om mätningarna kommer från en normalfördelning behöver de inte ligga exakt på en rät linje. 3.4 Lognormalfördelning är en annan tänkbar fördelning Om hastighetsfördelningen inte verkar symmetrisk utan sned med några ovanligt höga hastigheter kan en annan tänkbar standardfördelning vara lognormalfördelning. Studera gärna figuren på den utdelade stencilen om lognormalfördelningen hur sådana frekvensfunktioner kan se ut. Eftersom lognormalfördelningen har den trevliga egenskapen att logaritmen av den stokastiska variabeln är normalfördelad, kan man använda normalfördelningspapper på logaritmerade data. I Matlab blir kommandot normplot(log(variabelnamn)). Uppgift 3.4: Verkar lognormalfördelningsantagandet bättre än normalfördelningsantagandet för de hastighetsmätningar efter omläggningen vid punkt 5? 3.5 Skatta parametrarna i de anpassade modellerna Då man bestämt sig för den typ av fördelning som passar bäst till data är nästa steg att skatta modellens paramterar. Exempelvis fås skattningar av μ och σ i en normalfördelning genom kommandot normfit(data). Uppgift 3.5: Skatta parametrarna i de modeller som beskriver hastigheten efter omläggningen vid punkterna 5 respektive 6. 3.6 Använd modellerna för att beräkna sannolikheter och kvantiler Uppgift 3.6: Använd era anpassade modeller för att beräkna sannolikheten att hastigheten överskrider 50 km/h efter omläggningen vid punkterna 5 respektive 6. Uppgift 3.7: Använd era anpassade modeller för att beräkna den hastighet som överskrids av 15% av forden efter omläggningen vid punkterna 5 respektive 6. 6