repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF25: MATEMATISK STATISTIK KOMPLETTERANDE PROJEKT DATORLABORATION 1, 14 NOVEMBER 2017 Syfte Syftet med dagens laboration är att du ska träna på att hantera olika numeriska mått (medelvärde, median, standardavvikelse och varians) och figurer (histogram och empirisk fördelningsfunktion) som används när man studerar ett datamaterial repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion träna på att simulera slumptal från en fördelning träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från Datamaterial och åtkomst av data Ni kommer att titta på mätningar av fordonshastigheter på Södra Esplanaden i Lund. Filen som ni behöver till dagens laboration heter oldesplanaden.mat och finns på kurshemsidan www.maths.lth.se/matstat/kurser/fmsf25/ Förberedelseuppgifter Hemuppgift 1: Läs igenom avsnitt 1.3 Beskrivande statistik i boken Vännman: Matematisk statistik. Koncentrera dig på hur de olika begreppen definieras. Fördjupa dig inte de många numeriska omskrivningarna som görs i avsnittet. Hemuppgift 2: Läs igenom följande beskrivning av hur man gör en empirisk fördelningsfunktion: Med hjälp av ett stickprov, x 1, x 2,..., x n, kan man rita den s.k. empiriska fördelningsfunktionen. Datapunkterna, x i sorteras från minsta till största. Andelen datapunkter som är mindre eller lika med x i plottas sedan mot x i. Det blir en växande trappstegsfunktion som tar ett skutt med höjd 1/n för varje datapunkt. I formler: Vi har mätningarna x 1, x 2,...,x n. (a) Först sorteras stickprovet i växande ordning, betecknas x (1), x (2),...,x (n). (b) Den empiriska fördelningsfunktionen F n (x) definieras som: 0, x < x (1), F n (x) = i/n, x (i) x < x (i+1), 1, x (n) x (c) Därefter plottas de n stycken talparen (x (i), i n ) så att ett hopp från (i 1)/n till i/n med höjd 1/n bildas för varje x (i). Hemuppgift 3: Läs om fördelningspapper i avsnittet 10.1 i kursboken samt om lognormalfördelningen i den stencil som finns på kurshemsidan. 1

1 Mätningar av fordonshastigheter från Södra Esplanaden För några år sedan gjordes en omskyltning från 50 till 30 km/h i Lunds innerstad. För att undersöka om sänkningen i hastighet hade någon effekt på en väg som låg precis utanför innerstadsområdet gjorde man mätningar på Södra Esplanaden före och efter omskyltningen. Hastigheten på denna väg blev oförändrad 50 km/h utom på en bit som har 30 km/h under dagtid vardagar. Ni ska titta på mätningar som är gjorda vid två olika mätstationer, station 5 respektive station 6, på Södra Esplanaden. Båda stationerna ligger på en raksträcka, station 6 ligger precis i gränsen till området med 30 km/h på dagtid. För båda stationerna finns det mätningar före respektive efter omskyltningen. Vid varje mättillfälle bestämdes hastigheten hos 100 fordon. 1.1 Intressanta frågeställningar Hur ska vi göra en lämplig översikt av materialet? Hur stor är hastigheten i genomsnitt, hur stor är spridningen i materialet? Hur fördelar sig hastigheterna? I trafiktekniska sammanhang använder man ofta 85:te-percentilen för hastighetsfördelningen som ett sammanfattande mått på hur fort folk kör på en viss vägsträcka, hur stor är den i detta fall? Hur påverkade omskyltningen innerstaden hastigheterna vid de två mätstationerna? Har det skett en sänkning av hastigheterna på Södra Esplanaden? Hur stor är den i så fall? 1.2 Datafilen Data finns lagrat i filen oldesplanaden.mat, och ni kan läsa in filen i Matlabs arbetsarea med kommandot load oldesplanaden. Med kommandot whos kan ni se vilka variabler som finns i Matlabs arbetsminne. De uppmätta hastigheterna före omskyltning finns lagrade i vektorerna f5 respektive f6. Resultatet av hastighetsmätningarna efter omskyltning finns i vektorerna e5 respektive e6. Genom att skriva namnet på vektorn får ni de aktuella mätningarna på skärmen. 1.3 Överblick av materialet Vi skall börja med att undersöka om omskyltningen haft någon märkbar effekt på hastighetsfördelningen vid mätstation 6. Lämpliga Matlabkommandon anges oftast i uppgifterna - använd help, eller kursens Matlablathund för att se hur kommandot ska användas. Uppgift 1.1: För att få en första överblick av datamaterialet, rita ett punktdiagram med olika symboler för hastigheter före respektive efter omskyltning. (plot, hold on, xlabel, ylabel, title) Uppgift 1.2: För att få en bättre bild av de två hastighetsfördelningarna kan man rita histogram. Rita histogram över hastigheterna, dels före och dels efter omskyltningen. Lägg gärna de två histogrammen i var sin delfigur under varandra så kan ni jämföra bättre. Glöm inte att skriva titel på alla figurer och beteckningar på alla axlar. (subplot, hist, xlabel, ylabel, title) Uppgift 1.3: Beräkna medelvärde, standardavvikelse samt variationsbredd för de två datamaterialen. (mean, std, range) 2

Uppgift 1.4: Har omskyltningen haft någon effekt på fordonens hastighet vid mätstation 6? Gör en uppskattning av hur mycket hastigheterna minskades efter förändringen. I trafiktekniska sammanhang använder man ofta 85:te-percentilen för hastighetsfördelningen som ett sammanfattande mått på hur fort folk kör på en viss vägsträcka, (i viss litteratur använder man 15 %-kvantilen som motsvarar 85:te-percentilen). Uppgift 1.5: Vad menas med 85:te-percentilen i ett datamaterial? Vad är 85:te-percentilen för mätningarna före respektive efter omskyltningen vid mätstation 6? (prctile) 1.4 Empirisk fördelningsfunktion Då man har mätningar, x 1, x 2,..., x n, fås mycket information genom att rita upp den s.k. empiriska fördelningsfunktionen som betecknas F n (x). Datapunkterna, x i sorteras från minsta till största. Andelen datapunkter som är mindre eller lika med x i plottas sedan mot x i. Det blir en växande trappstegsfunktion som tar ett skutt med höjd 1/n för varje datapunkt. I Matlab kan kommandot cdfplot användas för att rita upp den empiriska fördelningsfunktionen F n (x). Uppgift 1.6: Rita F n (x) för hastighetsmätningarna före omskyltningen vid mätstation 6. Empiriska fördelningsfunktionen kan användas för att avläsa percentilerna i ett datamaterial. Den kan också (med hjälp av den klassiska sannolikhetsdefinitionen) ge oss uppskattningar om sannolikheter: värdet på y-axeln för ett visst x ger oss andelen bilar med en hastighet som understiger x. Det är därmed ett mått på sannolikheten att en bil har en hastighet som understiger x km/h. Uppgift 1.7: Avläs 85:te-percentilen från F n (x) och jämför med er tidigare beräkning. Använd också den ritade funktionen för att ta reda på vad medianen är i materialet. Uppgift 1.8: Använd F n (x) för att uppskatta sannolikheten att en bil före omskyltningen har en hastighet som understiger 35 km/h. Hur troligt är det att hastigheten överstiger 45 km/h? 3

Uppgift 1.9: Rita i samma figur även ut den empiriska fördelningsfunktionen för hastigheterna vid mätstation 6 efter omskyltningen. Hur troligt är det att hastigheten understiger 35 km/h efter omskyltningen? 2 På jakt efter en fördelning till data Nu ska ni fundera på problemet hur man hittar en lämplig fördelning till sina mätningar. Det finns ett antal standardfördelningar som man av erfarenhet vet passar i olika situationer. Exempel på sådana standardfördelningar är poissonfördelning, ffg-fördelning och binomialfördelning för diskreta data. När det gäller kontinuerliga data, är fördelningar som normalfördelning, lognormalfördelning, Weibullfördelning, Gumbelfördelning och gammafördelning vanliga i V/L-tillämpningar. En del av dessa stöter ni på i dagens labb, andra arbetar ni med i MiniprojektI. Det finns tre olika grafiska metoder för att avgöra om en fördelning passar bra till data. De är: att jämföra ett histogram över data med fördelningens frekvensfunktion (i det diskreta fallet blir det att jämföra ett stolpdiagram med sannolikhetsfunktionen) att jämföra den empiriska fördelningsfunktionen med standardfördelningens fördelningsfunktion att rita ut data i ett fördelningspapper Av dessa tre metoder är det den sista som rekommenderas och som används flitigt ute i industrin. 3 Fordonshastigheter igen I samband med forskning och planering vill man ofta simulera olika förlopp med hjälp av datormodeller. Då är det till stor hjälp om man kan beskriva hastighetsfördelningen med hjälp av någon känd teoretisk sannolikhetsfördelning. Av erfarenhet vet man att hastigheter hos ostörda fordon brukar beskrivas ganska väl av normalfördelningen. Låt oss se om det verkar vara så med våra mätningar från mätstation 5, d.v.s. de data som finns i variablerna f5 (före omskyltningen) och i e5 (efter omskyltningen) i filen oldesplanaden. 3.1 Kort om normalfördelning Normalfördelningen, N ( μ, σ ) har två parametrar: väntevärdet μ och standardavvikelsen σ. Parametern μ anger var den symmetriska fördelningen är centrerad medan σ är ett mått på spridningen. I figuren visas frekvensfunktion respektive fördelningsfunktion för en normalfördelning med μ=35 och σ=7. I Matlab används kommandona normpdf respektive normcdf för att rita upp funktionerna. 4

0.06 FREKVENSFUNKTION 0.05 0.04 0.03 0.02 0.01 0 15 20 25 30 35 40 45 50 55 1 FÖRDELNINGSFUNKTION 0.8 0.6 0.4 0.2 0 15 20 25 30 35 40 45 50 55 3.2 Fördelningpapper Ett alternativ, som används mycket inom industrin, är fördelningspapper. Olika typer av sådana papper beskrivs i kapitel 10.1 i Vännman, vanligast är normalfördelningspapper och weibullpapper. Kortfattat kan man säga att skalan på y-axeln på ett sådant papper är avpassat så att om man ritar ut data från en viss fördelning i motsvarande fördelningspapper kommer de att ligga ungefär på en rät linje. Omvänt gäller alltså att om datapunkterna avviker allt för mycket från en rät linje drar vi slutsatsen att denna fördelning inte passar till våra data. I Matlab kan man direkt plotta ett stickprov i normalfördelningspapper med kommandot normplot. Använd help normplot för att komma underfund med funktionen. Uppgift 3.1: Undersök med hjälp av normalfördelningspapper om hastighetsmätningarna före omskyltning vid mätstation 5 verkar vara normalfördelade. Uppgift 3.2: Undersök också om hastighetsmätningarna efter omskyltning vid mätstation 5 verkar vara normalfördelade. 3.3 Hur mycket kan normalfördelade data avvika i ett fördelningspapper? Förmodligen såg ni att en del av era mätningar inte låg helt utmed en linje i normplotten. Hur mycket avvikelse kan man acceptera innan man säger att en normalfördelning inte passar till data? För att undersöka det kan vi simulera slumptal från en normalfördelning och plotta dem i ett normalfördelningspapper för att se hur de beter sig. Uppgift 3.3: Skapa 50 slumptal från en normalfördelning med väntevärde 35 och standardavvikelse 7, d.v.s. från en N (35, 7). Rita upp dessa i ett normalfördelningspapper. Matlabkommandon: >> normslump=normrnd(35,7,50,1) %slumptalen läggs i matrisen normslump av storlek 50 x 1 >> normplot(normslump) 5

Upprepa gärna de två kommandona ovan så ni får en uppfattning om hur normalfördelade slumptal ser ut i ett normalfördelningspapper. Observera att även om mätningarna kommer från en normalfördelning behöver de inte ligga exakt på en rät linje. 3.4 Lognormalfördelning är en annan tänkbar fördelning Om hastighetsfördelningen inte verkar symmetrisk utan sned med några ovanligt höga hastigheter kan en annan tänkbar standardfördelning vara lognormalfördelning. Studera gärna figuren på den utdelade stencilen om lognormalfördelningen hur sådana frekvensfunktioner kan se ut. Eftersom lognormalfördelningen har den trevliga egenskapen att logaritmen av den stokastiska variabeln är normalfördelad, kan man använda normalfördelningspapper på logaritmerade data. I Matlab blir kommandot normplot(log(variabelnamn)). Uppgift 3.4: Verkar lognormalfördelningsantagandet bättre än normalfördelningsantagandet för de hastighetsmätningar efter omläggningen vid punkt 5? 3.5 Skatta parametrarna i de anpassade modellerna Då man bestämt sig för den typ av fördelning som passar bäst till data är nästa steg att skatta modellens paramterar. Exempelvis fås skattningar av μ och σ i en normalfördelning genom kommandot normfit(data). Uppgift 3.5: Skatta parametrarna i de modeller som beskriver hastigheten efter omläggningen vid punkterna 5 respektive 6. 3.6 Använd modellerna för att beräkna sannolikheter och kvantiler Uppgift 3.6: Använd era anpassade modeller för att beräkna sannolikheten att hastigheten överskrider 50 km/h efter omläggningen vid punkterna 5 respektive 6. Uppgift 3.7: Använd era anpassade modeller för att beräkna den hastighet som överskrids av 15% av forden efter omläggningen vid punkterna 5 respektive 6. 6