Laboration 1: Beskrivande statistik



Relevanta dokument
Laboration 1: Mer om Matlab samt Deskriptiv statistik

1 Syfte. 2 Förberedelseuppgifter DATORLABORATION 1 MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT-03

repetera begreppen sannolikhetsfunktion, frekvensfunktion och fördelningsfunktion

Laboration 2: 1 Syfte. 2 Väntevärde och varians hos en s.v. X med fördelningen F X (x) MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08

Laboration 3: Parameterskattning och Fördelningsanpassning

Datorövning 1 Fördelningar

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden inom matematisk statistik

Lunds tekniska högskola Matematikcentrum Matematisk statistik

Datorövning 1: Fördelningar

Lunds tekniska högskola Matematikcentrum Matematisk statistik

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Hypotesprövning och styrkefunktion

SF1905 Sannolikhetsteori och statistik: Lab 2 ht 2011

13.1 Matematisk statistik

bli bekant med summor av stokastiska variabler.

Laboration 4: Stora talens lag, Centrala gränsvärdessatsen och enkla punktskattningar

Datorövning 1: Fördelningar

Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08

träna på att använda olika grafiska metoder för att undersöka vilka fördelningar ett datamaterial kan komma från

Datorövning 1 Introduktion till Matlab Fördelningar

DATORÖVNING 2 MATEMATISK STATISTIK FÖR D, I, PI OCH FYSIKER; FMSF45 & MASB03. bli bekant med summor av stokastiska variabler.

Matematikcentrum 1(6) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs VT2014, lp3. Laboration 2. Fördelningar och simulering

Laboration 1: Introduktion till R och Deskriptiv statistik

Statistik 1 för biologer, logopeder och psykologer

SF1900 Sannolikhetsteori och statistik, HT 2017 Laboration 1 för CINEK2

Beskrivande statistik

Datorövning 2 Betingad fördelning och Centrala gränsvärdessatsen

TANA17 Matematiska beräkningar med MATLAB för M, DPU. Fredrik Berntsson, Linköpings Universitet. 2 november 2015 Sida 1 / 23

KLEINLEKTION. Område statistik. Lektionens upplägg. Lämplig inom kurserna Matematik 2b och 2c. Engage (Väck intresse) Explore (Upptäck laborera)

Index. Vektorer och Elementvisa operationer. Summor och Medelvärden. Grafik i två eller tre dimensioner. Ytor. 20 januari 2016 Sida 1 / 26

Laboration 3: Stora talens lag, centrala gränsvärdessatsen och enkla punktskattningar

Laboration 4: Lineär regression

Laboration 3: Enkla punktskattningar, styrkefunktion och bootstrap

Matematisk statistik allmän kurs, MASA01:B, HT-14 Laborationer

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet Per-Erik Isberg. Laboration 1. Simulering

Datorövning 3 Bootstrap och Bayesiansk analys

Laboration: Grunderna i Matlab

Matematikcentrum 1(7) Matematisk Statistik Lunds Universitet MASB11 - Biostatistisk grundkurs HT2007. Laboration. Simulering

Syftet med den här laborationen är att du skall bli mer förtrogen med det i praktiken kanske viktigaste området inom kursen nämligen

Sannolikhet och statistik med Matlab. Måns Eriksson

TAIU07 Matematiska beräkningar med Matlab

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid 1

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Laboration med Minitab

2 Dataanalys och beskrivande statistik

Beskrivande statistik

Linjär algebra med tillämpningar, lab 1

Projekt 1: Om fördelningar och risker

1 Förberedelser. 2 Teoretisk härledning av värmeförlust LABORATION 4: VÄRMEKRAFTVERK MATEMATISK STATISTIK AK, MAS 101:A, VT-01

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Exempel: Väljarbarometern. Föreläsning 1: Introduktion. Om Väljarbarometern. Statistikens uppgift


Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

Laboration 5: Intervallskattning och hypotesprövning

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 1: TIDSSERIER.

Laboration 2: Styrkefunktion samt Regression

Instruktion för laboration 1

Matematikcentrum 1(4) Matematisk Statistik Lunds Universitet MASB11 HT10. Laboration. Regressionsanalys (Sambandsanalys)

Instruktion för laboration 1

Datorövning 3 Bootstrap och Bayesiansk analys

Beräkningsverktyg HT07

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel vers. 2010

Datorlaboration 1 Deskriptiv statistik med hjälp av MS Excel

Laboration 1. i 5B1512, Grundkurs i matematisk statistik för ekonomer

histogram över 1000 observerade väntetider minuter 0.06 f(x) täthetsfkn x väntetid

1 Förberedelser. 2 Att starta MATLAB, användning av befintliga m-filer. 3 Geometriskt fördelad avkomma

Typvärde. Mest frekventa värdet Används framförallt vid nominalskala Ex: typvärdet. Kemi 250. Ekon 570. Psyk 120. Mate 195.

1 Syfte. 2 Moment hos och faltning av fördelningar MATEMATISK STATISTIK, AK FÖR L, FMS 033, HT Angående grafisk presentation

TSBB14 Laboration: Intro till Matlab 1D

SF1901 Sannolikhetsteori och statistik: HT 2014 Lab 1 för CSAMHS, CINEKI, och CL

Mer om funktioner och grafik i Matlab

KPP053, HT2016 MATLAB, Föreläsning 3. Plotter och diagram Läsa och skriva data till fil

1 Produktivitet kontra kvalitet vid tillverkning av bilar

Statistik. Det finns tre sorters lögner: lögn, förbannad lögn och statistik

Föreläsning G60 Statistiska metoder

Simulering av slumpvariabler i R. 1 Normalfördelningen. Uppgift 1. Uppgift 2

Att göra före det schemalagda labpasset.

Laboration 1: Icke-parametriska enstickprovstest

Syftet med den här laborationen är att du skall bli mer förtrogen med följande viktiga områden

Introduktion till statistik för statsvetare

Laboration: Grunderna i MATLAB

Introduktion till statistik för statsvetare

Uppgift 1 - programmet, Uppg6.m, visade jag på föreläsning 1. Luftmotståndet på ett objekt som färdas genom luft ges av formeln

*****************************************************************************

Tentamen TAIU07 Matematiska beräkningar med MATLAB för MI

Lektionsanteckningar 11-12: Normalfördelningen

Gör uppgift 6.10 i arbetsmaterialet (ingår på övningen 16 maj). För 10 torskar har vi värden på variablerna Längd (cm) och Ålder (år).

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Introduktion till MATLAB

Valresultat Riksdagen 2018

BIOSTATISTISK GRUNDKURS, MASB11, VT-16, VT2 ÖVNING 3, OCH INFÖR ÖVNING 4

Medicinska Bilder, TSBB31. Lab3: Mätvärden på Medicinska Bilder

TANA17 Matematiska beräkningar med Matlab

(x) = F X. och kvantiler

Laboration 1: Grundläggande sannolikhetsteori, simulering och dataanalys

Medelvärde, median och standardavvikelse

CTH/GU LABORATION 1 MVE /2013 Matematiska vetenskaper. Mer om grafritning

2 Laborationsuppgifter, upptagetsystem

Transkript:

LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK DATORLABORATION 1 MATEMATISK STATISTIK, AK FÖR BYGG, FMS 601, HT-08 Laboration 1: Beskrivande statistik 1 Syfte Syftet med den här laborationen är att du ska bli förtrogen med grunderna i MATLAB. Du ska också lära dig använda några av de vanligaste funktionsbegreppen inom statistiken, dessa används främst för att studera ett stickprovs fundamentala egenskaper. Begreppet stickprov i det här sammanhanget motsvarar helt enkelt den information vi erhållit vid en datainsamling. Under laborationen kommer vi att studera tre verkliga datamaterial som alla uppvisar någon form av slumpmässighet. Avsikten är att illustrera behovet av olika verktyg för att kunna hantera slump, sådan den uppträder i naturen eller i ingenjörstillämpningar. Studierna kommer här att ske med enklast möjliga medel: inspektion av histogram och därtill hörande diskussion kring spridningen i data. Vi kommer att studera Längd och vikt hos nyfödda barn till förstföderskor i Malmö Tidsperioder mellan kraftiga jordbävningar världen runt Effekten på fordonens hastighet vid en trafikomläggning. 2 Förberedelseuppgifter Som förberedelse till laborationen skall du ha tillgodogjort dig avsnitt 1.3 i Vännman, Matematisk statistik, 2002, samt gått igenom laborationshandledningen. Du skall ha löst förberedelseuppgifterna innan du kommer till laborationen. Hemuppgift 1: Vid en undersökning av ett datamaterial är man ofta intresserad av hur stora värdena är (det vi kallar lägesmått) samt av hur mycket de olika värdena skiljer sig åt (spridningsmått). De olika mått vi skall använda finns definierade i kurslitteraturen. (a) Kontrollera med kurslitteraturen (kap 1) hur man beräknar följande mått hos ett stickprov och vilka beteckningar som används för respektive mått. (a) Medelvärde (b) Median (c) Standardavvikelse (d) Varians (e) Variationsbredd (f) Variationsintervall (g) Variationskoefficient (b) Vilka av ovanstående är lägesmått? (c) Vilka av ovanstående är spridningsmått? (d) Hur beräknar man medianen när stickprovsstorleken är udda respektive jämn? (e) Hur beräknar man första kvartilen Q 1 när stickprovsstorleken är udda respektive jämn i ett datamaterial som inte är klassindelat? Hemuppgift 2: Vad är det för skillnad mellan ett stolpdiagram och ett histogram?

3 Inledning Gå igenom avsnitt 2 i det utdelade materialet Rikte, MATLAB en kort introduktion. MATLAB har ett eget statistikpaket som heter Statistics Toolbox och du får en innehållsförteckning med kommandot help stats. Såväl sannolikhetsfunktioner och fördelningsfunktioner som slumptalsgeneratorer finns i dessa programpaket. Dessutom finns andra användbara funktioner för beräkningar i allmänhet och inte minst visualisering av data. I den här laborationen skall vi inte försöka hitta en lämplig teoretisk fördelning hos data i fråga, utan istället koncentrera oss på de enkla egenskaperna hos våra observationer. Hur man väljer en lämplig teoretisk sannolikhetsfördelning återkommer vi till senare i kursen. För att senare kunna läsa in datafiler i MATLAB behöver man först hämta dem från kursens hemsida som man kan klicka sig fram till från http://www.maths.lth.se/matstat/kurser/ och lägga dem i sin hemkatalog, H:. Gå sedan in i MATLAB och skriv addpath h: så att MATLAB kan hitta dem. 4 Längd och vikt hos nyfödda barn Från en större medicinsk studie i Malmö av förstföderskor har man bl.a. registrerat längd och vikt hos barnen. Läs in filen med detta datamaterial genom kommandot load kids. De numeriska värden finns lagrade i två vektorer: längder i vektorn med namn kidle, vikterna i vektorn kidwe. Tag först reda på hur många observationer vi har genom att skriva length(kidwe). 4.1 Studium av vikt Vi ska först studera enbart vikt hos barnen. En snabb översikt över spridningen i data fås genom att rita ett histogram. Rutinen hist används då. Skriv help hist för information om inparametrar till denna rutin. Följande kommandon ritar histogrammet och beräknar också diverse lägesmått och spridningsmått, använd help för närmare beskrivning av dessa, även om de engelska namnen nog skvallrar om vad som beräknas. >> hist(kidwe) >> mean(kidwe), median(kidwe) >> std(kidwe), var(kidwe) >> range(kidwe) Beräkna variationskoefficienten för datamaterialet! 4.2 Studium av längd Gör om samma undersökning som för vikten, dvs. rita histogram och beräkna spridningsmått. Använd vektorn kidle. 4.3 Samvariation, vikt och längd I detta datamaterial har man registrerat längd och vikt hos varje individuellt barn. Det kan vara av intresse att studera samvariationen mellan längd och vikt. Längre fram i kursen kommer vi att införa olika mått för samvariation, här nöjer vi oss med att visualisera data: >> plot(kidle,kidwe,. ) >> xlabel( Längd (cm) ) >> ylabel( Vikt (g) ) Ser det ut som förväntat? Ge en kommentar! 5 Tider mellan jordbävningar Vi ska nu studera ett datamaterial där data insamlats under perioden den 16 december 1902 t.o.m. den 4 mars 1977. Det rör sig om tidsintervall, mätt i dagar, mellan kraftiga jordbävningar världen runt. Jordbävningar med en magnitud på åtminstone 7,5 på Richterskalan finns representerade, alternativt jordbävningar med över 1000 dödsoffer. Läs in filen genom kommandot load quakeper. De numeriska värden finns lagrade i en vektor med namn quakeper. Använd length för att finna antalet tidsperioder. Som i föregående deluppgift ritar vi histogram och beräknar diverse lägesoch spridningsmått: >> hist(quakeper) >> mean(quakeper), median(quakeper) >> std(quakeper), var(quakeper) >> range(quakeper) 2

Använd data och fundera: verkar det troligt att det kan gå längre period än 5 år mellan kraftiga jordbävningar? I MATLAB finns en del användbara villkorssatser som gör det enkelt att skapa nya vektorer och matriser med hjälp av lämpliga bivillkor, Man kan alltså på så sätt i en given vektor eller matris finna element som uppfyller ett eller annat intressant villkor. För att exmpelvis finna de perioder mellan jordbävningar med längd kortare än 1000 dagar (c:a 3 år) kan man skriva: >> less1000 = quakeper(quakeper < 1000); >> length(less1000) Första kommandot skapar en vektor som vi kan kalla vad som helst, t ex less1000. Den innehåller de element i ursprungsvektorn quakeper vilka uppfyller villkoret. För att få reda på hur många element som uppfyller villkoret använder vi helt enkelt length (andra kommandot ovan). Uppgift 5.1: Vi vill uppskatta sannolikheten för en period mellan jordbävningar kortare än 1000 dagar genom att beräkna motsvarande andel i datamaterialet Vi har i själva verket beräknat täljaren i kommandoserien ovan, och nämnaren ges helt enkelt av length(quakeper). Beräkna nu den intressanta kvoten och ange ditt svar nedan: Anmärkning. Den storhet som beräknades som mean(quakeper) benämnes ibland återkomsttid (engelska: return period), beteckna den med T, säg. Intensiteten av de händelser som studeras kan beräknas som 1/T och studeras ofta i statistisk riskanalys. 6 Korsning eller rondell? 6.1 Hastighetsmätningar 6.1.1 Bakgrund I ett försök att få ned hastigheterna och därmed minska olycksfrekvensen har man i Växjö byggt om många medelstora korsningar till små rondeller. I samband med dessa ombyggnader utförde man också hastighetsmätningar för att kunna utvärdera effekten av ändringarna. Hastigheterna mättes med radarpistol på enskilda fordon vid passagen av väjningslinjen i en viss korsning före och efter ombyggnaden. Mätningarna gjordes vid jämförbara tider på dygnet och året och omfattade bara så kallade ostörda fordon, det vill säga fordon som inte ligger i kö eller påverkas av interaktion med andra fordon på huvudgatan. I trafiktekniska sammanhang använder man ofta (övre) 15 %-kvantilen för hastighetsfördelningen, det vill säga den hastighet x 0.15 sådan att 15 % av datamaterialet har högre hastighet än x 0.15, som ett sammanfattande mått på hur fort folk kör på en viss vägsträcka, (i viss litteratur säger man 85 %-percentilen och menar då undre percentilen). Man kan också vara intresserad av att mera formellt testa olika hypoteser angående effekten av diverse ingrepp i trafikmiljön. I samband med forskning och planering kan man eventuellt även vilja simulera olika förlopp med hjälp av datormodeller. I alla dessa sammanhang är det till stor hjälp om man kan beskriva hastighetsfördelningen med hjälp av någon känd teoretisk sannolikhetsfördelning. Uppgift 6.1: Vilken typ av diagram stolpdiagram eller histogram tycker du verkar lämpligast för att beskriva hastighetsfördelningen i föreliggande fall? 6.1.2 Datamaterialet Vi skall börja med att undersöka om ombyggnaderna haft någon märkbar effekt på hastighetsfördelningen vid korsningarna. Datamaterialet finns lagrat i filen trafik.mat, och du kan läsa in filen i MATLABs arbetsarea med kommandot load trafik. Med kommandot whos kan du se vilka variabler som finns i MATLABs arbetsminne. De uppmätta hastigheterna före ombyggnad finns lagrade i vektorn korsning. Resultatet av hastighetsmätningarna efter ombyggnad finns i vektorn rondell. För att få en första överblick över datamaterialet kan man rita ett punktdiagram med olika symboler för hastigheter före respektive efter ombyggnad (prickarna... betyder att kommandot fortsätter på nästa rad), >> plot(korsning, + ) >> hold on 3

>> plot(rondell, o ) >> title([ Fordonshastighet:... korsning (+)... ombyggd till rondell (o) ]) >> xlabel( Observationsnummer ) >> ylabel( Hastighet (km/tim) ) >> hold off Uppgift 6.2: Vilka slutsatser är du beredd att dra utifrån denna bild? Vi kan nu gå vidare till att rita histogram över frekvenserna för att få en bättre bild av de två hastighetsfördelningarna. >> subplot(211) % subplot splittrar % figurfönstret i delfönster >> hist(korsning) >> title([ Histogram över... hastigheter för korsning ]) >> xlabel( Hastighet (km/tim) ) >> ylabel( Frekvens ) >> subplot(212) >> hist(rondell); (Har du kommit ihåg att skriva titel på alla figurer och beteckningar på alla axlar?) För att underlätta en direkt jämförelse mellan de två figurerna är det lämpligt att ge dem samma skala, till exempel >> axis([10 70 0 40]) >> subplot(211) >> axis([10 70 0 40]) Uppgift 6.3: Vilka slutsatser är du beredd att dra utifrån dessa två histogram? Uppgift 6.4: För att underlätta jämförelsen mellan de två datamaterialen kan du beräkna deras medelvärde, standardavvikelse samt variationsbredd. Slutkommentar: Har trafikomläggningen haft någon effekt på fordonens hastighet? 6.2 Fortkörare Ett annat sätt att ytterligare belysa datamaterialen är att beräkna frekvensen fortkörare före och efter trafikomläggningen. Vi är därför intresserade av andelen fordon som kör fortare än 50 km/h i korsningen respektive rondellen. Använd villkorssatser som tidigare i laborationen för att identifiera fordon med olika hastighet, t.ex. >> sniglar = rondell(rondell <= 20) % ger observationer <= 20 km/h >> galningar = korsning(korsning > 80) % ger observationer > 80 km/h Uppgift 6.5: Beräkna andelen fordon som kör för fort (dvs. fortare än 50 km/h) i korsningen respektive rondellen. Funktionen length kan vara användbar (se uppg. 5.1). Uppgift 6.6: Beräkna 15 %-kvantilen i de båda datamaterialen, det vill säga den hastighet x 0.15 sådan att 15 % av datamaterialet har högre hastighet än x 0.15. Om du inte hittar någon standardfunktion som räknar ut det kan du ha nytta av funktionerna sort och length. 4

Användbara Matlab-kommandon help kommando ger en hjälptext till kommandot kommando load filnamn hämtar alla variabler från filen filnamn.mat och laddar in dem i Matlab whos ger en detaljerad lista över de variabler som finns definierade hist(x) ritar ett 10-intervalls histogram för elementen i vektorn x mean(x) beräknar aritmetiska medelvärdet av elementen i vektorn x median(x) beräknar medianen av elementen i vektorn x std(x) beräknar standardavvikelsen av elementen i vektorn x var(x) beräknar variansen av elementen i vektorn x range(x) beräknar skillnaden mellan det största och det minsta elementet i vektorn x plot(x,y,str) plottar y mot x. Använder färg och form enligt strängen str plot(y,str) plottar de ordnade talparen (j, y j ). Använder färg och form enligt strängen str subplot(m,n,p) delar grafikfönstret i m n delfönster, aktuellt fönster blir fönster nr p, delfönstren numreras från vänster till höger, uppifrån och ner title(text) skriver ut strängen text överst i grafikfönstret xlabel(text) skriver ut strängen text under x-axeln ylabel(text) skriver ut strängen text under y-axeln hold on håller kvar aktuellt grafikfönster så att man kan rita flera figurer i samma fönster hold off avlutar kvarhållningen av grafikfönster axis([v1 v2 v3 v4]) sätter axlarnas skalor så att x min = v1, x max = v2, y min = v3 och y max = v4 length(x) ger antalet element i vektorn x sort(x) ger en vektor med elementen i vektorn x sorterade i växande ordning 5