En jämförelse av maskininlärningsalgoritmer för uppskattning av cykelflöden baserat på cykelbarometer- och väderdata
|
|
- Astrid Dahlberg
- för 8 år sedan
- Visningar:
Transkript
1 Fakulteten för teknik och samhälle Datavetenskap Examensarbete 15 högskolepoäng, grundnivå En jämförelse av maskininlärningsalgoritmer för uppskattning av cykelflöden baserat på cykelbarometer- och väderdata A comparison of machine learning algorithms for estimation of bicycle flows based on bicycle barometer and weather data Sebastian Aspegren Jonas Dahlström Examen: Kandidatexamen 180 hp Huvudområde: Datavetenskap Program: Datavetenskap och applikationsutveckling Datum för slutseminarium: Handledare: Johan Holmgren Andrabedömare: Mia Persson
2
3 Sammanfattning Kontext. Maskininlärningsalgoritmer kan användas för att göra förutsägelser baserat på en mängd data. Vi använder oss utav data ifrån en cykelbarometer lokaliserad vid en cykelväg i Malmö i vår forskning. Denna barometer räknar antalet förbipasserande cyklar per dag. Tillsammans med väderdata, som består av temperatur och nederbörd, jämför vi precisionen hos algoritmer för uppskattning av antalet cyklister. I denna studie implementerar vi och testar en mängd olika maskininlärningsalgoritmer som finns tillgängliga i programvaran Weka. Vi tar hjälp av tidigare forskning inom ämnet för att identifiera vilka algoritmer som lämpar sig bäst för vår typ av data. Vi väljer sedan ut de tre algoritmer med bäst träffsäkerhet och undersöker dessa närmare. Mål. Målet med studien är att vi ska få fram vilken maskininlärningsalgoritm som ger det mest tillförlitliga resultatet för att uppskatta antalet cyklister med hjälp av vår cykelbarometer- och väderdata. Metoder. Vi bearbetar datan ifrån cykelbarometern och väderstationen för att filtrera bort dagar som kan förvränga resultatet. Exempel på data som vi filtrerar bort är helgdagar och skollov. Med den filtrerade datan implementerar vi ett flertal maskininlärningsalgoritmer för att uppskatta antalet cyklister som kommer att passera barometern under en nära framtid. Resultaten ifrån algoritmerna använder vi för att jämföra och se vilken algoritm som ger den mest tillförlitliga uppskattningen för den aktuella tillämpningen. Resultat. Enligt våra resultat är Random SubSpace och Bagging de överlägsna algoritmerna för att uppskatta cykelflöde. I samtliga av våra experiment åstadkommer dessa två bättre resultat än övriga algoritmer som finns tillgängliga i Weka. Resultaten därefter skiljer sig från experiment till experiment men i genomsnitt är Wekas REPTree-algoritm den tredje mest precisa. Variabeln som bidrar mest till vår uppskattning av antalet cyklister är datum. Utan denna variabel reduceras korrelationen till hälften för samtliga algoritmer. När vi avlägsnar temperatur-variabeln presterar däremot algoritmerna bättre genom att ge högre korrelation. Analys. Vi har hittat en korrelation mellan datum och cykelflöden samt kunnat förutsäga cykelflöden beroende på datum och väder. Vi förväntade oss inte att variabeln temperatur gör det svårare för algoritmer att uppskatta antal cyklister. Vi antar att detta beror på att människor väljer att cykla efter datum istället för temperatur.
4
5 Abstract Context. Machine Learning Algorithms can be used to make predictions based on a variety of data. We use data from a bicycle barometer located at a bike path in Malmö in our research. This barometer counts the number of passing bikes per day. Together with weather data, consisting of temperature and precipitation, we compare the accuracy of the algorithms to estimate the number of cyclists. In this study we implement and test a variety of machine learning algorithms that are available in the software Weka. We rely on previous research in order to identify which algorithms are best suited for our type of data. We will then select the three algorithms with the best accuracy and examine them closer. Goal. The goal of the study is to identify the machine learning algorithm that provides the most reliable results to estimate the number of cyclists using our bicycle barometerand weather data. Methods. We process the data from the bicycle barometer and weather station to filter out days that can distort the results. Examples of data that we filter out are public holidays and school holidays. With the filtered data we implement three different machine learning algorithms to estimate the number of bicyclists who will pass the barometer in the near future. The results from the algorithms are then used to compare and see which algorithm that makes the most reliable estimate of the current application. Results. According to our results, the Random SubSpace and Bagging methods are the superior algorithms to estimate the cycle flow. These algorithms provide the best results in all of our experiments. The results differ beyond those two algorithms but on average Wekas REPTree algorithm is the third most accurate. The variable that contributes the most to our estimate of cyclists is date. Without the date predictor the correlation is reduced to half compared to the other experiments. However, when we eliminate the temperature predictor the correlation increases. Analysis. We have found a correlation between dates and bicycle flows. In addition we have been able to estimate the cycle flows, depending on date and weather. We did not expect that the variable temperature makes it harder for algorithms to estimate the number of cyclists. We assume that this is because people choose to cycle by date instead of the temperature.
6
7 Innehåll 1 Inledning Relaterad forskning Syfte Problembeskrivning Forskningsfrågor Begränsningar Forskningsmetod Databearbetning Experiment Utvärdering Teoretisk bakgrund 5 4 Databearbetning Interpolering Avvikande dagar Normalisering Dygnsformat Trendanalys Konvertering Experiment Icke-normaliserad data i timformat Normaliserad data i timformat Normaliserad data i dygnsformat Eliminering av variabler Procentuell avvikelse ifrån trendkurva Resultat Icke-normaliserad data i timformat Normaliserad data i timformat Normaliserad data i dygnsformat Eliminering av variabler Procentuell avvikelse ifrån trendkurva Analys och diskussion Diskussion utifrån erhållna resultat Dygnsformat Eliminering av variabler Trendanalys Konflikter angående mätskala Validitet
8 8 Slutsats Framtida arbete Referenser 18
9 1 Inledning Idag är det viktigt att vi väljer miljövänliga alternativ till bilen då global uppvärmning är ett växande problem [17]. Detta är till viss del på grund av den stora mängd koldioxid vägtransport släpper ut [4]. Dessutom står vägtransporter för 30% av alla PM2.5-partiklar och 50% av PM0.1-partiklar [20]. I de industrialiserade länderna blir cyklar ett alltmer populärt transportmedel. Från år 2003 till 2013 har antalet resenärer som väljer cykel istället för andra alternativ ökat från 34% till 37% i Malmö som är fokus för den här studien [22]. Enligt Mason et al. [11] ökar antalet cyklister sakta i industriländer men sjunker i många utvecklingsländer, vilket kan bero på miljömedvetenhet. År 2010 genomfördes en undersökning angående transportval inom EU. I 25 av dåvarande 27 medlemsstater i EU svarade över häften av de tillfrågade att de skulle kunna tänka sig att köpa en bil med reducerad hastighet för att minska utsläpp. Enligt samma enkät använder 53% av EU:s invånare bilen som huvudmetod för transport medan 7% använder cykel som deras primära transportmedel [21]. I centrala Malmö finns en cykelbarometer vid ett vältrafikerat cykelstråk som känner av förbipasserande cyklister och registrerar dessa. Detta sker via slingor som är nedgrävda i marken, så kallade induktiva loop-detektorer. Detektorerna vet även vilket håll cyklisten är på väg [9]. I den här studien analyserar vi data från denna barometer samt väderdata bestående av temperatur och nederbörd för att bygga kunskap om Malmös cyklister och hur deras benägenhet att cykla förändras baserat på faktorer såsom väder och tid på året. Genom att bearbeta denna data och använda maskininlärningsalgoritmer som beräknar korrelation mellan väderdata och antalet cyklister är målet att träna en modell att kunna uppskatta antalet cyklister som kommer att passera cykelbarometern. Vi gör en jämförelse mellan dessa algoritmer för att se vilken algoritm som uppskattar antalet cyklister med högst träffsäkerhet. Detta genomför vi i programmet Weka (Waikato Environment for Knowledge Analysis). Weka innehåller visualiseringsverktyg och algoritmer för att analysera data samt hitta korrelation mellan olika indata [27]. Målet med vår studie är att bidra till kunskap som kan användas för att stärka planeringen av till exempel vägarbete eller fungera som input för styrning- och analysmodeller för trafik. Detta förklaras mer i avsnitt Relaterad forskning Vi har identifierat tidigare forskning där man jämfört maskininlärningsalgoritmer inom olika typer av tillämpningsområden. Shah och Jivani [15] analyserar olika algoritmer för bröstcancerdata där de kom fram till att Naïve Bayes var träffsäkrast. Wu et al. [19] anser att detta är en av de tio mest inflytelserika algoritmerna för data mining. Lavesson och Davidsson [10] har studerat hur justering av indata påverkar inlärningsalgoritmer. Deras resultat påvisar att databearbetning är viktigare än val av algoritmer vilket leder oss till att fokusera på den delen av vår studie. Enligt vår kunskap finns det inte mycket forskning på detta specifika område gällande cykelflöden, även om liknande undersökningar har genomförts där man eftersträvar att uppskatta antalet cyklar i en cykelhållplats [5]. Malmö stad som är platsen för vår undersökning har gjort tidigare analyser på olika former av trafikflöden men de summerar endast antalet för att se om förändringar sker över tid och mellan geografiska områden [22]. Sigakova et al. [16] har utfört en liknande studie 1
10 med målet att undersöka de olika faktorer som påverkar vägtransport. Enligt deras studie är väder den faktor som påverkar restid mest. Något vi inte lägger fokus på i vår studie, men som ändå är relevant att diskutera, är Discrete choice models (DCM) [2]. Detta är en typ av modell som används för att förutsäga val som görs utav individer. DCM kan ge insikt i hur våra resultat påverkas av att individer väljer alternativa resvägar. DCM är just nu den dominerande metoden för att modellera beteende vid resande [6]. Dessa typer av modeller använder sig av ytterst aggregerad data och används typiskt för att studera transport i ett specifikt område. Modellerna baseras ofta på den så kallade 4-stegsmodellen som består av fyra steg för att uppskatta transportval. Stegen är: generering, där frekvensen av resor mellan zonerna bestäms; fördelning, där ursprungen matchas med destinationer; lägesval, där andelen resor mellan varje ursprung och destination som använder ett visst transportsätt beräknas; och rutt-tilldelning där alla resor tilldelas rutter. 4-stegsmodeller får dock kritik för att vara översimplifierade och för att de endast tar ett begränsat antal faktorer i åtanke vid beräkning av beteende vid resande [6]. Ett exempel på en Discrete choice-modell är Probit (probability + unit) som är en typ av regression där den beroende variabeln endast kan ha två värden. Denna modell syftar till att uppskatta sannolikheten att en observation tillhör ett specifikt värde utav dessa två värden. DCM uppskattar dock inte antal cyklister. För det krävs andra typer av modeller, vilket är fokus i den här studien. 1.2 Syfte Det huvudsakliga syftet med vår studie är att undersöka hur precist maskininlärningsalgoritmer kan uppskatta antal cyklister som förväntas passera en viss mätpunkt baserat på faktorer såsom väder, veckodag och tid på året. Vi undersöker detta genom att bearbeta cykeldatan till en tillämpningsbar form där vi sedan utför experiment med algoritmer som finns tillgängliga i programvaran Weka. Studien syftar även till att utföra en jämförelse mellan dessa algoritmer för att se vilken som ger det mest tillförlitliga resultatet. Med hjälp av denna studie hoppas vi att framtida forskning kan få en idé om vilken algoritm som fungerar mest tillfredsställande för liknande data. Planering av kollektivtrafik och estimering av trafikflöde kräver mycket indata för att skapa prognoser som är korrekta. Enligt Moreno och Nosal [12] minskar antalet cyklister när det regnar, vilket leder till att dessa personer väljer andra färdmedel, bland annat buss och tåg. Vår förhoppning är att våra resultat skall bidra till att Malmö stad enklare skall kunna planera kollektivtrafiken, till exempel genom att uppskatta när det behövs extrabussar för att minska trycket på de befintliga bussturerna. Ett förväntat användningsområde är inom trafikanalysmodeller där våra resultat förhoppningsvis kan användas som indata för att trafikprognoser ska ge säkrare uppskattningar. I dessa modeller krävs det att indatan håller hög kvalitet och är väl dokumenterad [26]. Vi genomför denna undersökning för att bidra till mer och bättre kunskap om cykeltrafik. Några exempel på modeller vi tror skulle kunna ha nytta av vår forskning är Sampers [25] som används för trafikprognoser i Sverige och ASIMUT [6] som är en agentbaserad modell för att modellera hur resenärer väljer resealternativ. 1.3 Problembeskrivning För att anskaffa data som kan tillämpas för maskininlärningsalgoritmer behöver vi bearbeta vår väder- och cykelbarometerdata. Det första problemet är hur vi ska gå tillväga för 2
11 att lösa detta. Vårt andra problem avseende bearbetning av vår data är att det saknas värden i datan, vilket påverkar resultatet av utdatan. Det finns även dagar där värdena skiljer sig kraftigt gentemot övriga dagar. Vi misstänker att saknad data beror på bland annat vägarbete. Vi behöver överväga om eliminering av dessa extremvärden kommer att påverka slutresultatet negativt. Ännu ett dilemma är hur vi ska formulera problemet för att det ska gälla under bredare villkor. Vi vet inte vilka faktorer i datan som är viktiga eller på vilket sätt utdatan ska presenteras. När cykeldatan slutligen är lämplig för maskininlärningsalgoritmer återstår det att identifiera algoritmer som är lämpliga för denna typ av data. Eftersom det inte har gjorts tidigare undersökningar med vår typ av data är ett ytterligare problem att välja algoritmer som kommer att ge tillförlitliga resultat. Därför utgår vi ifrån forskning inom närliggande områden, såsom andra typer av trafikflöden. Vi kommer även analysera vårt specifika problem och därifrån dra slutsatser om lämpliga algoritmer. 1.4 Forskningsfrågor Baserat på vårt problem (som vi beskriver i avsnitt 1.3) har vi valt att formulera och studera följande forskningsfrågor: FF1: Hur är det lämpligt att formulera inlärningsproblemet för att uppskatta cykelflöden baserat på faktorer såsom antal cyklister, datum, tid, temperatur och nederbörd? FF2: Vilken maskininlärningsalgoritm är bäst på att uppskatta antalet cyklister baserat på cykelbarometer- och väderdata? 1.5 Begränsningar Vi har cykelflödesdata ifrån enbart en cykelbarometer vilket resulterar i att vi endast vet hur cykelflödet varierar vid barometerns område och inte i övriga delar av staden. Vårt urval av algoritmer att undersöka begränsas till vad Weka erbjuder. Vi har valt att inrikta oss på endast tre maskininlärningsalgoritmer för att få en mer detaljerad undersökning. Detta gör att vi kan undersöka varje algoritm mer djupgående och därmed erhålla en större förståelse för resultaten. Ytterligare en begränsning är att vi inte räknar med skollov såsom höstlov, sportlov och påsklov samt helgdagar, klämdagar och högtidsdagar i vår studie. Anledningen är att dessa dagars värden inte är representativa för övriga mätdata, vilket kan leda till missvisande resultat. Vi inkluderar inte vindhastighet och vindriktning i våra experiment eftersom denna data är svårtolkad och kan därav bidra till felaktiga resultat. 2 Forskningsmetod Vi har valt att dela upp vår studie i tre moment: databearbetning, experiment och utvärdering. Figur 1 illustrerar hur vi arbetar och vilka forskningsfrågor som besvaras i de olika sektionerna. Processen är iterativ på så sätt att vi upprepar momenten tills vi anser att våra forskningsfrågor är besvarade. Vi återgår alltså till tidigare moment när vi ser ett behov av det. 3
12 Figur 1: Flödesdiagram över hur vi arbetar. 2.1 Databearbetning För att kunna besvara forskningsfrågorna är det nödvändigt att vi filtrerar och bearbetar datan ifrån cykelbarometern eftersom den saknar värden, men även för att avlägsna extremvärden som påverkar slutresultatet. Detta gör vi för att ordna fram representativ data som är möjlig att tillämpa på maskininlärningsalgoritmer. För att bearbeta vår data genererar vi först grafiska representationer av den. Genom att observera dessa grafer kan vi identifiera låga extremvärden. Dessa värden interpolerar vi via närliggande årtal. Vi tar även väderdata i åtanke vid inspektion och interpolering. Databearbetningen är mer detaljerat beskriven i avsnitt Experiment För att besvara FF1 och FF2 utför vi experiment på den bearbetade datan och testar olika maskininlärningsalgoritmer. Vi fokuserar på regressionsalgoritmer eftersom vi vill estimera en kontinuerlig variabel. Som baslinje för hur bra algoritmerna beräknar cykelflöde använder vi oss av ZeroR-algoritmen. Vi testar algoritmerna i Weka där vi även utnyttjar 10-delad korsvalidering för att ta reda på korrelationen mellan antal cyklister, datum, temperatur och nederbörd. Experimenten är mer detaljerat beskrivna i avsnitt 5. 4
13 2.3 Utvärdering Vi analyserar och jämför de resultat vi erhåller. Detta gör vi för att kunna ge en förklaring till FF1 och FF2 samt uppnå en bättre förståelse för de olika algoritmernas resultat och dess relation till indata. Utifrån givna resultat diskuterar vi relationer mellan parametrar och utdata. Som stöd lokaliserar vi information gällande händelser i Malmö stad samt egenskaper hos maskininlärningsalgoritmer som vi misstänker påverkar resultaten. Utvärderingen är mer detaljerat beskriven i avsnitt 7. 3 Teoretisk bakgrund År 1959 skapade Arthur Samuel ett självlärande program [14] som startade utvecklingen inom artificiell intelligens. Samuel beskriver maskininlärning som Field of study that gives computers the ability to learn without being explicitly programmed. Maskininlärning är alltså en typ av artificiell intelligens som förser datorer med förmågan att lära sig utan att explicit vara programmerade för det. För att skapa självlärande program används algoritmer som kan dra slutsatser med hjälp av en mängd data. Maskininlärning delas oftast in i tre kategorier: övervakad, icke-övervakad och belöningsförstärkt inlärning [13]. Figur 2 illustrerar en trädstruktur över de olika kategorierna. Vi använder oss av övervakad inlärning i vår studie eftersom antalet cyklister som barometern räknade är givet samt när de passerade detektorn. Övervakad inlärning kan beskrivas som en metod för att hitta mönster och generalisera utifrån kända input/output-par. I våra experiment är input bland annat datum, tid, temperatur samt nederbörd medan output är antal cyklister. Underkategorin klassificering beskrivs som problemet att identifiera vilken av en uppsättning kategorier en ny observation tillhör. Detta görs grundat på en uppsättning träningsdata vars kategori är känd. Regression är en statistisk process som eftersträvar att estimera relationerna mellan variablerna. Detta förenklar uppgiften att identifiera vilka variabler som är beroende av varandra. Icke-övervakad inlärning är maskininlärning där programmet ska antyda en funktion för att beskriva dold struktur utifrån givna paramet- Figur 2: Trädstruktur över de olika kategorierna inom maskininlärning. 5
14 rar. Eftersom relationerna i datan är okänd ges inte någon felbedömning eller belöning för en potentiell lösning. Belöningsförstärkt inlärning är ett område inom maskininlärning som är inspirerad av beteendevetarpsykologi. I denna underkategori läggs fokus på hur agenter bör vidta åtgärder i en miljö för att maximera någon form av belöning. Målet med belöningsförstärkt inlärning är att agenten ska generalisera och anpassa sitt beteende utifrån återkoppling som kommer då och då; detta kan jämföras med inlärning hos djur. Belöningsförstärkt inlärning kan användas för att förklara hur balans uppstår i scenarion med begränsad rationalitet [13]. Vi använder oss utav regressionsanalys för att undersöka hur värdena i cykeldatan skiljer sig ifrån en trendkurva som visar hur många cyklister det borde vara vid ett givet datum. Regressionsanalys används inom statistik och har som mål att skapa en funktion som bäst passar observerade data. I diagram kan man med hjälp av regression få fram linjer som approximerar värdena i datan, en så kallad regressionslinje. Genom att jämföra linjen med de olika datapunkterna i diagrammet urskiljer vi hur stora avvikelserna är. I vår studie använder vi icke-linjär regression för att generera trendkurvan. De maskininlärningsalgoritmer som vi väljer att undersöka närmare i vår analys är Random Subspace, Bagging och REPTree. Random SubSpace är en så kallad ensemble classifier som består av flera klassificerare. Det är alltså en algoritm som använder sig utav flera olika algoritmers resultat för att dra sina egna slutsatser [8]. Bagging, eller Bootstrap aggregating, är också en liknande typ av meta-algoritm som använder sig utav ett antal klassificerare. Bagging föreslogs av Leo Breiman 1994 [3]. Reduced Error Pruning Tree, eller REPTree, bygger ett regressionsträd via variansreducering och trimmar sedan det med reduced- pruning. Detta betyder att en separat trimningsuppsättning används för att trimma trädet [18]. 4 Databearbetning Vår data visar det totala antalet cyklister som passerat cykelbarometern varje timme under dygnet, alltså 24 mätpunkter per dag, från år 2006 till och med Datan visar även hur många cyklister som färdats i respektive färdriktning. Efter att ha inspekterat datan upptäcker vi att den innehåller saknade och felaktiga värden. Vid enstaka datum saknas data till viss del eller helt och hållet. Detta tyder på tekniska problem med cykelbarometern eller att det har varit vägarbete i området som har gjort cykelvägen oåtkomlig. 4.1 Interpolering Ett problem som vi stöter på är att veta om avvikande data tyder på felaktig data eller om det bara är färre eller fler antal cyklister dessa dagar. Vi har med hjälp av grafiska representationer över antalet cyklister över åren analyserat värdena. Sker det en stor avvikelse gentemot de andra åren inspekterar vi den råa datan just för de datum det handlar om och undersöker om vi hittar något som inte stämmer överens med liknande dagar. Oftast upptäcker vi att data saknas helt för dessa dagar. I dessa fall interpolerar vi värdena för de dagarna genom att beräkna medelvärdet av närliggande år för motsvarande dagar. Vid mindre avvikelser är det däremot svårare att undersöka vad som påverkar resultatet. Möjliga anledningar är att vägarbete har gjort det svårframkomligt, cykelbarometern har inte registrerat samtliga cyklister eller att vädret har påverkat. Vi jämför väderdatan med 6
15 cykeldatan för de dagar vi anser innehålla korrupt mätdata för att se om vi kan utesluta att vädret hade någon påverkan. Först undersöker vi om vi kan se någon drastisk temperaturskillnad gentemot de närliggande dagarna och övriga år för samma datum. Sedan undersöker vi om det var kraftig nederbörd som kan ha fått antalet cyklister att reduceras. Våra resultat ifrån dessa tester är att vädret inte skiljer sig ifrån övriga år och därför kan vi påstå att vädret troligtvis inte är en bidragande faktor till avvikelserna. Vid de tillfällen då data saknas upptäckte vi att det oftast endast är mätdata för cykeltrafik i ena färdriktningen som är noll, samtidigt som det är normala värden för den motsatta riktningen. Detta tyder på att det antingen har varit tekniska fel i mätinstrumenten eller att det pågått ett vägarbete i den ena färdriktningen. Vi interpolerar de värden som vi anser är påverkade av detta för att minimera felaktig data. Detta gör vi genom att identifiera veckan och veckodagen för datumet som behöver interpoleras och sedan lokalisera motsvarade vecka och dag ifrån året innan och efter. Medelvärdet av de närliggande åren använder vi som det interpolerade värdet. Denna åtgärd utför vi för varje timme tills vi anser att det inte finns mer felaktig data. 4.2 Avvikande dagar Vi eliminerar alla mätpunkter som infaller under dagar som vi nämner i avsnitt 1.5 för att de inte ska påverka våra slutresultat, det vill säga skollov, helgdagar, klämdagar och högtidsdagar. Väderdatan som vi har tillgång till behöver också bearbetas för att dagarna ska stämma överens med cykeldatan. Det saknas väderdata för de sista fem månaderna av cykeldatan, vilket leder till att vi utesluter dessa månader. Då återstår instanser att utföra tester på. Efter denna bearbetning får vi fram data som är mer lämplig för maskininlärningsalgoritmer och är redo att testas i Weka. 4.3 Normalisering Vi vill även studera om resultatet skiljer sig med normaliserad data. Detta gör vi för att minska variansen mellan instanserna. Normaliseringen utför vi genom att ge den råa datan ett värde mellan 0 och 1 istället för dess originalvärden. Detta lämpar sig för algoritmer som bygger på regression, vilket vår data passar bra till. Normaliseringen sker via formeln: x = x min(x) max(x) min(x) Där x är originalvärdet, min(x) är det minsta värdet av typen x och max(x) är det största värdet av typen x i hela mängden data. Nu har vi både den råa datan och data som är normaliserad. Genom att jämföra dessa två med varandra kan vi se om det blir någon skillnad avseende att uppnå så bra estimering av cykelflöden som möjligt. 7
16 Figur 3: Antal cyklister per dag och medeltemperatur. 4.4 Dygnsformat Vi vill även undersöka om algoritmerna presterar bättre eller sämre med cykeldata i dygnsformat istället för nuvarande format där mätpunkterna är för varje timme. Detta gör vi genom att summera alla cyklister per dag samt ta medelvärdet för dagens temperatur och nederbörd. Figur 3 visar hur cykelflödet och temperaturen förändras under vår mätperiod. 4.5 Trendanalys Vi gör även en trendanalys som Figur 4 åskådliggör för att kunna undersöka den procentuella avvikelsen mot ett uppskattat flöde som baseras på uppskattade säsongsvariationer och en trenduppskattning över längre tid. Detta gör vi eftersom vi bara har punktmätningar och därför anser vi att det är bra med en analys som inte tar hänsyn till det exakta antalet cyklister utan jämför den procentuella avvikelsen mot vad vi uppskattar att det borde vara. Det finns en trend med ökad cykling i Malmö som helhet [22], medan cykelbarometern visar en svagt nedåtgående trend. Målet med vår trendanalys är att förtydliga detta. Figur 4 visar veckosnittet av antalet cyklister istället för summan per dygn för att det ska bli en jämnare och tydligare kurva. Det gör vi genom att för varje dag summera antal cyklister tre dagar före och tre dagar efter och sedan dividera summan med antalet dagar. Anledningen till att vi tar fram denna trendkurva är för att vi kan se att antalet cyklister varierar på ett obeskrivligt sätt. Vi misstänker att detta har att göra med hur cykeltrafiken har förändrats i övriga delar av Malmö. Till exempel öppnade tågstationen vid triangeln år 2010, vilket säkerligen är en bidragande faktor till att cykelbarometern visar en nedåtgående trend [24]. 8
17 Figur 4: Veckosnitt för antal cyklister och medeltemperatur med trendkurva. 4.6 Konvertering Slutligen konverterar vi vår kombinerade cykelbarometer- och väderdata i både tim- och dygnsformat till filer som används som indata i Weka. Detta gör vi genom att ange attribut för variablerna i datan så att Weka kan läsa filerna och veta vad det är för typ av variabler. Bortsett från datum-variabeln så består vår data enbart av numeriska variabler. 5 Experiment För att utvärdera våra modeller använder vi oss av 10-delad korsvalidering för samtliga tester i Weka. Korsvalidering är en metod för att uppskatta prediktionsfel genom att dela upp datan i tio delar för träning och validering där nio delar används till träning och den återstående till validering. Detta repeteras tio gånger så att samtliga delar används till validering en gång. De tio uppsättningarna av estimeringsfel som detta resulterar i används sedan för att skapa ett medelvärde av prediktionsfelet. När vi utför experimenten har vi valt att förhålla oss till regressionsalgoritmer av olika former. Som utgångspunkt använder vi oss av ZeroR-algoritmen. Detta gör vi eftersom ZeroR är ytterst enkel då den ignorerar alla utom en variabel i vår data och borde därför ge en bra grund till resten av algoritmernas precision [18]. Vi väljer att testa samtliga algoritmer i Weka som fungerar med vår typ av data för att få kunskap om vilka som inte alls lämpar sig för vår data. Dock väljer vi att inrikta oss mer på de tre algoritmer som ger bäst uppskattningar. Vårt experiment är uppdelat i följande delexperiment: Icke-normaliserad data i timformat Normaliserad data i timformat 9
18 Normaliserad data i dygnsformat Eliminering av variabler Procentuell avvikelse ifrån trendkurva Samtliga delexperiment beskrivs i mer detalj nedan. 5.1 Icke-normaliserad data i timformat I följande test undersöker vi vår interpolerade men inte normaliserade data i timformat, alltså 24 mätpunkter per dag. Detta är inte kompatibelt med alla regressionsalgoritmer vi planerar att testa men ger ändå ett intressant perspektiv på hur precisa algoritmerna är när datan inte är färdigbearbetad. Vid detta test använder vi summan av cyklister per timme, temperatur, nederbörd samt datum och tid som parametrar i Weka för att uppskatta antalet cyklister. 5.2 Normaliserad data i timformat I detta delexperiment testar vi samtliga algoritmer med den normaliserade datan för att se om resultaten skiljer sig från den icke-normaliserade datan. Även här använder vi oss av summan av cyklister per timme, temperatur, nederbörd samt datum och tid som parametrar. 5.3 Normaliserad data i dygnsformat Här testar vi alla tillgängliga algoritmer i Weka med vår data i dygnsformat, nämligen summan av antalet cyklister för dygnet samt medelvärdet för temperatur och nederbörd vilket resulterar i en mätpunkt per dag. Detta leder till att vi endast har 2469 instanser att generalisera från, istället för dess tidigare instanser på Detta kan resultera i att algoritmerna inte kommer ge lika bra resultat som tidigare eftersom det blir en mindre datamängd. 5.4 Eliminering av variabler Vi vill även undersöka hur eliminering av en variabel åt gången påverkar resultatet. Detta gör vi för att förenkla vår modell och för att inte riskera överanpassning samt få kunskap om vilken variabel som har störst respektive minst inverkan för att uppskatta antal cyklister. Har någon variabel en negativ eller ytterst liten inverkan på slutresultatet överväger vi om den ska elimineras eller bearbetas. Vi börjar med att ta bort datum och testa algoritmerna. Sedan lägger vi tillbaka datum igen och tar bort temperatur-variabeln och utför experimentet igen. Slutligen upprepar vi detta för nederbörd-variabeln. 5.5 Procentuell avvikelse ifrån trendkurva I detta delexperiment vill vi se hur antalet cyklister avviker procentuellt ifrån trendkurvan. Detta test utför vi med trenddata där varje mätning är indelad i dagar. Figur 5 illustrerar antal dagar och hur mycket summan av cyklister skiljer sig ifrån trendkurvan. För att 10
19 Figur 5: Histogram över hur mycket summan av cyklister per dag avviker ifrån trendkurvan. beräkna avvikelsen från trendkurvan dividerar vi först det faktiska värdet med värdet från trendfunktionen som vi sedan multiplicerar med 100 för att få det i procentform. På så sätt har vi fått fram antal cyklister i procent. Desto närmare 100% detta värdet är, desto närmare är det faktiska värdet för den dagen. Sedan subtraherar vi dessa värden med 100 för att få fram avvikelsen från trendkurvan. Om det till exempel är ett negativt värde betyder det att det är färre antal cyklister än vad trendkurvan visar. Som Figur 5 visar är de mest förekommande avvikelserna mellan 0-30%, vilket betyder att för de flesta dagar är antalet cyklister oftast över trenden. Vi räknar även ut medelvärdet för samtliga avvikelser. Denna medelavvikelsen är 3,5% vilket innebär att antalet cyklister har en tendens att överstiga trendkurvan men dock inte med mycket. Vi testar värdena som visar den procentuella avvikelsen ifrån trendkurvan i Weka för att se om uppskattningarna blir annorlunda jämfört med datan som innehåller de faktiska värdena. Detta gör vi för att besvara FF1 och erhålla kunskap om vilken form datan ska vara i för att algoritmerna ska ge säkrare uppskattningar. 6 Resultat När vi testar vår data i Weka får vi utdata i form av olika mått. Det vi är mest intresserade av är korrelationskoefficienten (eng. correlation coefficient), alltså korrelationen mellan det faktiska och det uppskattade värdet. Denna koefficient ger ett värde mellan -1 och 1, där 0 betyder ingen korrelation, 1 betyder en stark positiv korrelation och -1 en stark negativ korrelation. Vi vill ha ett värde som är så nära 1 som möjligt. Måttet genomsnittlig absolut avvikelse (eng. mean absolute ) visar medelvärdet på algoritmens fel. Ett värde på 0 betyder att den har uppskattat alla testvärden helt korrekt. Kvadratiska medelvärdet av avvikelsen (eng. root mean squared ) representerar standardavvikelsen av skillnaderna mellan de uppskattade värdena och de faktiska värdena. Detta hjälper till att sammanställa graden av fel i estimeringarna. Det absoluta felet (eng. absolute ) är storleken på 11
20 skillnaden mellan det exakta värdet och uppskattningen. Det relativa felet (eng. relative absolute ) är det absoluta felet delat med storleken på det exakta värdet. Det procentuella felet är det relativa felet uttryckt i procent. Kvadratiska relativa avvikelsen (eng. root relative squared ) tar det totala kvadrerade felet och normaliserar det genom att dividera med det totala kvadrerade felet av den enkla uppskattaren. Genom att ta kvadratroten ur relative squared reducerar man felet till samma dimensioner som kvantiteten som ska uppskattas. Totala antalet instanser (eng. total number of instances) är antalet rader i datan. 6.1 Icke-normaliserad data i timformat Utifrån vårt första delexperiment med endast interpolerad data upptäcker vi att algoritmen Random SubSpace har en överlägsen korrelation på 0,7559 jämfört med den bäst presterande regressionsalgoritmen REPTree som uppnår 0,6439 i korrelation. ZeroR resulterar i låga i korrelation. De fem algoritmer med högst korrelation visas i Tabell 1. Samtliga regressionsalgoritmer hamnade i den övre halvan av alla testade algoritmer. Tabell 1: Resultat för rådata i timformat. Indata är datum, temperatur och nederbörd. Utdata är antal cyklister. Algoritm Correlation coefficient Mean absolute Root mean squared Relative absolute Root relative squared Total Number of Instances Random SubSpace % % Bagging % % REPTree % % RegressionByDiscretization % % M5P % % Normaliserad data i timformat I testet med normaliserad data är Random SubSpace överlägsen med en korrelation på 0,7887 jämfört med regressionsalgoritmen REPTree som uppnår en korrelation på 0,6439. I detta delexperiment ger ZeroR samma resultat som i föregående test. Resultaten för Tabell 2: Resultat för normaliserad data i timformat. Indata är datum, temperatur och nederbörd. Utdata är antal cyklister. Algoritm Correlation coefficient Mean absolute Root mean squared Relative absolute Root relative squared Total Number of Instances Random SubSpace % % Bagging % % REPTree % % RegressionByDiscretization % % M5P % %
21 de fem bästa algoritmerna visas i Tabell 2. Random SubSpace ger ganska mycket högre korrelation jämfört med första experimentet samtidigt som övriga algoritmer knappt visar någon skillnad. 6.3 Normaliserad data i dygnsformat När vår data är i dygnsformat ger Random SubSpace en korrelation på 0,483 vilket fortfarande är det bästa resultatet av samtliga algoritmer. REPTree uppnår 0,4112 och ZeroR resulterar i -0,0536. De algoritmer som presterar bäst visas i Tabell 3. Vi kan se att både M5P och AdditiveRegression presterar bättre än REPTree när det handlar om dygn istället för timmar. Tabell 3: Resultat för normaliserad data i dygnsformat. Indata är datum, medeltemperatur och medelnederbörd. Utdata är antal cyklister. Algoritm Correlation coefficient Mean absolute Root mean squared Relative absolute Root relative squared Total Number of Instances Random SubSpace % % 2469 Bagging % % 2469 M5P % % 2469 AdditiveRegression % % 2469 REPTree % % Eliminering av variabler I delexperimentet där vi tar bort de olika variablerna, en åt gången, uppmärksammar vi ett par saker. Om vi tar bort datum och testar med vår normaliserade data resulterar det i att korrelationen blir mycket lägre för samtliga algoritmer, i vissa fall halveras den. Till exempel får Random SubSpace endast i korrelation, jämfört med när datum finns med. Om vi däremot tar bort temperatur-variabeln får några algoritmer högre korrelation. Algoritmerna vi fokuserar på (Random SubSpace, Bagging och REPTree) har en ökad korrelation vid eliminering av temperatur-variabeln trots att övriga algoritmer visar Tabell 4: Resultat för normaliserad data i timformat med temperatur-variabeln bortplockad. Indata är datum och nederbörd. Utdata är antal cyklister. Algoritm Correlation coefficient Mean absolute Root mean squared Relative absolute Root relative squared Total Number of Instances Bagging % % Random SubSpace % % REPTree % % M5P % % AdditiveRegression % %
22 en reducerad korrelation. Bagging som tidigare resulterade i ger nu högst korrelation av alla algoritmer, nämligen Random SubSpace ökar till Tabell 4 visar resultaten för de algoritmer som presterar bäst när temperatur-variabeln är bortplockad. När vi väljer att ta bort nederbörd-variabeln blir det ingen märkvärdig skillnad på resultatet. 6.5 Procentuell avvikelse ifrån trendkurva När vi undersöker den procentuella avvikelsen ifrån trendkurvan får vi kunskap om hur mycket de faktiska siffrorna skiljer sig gentemot trenden. När vi beräknar medelvärdet för samtliga avvikelser blir resultatet 103,5%, vilket betyder att antal cyklister är överlag 3,5% över trenden. Det högst uppmätta värdet i trendanalysen är 231,72%, alltså mer än dubbelt så mycket som trenden visar. Den lägsta siffran visar 11,8%. När vi testar den procentuella avvikelsen i Weka använder vi oss utav datum i dygnsformat, genomsnittet för temperatur och nederbörd samt avvikelsen ifrån trendkurvan i procent. Detta gör vi för att se om algoritmerna presterar bättre med data som visar avvikelsen jämfört med de faktiska värdena för antal cyklister och därigenom kunna besvara FF1. Tabell 5 illustrerar de fem bästa algoritmerna för denna form av data. Resultaten skiljer sig en del ifrån testerna med rådata men Random SubSpace och Bagging är fortfarande algoritmerna med bäst uppskattning. Däremot presterar de inte lika bra som i tidigare tester, där rådata används. I detta test är REPTree inte längre en av de fem algoritmer med högst korrelationskoefficient. Det är viktigt att tänka på att utdatan är den procentuella avvikelsen och inte det absoluta antalet cyklister, vilket gör att resultaten måste tolkas annorlunda. Tabell 5: Resultat för procentuell avvikelse i dygnsformat. Indata är datum, medeltemperatur och medelnederbörd. Utdata är procentuell avvikelse. Algoritm Correlation coefficient Mean absolute (%) Root mean squared (%) Relative absolute Root relative squared Total Number of Instances Random SubSpace % % 2469 Bagging % % 2469 M5Rules % % 2469 M5P % % 2469 AdditiveRegression % % Analys och diskussion 7.1 Diskussion utifrån erhållna resultat Dygnsformat Vi misstänker att anledningen till att korrelationen för samtliga algoritmer är lägre i experimentet med mätdata som dygn är för att antalet instanser algoritmerna kunde bearbeta är färre jämfört med tidigare experiment då vi använder oss av vår data för timmar för att emulera mätningar för dygn. Enligt en undersökning från Microsoft [1] är det högre precision i uppskattningar utförda på större mängder data vilket kan förklara anledningen 14
23 till att korrelationen ökar vid ett större antal instanser. Vi misstänker även att mätdata för dygn inte är lika symmetrisk då det är medelvärden och summeringar som används som parametrar Eliminering av variabler I experimentet där vi eliminerar en variabel åt gången får vi lägre korrelation vid eliminering av datum. Detta tyder på att antalet cyklister är starkt beroende av datum. När vi eliminerar temperatur ger algoritmerna vi valt att inrikta oss på högre korrelation. Detta förväntade vi oss inte eftersom vi anser att temperatur och antal cyklister har en koppling. Vi kan som exempel tydligt se en drastisk reduktion i antal cyklister december 2010 då temperaturen är kraftigt reducerad. Vi misstänker att detta beror på att folk cyklar efter datum istället för temperatur. Även om det är relativt varmt i några dagar under vintermånaderna misstänker vi att Malmös cyklister väljer att låta cykeln stå, just för att det är vinter och det är inte värt besväret när det troligtvis blir kallt snart igen. Motsatsen gäller under övriga årstider, även om det är kallt några dagar så väljer folk att cykla ändå. När vi eliminerar nederbörd och undersöker algoritmerna blir det ytterst liten skillnad i korrelation vilket indikerar att nederbörd har en minimal påverkan på antalet cyklister. Detta beror med stor säkerhet på att majoriteten av värdena för nederbörd är 0, vilket resulterar i att algoritmerna inte har stor nytta av denna variabel i sina uppskattningar Trendanalys I experimentet angående trendanalysen är det högsta värdet 231,72%, en avvikelse på 131,72% ifrån trendlinjen. Detta kan bero på ett antal faktorer men vi misstänker att den årliga Malmöfestivalen som inträffar i slutet av augusti har stor inverkan. Det är exakt dessa dagar där avvikelsen är som störst. Malmöfestivalen besöks av runt 1,5 miljoner varje år [23]. Ungefär likadana avvikelser är det för de flesta år dessa dagar, över 200% enligt vår analys. Dock uppnår vi inte så höga siffror i slutet av augusti för åren innan 2010, men de ligger i närheten av 200%. Däremot för år 2010 och framåt har antal cyklister ökat under dessa dagar, samtidigt som trendkurvan är lägre jämfört med åren innan Detta tyder på att fler människor cyklar i slutet av augusti år 2010 till 2014 men att den totala summan cyklister har minskat. I detta experiment förvärvade vi kunskap om att algoritmerna har svårare för att göra korrekta uppskattningar med den procentuella avvikelsen som data. Tack vare detta fick vi mer information för att besvara FF1, att använda de faktiska värdena istället för avvikelsen för att formulera inlärningsproblemet Konflikter angående mätskala Innan vi påbörjade våra experiment var vi intresserade av att undersöka algoritmen Naïve Bayes efter att Shah och Jivani [15] drog slutsatsen att den presterade bäst med deras data. Likadant var det för de tio algoritmer som Wu et al. [19] skriver är de mest inflytelserika. När vi genomför experimenten upptäcker vi att dessa algoritmer inte lämpar sig för vår strikt numeriska data. Detta leder oss till att inse hur svårt det är att använda sig av tidigare forskning inom maskininlärningsalgoritmer för att underlätta arbetet. Eftersom all data är unik krävs det att experiment utförs separat på varje unik uppsättning data för att identifiera vilken algoritm som lämpar sig bäst [7]. 15
24 7.2 Validitet Vår data saknar en del mätvärden och innehåller några korrupta siffror. Datumen till ger slingorna på den ena sidan vägen inga mätresultat och till ger slingorna på motsatt sida inga mätresultat. Vi misstänker att detta beror på någon form av avspärrning då mätresultaten försvinner först det ena året för det ena hållet sedan det andra året för det andra hållet vid ungefär samma tidpunkt. Vi saknar även värden i perioden till samt ett antal uppenbart felaktiga värden i perioden till Dessa mätfel åtgärdar vi genom interpolering som beskrivs i avsnitt 4. Medelvärdet för vår trendkurva överstiger 100%. Som vi nämner i avsnitt 6.5 är medelvärdet för samtliga avvikelser 103,5%. Detta innebär att trendkurvan omfattar fler cyklister än vår faktiska mätdata och kan därför inte anses som helt korrekt. Eftersom vi behandlar ett icke-linjärt problem är korrelationskoefficienten inte den optimala enheten för felmått då den lämpar sig bättre för linjär regression. Dock tror vi att de identifierade osäkerheterna inte påverkat våra resultat i större utsträckning eftersom de är relativt små. 8 Slutsats När vi undersöker slutresultaten av experimenten ger den bäst presterande algoritmen Random SubSpace knappt 0.8 i korrelation både för normaliserad och icke-normaliserad data i timformat. Det är någorlunda nära korrelation koefficient 1, vilket betyder maximalt positivt samband. Däremot är felmarginalen hög för samtliga algoritmer. När vår data är i timformat ligger felmarginalens medelvärde strax över 100 cyklister. Som jämförelse visar den råa datan att det som mest är cyklister under en och samma timme. Det är som mest ett par timmar per dag som siffrorna uppnår detta. Medelvärdet för antal cyklister per timme är cirka 242 vilket innebär att en felmarginal på över 100 är inte så bra som vi hade hoppats. Likadant är det för experimenten med dygnsformat. De ger höga felmarginaler, över 1600 cyklister fel. Däremot är detta en mindre felmarginal när vi jämför det med medelvärdet för antal cyklister per dag, vilket är cirka Vi förmodar att felmarginalen är hög eftersom vi inte inkluderar otaliga faktorer i våra experiment såsom evenemang, konjunktur och beteende. De mest precisa uppskattningarna i samtliga av våra tester är när vi använder normaliserad rådata i timformat. När vi eliminerar temperatur-variabeln ökar korrelationen ytterligare. Detta ger oss svar på FF1 eftersom vi formulerar inlärningsproblemet för att förtydliga helhetsbilden av cykelflöden. Random SubSpace och Bagging är de bäst presterande algoritmerna i samtliga av våra experiment, vilket besvarar FF Framtida arbete I framtida arbete kan man beräkna hur stor påverkan skollov, helgdagar, klämdagar och högtidsdagar har på algoritmerna samt hur mycket de skiljer sig åt ifrån vardagar. Om man kan få tag på cykeldata ifrån mer än en cykelbarometer i Malmö kommer man att få en tydligare bild på hur cykelflödet varierar i hela staden. Vi begränsar oss till de maskininlärningsalgoritmer som finns i Weka. Därför kan man i framtida arbete testa 16
25 fler algoritmer än de vi väljer att undersöka. Dessutom inriktar vi oss mer detaljerat på endast tre algoritmer. I framtiden kan man undersöka fler algoritmers resultat i detalj för att få kunskap om varför de presterar bättre eller sämre än andra. Man kan även lägga till fler variabler till datan, till exempel vindhastighet och vindriktning, för att se om detta bidrar till ännu bättre uppskattningar. Under våra experiment upptäcker vi att temperatur gör det svårare för en del algoritmer att uppskatta antal cyklister. En möjlig vidareutveckling av detta experiment hade varit att modellera medeltemperaturen för den senaste månaden för att möjligtvis få bättre slutresultat. Vi har inte uteslutit extremvärden i våra experiment. Framtida studier kan undersöka om algoritmerna ger säkrare uppskattningar om man bearbetar dessa extremvärden. I vår studie använder vi oss av korrelationskoefficient som ett av våra felmått. I framtida arbete uppmanar vi till att undersöka hur determinationskoefficienten fungerar som utvärderingsmått då den kan förtydliga variationen. 17
Regression med Genetiska Algoritmer
Regression med Genetiska Algoritmer Projektarbete, Artificiell intelligens, 729G43 Jimmy Eriksson, jimer336 770529-5991 2014 Inledning Hur många kramar finns det i världen givet? Att kunna estimera givet
Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?
När vi nu lärt oss olika sätt att karaktärisera en fördelning av mätvärden, kan vi börja fundera över vad vi förväntar oss t ex för fördelningen av mätdata när vi mätte längden av en parkeringsficka. Finns
Tillgänglighet sida 1
Beskrivning och beräkningsmetod av utfallsindikatorer som hör till hållbarhetsaspekten: TILLGÄNGLIGHET Aspekt Tillgänglighet Utfallsindikatorer Objektiv EN/Acc-I-O1 Kvot av genomsnittlig restid mellan
1 Mätdata och statistik
Matematikcentrum Matematik NF Mätdata och statistik Betrakta frågeställningen Hur mycket väger en nyfödd bebis?. Frågan verkar naturlig, men samtidigt mycket svår att besvara. För att ge ett fullständigt
Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval
Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande
729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann
729G43 Artificiell intelligens / 2015 Maskininlärning 3 Marco Kuhlmann Förra gången: Perceptroninlärning Beslutsregel predicerat y-värde Exempel: AND Välj parametrar θ 0, θ 1, θ 2 sådana att perceptronen
Statistiska samband: regression och korrelation
Statistiska samband: regression och korrelation Vi ska nu gå igenom något som kallas regressionsanalys och som innebär att man identifierar sambandet mellan en beroende variabel (x) och en oberoende variabel
1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell
Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning
Värdering av möjligheterna att statistiskt klarlägga förändringar av fosforutlakningen från jordbruksmark
Värdering av möjligheterna att statistiskt klarlägga förändringar av fosforutlakningen från jordbruksmark Bakgrund Jordbruksverket planerar att i utvalda typområden undersöka i vilken utsträckning utlakningen
Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8
1 Instuderingsfrågor till avsnittet om statistik, kursen Statistik och Metod, Psykologprogrammet på KI, T8 Dessa instuderingsfrågor är främst tänkta att stämma överens med innehållet i föreläsningarna,
OBS! Vi har nya rutiner.
KOD: Kurskod: PM2315 Kursnamn: Psykologprogrammet, kurs 15, Metoder för psykologisk forskning (15 hp) Ansvarig lärare: Jan Johansson Hanse Tentamensdatum: 14 januari 2012 Tillåtna hjälpmedel: miniräknare
729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap
729G43 Artificiell intelligens (2016) Maskininlärning 3 Marco Kuhlmann Institutionen för datavetenskap Modell med vektornotation parametervektor särdragsvektor Perceptron kombinerar linjär regression med
Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp
Sid (7) Lö sningsfö rslag till tentamen i matematisk statistik Statistik öch kvalitetsteknik 7,5 hp Uppgift Nedanstående beräkningar från Minitab är gjorda för en Poissonfördelning med väntevärde λ = 4.
a = a a a a a a ± ± ± ±500
4.1 Felanalys Vill man hårddra det hela, kan man påstå att det inte finns några tal i den tillämpade matematiken, bara intervall. Man anger till exempel inte ett uppmätt värde till 134.78 meter utan att
Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi
1(6) PCA/MIH Johan Löfgren 2016-11-10 Skolprestationer på kommunnivå med hänsyn tagen till socioekonomi 1 Inledning Sveriges kommuner och landsting (SKL) presenterar varje år statistik över elevprestationer
732G71 Statistik B. Föreläsning 4. Bertil Wegmann. November 11, IDA, Linköpings universitet
732G71 Statistik B Föreläsning 4 Bertil Wegmann IDA, Linköpings universitet November 11, 2016 Bertil Wegmann (IDA, LiU) 732G71, Statistik B November 11, 2016 1 / 34 Kap. 5.1, korrelationsmatris En korrelationsmatris
Föreläsning 12: Regression
Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är
Vindkraft och ML. - hur kan vindkraft dra nytta avml
Vindkraft och ML - hur kan vindkraft dra nytta avml AI och ML Intelligens: förmågan att utnyttja kunskap för att bättre lösa en klass av uppgifter Lärande: förmågan att förbättra sin förmåga att lösa uppgifterna
F3 Introduktion Stickprov
Utrotningshotad tandnoting i arktiska vatten Inferens om väntevärde baserat på medelvärde och standardavvikelse Matematik och statistik för biologer, 10 hp Tandnoting är en torskliknande fisk som lever
729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap
729G43 Artificiell intelligens (2016) Maskininlärning 2 Marco Kuhlmann Institutionen för datavetenskap Förra gången: Gradientsökning tangentens lutning i punkt θ steglängdsfaktor Översikt Introduktion
Forskningsmetodik 2006 lektion 2
Forskningsmetodik 6 lektion Per Olof Hulth hulth@physto.se Slumpmässiga och systematiska mätfel Man skiljer på två typer av fel (osäkerheter) vid mätningar:.slumpmässiga fel Positiva fel lika vanliga som
Finansiell statistik
Finansiell statistik Föreläsning 5 Tidsserier 4 maj 2011 14:26 Vad är tidsserier? En tidsserie är en mängd av observationer y t, där var och en har registrerats vid en specifik tidpunkt t. Vanligen görs
Upprepade mätningar och tidsberoende analyser. Stefan Franzén Statistiker Registercentrum Västra Götaland
Upprepade mätningar och tidsberoende analyser Stefan Franzén Statistiker Registercentrum Västra Götaland Innehåll Stort område Simpsons paradox En mätning per individ Flera mätningar per individ Flera
732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23
732G71 Statistik B Föreläsning 8 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23 Klassisk komponentuppdelning Klassisk komponentuppdelning bygger på en intuitiv
F16 MULTIPEL LINJÄR REGRESSION (NCT , 13.9) Anpassning av linjär funktion till givna data
Stat. teori gk, ht 006, JW F16 MULTIPEL LINJÄR REGRESSION (NCT 13.1-13.3, 13.9) Anpassning av linjär funktion till givna data Data med en beroende variabel (y) och K stycken (potentiellt) förklarande variabler
10.1 Enkel linjär regression
Exempel: Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben. De halvledare vi betraktar är av samma storlek (bortsett benlängden). 70 Scatterplot
Tentamen i matematisk statistik
Sid (7) i matematisk statistik Statistik och kvalitetsteknik 7,5 hp Tillåtna hjälpmedel: Miniräknare. Studenterna får behålla tentamensuppgifterna. Skrivtid: 4.00-7.00 ger maximalt 24 poäng. Betygsgränser:
I vår laboration kom vi fram till att kroppstemperaturen påverkar hjärtfrekvensen enligt
Introduktion Vi har fått ta del av 13 mätningar av kroppstemperatur och hjärtfrekvens, varav på hälften män, hälften kvinnor, samt en studie på 77 olika flingsorters hyllplaceringar och sockerhalter. Vi
34% 34% 13.5% 68% 13.5% 2.35% 95% 2.35% 0.15% 99.7% 0.15% -3 SD -2 SD -1 SD M +1 SD +2 SD +3 SD
6.4 Att dra slutsatser på basis av statistisk analys en kort inledning - Man har ett stickprov, men man vill med hjälp av det få veta något om hela populationen => för att kunna dra slutsatser som gäller
Introduktion till algoritmer - Lektion 1 Matematikgymnasiet, Läsåret 2014-2015. Lektion 1
Kattis Lektion 1 I kursen används onlinedomaren Kattis (från http://kattis.com) för att automatiskt rätta programmeringsproblem. För att få ett konto på Kattis anmäler du dig på Programmeringsolympiadens
Vetenskaplig metod och Statistik
Vetenskaplig metod och Statistik Innehåll Hur ska man lägga upp ett experiment? Hur hanterar man felkällor? Hur ska man tolka resultatet från experimentet? Experimentlogg Att fundera på Experiment NE:
732G60 - Statistiska Metoder. Trafikolyckor Statistik
732G60 - Statistiska Metoder Trafikolyckor Statistik Projektarbete Grupp 2 Linköpings Universitet VT2011 En framtid där människor inte dödas eller skadas för livet i vägtrafiken Albin Bernholtz, albbe876
OBS! Vi har nya rutiner.
KOD: Kurskod: PC1203 och PC1244 Kursnamn: Kognitiv psykologi och metod och Kognitiv psykologi och utvecklingspsykologi Provmoment: Metod Ansvarig lärare: Linda Hassing Tentamensdatum: 2012-11-17 Tillåtna
Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå
Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; () Mixed effect models; (3)
Valresultat Riksdagen 2018
Valresultat Riksdagen 2018 I ämnesplanerna i matematik betonas att eleverna ska få möjlighet att använda digitala verktyg. Ett exempel från kursen Matematik 2 är Statistiska metoder för rapportering av
LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum Skrivtid
LULEÅ TEKNISKA UNIVERSITET Ämneskod S0006M Institutionen för matematik Datum 2008-12-22 Skrivtid 0900 1400 Tentamen i: Statistik 1, 7.5 hp Antal uppgifter: 5 Krav för G: 11 Lärare: Jour: Robert Lundqvist,
Bakgrund. Problemidentifiering. Fleet Management. Utveckling av verktyg för estimering av underhållskostnader
Fleet Management Utveckling av verktyg för estimering av underhållskostnader Isac Alenius Marcus Pettersson Produktionsekonomi, Lunds Universitet, Lunds Tekniska Högskola Den danska trafikoperatören Arriva
Data på individ/hushålls/företags/organisationsnivå. Idag större datamänger än tidigare
MIKROEKONOMETRI Data på individ/hushålls/företags/organisationsnivå Tvärsnittsdata och/eller longitudinella data o paneldata Idag större datamänger än tidigare Tekniska framsteg erbjuder möjligheter till
Föreläsning 4. Kap 5,1-5,3
Föreläsning 4 Kap 5,1-5,3 Multikolinjäritetsproblem De förklarande variablerna kan vara oberoende (korrelerade) av varann men det är inte så vanligt. Ofta är de korrelerade, och det är helt ok men beroendet
MVE051/MSG Föreläsning 7
MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel
Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS
Datorövning 3 Statistisk teori med tillämpningar Simulering i SAS Syfte Att simulera data är en metod som ofta används inom forskning inom ett stort antal ämnen, exempelvis nationalekonomi, fysik, miljövetenskap
Laboration 5: Regressionsanalys. 1 Förberedelseuppgifter. 2 Enkel linjär regression DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08
LUNDS TEKNISKA HÖGSKOLA MATEMATIKCENTRUM MATEMATISK STATISTIK Laboration 5: Regressionsanalys DATORLABORATION 5 MATEMATISK STATISTIK FÖR I, FMS 012, HT-08 Syftet med den här laborationen är att du skall
Metod och teori. Statistik för naturvetare Umeå universitet
Statistik för naturvetare -6-8 Metod och teori Uppgift Uppgiften är att undersöka hur hjärtfrekvensen hos en person påverkas av dennes kroppstemperatur. Detta görs genom enkel linjär regression. Låt signifikansnivån
Beskrivande statistik
Beskrivande statistik Tabellen ovan visar antalet allvarliga olyckor på en vägsträcka under 15 år. år Antal olyckor 1995 36 1996 20 1997 18 1998 26 1999 30 2000 20 2001 30 2002 27 2003 19 2004 24 2005
Föreläsning 1. Repetition av sannolikhetsteori. Patrik Zetterberg. 6 december 2012
Föreläsning 1 Repetition av sannolikhetsteori Patrik Zetterberg 6 december 2012 1 / 28 Viktiga statistiska begrepp För att kunna förstå mer avancerade koncept under kursens gång är det viktigt att vi förstår
Analytisk statistik. Tony Pansell, optiker Universitetslektor
Analytisk statistik Tony Pansell, optiker Universitetslektor Analytisk statistik Att dra slutsatser från det insamlade materialet. Två metoder: 1. att generalisera från en mindre grupp mot en större grupp
729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann
729G43 Artificiell intelligens / 2015 Maskininlärning 2 Marco Kuhlmann Förra gången: Linjär regression Gradientsökning Vandra ner i felets dal. Steg 0: Börja med ett godtyckligt värde för θ. Steg 1: Räkna
Vetenskaplig metod och statistik
Vetenskaplig metod och statistik Innehåll Vetenskaplighet Hur ska man lägga upp ett experiment? Hur hanterar man felkällor? Hur ska man tolka resultatet från experimentet? Experimentlogg Att fundera på
Vetenskaplig Metod och Statistik. Maja Llena Garde Fysikum, SU Vetenskapens Hus
Vetenskaplig Metod och Statistik Maja Llena Garde Fysikum, SU Vetenskapens Hus 2010 10 20 Innehåll Hur ska man lägga upp ett experiment? Hur hanterar man felkällor? Hur ska man tolka resultatet från experimentet?
Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi
Föreläsning 4 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar
F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT
Stat. teori gk, ht 006, JW F18 MULTIPEL LINJÄR REGRESSION, FORTS. (NCT 1.1, 13.1-13.6, 13.8-13.9) Modell för multipel linjär regression Modellantaganden: 1) x-värdena är fixa. ) Varje y i (i = 1,, n) är
Klusteranalys av cykelflödesdata för identifiering av viktiga faktorer och avvikande datapunkter
Teknik och samhälle Datateknik Examensarbete 15 högskolepoäng, grundnivå Klusteranalys av cykelflödesdata för identifiering av viktiga faktorer och avvikande datapunkter Cluster analysis of bicycle flow
Stockholm Stads vinterunderhåll analys av kostnader och nederbörd
Trafikkontoret Bilaga 7 Sida 1 (13) Stockholm Stads vinterunderhåll analys av kostnader och nederbörd Inledning Stockholms vinterväder skiftar i temperatur och snömängd mellan olika år, vilket har medfört
SVÄNGNINGSTIDEN FÖR EN PENDEL
Institutionen för fysik 2012-05-21 Umeå universitet SVÄNGNINGSTIDEN FÖR EN PENDEL SAMMANFATTNING Ändamålet med experimentet är att undersöka den matematiska modellen för en fysikalisk pendel. Vi har mätt
Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION
KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat
Detektering av cykeltrafik
Vägverket Konsult Affärsområde Väg och Trafik Box 4107 17104 Solna Solna Strandväg 4 Texttelefon: 0243-750 90 Henrik Carlsson, Erik Fransson KVTn henrik-c.carlsson@vv.se, erik.fransson@vv.se Direkt: 08-445
Lektionsanteckningar 11-12: Normalfördelningen
Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet
Experimentella metoder, FK3001. Datorövning: Finn ett samband
Experimentella metoder, FK3001 Datorövning: Finn ett samband 1 Inledning Den här övningen går ut på att belysa hur man kan utnyttja dimensionsanalys tillsammans med mätningar för att bestämma fysikaliska
Medelvärde, median och standardavvikelse
Medelvärde, median och standardavvikelse Detta är en enkel aktivitet där vi på ett dynamiskt sätt ska titta på hur de statistiska måtten, t.ex. median och medelvärde ändras när man ändar ett värde i en
MULTIPEL IMPUTATION. Ett sätt att fylla i hålen i ditt datamaterial?
MULTIPEL IMPUTATION Ett sätt att fylla i hålen i ditt datamaterial? Pär Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par Ola.Bendahl@med.lu.se Översikt 1. Introduktion till problemet 2.
Bild 1. Bild 2 Sammanfattning Statistik I. Bild 3 Hypotesprövning. Medicinsk statistik II
Bild 1 Medicinsk statistik II Läkarprogrammet T5 HT 2014 Anna Jöud Arbets- och miljömedicin, Lunds universitet ERC Syd, Skånes Universitetssjukhus anna.joud@med.lu.se Bild 2 Sammanfattning Statistik I
Föreläsning 2. Kap 3,7-3,8 4,1-4,6 5,2 5,3
Föreläsning Kap 3,7-3,8 4,1-4,6 5, 5,3 1 Kap 3,7 och 3,8 Hur bra är modellen som vi har anpassat? Vi bedömer modellen med hjälp av ett antal kriterier: visuell bedömning, om möjligt F-test, signifikanstest
TANA17 Matematiska beräkningar med MATLAB för M, DPU. Fredrik Berntsson, Linköpings Universitet. 26 november 2015 Sida 1 / 28
TANA17 Matematiska beräkningar med MATLAB för M, DPU Fredrik Berntsson, Linköpings Universitet 26 november 2015 Sida 1 / 28 Föreläsning 6 Minsta kvadrat problem. Polynom. Interpolation. Rötter. Tillämpningar:
MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data
MULTIPEL IMPUTATION - Ett sätt att hantera problemet med missing data Pär-Ola Bendahl IKVL, Avdelningen för Onkologi Lunds Universitet Par-Ola.Bendahl@med.lu.se Översikt Introduktion till problemet Enkla
Vetenskaplig metod och statistik
Vetenskaplig metod och statistik Innehåll Vetenskaplighet Hur ska man lägga upp ett experiment? Hur hanterar man felkällor? Hur ska man tolka resultatet från experimentet? Experimentlogg Att fundera på
Laboration 2. Omprovsuppgift MÄLARDALENS HÖGSKOLA. Akademin för ekonomi, samhälle och teknik
MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik och kvantitativa undersökningar, A 15 Hp Vårterminen 2017 Laboration 2 Omprovsuppgift Regressionsanalys, baserat på Sveriges kommuner
Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 15 August 2016, 8:00-12:00. English Version
Kurskod: TAIU06 MATEMATISK STATISTIK Provkod: TENA 15 August 2016, 8:00-12:00 Examiner: Xiangfeng Yang (Tel: 070 0896661). Please answer in ENGLISH if you can. a. Allowed to use: a calculator, Formelsamling
Statistik 1 för biologer, logopeder och psykologer
Innehåll 1 2 Diskreta observationer Kontinuerliga observationer 3 Centralmått Spridningsmått Innehåll 1 2 Diskreta observationer Kontinuerliga observationer 3 Centralmått Spridningsmått Vad är statistik?
ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap
ARTIFICIELLA NEURALA NÄT MARCO KUHLMANN Institutionen för datavetenskap Example Alt Bar Fri Hun Pat Price Rain Res Type Est WillWait 1 Yes No No Yes Some $$$ No Yes French 0 10 Yes 2 Yes No No Yes Full
Enkel linjär regression. Enkel linjär regression. Enkel linjär regression
Enkel linjär regression Exempel.7 i boken (sida 31). Hur mycket dragkraft behövs för att en halvledare skall lossna från sin sockel vid olika längder på halvledarens ben och höjder på sockeln. De halvledare
F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion
Gnuer i skyddade/oskyddade områden, binära utfall och binomialfördelningar Matematik och statistik för biologer, 10 hp Fredrik Jonsson Januari 2012 I vissa områden i Afrika har man observerat att förekomsten
Registerforskning Oktober 2018, Stockholm City Conference Centre. Möjligheter med Artificiell Intelligens inom registerforskningen
Registerforskning 2018 17 Oktober 2018, Stockholm City Conference Centre Möjligheter med Artificiell Intelligens inom registerforskningen Peter Funk Mälardalens Högskola Vem är Peter Funk? Artificiell
Logistisk regression och Indexteori. Patrik Zetterberg. 7 januari 2013
Föreläsning 9 Logistisk regression och Indexteori Patrik Zetterberg 7 januari 2013 1 / 33 Logistisk regression I logistisk regression har vi en binär (kategorisk) responsvariabel Y i som vanligen kodas
LÖSNINGSFÖRSLAG TILL TENTAMEN I MATEMATISK STATISTIK 2007-08-29
UMEÅ UNIVERSITET Institutionen för matematik och matematisk statistik Statistik för Teknologer, 5 poäng (TNK, ET, BTG) Peter Anton, Per Arnqvist Anton Grafström TENTAMEN 7-8-9 LÖSNINGSFÖRSLAG TILL TENTAMEN
InStat Exempel 4 Korrelation och Regression
InStat Exempel 4 Korrelation och Regression Vi ska analysera ett datamaterial som innehåller information om kön, längd och vikt för 2000 personer. Materialet är jämnt fördelat mellan könen (1000 män och
Prediktera. Statistik för modellval och prediktion. Trend? - Syrehalt beroende på kovariater. Sambands- och trendanalys
Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren Prediktera Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/28 Statistik för modellval
Målet för D2 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS
Datorövning 2 Statistisk teori med tillämpningar Simulering i SAS Syfte Att simulera data är en metod som ofta används inom forskning inom ett stort antal ämnen, exempelvis nationalekonomi, fysik, miljövetenskap
Läs noggrant informationen nedan innan du börjar skriva tentamen
Tentamen i Statistik 1: Undersökningsmetodik Ämneskod S0006M Totala antalet uppgifter: Totala antalet poäng Lärare: 5 25 Mykola Shykula, Inge Söderkvist, Ove Edlund, Niklas Grip Tentamensdatum 2013-03-27
Att välja statistisk metod
Att välja statistisk metod en översikt anpassad till kursen: Statistik och kvantitativa undersökningar 15 HP Vårterminen 2018 Lars Bohlin Innehåll Val av statistisk metod.... 2 1. Undersökning av en variabel...
Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1
Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning i Matematisk Statistik med Metoder MVE490 Tid: den 16 augusti, 2017 Examinatorer: Kerstin Wiklander och Erik Broman. Jour:
Diskussionsproblem för Statistik för ingenjörer
Diskussionsproblem för Statistik för ingenjörer Måns Thulin thulin@math.uu.se Senast uppdaterad 20 februari 2013 Diskussionsproblem till Lektion 3 1. En projektledare i ett byggföretaget ska undersöka
En mycket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart:
En mcket vanlig frågeställning gäller om två storheter har ett samband eller inte, många gånger är det helt klart: För en mätserie som denna är det ganska klart att det finns en koppling mellan -variabeln
Föreläsning G60 Statistiska metoder
Föreläsning 3 Statistiska metoder 1 Dagens föreläsning o Samband mellan två kvantitativa variabler Matematiska samband Statistiska samband o Korrelation Svaga och starka samband När beräkna korrelation?
2 Dataanalys och beskrivande statistik
2 Dataanalys och beskrivande statistik Vad är data, och vad är statistik? Data är en samling fakta ur vilken man kan erhålla information. Statistik är vetenskapen (vissa skulle kalla det konst) om att
Analytisk statistik. 1. Estimering. Statistisk interferens. Statistisk interferens
Analytisk statistik Tony Pansell, Leg optiker Docent, Universitetslektor Analytisk statistik Att dra slutsatser från den insamlade datan. Två metoder:. att generalisera från en mindre grupp mot en större
Homework Three. Farid Bonawiede Samer Haddad Michael Litton Alexandre Messo. 28 november Time series analysis
Homework Three Time series analysis Farid Bonawiede Samer Haddad Michael Litton Alexandre Messo 28 november 25 1 Vi ska här analysera en datamängd som består av medeltemperaturen månadsvis i New York mellan
Statistiska analyser C2 Bivariat analys. Wieland Wermke
+ Statistiska analyser C2 Bivariat analys Wieland Wermke + Bivariat analys n Mål: Vi vill veta något om ett samband mellan två fenomen n à inom kvantitativa strategier kan man undersöka detta genom att
Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN
Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två
Tentamen del 2 SF1511, , kl , Numeriska metoder och grundläggande programmering
KTH Matematik Tentamen del 2 SF1511, 2018-03-16, kl 8.00-11.00, Numeriska metoder och grundläggande programmering Del 2, Max 50p + bonuspoäng (max 4p). Rättas ast om del 1 är godkänd. Betygsgränser inkl
Justeringar och tillägg till Svar till numeriska uppgifter i Andersson, Jorner, Ågren: Regressions- och tidsserieanalys, 3:uppl.
LINKÖPINGS UNIVERSITET 73G71 Statistik B, 8 hp Institutionen för datavetenskap Civilekonomprogrammet, t 3 Avdelningen för Statistik/ANd HT 009 Justeringar och tillägg till Svar till numeriska uppgifter
Exempel: Väljarbarometern. Föreläsning 1: Introduktion. Om Väljarbarometern. Statistikens uppgift
Exempel: Väljarbarometern Föreläsning 1: Introduktion Matematisk statistik Det som typiskt karakteriserar ett statistiskt problem är att vi har en stor grupp (population) som vi vill analysera. Vi kan
Linjär regressionsanalys. Wieland Wermke
+ Linjär regressionsanalys Wieland Wermke + Regressionsanalys n Analys av samband mellan variabler (x,y) n Ökad kunskap om x (oberoende variabel) leder till ökad kunskap om y (beroende variabel) n Utifrån
Pilotplats Cykel: Utvärdering av ytjämnhet på södra Götgatans cykelbanor. Rapport 2014-11-10 Trafikutredningsbyrån AB och Andréns Datamani
Pilotplats Cykel: Utvärdering av ytjämnhet på södra Götgatans cykelbanor Rapport 2014-11-10 Trafikutredningsbyrån AB och Andréns Datamani Syfte Syftet med föreliggande studie är att utvärdera Götgatans
Regressions- och Tidsserieanalys - F8
Regressions- och Tidsserieanalys - F8 Klassisk komponentuppdelning, kap 7.1.-7.2. Linda Wänström Linköpings universitet November 26 Wänström (Linköpings universitet) F8 November 26 1 / 23 Klassisk komponentuppdelning
Första sidan är ett försättsblad (laddas ned från kurshemsidan) Alla frågor som nns i uppgiftstexten är besvarade
HT 2011 Inlämningsuppgift 1 Statistisk teori med tillämpningar Instruktioner Ett av problemen A, B eller C tilldelas gruppen vid första övningstillfället. Rapporten ska lämnas in senast 29/9 kl 16.30.
1(15) Bilaga 1. Av Projekt Neuronnätverk, ABB Industrigymnasium, Västerås Vt-05
1(15) Bilaga 1 2(15) Neuronnätslaboration Räknare Denna laboration riktar sig till gymnasieelever som går en teknisk utbildning och som helst har läst digitalteknik samt någon form av styrteknik eller
1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet
1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet 2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att
Sänkningen av parasitnivåerna i blodet
4.1 Oberoende (x-axeln) Kön Kön Längd Ålder Dos Dos C max Parasitnivå i blodet Beroende (y-axeln) Längd Vikt Vikt Vikt C max Sänkningen av parasitnivåerna i blodet Sänkningen av parasitnivåerna i blodet
Analytisk statistik. Mattias Nilsson Benfatto, PhD.
Analytisk statistik Mattias Nilsson Benfatto, PhD Mattias.nilsson@ki.se Beskrivande statistik kort repetition Centralmått Spridningsmått Normalfördelning Konfidensintervall Korrelation Analytisk statistik
EXAMINATION KVANTITATIV METOD vt-11 (110319)
ÖREBRO UNIVERSITET Hälsoakademin Idrott B Vetenskaplig metod EXAMINATION KVANTITATIV METOD vt-11 (110319) Examinationen består av 10 frågor, flera med tillhörande följdfrågor. Besvara alla frågor i direkt