SÅ BLIR DIN NETFLIX- UPPLEVELSE BÄTTRE. En litteraturstudie om Netflixs rekommendationssystem

Storlek: px
Starta visningen från sidan:

Download "SÅ BLIR DIN NETFLIX- UPPLEVELSE BÄTTRE. En litteraturstudie om Netflixs rekommendationssystem"

Transkript

1 SÅ BLIR DIN NETFLIX- UPPLEVELSE BÄTTRE En litteraturstudie om Netflixs rekommendationssystem Sammanfattning Studien fokuserar på Latent Factor Model som var ett stort genomslag under Netflix Prize tävlingen Isabella

2 Innehållsförteckning Inledning Netflix Prize Tidigare system Cinematch RMSE Root Mean Square Error Olika metoders RMSE-värde Kollaborativa system Användarbaserad filtrering Artikelbaserad filtrering Betygssättning Individanpassning med baseline predictors Latent Factor Model Matrismultiplikation Single Value Decomposition (SVD) SVD vid avsaknaden av värden Att beräkna SVD Diskussion Referenser... 14

3 Inledning På streaming-tjänsten, Netflix finns ett stort utbud filmer och serier. För att underlätta för användaren använder sig Netflix av rekommendationer för vilka artiklar de anser passa en viss användare. {Något om begränsat urval bra, teknisk psykologi}. Dessa rekommendationer sker med hjälp av algoritmer som ser över användarnas vanor på sidan startade Netflix Netflix Prize som är en tävling där de erbjöd den som kunde förbättra deras dåvarande rekommendationssystem, Cinematch med 10%, en miljon US dollar (Netflix, 2012). En av de stora upptäckterna som sedan applicerades av Netflix var matris faktorisering, vilket ofta kallas för Singular Value Decomposition (SVD). En SVD modell kombinerar användare och rating av olika filmer för att placera in de i en matris (Stanford University, Youtube, 2016). SVD modellen baseras på kollaborativa metoder (Andreas & Jahrer, 2008). Denna rapport kommer fokusera berätta övergripande om tävlingen för att sedan diskutera hur man mäter vad som är ett bra rekommendationssystem. Sedan förklaras kollaborativa metoder och SVD för att presentera en del av den vinnande lösningen till Netflix Prize. 1. Netflix Prize När tävlingen Netflix Prize ägde rum hade Netflix haft över 1.9 miljarder betygsättningar och över 11.7 miljoner prenumeranter på över titlar under tidsperioden oktober december 2005 (Bennett & Lanning, 2007). På den tiden kunde man hyra hem DVD-filmer

4 från Netflix och de levererade mer än 1.5 miljoner Dvd:er per dag (Bennett & Lanning, 2007). Prenumeranterna gav en film eller serie ett betyg på en skala mellan 1 till 5 stjärnor. I Netflix Prize tävlingen bestod datasetet av 100 miljoner betygsättningar av filmer samt information om vilket datum de hade gjorts från över slumpmässigt utvalda anonyma prenumeranter (Bennett & Lanning, 2007). Datasetet var indelat i ett träningsset och ett kvalificeringsset (eng: qualifying set). Träningsetet bestod av 100,480,507 ratings som 480,189 användare hade gett till filmer (Charu, 2016). Det innehöll ett del-set (eng: probe subset) av ratings som deltagarna kunde använda offline för att jämföra sitt resultat mot Cinematch innan de skickade in sin kod (Bennett & Lanning, 2007). Detta del-set bestod av nyare ratings än resten av träningssetet och var statistiskt likt den delen av datasetet som bestod av dolda betygsättningar (Charu, 2016). Delen med dolda betygsättningar kallas kvalificeringssetet den innehöll tripletter av Användare, Film och Betygsättningsdatum (Charu, 2016). Deltagarna skulle förutspå betygsättningar i kvalificeringssetet baserat på träningsdatasetet (Charu, 2016). Halva kvalificeringssetet var ett quiz del-set som prestationen beräknades direkt och automatiskt på. Resultatet från de uträkningarna publicerades på ledarhemsidan ifall det var tillräckligt bra (Bennett & Lanning, 2007). Andra halvan av kvalificeringssetet användes som ett testdel-set, resultatet för detta publicerades inte utan användes av Netflix för att identifiera en vinnare. Deltagarna skulle även publicera sina resultat så alla skulle få en förståelse och kunna använda sig av teknikerna (Bennett & Lanning, 2007). 1.2 Tidigare system Cinematch Netflix använde sig tidigare av rekommendationssystemet Cinematch som använde sig av Pearson s correlation för att förutsäga en lista av filmer som liknar den filmen som användaren hade sett (Bennett & Lanning, 2007). De använde sig av användarens tidigare betygsättningar för att förutspå vad användaren skulle ge för betyg till den specifika filmen (Bennett & Lanning, 2007). Ifall det saknades grund att göra denna uträkning, om användaren till exempel inte hade betygssatt tillräckligt många filmer användes istället det genomsnittliga betyget för filmen (Bennett & Lanning, 2007). Cinematch mättes med RMSE av systemets förutsägelse (eng: prediction) av betyget i förhållande till det faktiska betyget som användarna hade rapporterat (Bennett & Lanning, 2007). 1.2 RMSE Root Mean Square Error Rekommendationer kan ses som ett optimeringsproblem då man hitta metoden som ger de bästa förutsägelserna om användarens betygssättningar (Stanford University, Youtube, 2016).

5 Sedan används den metoden för att förhoppningsvis ge användaren de bästa rekommendationerna om filmer de ej ännu sett (Stanford University, Youtube, 2016). För att mäta hur bra ett rekommendationssystem var använde sig Netflix av Root Mean Square Error, RMSE. Ett lägre RMSE värde innebär enligt måttet, en bättre rekommendation (Stanford University, Youtube, 2016). Figur 1 visar en ekvation för att beräkna ett RMSE-värde. Figur 1. Bilden är också från Ekstrand et. al (2010) Summan av artiklar (item = i) från användare (user = u). P är det förutspådda värdet för användarens betygssättning av artikeln och detta subtraheras med det faktiska värdet för betygsättningen som användaren har gjorts. Denna summa kvadreras och divideras sedan på n som är antalet artiklar som har betygsatts. För att få fram RMSE-värdet tas sedan kvadratroten av hela summan. RMSE tenderar att straffa stora fel oproportionerligt mycket (Charu, 2016). Detta gör att den påverkas mer signifikant av felvärden och outliers än andra metoder. I ett 5-stjärning skala innebär det att algoritmen straffas mer för en betygssättning som är 2 stjärnor ifrån det faktiska värdet i en beräkning än vad den blir straffad av att vara ¼ stjärna fel åtta gånger (Ekstrand, Riedl, & Konstan, 2010). Detta gör metoden passande för att bedöma Netflix rekommendationsalgoritm. 1.3 Olika metoders RMSE-värde Cinematch hade ett RMSE-värde på 0,9525 och för att vinna priset var deltagarna tvungna att skapa ett rekommendationssystem med ett RMSE-värde som var 0,8572 eller lägre (Netflix, 2012). Nedan i figur 2 syns olika metoders värde.

6 Figur 2. Visar RMSE-värdet för olika metoder Med globala average räknades det globala medelbetyget ut för hela datasetet på Netflix (Stanford University, Youtube, 2016). Detta betyg användes sedan på alla användares inloggningar (Stanford University, Youtube, 2016)User average kollar på vilket betyg användaren brukar ge filmer och medelvärdet av dessa betyg förutspås vara det samma som användaren ger nästa film den kollar på (Stanford University, Youtube, 2016). Movie average undersöker vilka betyg en film brukar få och medelvärdet för det är vad som förutspås att användaren kommer ge filmen (Stanford University, Youtube, 2016). Kollaborativ filtrering hade RMSE-värdet 0, Kollaborativa system Det finns flera kollaborativa metoder de två stora är minnesbaserade och modellbaserade metoder (Charu, 2016). Enligt Charu (2016) är fördelen med minnesbaserade tekniker är att de är enkla att implementera och det är oftast enkelt att motivera rekommendationerna. Minnesbaserade tekniker kan dock vara problematiska då användaren inte betygsatt många filmer då det kan leda till att rekommendationerna inte blir välgrundade (Charu, 2016). Varianterna användarbaserad filtrering och artikelbaserad filtrering beskrivs kort nedan. 2.1 Användarbaserad filtrering I användarbaserad filtrering används en grupp användare B som liknar användare A för att ge rekommendationer till användare A (Charu, 2016). Genom att titta vad gruppen B har betygsatt kan rekommendationer ges till användare A för filmer som A ännu inte själv betygsatt (Charu, 2016). Användarna i gruppens betygsättningar viktas efter hur lika de är

7 användare As betygsättningar (Ekstrand et al., 2010). Om Lisa har betygsatt tio filmer likadant som användare A och Berit endast betygsatt fem filmer likadant som användare A så kommer Lisas betygsättningar få en större inverkan när rekommendationer ska räknas ut till användare A. Medelvärde för varje användares betygsättningar räknas ut och sedan sker beräkningarna för rekommendationen på viktade medelvärden av hela gruppens betygsättningar (Charu, 2016). Likhetsfunktioner används för att undersöka raderna i matrisen för liknande användare (Charu, 2016). En betygssättningsmatris R och en likhetsfunktion s: U x U R beräknar likheten mellan två användare. Krävs också en metod för att använda likheterna och betygssättningar för att generera nya rekommendationer. (Ekstrand et al., 2010) För att göra detta räknar man först ut ett område (eng: neighborhood) N U av grannar till användare u. När N har räknats ut så kombinerar systemet betygsättningarna av användarna i N för att kunna skapa förutspå användare u:s betygsättning av artikel i (Ekstrand et al., 2010). 2.2 Artikelbaserad filtrering Artikelbaserad filtrering innebär att en användare kollar på ett set S filmer som liknar filmen B. Då undersöker algoritmen vilket betyg användaren har gett filmsetet S som liknar filmen B för att sedan uppskatta hur väl användaren skulle gilla filmen B. Likhetsfunktioner används för att undersöka kolumnerna i matrisen för liknande artiklar (Charu, 2016). 2.3 Betygssättning Oftast är en betygsättning intervallbaserad med en diskret uppsättning av ordnade nummer sam används för att användaren för att visa om den gillat eller inte gillat något (Charu, 2016). Netflix har en 5-stjärnig skala där 4e stjärnan visar verkligen gillat och den 3e stjärnan visar gillat (Charu, 2016). Det finns då tre steg för att uttrycka att användaren gillat något och endast två steg för att uttrycka att den ogillat något, vilket leder till en obalanserad skala (Charu, 2016). 2.4 Individanpassning med baseline predictors Vissa användare tenderar att ge högre betyg än andra (Andreas & Jahrer, 2008). Detta beskrivs som en effekt som inte beror på användar-artikelinteraktion. För att bli av med dessa biases använder sig Andreas och Jahrer (2008) av baseline predictors. bui =µ +bu +bi µ är medelsnittsbetyget. Baseline prediction för ett okänt betyg, rui skrivs som bui. Parametrarna bu och bi är observerade avvikelser av användare u och artikel ifrån

8 medelsnittsbetyget. bu fås genom att subtrahera medelbetyget som användaren brukar sätta med medelsnittsbetyget för alla användare (Stanford University, Youtube, 2016). bi fås genom att subtrahera medelbetyget för filmen med medelsnittsbetyget för alla filmer. Andreas och Jahrer (2008) använder sig av exemplet om baseline estimering för användaren Joes betygsättning av filmen Titanic. Om medelbetyget för alla filmer, µ, är 3,7 stjärnor och Titanic är bättre än en medelmåttig film, vilket innebär att den tenderar att få 0,5 stjärnor över medelvärdet. Joe är dock en kritisk användare som tenderar att betygsätta filmer 0,3 stjärnor under medelbetyget. Det innebär att baseline estimeringen för Joes betygsättning av Titanic skulle bli 3,9 stjärnor (3,7+0,5 0,3). 3. Latent Factor Model Latent Factor Model var en av de modellerna som fick störst genomslag i Netflix Prize tävlingen (Stanford University, Youtube, 2016). Genom att dölja värden på betyg som användaren redan gett och försöka förutspå dessa korrekt hoppas man kunna förutspå användarens betyg för filmer de inte sett (Stanford University, Youtube, 2016). I Latent Factor Model är varje användare och varje film en datapunkt i en rymd, R. Rymden mappas upp efter olika områden, koncept där till exempel filmpunkter som ligger nära en användare beräknas vara av intresse för den användaren. Man undersöker hur nära användar- och filmpunkterna är varandra för att kunna ge så bra rekommendationer som möjligt (Stanford University, Youtube, 2016). Detta görs genom beräkningar på matrisen Q, som är snittbetyget för olika filmer och matrisen P T som är användares snittbetyg. Om en betygssättning saknas betyder det att användaren ej har sett filmen än. Dock tolkas avsaknad av betyg på en film av systemet som att användaren gett filmen betyget 0. Detta blir fel och gör att SVD inte kan beräknas korrekt. I sådana lägen används speciella metoder för att hitta matriserna P och Q. Figur 3. Från (Stanford University, Youtube, 2016). R representerar matrisen bestående av användare (users) och filmer (items). Q är en matris av filmer där varje rad är en film. P T är en matris av användare där varje användare är en kolumn.

9 Matrisen R räknas ut genom ekvationen: R = Q P T 3.1 Matrismultiplikation För att göra en beräkning vad användare 5 tycker om film 2 så multiplicerar man dessa kolumner från originalmatriserna och man får då ett värde för vad den specifika användaren tycker om den utvalda filmen. Figur 4. Punkten som är rödmarkerad kommer beräknas genom matrismultiplikation av den rödmarkerade raden och kolumnen (Stanford University, Youtube, 2016). Nedan följer ett exempel för en förutsägelse, ^rxi, om vad användare 5 tycker om film 2 i Matrisen R. Som ses i Q-matrisen i figur 4 har filmen fått betygen -0,5, 0,6 och 0,5, dessa värden är qi. Vi kan även se i matris P T att användare 5 har givit andra filmer betygen 2, 0,3 och 2,4, dessa värden är p T x. Med kunskap om detta beräknas användare 5 ge film 2 2,4 poäng. Se uträkning nedan. qi = [-0,5 0,6 0,5] p x T = ^rxi = [-0,5 * ,6 * 0,3 + 0,5 * 2,4] = 2,38 2,4 3.2 Single Value Decomposition (SVD) För att utföra en matrismultiplikation i latent factor model används Single Value Decomposition (SVD). Single Value Decomposition, SVD används för att hitta olika koncept i vår data (Stanford University, Youtube, 2016). I Netflixs fall handlar dessa koncept om genre på filmer och som användare kan tycka om. En användare kan kategoriseras som att gilla romantiska filmer och en film kan också kategoriseras som romantisk (Stanford

10 University, Youtube, 2016). Detta sker när vi gör användare och filmer till datapunkter i rymden, se exempel från (Stanford University, Youtube, 2016) nedan. Figur 5. En tredimensionell rymd där varje film och användare representerar en datapunkt. Rymden är indelad i olika koncept som har hittats genom utförandet av SVD. Såhär ser funktionen ut för att räkna beräkna koncept och matcha användare och filmer till dessa: A = U Σ V A är en matris som är produkten av matriserna U, Σ och V. U är en matris som visar hur väl en användare gillar ett koncept, denna matris består av left singular vektorer (Stanford University, Youtube, 2016). Varje kolumn i U motsvarar ett koncept. V är en matris som visar hur väl en film matchar ett koncept, matrisen består av right singular vektorer (Stanford University, Youtube, 2016). Varje rad i V motsvarar ett koncept. U och V matriserna är kolumn ortonormala, vilket innebär att de har vektorlängden 1 och att summan av squared values i varje kolumn i de två matriserna blir 1 (Stanford University, Youtube, 2016). Σ är en diagonal matris som visar hur starka koncepten är (Stanford University, Youtube, 2016). Att den är diagonal innebär att den består enbart av nollor förutom på diagonalen där siffrorna visar hur starkt ett koncept är. Värdena i denna matris kallas singular values och de är positiva värden. Värdena sorteras i minskande ordning, så det största kommer först och sen fortsätter det med de mindre värdena (Stanford University, Youtube, 2016).

11 Figur 6. Visar de olika matriserna A, U, Σ och V. Bild inspirerad (Stanford University, Youtube, 2016) Σ-matrisen i figur 6 består av tre olika koncept. Första konceptet är SciFi-konceptet, som är ett starkt koncept, 12,4. Detta är markerat i matrisen U och finns även att hitta i första raden på matrisen V. Andra konceptet är romantik-konceptet, som också det är ett starkt koncept, 9,5. Det tredje värdet i Σ-matrisen, 1,3 är litet vilket innebär att det inte är ett starkt koncept (Stanford University, Youtube, 2016). Därmed kan den tredje kolumnen i matris U och tredje raden i matris V bortses ifrån (Stanford University, Youtube, 2016). Vi kan också se att den fjärde användaren gillar SciFi-genren då den har 0,68 på det konceptet, medan den inte gillar romantikgenren lika mycket då den endast har 0,11 där. Användare 4 gillar dock romantikgenren mer än användare fem som har -0,59 där. I matris V kan vi se hur starkt respektive film kopplas till de olika genrer, även här bortser vi från den tredje raden då det konceptet ej var starkt SVD vid avsaknaden av värden SVD är dock inte anpassat för avsaknaden av värden (Stanford University, Youtube, 2016). I den latenta rymd är de betygsättningarna som ska förutspås för användaren tomma värden. Därför måste en specialiserad metod användas för att hitta matriserna P och Q, se funktion nedan (Stanford University, Youtube, 2016)

12 Endast de ifyllda värdena i matris R undersöks, alltså ej de tomma värdena. Målet är att hitta matriserna P och Q som gör att summan av alla kända betygssättningar rxi subtraherat med våra förutspådda betygssättningar (q i p x T ) uppböjt i två är så liten som möjligt (Stanford University, Youtube, 2016). Genom att hitta matriserna P och Q som gör uttrycket så litet som möjligt, kan förutsägelserna av de kända betygsättningarna som vi dolt bli så lika de riktiga betygsättningarna som möjligt. Förhoppningsvis genom att hitta bästa möjliga P och Q kan även okända betygssättningar förutspås bra (Stanford University, Youtube, 2016) Att beräkna SVD Vid beräkningen av SVD fås sum of squared errors, SSE vilket har ett monotoniskt förhållande till RMSE. Detta innebär att en lägre SSE även ger en lägre RMSE. Vid beräkningen av SVD på träningsdatat är målet därför att minimera SSE. För att uppnå detta måste minimivärdet för matriserna P och Q hittas. Metoden för att hitta minimivärdena är gradientsökning och derivering av funktionen. Det finns dock ett problem, så fort modellen blir för stark så försämras den genom att SSE-värdet på de okända värden i testdatat ökar (Stanford University, Youtube, 2016). Overfittingen sker då modellen anpassar sig för mycket till träningsdatan genom för många fria parametrar som anpassar sig till noise. Vilket leder till att modellen får problem att generalisera till testdatat. För att undvika detta använder vi oss av regularisering (Stanford University, Youtube, 2016). Se uppdaterad funktion nedan. Error är den av funktionen är det samma som den specialiserade SVD metoden som presenterades ovan. λ är regulariseringsparametern som är ett icke negativt värde och en avvägning mellan error och length i funktionen (Stanford University, Youtube, 2016). Length

13 visar avståndet till origo i rymden R, se figur 7. Figur 7. Från (Stanford University, Youtube, 2016) rosa pil visar användarens avstånd till origo baserat på length. Om det endast finns lite träningsdata för användaren, det vill säga att användaren inte fyllt i så många betyg, så har error-delen av funktionen endast ett fåtal värden i sin summering (Stanford University, Youtube, 2016). Det betyder att värdet av error-delen är relativt litet (Stanford University, Youtube, 2016). Därför görs även length litet, då inte ett fåtal filmer ska få så stort avgörande vart användaren hamnar i rymden. När detta görs hamnar användaren närmare origo och är inte lika tydligt definierat vilka koncept användaren gillar. Om det istället hade funnits mycket träningsdata för användaren bör den flyttas närmare origo (Stanford University, Youtube, 2016). Istället görs då rimliga rekommendationer baserat på de betyg som användaren har registrerat. Det är inte värdet av funktionen som man är ute efter utan det är matriserna som kan uppnå detta värde som man vill få fram (Stanford University, Youtube, 2016). Funktionen kan lösas genom gradientsökning av P och Q tills gradienten är nära noll (Stanford University, Youtube, 2016). Se funktion för P nedan, samma sak görs även för matris Q. P (t+1) P t η P η är en parameter som kallas learning rate. Värdet av matrisen hittas vid t+1. För att räkna ut matrisens gradient P deriveras den tidigare funktionen enligt nedan.

14 4. Diskussion För att uppnå en förbättring i RMSE på 10 % och vinna Netflix Prize användes 130 olika rekommendationssystem (Stanford University, Youtube, 2016). Netflix har dock inte applicerat vinnarbidraget på sitt dataset då de bedömde det som för kostsamt. Latent factor model som beskrivs ovan är något de har applicerat i sina algoritmer. Det har varit väldigt intressant att läsa om de olika rekommendationssystemen och tävlingen i stort.

15 Referenser Netflix, T. b. (den 6 April 2012). Medium. Hämtat från The Netflix Tech Blog: Stanford University. (den 13 April 2016). Youtube. Hämtat från Latent Factor Models: f77hjb_ci&list=pllsst5z_dsk9jdlct8t62vtzwyw9lnepv&index=54 Stanford University. (den 13 April 2016). Youtube. Hämtat från Dimensionality Reduction: Singular Value Decomposition: 62VtzwyW9LNepV Stanford University. (den 13 April 2016). Youtube. Hämtat från Artifical Intelligence - All in one: yw9lnepv&index=55 Stanford University. (den 13 April 2016). Youtube. Hämtat från Extension to Include Global Effects (Advanced): T62VtzwyW9LNepV Stanford University. (den 13 April 2016). Youtube. Hämtat från Recommender Systems - Latent Factor Models: f77hjb_ci&list=pllsst5z_dsk9jdlct8t62vtzwyw9lnepv&index=54 Andreas, T., & Jahrer, M. (2008). The BigChaos Solution to the Netflix Prize 2008, Bennett, J., & Lanning, S. (2007). The Netflix Prize. Proceedings of KDD Cup and Workshop, Charu, A. (2016). Recommender systems The Textbook. Communications of the ACM (Vol. 40). Ekstrand, D. M., Riedl, T. J., & Konstan, A. J. (2010). Collaborative Filtering Recommender Systems. Foundations and Trends in Human Computer Interaction, 4 No. 2,

Rekommendationer på nätet

Rekommendationer på nätet Linköpings universitet Rekommendationer på nätet Kollaborativa rekommendationssystem Cornelia Böhm 2017-01-12 Abstrakt Rekommendationssystem är algoritmer som används för att filtrera ut de produkter som

Läs mer

Effekten av varierande datamängd vid filmbetygsprediktion

Effekten av varierande datamängd vid filmbetygsprediktion EXAMENSARBETE INOM TEKNIK, GRUNDNIVÅ, 15 HP STOCKHOLM, SVERIGE 2016 Effekten av varierande datamängd vid filmbetygsprediktion En studie med en egenkonstruerad rekommendationsalgoritm ERIK LINDBOM ADAM

Läs mer

Rekommendationssystem. med fördjupning på collaborative filtering

Rekommendationssystem. med fördjupning på collaborative filtering Rekommendationssystem med fördjupning på collaborative filtering, majsc331 870325-1929 729G11 Artificiell Intelligens II Linköpings Universitet HT 2009 Innehållsförteckning Inledning... 1 Bakgrund...

Läs mer

Personifierad Netflix

Personifierad Netflix Linköpings universitet Personifierad Netflix Lisa Rönnqvist 2016-08-24 Sammanfattning INNEHÅLLSFÖRTECKNING 1. Inledning... 1 1.1 Bakgrund... 1 1.2 Syfte... 2 2. Netflix... Fel! Bokmärket är inte definierat.

Läs mer

En praktisk implementation av ett rekommendationssystem

En praktisk implementation av ett rekommendationssystem Konsten att välja En praktisk implementation av ett rekommendationssystem Projektarbete Artificiell intelligens Patricia Lindblad 729G43 729G43 patli010!1 1. Introduktion 3 1.1. Vad är ett rekommendationssystem?

Läs mer

TiVo ett rekommendationssystem. TiVo ett rekommendationssystem

TiVo ett rekommendationssystem. TiVo ett rekommendationssystem Sammanfattning I dagens informationssamhälle kan det ibland vara svårt att sortera ut relevant information från mängden. Vi får då förlita oss till rekommendationer och omdömen från andra i allt från vilken

Läs mer

Colloborative filtering ett rekommendationssystem

Colloborative filtering ett rekommendationssystem Colloborative filtering ett rekommendationssystem 1 Innehållsförteckning 2 1. Inledning Dagens samhälle är idag uppbyggt till stor del av internet. Vi kan i princip sköta det mesta av våra liv via nätet.

Läs mer

729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap 729G43 Artificiell intelligens (2016) Maskininlärning 2 Marco Kuhlmann Institutionen för datavetenskap Förra gången: Gradientsökning tangentens lutning i punkt θ steglängdsfaktor Översikt Introduktion

Läs mer

LINKÖPINGS UNIVERSITET. Rekommendationssystem

LINKÖPINGS UNIVERSITET. Rekommendationssystem LINKÖPINGS UNIVERSITET Rekommendationssystem, julho969 900728-5969 729G11 Artificiell Intelligens II Linköpings universitet HT 2010 Innehållsförteckning Introduktion Vad är ett rekommendationssystem?...

Läs mer

729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann

729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann 729G43 Artificiell intelligens / 2015 Maskininlärning 2 Marco Kuhlmann Förra gången: Linjär regression Gradientsökning Vandra ner i felets dal. Steg 0: Börja med ett godtyckligt värde för θ. Steg 1: Räkna

Läs mer

STATISTISK ANALYS AV KOMPLEXA DATA

STATISTISK ANALYS AV KOMPLEXA DATA STATISTISK ANALYS AV KOMPLEXA DATA LONGITUDINELLA DATA Linda Wänström Linköpings universitet 12 December Linda Wänström (Linköpings universitet) LONGITUDINELLA DATA 12 December 1 / 12 Explorativ Faktoranalys

Läs mer

VILKET REKOMMENDATIONSSYTEM SKA EN INTERAKTIV MEDIETJÄNST VÄLJA?

VILKET REKOMMENDATIONSSYTEM SKA EN INTERAKTIV MEDIETJÄNST VÄLJA? VILKET REKOMMENDATIONSSYTEM SKA EN INTERAKTIV MEDIETJÄNST VÄLJA? Med Spotify som praktiskt fall.se 12 januari 2017 729G43 Kognitionsvetenskapliga programmet, LiU. Sammanfattning Rekommendationssystem är

Läs mer

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller:

Rättningstiden är i normalfall 15 arbetsdagar, annars är det detta datum som gäller: Statistik 2 Provmoment: Ladokkod: Tentamen ges för: TentamensKod: Tentamen SST021 ACEKO16h, ACIVE16h 7,5 högskolepoäng Tentamensdatum: 2018-05-31 Tid: 14.00-19.00 Hjälpmedel: Valfri miniräknare Linjal

Läs mer

Forskningsmetodik 2006 lektion 2

Forskningsmetodik 2006 lektion 2 Forskningsmetodik 6 lektion Per Olof Hulth hulth@physto.se Slumpmässiga och systematiska mätfel Man skiljer på två typer av fel (osäkerheter) vid mätningar:.slumpmässiga fel Positiva fel lika vanliga som

Läs mer

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann 729G43 Artificiell intelligens / 2015 Maskininlärning 3 Marco Kuhlmann Förra gången: Perceptroninlärning Beslutsregel predicerat y-värde Exempel: AND Välj parametrar θ 0, θ 1, θ 2 sådana att perceptronen

Läs mer

Hypotestestning och repetition

Hypotestestning och repetition Hypotestestning och repetition Statistisk inferens Vid inferens använder man urvalet för att uttala sig om populationen Centralmått Medelvärde: x= Σx i / n Median Typvärde Spridningsmått Används för att

Läs mer

Institutionen för datavetenskap Department of Computer and Information Science

Institutionen för datavetenskap Department of Computer and Information Science Institutionen för datavetenskap Department of Computer and Information Science Examensarbete Smarta receptförslag algoritmutvärdering och implementationsförslag av Bernhard Hahn LIU-IDA/LITH-EX-G--12/032--SE

Läs mer

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python TDDE24 Funktionell och imperativ programmering del 2

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python TDDE24 Funktionell och imperativ programmering del 2 Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python TDDE24 Funktionell och imperativ programmering del 2 Hjälpmedel Följande hjälpmedel är tillåtna: Exakt en valfri bok,

Läs mer

Statistiska samband: regression och korrelation

Statistiska samband: regression och korrelation Statistiska samband: regression och korrelation Vi ska nu gå igenom något som kallas regressionsanalys och som innebär att man identifierar sambandet mellan en beroende variabel (x) och en oberoende variabel

Läs mer

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION

Korrelation kausalitet. ˆ Y =bx +a KAPITEL 6: LINEAR REGRESSION: PREDICTION KAPITEL 6: LINEAR REGRESSION: PREDICTION Prediktion att estimera "poäng" på en variabel (Y), kriteriet, på basis av kunskap om "poäng" på en annan variabel (X), prediktorn. Prediktion heter med ett annat

Läs mer

SF1624 Algebra och geometri Lösningsförslag till tentamen DEL A

SF1624 Algebra och geometri Lösningsförslag till tentamen DEL A SF64 Algebra och geometri Lösningsförslag till tentamen 0-0-0 DEL A De tre totalmatriserna 0 3 3 4 0 3 0 0 0 0, 0 3 0 4 4 0 3 0 3 0 0 0 0 och 0 3 0 4 0 3 3 0 0 0 0 0 svarar mot linjära ekvationssystem

Läs mer

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning?

Finns det över huvud taget anledning att förvänta sig något speciellt? Finns det en generell fördelning som beskriver en mätning? När vi nu lärt oss olika sätt att karaktärisera en fördelning av mätvärden, kan vi börja fundera över vad vi förväntar oss t ex för fördelningen av mätdata när vi mätte längden av en parkeringsficka. Finns

Läs mer

Lågrangsapproximation exempel. Singulärvärden och tillämpningar

Lågrangsapproximation exempel. Singulärvärden och tillämpningar och tillämpningar och tillämpningar A m n - matris B = A t A n n - matris B t = (A t A) t = A t (A t ) t = A t A = B B symmetrisk Spektralsatsen finns ON-bas v,..., v n för R n av egenvektorer till B.

Läs mer

Tentamen består av 9 frågor, totalt 34 poäng. Det krävs minst 17 poäng för att få godkänt och minst 26 poäng för att få väl godkänt.

Tentamen består av 9 frågor, totalt 34 poäng. Det krävs minst 17 poäng för att få godkänt och minst 26 poäng för att få väl godkänt. KOD: Kurskod: PX1200 Kursnamn: Kognitiv psykologi och utvecklingspsykologi Provmoment: Metod Ansvarig lärare: Sara Landström Tentamensdatum: 2017-01-14 Tillåtna hjälpmedel: Miniräknare Tentamen består

Läs mer

732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23

732G71 Statistik B. Föreläsning 8. Bertil Wegmann. IDA, Linköpings universitet. Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23 732G71 Statistik B Föreläsning 8 Bertil Wegmann IDA, Linköpings universitet Bertil Wegmann (IDA, LiU) 732G71, Statistik B 1 / 23 Klassisk komponentuppdelning Klassisk komponentuppdelning bygger på en intuitiv

Läs mer

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015

Lösningsförslag till tentamen på. Statistik och kvantitativa undersökningar STA100, 15 hp. Fredagen den 13 e mars 2015 MÄLARDALENS HÖGSKOLA Akademin för ekonomi, samhälle och teknik Statistik Lösningsförslag till tentamen på Statistik och kvantitativa undersökningar STA100, 15 hp Fredagen den 13 e mars 015 1 a 13 och 14

Läs mer

Rekommendationssystem med begränsad data

Rekommendationssystem med begränsad data EXAMENSARBETE INOM TEKNIK, GRUNDNIVÅ, 15 HP STOCKHOLM, SVERIGE 2016 Rekommendationssystem med begränsad data Påverkan av gles data och cold start på rekommendationsalgoritmen Slope One ANNA-KARIN EVERT

Läs mer

1 Mätdata och statistik

1 Mätdata och statistik Matematikcentrum Matematik NF Mätdata och statistik Betrakta frågeställningen Hur mycket väger en nyfödd bebis?. Frågan verkar naturlig, men samtidigt mycket svår att besvara. För att ge ett fullständigt

Läs mer

Regression med Genetiska Algoritmer

Regression med Genetiska Algoritmer Regression med Genetiska Algoritmer Projektarbete, Artificiell intelligens, 729G43 Jimmy Eriksson, jimer336 770529-5991 2014 Inledning Hur många kramar finns det i världen givet? Att kunna estimera givet

Läs mer

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell

1. Lära sig plotta en beroende variabel mot en oberoende variabel. 2. Lära sig skatta en enkel linjär regressionsmodell Datorövning 1 Regressions- och tidsserieanalys Syfte 1. Lära sig plotta en beroende variabel mot en oberoende variabel 2. Lära sig skatta en enkel linjär regressionsmodell 3. Lära sig beräkna en skattning

Läs mer

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 24 april, Ansvarig lärare: Bengt Jansson ( , mobil: )

TENTAMEN PC1307 PC1546. Statistik (5 hp) Lördag den 24 april, Ansvarig lärare: Bengt Jansson ( , mobil: ) GÖTEBORGS UNIVERSITET Psykologiska institutionen TENTAMEN PC1307 PC1546 Statistik (5 hp) Lördag den 24 april, 2010 Tid: 14 30 18 30 Lokal: Viktoriagatan 30 Hjälpmedel: räknedosa Ansvarig lärare: Bengt

Läs mer

Säsongrensning i tidsserier.

Säsongrensning i tidsserier. Senast ändrad 200-03-23. Säsongrensning i tidsserier. Kompletterande text till kapitel.5 i Tamhane och Dunlop. Inledning. Syftet med säsongrensning är att dela upp en tidsserie i en trend u t, en säsongkomponent

Läs mer

ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap

ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap ARTIFICIELLA NEURALA NÄT MARCO KUHLMANN Institutionen för datavetenskap Example Alt Bar Fri Hun Pat Price Rain Res Type Est WillWait 1 Yes No No Yes Some $$$ No Yes French 0 10 Yes 2 Yes No No Yes Full

Läs mer

Stokastiska processer med diskret tid

Stokastiska processer med diskret tid Stokastiska processer med diskret tid Vi tänker oss en följd av stokastiska variabler X 1, X 2, X 3,.... Talen 1, 2, 3,... räknar upp tidpunkter som förflutit från startpunkten 1. De stokastiska variablerna

Läs mer

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi

Föreläsning 1. NDAB02 Statistik; teori och tillämpning i biologi Föreläsning 1 Statistik; teori och tillämpning i biologi 1 Kursens uppbyggnad 9 föreläsningar Föreläsningsunderlag läggs ut på kurshemsidan 5 lektioner Uppgifter från kursboken enligt planering 5 laborationer

Läs mer

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer Laboration 2 i 5B52, Grundkurs i matematisk statistik för ekonomer Namn: Elevnummer: Laborationen syftar till ett ge information och träning i Excels rutiner för statistisk slutledning, konfidensintervall,

Läs mer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer

2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna. 4. Lära sig skatta en linjär regressionsmodell med interaktionstermer Datorövning 2 Regressions- och tidsserieanalys Syfte 1. Lära sig skapa en korrelationsmatris 2. Lära sig skatta en multipel linjär regressionsmodell samt plotta variablerna mot varandra 3. Lära sig beräkna

Läs mer

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 7 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Fortsättning envägs-anova Scheffes test (kap 11.4) o Tvåvägs-ANOVA Korsade faktorer (kap 12.1, 12.3) Randomiserade blockförsök

Läs mer

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 1: TIDSSERIER.

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 1: TIDSSERIER. MATEMATISKA INSTITUTIONEN Tillämpad statistisk analys, GN STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB 2011-03-24 DATORLABORATION 1: TIDSSERIER. I Tarfala har man under en lång följd av

Läs mer

Regressions- och Tidsserieanalys - F8

Regressions- och Tidsserieanalys - F8 Regressions- och Tidsserieanalys - F8 Klassisk komponentuppdelning, kap 7.1.-7.2. Linda Wänström Linköpings universitet November 26 Wänström (Linköpings universitet) F8 November 26 1 / 23 Klassisk komponentuppdelning

Läs mer

TDDC74 Programmering: Abstraktion och modellering Tentamen, onsdag 9 juni 2016, kl 14 18

TDDC74 Programmering: Abstraktion och modellering Tentamen, onsdag 9 juni 2016, kl 14 18 TDDC74 Programmering: Abstraktion och modellering Tentamen, onsdag 9 juni 2016, kl 14 18 Läs alla frågorna först, och bestäm dig för i vilken ordning du vill lösa uppgifterna. Skriv tydligt och läsligt.

Läs mer

Vad Betyder måtten MAPE, MAD och MSD?

Vad Betyder måtten MAPE, MAD och MSD? Vad Betyder måtten MAPE, MAD och MSD? Alla tre är mått på hur bra anpassningen är och kan användas för att jämföra olika modeller. Den modell som har lägst MAPE, MAD och/eller MSD har bäst anpassning.

Läs mer

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN

Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Kapitel 4: SAMBANDET MELLAN VARIABLER: REGRESSIONSLINJEN Spridningsdiagrammen nedan representerar samma korrelationskoefficient, r = 0,8. 80 80 60 60 40 40 20 20 0 0 20 40 0 0 20 40 Det finns dock två

Läs mer

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder

Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga urvalsmetoder Tillämpad statistik (A5), HT15 Föreläsning 6: Några övriga smetoder Ronnie Pingel Statistiska institutionen Senast uppdaterad: 2015-11-11 Några övriga smetoder OSU-UÅ (med eller utan stratifiering) förutsätter

Läs mer

Övning 1(a) Vad du ska kunna efter denna övning. Problem, nivå A. Redogöra för begreppen diskret och kontinuerlig stokastisk variabel.

Övning 1(a) Vad du ska kunna efter denna övning. Problem, nivå A. Redogöra för begreppen diskret och kontinuerlig stokastisk variabel. Övning 1(a) Vad du ska kunna efter denna övning Redogöra för begreppen diskret och kontinuerlig stokastisk variabel. Definiera fördelningsfunktionen för en stokastisk variabel. Definiera frekvensfunktionen

Läs mer

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1

Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning: Matematisk Statistik med Metoder MVE490 1 Tentamentsskrivning i Matematisk Statistik med Metoder MVE490 Tid: den 29 oktober, 2016 Examinatorer: Kerstin Wiklander och Erik Broman. Jour:

Läs mer

Experimentella metoder 2014, Räkneövning 1

Experimentella metoder 2014, Räkneövning 1 Experimentella metoder 04, Räkneövning Problem : Tio mätningar av en resistans gav följande resultat: Mätning no. Resistans (Ω) Mätning no Resistans (Ω) 0.3 6 0.0 00.5 7 99.98 3 00.0 8 99.80 4 99.95 9

Läs mer

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder Föreläsning 7 Statistiska metoder 1 Dagens föreläsning o Hypotesprövning för två populationer Populationsandelar Populationsmedelvärden Parvisa observationer Relation mellan hypotesprövning och konfidensintervall

Läs mer

Medelvärde, median och standardavvikelse

Medelvärde, median och standardavvikelse Medelvärde, median och standardavvikelse Detta är en enkel aktivitet där vi på ett dynamiskt sätt ska titta på hur de statistiska måtten, t.ex. median och medelvärde ändras när man ändar ett värde i en

Läs mer

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION.

STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB DATORLABORATION 3: MULTIPEL REGRESSION. MATEMATISKA INSTITUTIONEN Tillämpad statistisk analys, GN STOCKHOLMS UNIVERSITET VT 2011 Avd. Matematisk statistik GB 2011-04-13 DATORLABORATION 3: MULTIPEL REGRESSION. Under Instruktioner och data på

Läs mer

x 23 + y 160 = 1, 2 23 = ,

x 23 + y 160 = 1, 2 23 = , Matematiska Institutionen KTH Lösningar till några övningar, inför tentan moment B, på de avsnitt som inte omfattats av lappskrivningarna, Diskret matematik för D2 och F, vt08.. Ett RSA-krypto har n =

Läs mer

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå

Användning. Fixed & Random. Centrering. Multilevel Modeling (MLM) Var sak på sin nivå Användning Multilevel Modeling (MLM) Var sak på sin nivå Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Kärt barn har många namn: (1) Random coefficient models; () Mixed effect models; (3)

Läs mer

Exempel ode45 parametrar Miniprojekt 1 Rapport. Problemlösning. Anastasia Kruchinina. Uppsala Universitet. Januari 2016

Exempel ode45 parametrar Miniprojekt 1 Rapport. Problemlösning. Anastasia Kruchinina. Uppsala Universitet. Januari 2016 Problemlösning Anastasia Kruchinina Uppsala Universitet Januari 2016 Anastasia Kruchinina Problemlösning 1 / 16 Exempel ode45 parametrar Miniprojekt 1 Rapport Anastasia Kruchinina Problemlösning 2 / 16

Läs mer

Experimentella metoder 2014, Räkneövning 4

Experimentella metoder 2014, Räkneövning 4 Experimentella metoder, Räkneövning Problem : På polisstationen i Slottshult är man missnöjd med att polisdistriktet utvidgats till att också omfatta grankommunen Järvsprånget Innan utvidningen hade man

Läs mer

729G43 Artificiell intelligens (2016) Maskininlärning 1. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 1. Marco Kuhlmann Institutionen för datavetenskap 729G43 Artificiell intelligens (2016) Maskininlärning 1 Marco Kuhlmann Institutionen för datavetenskap Introduktion Maskininlärning Tack vare maskininlärning kan AI-system idag bl.a. producera och förstå

Läs mer

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/31 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/31 REGRESSIONSANALYS F1 Linda Wänström Statistiska institutionen, Stockholms universitet 2/31 Kap 4: Introduktion till regressionsanalys. Introduktion Regressionsanalys är en statistisk teknik för att

Läs mer

Pangea Matematiktävling FRÅGEKATALOG. Första omgång 2016 Årskurs 9

Pangea Matematiktävling FRÅGEKATALOG. Första omgång 2016 Årskurs 9 Pangea Matematiktävling FRÅGEKATALOG Första omgång 2016 Årskurs 9 Pangea Regler & Instruktioner Svarsblankett - Vänligen fyll i förnamn, efternamn och årskurs på svarsblanketten. -Vi rekommenderar deltagarna

Läs mer

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet

1/23 REGRESSIONSANALYS. Statistiska institutionen, Stockholms universitet 1/23 REGRESSIONSANALYS F4 Linda Wänström Statistiska institutionen, Stockholms universitet 2/23 Multipel regressionsanalys Multipel regressionsanalys kan ses som en utvidgning av enkel linjär regressionsanalys.

Läs mer

TATM79: Föreläsning 1 Notation, ekvationer, polynom och summor

TATM79: Föreläsning 1 Notation, ekvationer, polynom och summor TATM79: Föreläsning 1 Notation, ekvationer, polynom och summor Johan Thim 22 augusti 2018 1 Vanliga symboler Lite logik Implikation: P Q. Detta betyder att om P är sant så är Q sant. Utläses P medför Q

Läs mer

1.1 Diskret (Sannolikhets-)fördelning

1.1 Diskret (Sannolikhets-)fördelning Föreläsning III. Diskret (Sannolikhets-)fördelning Med diskret menas i matematik, att något antar ett ändligt antal värden eller uppräkneligt oändligt med värden e.vis {, 2, 3,...}. Med fördelning menas

Läs mer

OBS! Vi har nya rutiner.

OBS! Vi har nya rutiner. KOD: Kurskod: PM1303 Kursnamn: Vetenskapsteori och grundläggande forskningsmetod Provmoment: Ansvarig lärare: Linda Hassing Tentamensdatum: 2012-11-17 Tillåtna hjälpmedel: Miniräknare Tentan består av

Läs mer

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik

FÖRELÄSNINGSMATERIAL. diff SE. SE x x. Grundläggande statistik 2: KORRELATION OCH HYPOTESTESTNING. Påbyggnadskurs T1. Odontologisk profylaktik Grundläggande statistik Påbyggnadskurs T1 Odontologisk profylaktik FÖRELÄSNINGSMATERIAL : KORRELATION OCH HYPOTESTESTNING t diff SE x 1 diff SE x x 1 x. Analytisk statistik Regression & Korrelation Oberoende

Läs mer

Vi har en ursprungspopulation/-fördelning med medelvärde µ.

Vi har en ursprungspopulation/-fördelning med medelvärde µ. P-värde P=probability Sannolikhetsvärde som är resultat av en statistisk test. Anger sannolikheten för att göra den observation vi har gjort eller ett sämre / mer extremt utfall om H 0 är sann. Vi har

Läs mer

Grundläggande matematisk statistik

Grundläggande matematisk statistik Grundläggande matematisk statistik Kontinuerliga fördelningar Uwe Menzel, 8 www.matstat.de Begrepp fördelning Hur beter sig en variabel slumpmässigt? En slumpvariabel (s.v.) har en viss fördelning, d.v.s.

Läs mer

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1 Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4

Läs mer

Uppgifter till tenta i 729G04 Programmering och diskret matematik. 17 december 2015, kl 14:00-18:00

Uppgifter till tenta i 729G04 Programmering och diskret matematik. 17 december 2015, kl 14:00-18:00 1 ( 7) Uppgifter till tenta i 729G04 Programmering och diskret matematik. 17 december 2015, kl 14:00-18:00 Tillåtna hjälpmedel: Dator, penna, papper, linjal, suddgummi, godkänd(a) bok/böcker/kompendier

Läs mer

TDDC74 Programmering: Abstraktion och modellering Tentamen, lördag 27 augusti 2016, kl 8 12

TDDC74 Programmering: Abstraktion och modellering Tentamen, lördag 27 augusti 2016, kl 8 12 TDDC74 Programmering: Abstraktion och modellering Tentamen, lördag 27 augusti 2016, kl 8 12 Läs alla frågorna först, och bestäm dig för i vilken ordning du vill lösa uppgifterna. Skriv tydligt och läsligt.

Läs mer

DATORÖVNING 2: STATISTISK INFERENS.

DATORÖVNING 2: STATISTISK INFERENS. DATORÖVNING 2: STATISTISK INFERENS. START Logga in och starta Minitab. Se till att du kan skriva Minitab-kommandon direkt i Session-fönstret (se föregående datorövning). CENTRALA GRÄNSVÄRDESSATSEN Enligt

Läs mer

Uppgift 1. Produktmomentkorrelationskoefficienten

Uppgift 1. Produktmomentkorrelationskoefficienten Uppgift 1 Produktmomentkorrelationskoefficienten Både Vikt och Längd är variabler på kvotskalan och således kvantitativa variabler. Det innebär att vi inte har så stor nytta av korstabeller om vi vill

Läs mer

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA

Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA Kapitel 12: TEST GÄLLANDE EN GRUPP KOEFFICIENTER - ANOVA 12.1 ANOVA I EN MULTIPEL REGRESSION Exempel: Tjänar man mer som egenföretagare? Nedan visas ett utdrag ur ett dataset som innehåller information

Läs mer

OBS! Vi har nya rutiner.

OBS! Vi har nya rutiner. KOD: Kurskod: PC1203 och PC1244 Kursnamn: Kognitiv psykologi och metod och Kognitiv psykologi och utvecklingspsykologi Provmoment: Metod Ansvarig lärare: Linda Hassing Tentamensdatum: 2012-11-17 Tillåtna

Läs mer

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 4 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar

Läs mer

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap 729G43 Artificiell intelligens (2016) Maskininlärning 3 Marco Kuhlmann Institutionen för datavetenskap Modell med vektornotation parametervektor särdragsvektor Perceptron kombinerar linjär regression med

Läs mer

ANOVA Mellangruppsdesign

ANOVA Mellangruppsdesign ANOVA Mellangruppsdesign Envägs variansanlays, mellangruppsdesign Variabler En oberoende variabel ( envägs ): Nominalskala eller ordinalskala. Delar in det man undersöker (personerna?) i grupper/kategorier,

Läs mer

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Tobias Abenius February 21, 2012 Envägs variansanalys (ANOVA) I envägs variansanalys utnyttjas att

Läs mer

Kravspecifikation Fredrik Berntsson Version 1.3

Kravspecifikation Fredrik Berntsson Version 1.3 Kravspecifikation Fredrik Berntsson Version 1.3 Status Granskad FB 2017-01-27 Godkänd FB 2017-01-27 Dokumenthistorik Version Datum Utförda ändringar Utförda av Granskad 1.0 2014-01-15 Första versionen

Läs mer

MVE051/MSG Föreläsning 7

MVE051/MSG Föreläsning 7 MVE051/MSG810 2016 Föreläsning 7 Petter Mostad Chalmers November 23, 2016 Överblick Deskriptiv statistik Grafiska sammanfattningar. Numeriska sammanfattningar. Estimering (skattning) Teori Några exempel

Läs mer

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS Datorövning 3 Statistisk teori med tillämpningar Simulering i SAS Syfte Att simulera data är en metod som ofta används inom forskning inom ett stort antal ämnen, exempelvis nationalekonomi, fysik, miljövetenskap

Läs mer

SF1624 Algebra och geometri Lösningsförslag till tentamen Lördagen den 5 juni, 2010 DEL A

SF1624 Algebra och geometri Lösningsförslag till tentamen Lördagen den 5 juni, 2010 DEL A SF624 Algebra och geometri Lösningsförslag till tentamen Lördagen den 5 juni, 200 DEL A ( Betrakta det komplexa talet w = i. (a Skriv potenserna w n på rektangulär form, för n = 2,, 0,, 2. ( (b Bestäm

Läs mer

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet

Regressionsanalys. - en fråga om balans. Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Regressionsanalys - en fråga om balans Kimmo Sorjonen Sektionen för Psykologi Karolinska Institutet Innehåll: 1. Enkel reg.analys 1.1. Data 1.2. Reg.linjen 1.3. Beta (β) 1.4. Signifikansprövning 1.5. Reg.

Läs mer

Instruktion för laboration 1

Instruktion för laboration 1 STOCKHOLMS UNIVERSITET MATEMATISKA INSTITUTIONEN Avd. för matematisk statistik MD, ANL, TB (rev. JM, OE) SANNOLIKHETSTEORI I Instruktion för laboration 1 De skriftliga laborationsrapporterna skall vara

Läs mer

MAJ 2015 TRÄNINGS BAROMETERN EN MÄTNING AV MEDLEMMARNAS NÖJDHET OCH LOJALITET. Anläggningens namn

MAJ 2015 TRÄNINGS BAROMETERN EN MÄTNING AV MEDLEMMARNAS NÖJDHET OCH LOJALITET. Anläggningens namn MAJ 2015 TRÄNINGS BAROMETERN EN MÄTNING AV MEDLEMMARNAS NÖJDHET OCH LOJALITET Anläggningens namn INNEHÅLL INNEHÅLL SAMMANFATTNING 2 INTRODUKTION Bakgrund Syfte och mål Urval och insamling Frågestruktur

Läs mer

Attila Szabo Niclas Larson Gunilla Viklund Mikael Marklund Daniel Dufåker. GeoGebraexempel

Attila Szabo Niclas Larson Gunilla Viklund Mikael Marklund Daniel Dufåker. GeoGebraexempel matematik Attila Szabo Niclas Larson Gunilla Viklund Mikael Marklund Daniel Dufåker 2b GeoGebraexempel Till läsaren I elevböckerna i serien Matematik Origo finns uppgifter där vi rekommenderar användning

Läs mer

Bibliometrisk samarbetsstudie av Bert Bolin Centre for Climate Research, åren 2010 och 2013

Bibliometrisk samarbetsstudie av Bert Bolin Centre for Climate Research, åren 2010 och 2013 Bibliometrisk samarbetsstudie av Bert Bolin Centre for Climate Research, åren 2010 och 2013 Inledning Per Ahlgren, Stockholms universitetsbibliotek Vid Bert Bolin Centre for Climate Research (BBCC) bedrivs

Läs mer

Visualisering av samverkan

Visualisering av samverkan Visualisering av samverkan 18 december 2017 En viktig aspekt i samverkan är att inte bara ha koll på vilka andra aktörer du själv samverkar med, utan även veta om vilka aktörer du inte samverkar med, men

Läs mer

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9.

7,5 högskolepoäng. Statistisk försöksplanering och kvalitetsstyrning. TentamensKod: Tentamensdatum: 28 oktober 2016 Tid: 9. Statistisk försöksplanering och kvalitetsstyrning Provmoment: Ladokkod: Tentamen ges för: TentamensKod: Tentamen 4I2B KINAF4, KINAR4, KINLO4, KMASK4 7,5 högskolepoäng Tentamensdatum: 28 oktober 206 Tid:

Läs mer

Mälardalens Högskola. Formelsamling. Statistik, grundkurs

Mälardalens Högskola. Formelsamling. Statistik, grundkurs Mälardalens Högskola Formelsamling Statistik, grundkurs Höstterminen 2015 Deskriptiv statistik Populationens medelvärde (population mean): μ = X N Urvalets medelvärde (sample mean): X = X n Där N är storleken

Läs mer

Tentamen MVE301 Sannolikhet, statistik och risk

Tentamen MVE301 Sannolikhet, statistik och risk Tentamen MVE301 Sannolikhet, statistik och risk 2018-10-12 kl. 8:30-13:30 Examinator: Johan Jonasson, Matematiska vetenskaper, Chalmers Telefonvakt: Olof Elias, telefon: 031-7725325 Hjälpmedel: Valfri

Läs mer

Laboration 0: Del 2. Benjamin Kjellson Introduktion till matriser, vektorer, och ekvationssystem

Laboration 0: Del 2. Benjamin Kjellson Introduktion till matriser, vektorer, och ekvationssystem Laboration 0: Del 2 Benjamin Kjellson 2016 03 21 Introduktion till matriser, vektorer, och ekvationssystem I den här filen får ni en kort introduktion till hur man hanterar och räknar med matriser i R,

Läs mer

Tentamen i Dataanalys och statistik för I den 28 okt 2015

Tentamen i Dataanalys och statistik för I den 28 okt 2015 Tentamen i Dataanalys och statistik för I den 8 okt Tentamen består av åtta uppgifter om totalt poäng. Det krävs minst poäng för betyg, minst poäng för och minst för. Eaminator: Ulla lomqvist Hjälpmedel:

Läs mer

Del A: Schema för ifyllande av svar nns på sista sidan

Del A: Schema för ifyllande av svar nns på sista sidan Del A: Schema för ifyllande av svar nns på sista sidan 1 1 Nedladdningstiden (i sekunder) för en bestämd l registrerades 16 gånger vid var och en av tre olika tidpunkter på dygnet. ANOVA-analys av dessa

Läs mer

Matematisk modellering fortsättningskurs Visuell variation

Matematisk modellering fortsättningskurs Visuell variation Matematisk modellering fortsättningskurs Visuell variation Johan Hedberg, Fredrik Svensson, Frida Hansson, Samare Jarf 12 maj 2011 1 1 Sammanfattning I denna rapport undersöker vi en modell för att beskriva

Läs mer

TENTAMEN PC1307 PC1546. Statistik (5 hp) Onsdag den 20 oktober, Ansvarig lärare: Bengt Jansson ( , mobil: )

TENTAMEN PC1307 PC1546. Statistik (5 hp) Onsdag den 20 oktober, Ansvarig lärare: Bengt Jansson ( , mobil: ) GÖTEBORGS UNIVERSITET Psykologiska institutionen TENTAMEN PC1307 PC1546 Statistik (5 hp) Onsdag den 20 oktober, 2010 Tid: 9 00 13 00 Lokal: Viktoriagatan 30 Hjälpmedel: räknedosa Ansvarig lärare: Bengt

Läs mer

Obligatorisk uppgift, del 1

Obligatorisk uppgift, del 1 Obligatorisk uppgift, del 1 Uppgiften består av tre sannolikhetsproblem, som skall lösas med hjälp av miniräknare och tabellsamling. 1. Vid tillverkning av en produkt är felfrekvensen 0,02, dvs sannolikheten

Läs mer

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012 Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov

Läs mer

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN): Lunds tekniska högskola Matematikcentrum Matematisk statistik FMSF50: Matematisk statistik för L och V OH-bilder på föreläsning 7, 2017-11-20 EXEMPEL PÅ FRÅGESTÄLLNINGAR INOM STATISTIK- TEORIN (INFERENSTEORIN):

Läs mer

Konvergens för iterativa metoder

Konvergens för iterativa metoder Konvergens för iterativa metoder 1 Terminologi Iterativa metoder används för att lösa olinjära (och ibland linjära) ekvationssystem numeriskt. De utgår från en startgissning x 0 och ger sedan en följd

Läs mer

Föreläsning G60 Statistiska metoder

Föreläsning G60 Statistiska metoder Föreläsning 4 Statistiska metoder 1 Dagens föreläsning o Sannolikhet Vad är sannolikhet? o Slumpvariabel o Sannolikhetsfördelningar Binomialfördelning Normalfördelning o Stickprov och population o Centrala

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

7.5 Experiment with a single factor having more than two levels

7.5 Experiment with a single factor having more than two levels 7.5 Experiment with a single factor having more than two levels Exempel: Antag att vi vill jämföra dragstyrkan i en syntetisk fiber som blandats ut med bomull. Man vet att inblandningen påverkar dragstyrkan

Läs mer