TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

Storlek: px
Starta visningen från sidan:

Download "TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap"

Transkript

1 TDDD02 Språkteknologi för informationssökning (2016) Ordpredicering Marco Kuhlmann Institutionen för datavetenskap

2 Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

3 Tillämpningar av ordpredicering höja effektiviteten vid textinmatning föreslå ytterligare aller alternativa söktermer uppmärksamma och korrigera stavfel ge stöd till funktionshindrade

4 Översikt över momentet n-gram-modeller för att föreslå det nästa ordet utifrån de föregående orden redigeringsavstånd för att föreslå alternativa stavningar

5 N-gram-modeller

6 Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

7 Shannons spel Shannons spel liknar Hänga gubbe förutom att det är inte roligt man får bara gissa ett tecken i taget Claude Shannon ( )

8 Shannons spel, nu med ord Olika ord har olika stora sannolikheter att dyka upp som nästa ord, givet de föregående orden. P(hus ett) > P(ett hus) För att predicera nästa ord kan vi välja det ord som har den största sannolikheten bland alla möjliga ord w: predicerat ord = argmax w P(w föregående orden)

9 Betingade sannolikheter exempel: aktuellt ord = hus P(hypotes evidens) exempel: föregående ord = ett

10 Markov-modell Sannolikheten för varje ord är endast beroende av det närmast föregående ordet. Sannolikheten för en hel mening ges av produkten av alla dessa sannolikheter. P(w 1, w 2, w 3 ) P(w 2 w 1 )P(w 3 w 2 ) Hur börjar en mening? Hur slutar en mening? beginning-of-sentence, end-of-sentence Андрéй Мáрков ( )

11 Markov-modell med BOS och EOS beginning-of-sentence P(w 1, w 2, w 3 ) P(w 1 BOS)P(w 2 w 1 )P(w 3 w 2 )P(EOS w 3 ) end-of-sentence

12 Språkmodeller En språkmodell är en sannolikhetsmodell för meningar. Den tilldelar en sannolikhet till varje mening (sekvens av ord). Sannolikheterna i en språkmodell uppskattas utifrån data i stora textmängder. Texter som samlats in för språkvetenskapliga eller språkteknologiska syften kallas korpusar.

13 N-gram-modeller Ett n-gram är en sekvens av n ord. unigram, bigram, trigram, kvadrigram En n-gram-modell är en språkmodell där sannolikheten för varje ord är endast beroende av de n 1 föregående orden. Markov-modell = bigram-modell

14 Ingredienserna i en bigram-modell V P(w c) en mängd möjliga ord; modellens vokabulär en sannolikhet som anger hur troligt det är att observera ordet w efter kontext-unigrammet c en sannolikhet för varje kombination av ett ord w och en kontext c

15 Ingredienserna i en n-gram-modell n V P(w c) modellens ordning (1 = unigram, 2 = bigram, ) en mängd möjliga ord; modellens vokabulär en sannolikhet som anger hur troligt det är att observera ordet w efter kontext-(n 1)-grammet c i en unigram-modell: P(w 1 ) kontext: ingen i en bigram-modell: P(w 2 w 1 ) kontext: unigram i en trigram-modell: P(w 3 w 1 w 2 ) kontext: bigram

16 Slumpa fram meningar i en bigram-modell Välj ett ord w 1 med sannolikhet P(w 1 BOS). Välj ett ord w 2 med sannolikhet P(w 2 w 1 ). Välj ett ord w 3 med sannolikhet P(w 3 w 2 ). Och så vidare, tills man väljer EOS.

17 Skattning av n-gram-modeller

18 Vilka sannolikheter behöver skattas? P(w 1 ) P(w 2 w 1 ) P(w 3 w 1 w 2 ) unigram-modell bigram-modell trigram-modell

19 ML-skattning av bigramsannolikheter f(w 1 w 2 ) antalet förekomster av bigrammet w 1 w 2 f(w 1 ) antalet förekomster av unigrammet w 1 viktigt att förstå varför dessa är lika!

20 Övningsuppgift I en korpus som omfattar ord hittar vi ordet det 1500 gånger, ordet är 1800 gånger, sekvensen det är 250 gånger, ordet sägs 10 gånger, och sekvensen det sägs 0 gånger. Skatta följande sannolikheter med ML-metoden: unigramsannolikheten P(det) bigramsannolikheten P(är det) bigramsannolikheten P(sägs det)

21 Problem med ML-skattning Shakespeares verk innehåller ca olika ord. Det finns 961 miljoner olika bigram med dessa ord. I hans texter hittar vi bara olika bigram. Detta betyder att 99,97% av alla teoretiskt möjliga bigram har frekvens 0. I en bigram-modell kommer varje mening som innehåller ett sådant bigram få sannolikhet 0.

22 ML-skattning med addera-ett utjämning f(w 1 w 2 ) antalet förekomster av bigrammet w 1 w 2 f(w 1 ) antalet förekomster av unigrammet w 1

23 ML-skattning med addera-k-utjämning f(w 1 w 2 ) antalet förekomster av bigrammet w 1 w 2 f(w 1 ) antalet förekomster av unigrammet w 1

24 Interpolering och backoff Interpolering kombinera sannolikheter från flera n-gram-modeller: λ 3 P(w 3 w 1, w 2 ) + λ 2 P(w 3 w 2 ) + λ 1 P(w 3 ) Backoff använd trigram-modellen om tillräckligt mycket data finns, annars bigram-modellen, sist unigram-modellen

25 Okända ord Förutom nya n-gram kan en ny text även innehålla okända ord. En vanlig teknik för att hantera dessa är att under träningen ersätta den första förekomsten av varje ord med låtsasordet UNK. unknown word Vid skattning kommer då en del av sannolikhetsmassan reserveras för okända ord. När man räknar ut sannolikheten för en ny mening kan man sedan ersätta alla okända ord med ordet UNK.

26 Utvärdering av språkmodeller

27 Två sorters utvärderingar Extrinsisk utvärdering (in vivo) mäter hur bra modellen är på att hjälpa oss lösa den uppgift som vi är intresserade i, t.ex. stavningkorrektur mest relevant utvärdering, dyr Intrinsisk utvärdering (in vitro) mäter kvalitén hos modellen med hjälp av något mått som förhoppningsvis approximerar den extrinsiska utvärderingen billig, mindre relevant utvärdering

28 Utvärdering av språkmodeller Träna en språkmodell på en träningsmängd och använd den för att beräkna sannolikheten för en testmängd. Om träningsmängden och testmängden inte är alltför olika bör båda få ungefär lika hög sannolikhet. Intuition: Efter att ha sett träningsmängden borde vi inte bli alltför överraskade när vi ser testmängden. mått på överraskning = logaritm av sannolikhet

29 Varför inte använda sannolikheter direkt? Problem Eftersom sannolikheten för en text är produkten av sannolikheterna för de ingående orden blir den mindre ju längre texten blir. Detta gör det svårt att jämföra texter av olika längd. Lösning Normalisera med avseende med texternas längd. Detta skulle kräva att vi räknar ut det geometriska medelvärdet av de ingående sannolikheterna. Enklare alternativ: entropi.

30 Entropi Entropi mäter oförutsägbarheten hos en text. Med vår språkmodell som utgångspunkt, hur överraskade är vi (i genomsnitt per ord) när vi läser texten?

31 Ett mått på hur överraskade vi är 5 3,75 log p 2,5 1, ,25 0,5 0,75 1 p

32 Entropi i en bigram-modell Entropi mäter oförutsägbarheten hos en text. I en bigram-modell kan vi approximera en texts oförutsägbarhet genom att summera över alla bigram-oförutsägbarheter. ( 1,..., ) = 1 log 2 ( 1 ) =1

33 Entropi på språkliga data bra språkmodell = låg entropi Wall Street Journal, trigram-modell: 6,77 dålig språkmodell = hög entropi Wall Street Journal, unigram-modell: 9,91

34 Entropi och utjämning När vi använder utjämning gör vi en omfördelning av sannolikhetsmassan till observationer som vi aldrig gjort. Detta kommer lämna en mindre del av sannolikhetsmassan kvar till de observationer som vi faktiskt gjort under träningen. Om vi utvärderar den tränade modellen på träningsmängden kommer därför dess entropi vara högre än utan utjämning.

35 Redigeringsavstånd

36 Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

37 Stavningskorrektur Många felstavade ord är ganska lika de rättstavade orden; det är bara enskilda tecken som har förändrats. lingvisterma, word prefiction Givet ett felstavat ord vill vi kunna föreslå ett eller flera liknande ord och föreslå de mest sannolika av dessa.

38 Redigeringsavstånd Vi kan mäta likheten mellan två ord genom att räkna antalet operationer som krävs för att överföra det ena till det andra. Här antar vi följande redigeringsoperationer: insertion deletion substitution lägga till in ett tecken ta bort ett tecken ersätt ett tecken med ett annat

39 Exempel Hur många operationer krävs för att göra om intention till execution? intention ta bort i ersätt n med e ersätt t med x lägg till c ersätt n med u ntention etention exention execntion execution

40 Bokstavslänkningar i n t e * n t i o n * e x e c u t i o n i n t e n * t i o n e x * e c u t i o n

41 Probabilistisk stavningskorrigering P(R F) = P(F R) P(R) P(R F) kan användas för att ranka olika hypoteser om vilket rättstavat ord R som kan ha varit avsett givet ett felstavat ord F. P(R) är apriorisannolikheten för det rättstavade ordet; den kan ges av en språkmodell (unigram, bigram, trigram, ). P(F R) betecknar sannolikheten för att R har förvanskats till F; den kan baseras på redigeringsoperationer. högre redigeringsavstånd = lägre sannolikhet

42 Levenshtein-avstånd För varje redigeringsoperation definieras en kostnad: Kostnaden för insertion och deletion är 1. Kostnaden för substitution är 0 om den nya bokstaven är samma som den gamla, och 1 i alla andra fall. Levenshtein-avståndet mellan två ord är den lägsta möjliga kostnaden för att föra över det ena ordet till det andra.

43 Andra avståndsmått I praktiken används ofta mera finkorniga vikter. s istället för a är vanligare än d istället för a Vi kan fortfarande använda samma algoritm; det enda som vi måste anpassa är kostnadsberäkningen. Ett ännu mera realistiskt mått är Damerau Levenshtein-avstånd. tillåter även att byta ut bokstäver

44 Beräkna Levenshtein-avståndet Vi söker en sekvens av operationer som transformerar det ena ordet till det andra och som har lägsta möjliga kostnad. Problem: Det kan finnas ett stort antal olika sekvenser med olika kostnader; sökrymden för detta problem är mycket stor. Men vi vill ju bara ha sekvenser med lägsta möjliga kostnad! Dynamisk programmering: Lösa komplexa problem genom att kombinera lösningar till delproblem. Wagner Fisher-algoritm

45 Sammanfattning Ordpredicering = föreslå eller välja ord i en given kontext Tillämpningar: föreslå alternativa söktermer, effektivisera inmatningen, uppmärksamma eller korrigera stavfel Centrala begrepp: Markov-antagande, n-gram-modell, unigram, bigram, trigram, entropi, Levenshtein-avstånd Läsanvisningar: JM , och 5.9; ej 4.5.2, 4.5.3, 4.7.1

46 Att beräkna Levenshtein-avståndet (extramaterial)

47 Levenshtein-avstånd Levenshtein-avståndet mellan två ord är den lägsta möjliga kostnaden för att föra över det ena ordet till det andra med hjälp av följande redigeringsoperationer: insertion lägger till ett tecken till källordet; kostnad: 1 kr deletion tar bort ett tecken från källordet; kostnad: 1 kr substitution ersätter ett tecken i källordet med ett annat; kostnad: 0 kr om tecknen är lika, annars 1 kr

48 Exempel Levenshtein-avståndet mellan intention till execution är högst 5: intention ta bort i ntention 1 kr ersätt n med e etention 1 kr ersätt t med x exention 1 kr lägg till c execntion 1 kr ersätt n med u execution 1 kr

49 Flera möjligheter i n t e * n t i o n * e x e c u t i o n i n t e n * t i o n e x * e c u t i o n

50 Beräkna Levenshtein-avståndet Vi söker en sekvens av operationer som transformerar det ena ordet till det andra och som har lägsta möjliga kostnad. Problem: Det kan finnas ett stort antal olika sekvenser med olika kostnader; sökrymden för detta problem är mycket stor. Men vi vill ju bara ha sekvenser med lägsta möjliga kostnad! Dynamisk programmering: Lösa komplexa problem genom att kombinera lösningar till delproblem. Wagner Fischer-algoritm

51 Delproblem för Levenshtein-avståndet Givet ett ord source med m tecken och ett ord target med n tecken, definiera L(i, j) som Levenshtein-avståndet mellan de första i tecken i source och de första j tecken i target. Levenshtein-avståndet mellan source och target är alltså L(m, n). L(i, j)-värdena kan beräknas genom att fylla en tabell för allt större värden av i och j.

52 n o i t n e t n i # # e x e c u t i o n Vi vill överföra intention till execution.

53 L(0, 0) n o i t n e t n i # 0 # e x e c u t i o n Det kostar ingenting att överföra en sekvens av noll tecken till en sekvens av noll tecken.

54 L(i, 0) n 9 o 8 i 7 t 6 n 5 e 4 t 3 n 2 i 1 # 0 # e x e c u t i o n Vi kan överföra intention till den tomma sekvensen genom att ta bort alla tecken, ett efter ett.

55 L(0, j) n 9 o 8 i 7 t 6 n 5 e 4 t 3 n 2 i 1 # # e x e c u t i o n Vi kan överföra den tomma sekvensen till execution genom att infoga alla tecken, ett efter ett.

56 L(4, 3) n o i t n e t n i # # e x e c u t i o n I det allmänna fallet finns tre möjliga operationer. Vi vill välja den som har lägst kostnad.

57 L(4, 3) n o i t n e t n i # # e x e c u t i o n Hur kan vi överföra inte till exe? Möjlighet 1: Ta bort e och överför int till exe.

58 L(4, 3) n o i t n e t n i # # e x e c u t i o n Hur kan vi överföra inte till exe? Möjlighet 2: Överför inte till ex och lägg till e.

59 L(4, 3) n o i t n e t n i # # e x e c u t i o n Hur kan vi överföra inte till exe? Möjlighet 3: Ersätt e med e och överför int till ex.

60 L(4, 3) n o i t n e t n i # # e x e c u t i o n Substitution är billigast i det här fallet.

61 L(9, 9) n o i t n e t n i # # e x e c u t i o n Levenshtein-avståndet för det här exemplet är 5.

62 n o i t n e t n i # # e x e c u t i o n Genom att följa backpointers kan vi rekonstruera operationerna.

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / Ordpredicering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning / 2015 Ordpredicering Marco Kuhlmann Institutionen för datavetenskap Ordpredicering Ordpredicering innebär att föreslå eller välja ord i en given kontext.

Läs mer

Tentamen Del A. Marco Kuhlmann

Tentamen Del A. Marco Kuhlmann TDDD01 Språkteknologi (2016) Tentamen 2016-03-16 Marco Kuhlmann Tentamen består två delar, A och B. Varje del omfattar ett antal frågor à 3 poäng. Del A omfattar 8 frågor som kan besvaras kortfattat. Det

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Ordklasstaggning Marco Kuhlmann Institutionen för datavetenskap Ordklasstaggning Tagga varje ord i en sekvens av ord (oftast en mening) med dess korrekta

Läs mer

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap

ORDKLASSTAGGNING. Marco Kuhlmann Institutionen för datavetenskap ORDKLASSTAGGNING Marco Kuhlmann Institutionen för datavetenskap Ordpredicering n-gram-modeller (definition, skattning) den brusiga kanalen: P(R F) = P(F R) P(R) redigeringsavstånd, Levenshtein-avstånd

Läs mer

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord Joakim Nivre / 30 Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Standardiserad stavning underlättar många uppgifter Slå upp ord i ordbok Identifiera svårlästa ord

Läs mer

Tentamen 2016-01-13. Marco Kuhlmann

Tentamen 2016-01-13. Marco Kuhlmann TDDD02 Språkteknologi för informationssökning (2015) Tentamen 2016-01-13 Marco Kuhlmann Denna tentamen består av 10 frågor. Frågorna 8 10 ligger på en högre kunskapsnivå än de övriga och kräver utförliga

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Textklassificering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Textklassificering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Textklassificering Marco Kuhlmann Institutionen för datavetenskap Textklassificering Skräppostfiltrering spam ham Författaridentifiering Alexander Hamilton

Läs mer

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014

Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet 17 mars 2014 Tentamen Marco Kuhlmann, Institutionen för datavetenskap, Linköpings universitet marco.kuhlmann@liu.se 17 mars 2014 Inga hjälpmedel är tillåtna. Maximal poäng finns angiven för varje fråga. Maximal poäng

Läs mer

Grundläggande textanalys. Joakim Nivre

Grundläggande textanalys. Joakim Nivre Grundläggande textanalys Joakim Nivre Om kursen Ni har hittills läst Lingvistik Datorteknik Matematik Språkteknologiska tillämpningar Nu ska vi börja med språkteknologi på allvar Hur gör man text hanterbar

Läs mer

Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier

Skrivstöd. Varför bry sig om stavning? Hur används stavningskontroll? Christian Hardmeier Skrivstöd Christian Hardmeier (efter Joakim Nivre) 205-- Varför bry sig om stavning? Stavfel kan skapa missförstånd Stavfel kan dölja innehåll Stavning fungerar som bildningsmarkör Standardiserad stavning

Läs mer

Probabilistisk logik 1

Probabilistisk logik 1 729G43 Artificiell intelligens / 2016 Probabilistisk logik 1 Marco Kuhlmann Institutionen för datavetenskap Osäkerhet 1.01 Osäkerhet Agenter måste kunna hantera osäkerhet. Agentens miljö är ofta endast

Läs mer

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / Textsammanfattning. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning / 2015 Textsammanfattning Marco Kuhlmann Institutionen för datavetenskap Textsammanfattning Textsammanfattning går ut på att extrahera den mest relevanta informationen

Läs mer

Institutionen för lingvistik och filologi VT 2014 (Marco Kuhlmann 2013, tillägg och redaktion Mats Dahllöf 2014).

Institutionen för lingvistik och filologi VT 2014 (Marco Kuhlmann 2013, tillägg och redaktion Mats Dahllöf 2014). UPPSALA UNIVERSITET Matematik för språkteknologer (5LN445) Institutionen för lingvistik och filologi VT 2014 (Marco Kuhlmann 2013, tillägg och redaktion Mats Dahllöf 2014). 9 Sannolikhet Detta kapitel

Läs mer

poäng i del B Lycka till!

poäng i del B Lycka till! TDDD02 Språkteknologi för informationssökning (2016) Tentamen 2017-01-11 Examinator: Marco Kuhlmann Denna tentamen består av två delar: 1. Del A består av 5 uppgifter som prövar din förståelse av de grundläggande

Läs mer

Statistisk grammatikgranskning

Statistisk grammatikgranskning Statistisk grammatikgranskning Johnny Bigert johnny@nada.kth.se Traditionell grammatikgranskning Hitta stavningsfel och grammatiska fel: Regler Lexikon Traditionell grammatikgranskning Fördelar: Säkert

Läs mer

Lektionsanteckningar 11-12: Normalfördelningen

Lektionsanteckningar 11-12: Normalfördelningen Lektionsanteckningar 11-12: Normalfördelningen När utfallsrummet för en slumpvariabel kan anta vilket värde som helst i ett givet intervall är variabeln kontinuerlig. Det är väsentligt att utfallsrummet

Läs mer

Grundläggande programmering med matematikdidaktisk inriktning för lärare som undervisar i gy eller komvux gy nivå, 7,5 hp

Grundläggande programmering med matematikdidaktisk inriktning för lärare som undervisar i gy eller komvux gy nivå, 7,5 hp Grundläggande programmering med matematikdidaktisk inriktning för lärare som undervisar i gy eller komvux gy nivå, 7,5 hp Dag Wedelin, bitr professor, och K V S Prasad, docent Institutionen för data- och

Läs mer

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1

Inlämningsuppgift : Finn. 2D1418 Språkteknologi. Christoffer Sabel E-post: csabel@kth.se 1 Inlämningsuppgift : Finn 2D1418 Språkteknologi Christoffer Sabel E-post: csabel@kth.se 1 1. Inledning...3 2. Teori...3 2.1 Termdokumentmatrisen...3 2.2 Finn...4 3. Implementation...4 3.1 Databasen...4

Läs mer

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 4. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 4 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Icke-parametriska test Mann-Whitneys test (kap 8.10 8.11) Wilcoxons test (kap 9.5) o Transformationer (kap 13) o Ev. Andelar

Läs mer

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning (2016) Introduktion. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning (2016) Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas

Läs mer

Probabilistisk logik 2

Probabilistisk logik 2 729G43 Artificiell intelligens / 2016 Probabilistisk logik 2 Marco Kuhlmann Institutionen för datavetenskap Översikt Probabilistiska modeller Probabilistisk inferens 1: Betingad sannolikhet Probabilistisk

Läs mer

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion

F2 Introduktion. Sannolikheter Standardavvikelse Normalapproximation Sammanfattning Minitab. F2 Introduktion Gnuer i skyddade/oskyddade områden, binära utfall och binomialfördelningar Matematik och statistik för biologer, 10 hp Fredrik Jonsson Januari 2012 I vissa områden i Afrika har man observerat att förekomsten

Läs mer

Klassificering av homonymer Inlämningsuppgift språkteknologi

Klassificering av homonymer Inlämningsuppgift språkteknologi Klassificering av homonymer Inlämningsuppgift språkteknologi 2013-01-10 Kurskod: DD2418 Författare Gustav Ribom 910326-0593 Erik Aalto 861108-0212 Kontaktperson Johan Boye Abstract Ordet fil har flera

Läs mer

Föreläsning 12. Söndra och härska

Föreläsning 12. Söndra och härska Föreläsning 12 Söndra och härska Föreläsning 12 Söndra och härska Maximal delsekvens Skyline Closest pair Växel Söndra och härska (Divide and conquer) Vi stötte på dessa algoritmer när vi tittade på sortering.

Läs mer

ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap

ARTIFICIELLA NEURALA NÄT. MARCO KUHLMANN Institutionen för datavetenskap ARTIFICIELLA NEURALA NÄT MARCO KUHLMANN Institutionen för datavetenskap Example Alt Bar Fri Hun Pat Price Rain Res Type Est WillWait 1 Yes No No Yes Some $$$ No Yes French 0 10 Yes 2 Yes No No Yes Full

Läs mer

Kravspecifikation Fredrik Berntsson Version 1.3

Kravspecifikation Fredrik Berntsson Version 1.3 Kravspecifikation Fredrik Berntsson Version 1.3 Status Granskad FB 2017-01-27 Godkänd FB 2017-01-27 Dokumenthistorik Version Datum Utförda ändringar Utförda av Granskad 1.0 2014-01-15 Första versionen

Läs mer

Föreläsning 12. Söndra och härska

Föreläsning 12. Söndra och härska Föreläsning 12 Söndra och härska Föreläsning 12 Söndra och härska Maximal delsekvens Skyline Closest pair Växel Uppgifter Söndra och härska (Divide and conquer) Vi stötte på dessa algoritmer när vi tittade

Läs mer

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17

F8 Skattningar. Måns Thulin. Uppsala universitet Statistik för ingenjörer 14/ /17 1/17 F8 Skattningar Måns Thulin Uppsala universitet thulin@math.uu.se Statistik för ingenjörer 14/2 2013 Inledande exempel: kullager Antag att diametern på kullager av en viss typ är normalfördelad N(µ,

Läs mer

Shannon-Fano-Elias-kodning

Shannon-Fano-Elias-kodning Datakompression fö 5 p.1 Shannon-Fano-Elias-kodning Antag att vi har en minnesfri källa X i som tar värden i {1, 2,...,L}. Antag att sannolikheterna för alla symboler är strikt positiva: p(i) > 0, i. Fördelningsfunktionen

Läs mer

Sannolikhetslära. 1 Enkel sannolikhet. Grunder i matematik och logik (2015) 1.1 Sannolikhet och relativ frekvens. Marco Kuhlmann

Sannolikhetslära. 1 Enkel sannolikhet. Grunder i matematik och logik (2015) 1.1 Sannolikhet och relativ frekvens. Marco Kuhlmann Marco Kuhlmann Detta kapitel behandlar grundläggande begrepp i sannolikhetsteori: enkel sannolikhet, betingad sannolikhet, lagen om total sannolikhet och Bayes lag. 1 Enkel sannolikhet Den klassiska sannolikhetsteorin,

Läs mer

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar Föreläsning 8, Matematisk statistik 7.5 hp för E, HT-15 Punktskattningar Anna Lindgren 25 november 2015 Anna Lindgren anna@maths.lth.se FMSF20 F8: Statistikteori 1/17 Matematisk statistik slumpens matematik

Läs mer

Språkteknologi och Open Source

Språkteknologi och Open Source Språkteknologi och Open Source Erik Edin F01 erikedin@kth.se 15 oktober 2004 1 1 Open Source Open Source är en rörelse som syftar till att skriva datorprogram som släpps fria utan kommersiella intressen.

Läs mer

Föreläsning 12: Regression

Föreläsning 12: Regression Föreläsning 12: Regression Matematisk statistik David Bolin Chalmers University of Technology Maj 15, 2014 Binomialfördelningen Låt X Bin(n, p). Vi observerar x och vill ha information om p. p = x/n är

Läs mer

Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram

Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram Xenotag Probabilistisk uppmärkning av xenoglosser baserat på tecken-n-gram Martin WARIN STP, Uppsala Universitet m warin@hotmail.com Abstract Här beskrivs en metod att identifiera ord i en text vilka är

Läs mer

Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret 2014-2015. Lektion 4

Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret 2014-2015. Lektion 4 Introduktion till algoritmer - Lektion 4 Matematikgymnasiet, Läsåret 014-015 Denna lektion ska vi studera rekursion. Lektion 4 Principen om induktion Principen om induktion är ett vanligt sätt att bevisa

Läs mer

TDDD02 Föreläsning 4 HT Klassificering av ord och dokument Lars Ahrenberg

TDDD02 Föreläsning 4 HT Klassificering av ord och dokument Lars Ahrenberg TDDD02 Föreläsning 4 HT-2013 Klassificering av ord och dokument Lars Ahrenberg Översikt Ø Avslutning om ngram-modeller Dokumentrepresentation Ø Klassificering med Naive Bayes ett typexempel generell metod

Läs mer

729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 2. Marco Kuhlmann Institutionen för datavetenskap 729G43 Artificiell intelligens (2016) Maskininlärning 2 Marco Kuhlmann Institutionen för datavetenskap Förra gången: Gradientsökning tangentens lutning i punkt θ steglängdsfaktor Översikt Introduktion

Läs mer

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar

Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar Föreläsning 8, Matematisk statistik 7.5 hp för E Punktskattningar Stas Volkov Stanislav Volkov s.volkov@maths.lth.se FMSF20 F8: Statistikteori 1/20 Översikt Exempel Repetition Exempel Matematisk statistik

Läs mer

729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap

729G17 Språkteknologi / Introduktion. Marco Kuhlmann Institutionen för datavetenskap 729G17 Språkteknologi / 2016 Introduktion Marco Kuhlmann Institutionen för datavetenskap Vad är språkteknologi? Vad är språkteknologi? Språkteknologi är all teknologi som skapas för att förstå eller generera

Läs mer

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap

729G43 Artificiell intelligens (2016) Maskininlärning 3. Marco Kuhlmann Institutionen för datavetenskap 729G43 Artificiell intelligens (2016) Maskininlärning 3 Marco Kuhlmann Institutionen för datavetenskap Modell med vektornotation parametervektor särdragsvektor Perceptron kombinerar linjär regression med

Läs mer

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd

PROGRAMFÖRKLARING I. Statistik för modellval och prediktion. Ett exempel: vågriktning och våghöjd Statistik för modellval och prediktion att beskriva, förklara och förutsäga Georg Lindgren PROGRAMFÖRKLARING I Matematisk statistik, Lunds universitet stik för modellval och prediktion p.1/4 Statistik

Läs mer

LMA201/LMA521: Faktorförsök

LMA201/LMA521: Faktorförsök Föreläsning 1 Innehåll Försöksplanering Faktorförsök med två nivåer Skattning av eekterna. Diagram för huvudeekter Diagram för samspelseekter Paretodiagram Den här veckan kommer tillägnas faktorförsök.

Läs mer

TDDD02 Föreläsning 7 HT-2013

TDDD02 Föreläsning 7 HT-2013 TDDD02 Föreläsning 7 HT-2013 Textsammanfattning Lars Ahrenberg Litt: Våge et al.170-185; Das & Martins, A Survey on Automatic Text Summarization sid 1-4, 11-14, 23-25. Översikt Textstruktur Problemet textsammanfattning

Läs mer

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z))

För logitmodellen ges G (=F) av den logistiska funktionen: (= exp(z)/(1+ exp(z)) Logitmodellen För logitmodellen ges G (=F) av den logistiska funktionen: F(z) = e z /(1 + e z ) (= exp(z)/(1+ exp(z)) Funktionen motsvarar den kumulativa fördelningsfunktionen för en standardiserad logistiskt

Läs mer

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar

Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar Matematisk statistik 9 hp, HT-16 Föreläsning 10: Punktskattningar Anna Lindgren (Stanislav Volkov) 31 oktober + 1 november 2016 Anna Lindgren anna@maths.lth.se FMS012/MASB03 F10: Punktskattning 1/18 Matematisk

Läs mer

Laboration 2: Styrkefunktion samt Regression

Laboration 2: Styrkefunktion samt Regression Lunds Tekniska Högskola Matematikcentrum Matematisk statistik Laboration 2 Styrkefunktion & Regression FMSF70&MASB02, HT19 Laboration 2: Styrkefunktion samt Regression Syfte Styrkefunktion Syftet med dagens

Läs mer

TATM79: Föreläsning 1 Notation, ekvationer, polynom och summor

TATM79: Föreläsning 1 Notation, ekvationer, polynom och summor TATM79: Föreläsning 1 Notation, ekvationer, polynom och summor Johan Thim 22 augusti 2018 1 Vanliga symboler Lite logik Implikation: P Q. Detta betyder att om P är sant så är Q sant. Utläses P medför Q

Läs mer

Kombinatorik och sannolikhetslära

Kombinatorik och sannolikhetslära Grunder i matematik och logik (2018) Kombinatorik och sannolikhetslära Marco Kuhlmann Sannolikhetslära Detta avsnitt är för det mesta en kompakt sammanfattning av momentet sannolikhetslära som ingår i

Läs mer

Alla datorprogram har en sak gemensam; alla processerar indata för att producera något slags resultat, utdata.

Alla datorprogram har en sak gemensam; alla processerar indata för att producera något slags resultat, utdata. Att förstå variabler Alla datorprogram har en sak gemensam; alla processerar indata för att producera något slags resultat, utdata. Vad är en variabel? En variabel är en plats att lagra information. Precis

Läs mer

Tillvägaghångssätt för skattning av körkortsmodell

Tillvägaghångssätt för skattning av körkortsmodell Siamak Baradaran sia@kth.se Tillvägaghångssätt för skattning av körkortsmodell 1 Syfte med modellen Syftet med denna forskning har varit att utveckla en beskrivande modell som kan hjälpa oss att förstå

Läs mer

TDP Regler

TDP Regler Regler Student får lämna salen tidigast en timme efter tentans start. Vid toalettbesök eller rökpaus ska pauslista utanför salen fyllas i. All form av kontakt mellan studenter under tentans gång är strängt

Läs mer

1 Mätdata och statistik

1 Mätdata och statistik Matematikcentrum Matematik NF Mätdata och statistik Betrakta frågeställningen Hur mycket väger en nyfödd bebis?. Frågan verkar naturlig, men samtidigt mycket svår att besvara. För att ge ett fullständigt

Läs mer

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko.

SF1901: SANNOLIKHETSTEORI OCH STATISTIKTEORI KONSTEN ATT DRA INTERVALLSKATTNING. STATISTIK SLUTSATSER. Tatjana Pavlenko. SF1901: SANNOLIKHETSTEORI OCH STATISTIK FÖRELÄSNING 10 STATISTIKTEORI KONSTEN ATT DRA SLUTSATSER. INTERVALLSKATTNING. Tatjana Pavlenko 25 april 2017 PLAN FÖR DAGENS FÖRELÄSNING Statistisk inferens oversikt

Läs mer

DAB760: Språk och logik

DAB760: Språk och logik DAB76: Språk och logik /4: Finita automater och -7 reguljära uttryck Leif Grönqvist (leif.gronqvist@msi.vxu.se) Växjö Universitet (MSI) GSLT (Sveriges nationella forskarskola i språkteknologi) Göteborg

Läs mer

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python Hjälpmedel Följande hjälpmedel är tillåtna: Exakt en valfri bok, t.ex. den rekommenderade kursboken. Boken får ha anteckningar,

Läs mer

(Grundkurs i medier och kommunikation vid Tammerfors Universitet, Finland) 1.1 Kommunikation

(Grundkurs i medier och kommunikation vid Tammerfors Universitet, Finland) 1.1 Kommunikation (Grundkurs i medier och kommunikation vid Tammerfors Universitet, Finland) 1.1 Kommunikation Definitioner Ordböckerna ger flera olika betydelser för ordet kommunikation. Kommunikation betyda flera saker:

Läs mer

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi

Föreläsning 7. NDAB01 Statistik; teori och tillämpning i biologi Föreläsning 7 Statistik; teori och tillämpning i biologi 1 Dagens föreläsning o Fortsättning envägs-anova Scheffes test (kap 11.4) o Tvåvägs-ANOVA Korsade faktorer (kap 12.1, 12.3) Randomiserade blockförsök

Läs mer

Föreläsning 8: Konfidensintervall

Föreläsning 8: Konfidensintervall Föreläsning 8: Konfidensintervall Matematisk statistik Chalmers University of Technology Maj 4, 2015 Projektuppgift Projektet går ut på att studera frisättningen av dopamin hos nervceller och de två huvudsakliga

Läs mer

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap

729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion. Marco Kuhlmann Institutionen för datavetenskap 729G09 Språkvetenskaplig databehandling (2018) Kursintroduktion Marco Kuhlmann Institutionen för datavetenskap Denna föreläsning Kursens innehåll och organisation Korpuslingvistik och språkteknologi Textsegmentering

Läs mer

Optimala koder. Övre gräns för optimala koder. Gränser. Övre gräns för optimala koder, forts.

Optimala koder. Övre gräns för optimala koder. Gränser. Övre gräns för optimala koder, forts. Datakompression fö 3 p.3 Datakompression fö 3 p.4 Optimala koder Övre gräns för optimala koder En prefixkod kallas optimal om det inte existerar någon annan kod (för samma alfabet och sannolikhetsfördelning)

Läs mer

Optimala koder. Det existerar förstås flera koder som har samma kodordsmedellängd. Enklaste fallet är att bara byta 0:or mot 1:or.

Optimala koder. Det existerar förstås flera koder som har samma kodordsmedellängd. Enklaste fallet är att bara byta 0:or mot 1:or. Datakompression fö 3 p.1 Optimala koder En prefixkod kallas optimal om det inte existerar någon annan kod (för samma alfabet och sannolikhetsfördelning) som har lägre kodordsmedellängd. Det existerar förstås

Läs mer

Fortsättningskurs i programmering F 2. Algoritmer i Programutveckling Hugo Quisbert 20130122. Problemexempel 1

Fortsättningskurs i programmering F 2. Algoritmer i Programutveckling Hugo Quisbert 20130122. Problemexempel 1 Fortsättningskurs i programmering F 2 Algoritmer i Programutveckling Hugo Quisbert 20130122 1 Exempel 1 Problemexempel 1 En souvenirbutik behöver ett datorprogram som omvandlar ett pris i svenska kronor

Läs mer

Prestanda och skalbarhet

Prestanda och skalbarhet Prestanda och skalbarhet Grama et al. Introduction to Parallel Computing Kapitel 5 Erik Elmroth Översikt 2 Exekveringstid Uppsnabbning Effektivitet Kostnad Kostnadsoptimal algoritm Ahmdals lag Gustafson-Barsis

Läs mer

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval

Två innebörder av begreppet statistik. Grundläggande tankegångar i statistik. Vad är ett stickprov? Stickprov och urval Två innebörder av begreppet statistik Grundläggande tankegångar i statistik Matematik och statistik för biologer, 10 hp Informationshantering. Insamling, ordningsskapande, presentation och grundläggande

Läs mer

FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång

FriendlyReader. Språkteknologi för sammanfattningar och ökad läsbarhet. Målgruppsegmentering. Arbetsgång FriendlyReader Språkteknologi för sammanfattningar och ökad läsbarhet Mål:! Öka den digitala delaktigheten genom att underlätta för personer med lässvårigheter att tillgodogöra sig textuellt baserad information

Läs mer

IntoWords elevdata.se

IntoWords elevdata.se Snabbhjälp till IntoWords elevdata.se Innehåll Snabbhjälp till IntoWords 4 Läs/Stopp 4 Rösthastighet 4 Visa/dölj ordlista 5 Dela 5 Ordlistan 5 Profiler 6 Dokument 7 Hjälp 8 Inställningar 8 Uppläsning

Läs mer

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ

Inledning till statistikteorin. Skattningar och konfidensintervall för μ och σ Inledning till statistikteorin Skattningar och konfidensintervall för μ och σ Punktskattningar Stickprov från en population - - - Vi vill undersöka bollhavet men får bara göra det genom att ta en boll

Läs mer

Tommy Färnqvist, IDA, Linköpings universitet

Tommy Färnqvist, IDA, Linköpings universitet Föreläsning 8 Sortering och urval TDDC70/91: DALG Utskriftsversion av föreläsning i Datastrukturer och algoritmer 1 oktober 2013 Tommy Färnqvist, IDA, Linköpings universitet 8.1 Innehåll Innehåll 1 Sortering

Läs mer

Vektorgeometri för gymnasister

Vektorgeometri för gymnasister Vektorgeometri för gymnasister Per-Anders Svensson http://homepage.lnu.se/staff/psvmsi/vektorgeometri/gymnasiet.html Fakulteten för teknik Linnéuniversitetet Linjära avbildningar II Innehåll Repetition:

Läs mer

PCP-satsen på kombinatoriskt manér

PCP-satsen på kombinatoriskt manér austrin@kth.se Teorigruppen Skolan för Datavetenskap och Kommunikation 2005-10-24 Agenda 1 Vad är ett bevis? Vad är ett PCP? PCP-satsen 2 Vad, hur och varför? Lite definitioner Huvudresultatet 3 Ännu mer

Läs mer

Krafts olikhet. En momentant avkodbar kod (prefixkod) med kodordslängderna l 1,...,l N existerar om och endast om. 2 l i. 1 i=1

Krafts olikhet. En momentant avkodbar kod (prefixkod) med kodordslängderna l 1,...,l N existerar om och endast om. 2 l i. 1 i=1 Datakompression fö 2 p.1 Krafts olikhet En momentant avkodbar kod (prefixkod) med kodordslängderna l 1,...,l N existerar om och endast om N 2 l i 1 Bevis: Antag att vi har en trädkod. Låt l max =max{l

Läs mer

En typisk medianmorot

En typisk medianmorot Karin Landtblom En typisk medianmorot I artikeln Läget? Tja det beror på variablerna! i Nämnaren 1:1 beskrivs en del av problematiken kring lägesmått och variabler med några vanliga missförstånd som lätt

Läs mer

729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann

729G43 Artificiell intelligens / Maskininlärning 2. Marco Kuhlmann 729G43 Artificiell intelligens / 2015 Maskininlärning 2 Marco Kuhlmann Förra gången: Linjär regression Gradientsökning Vandra ner i felets dal. Steg 0: Börja med ett godtyckligt värde för θ. Steg 1: Räkna

Läs mer

Föreläsning 13. Dynamisk programmering

Föreläsning 13. Dynamisk programmering Föreläsning 13 Dynamisk programmering Föreläsning 13 Dynamisk programmering Fibonacci Myntväxling Floyd-Warshall Kappsäck Handelsresandeproblemet Uppgifter Dynamisk programmering Dynamisk programmering

Läs mer

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2019-06-07 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 9.00 14.00 Lärare: Adam Jonsson Jourhavande

Läs mer

1. Ekvationer 1.1. Ekvationer och lösningar. En linjär ekvation i n variabler x 1,..., x n är en ekvation på formen. 2x y + z = 3 x + 2y = 0

1. Ekvationer 1.1. Ekvationer och lösningar. En linjär ekvation i n variabler x 1,..., x n är en ekvation på formen. 2x y + z = 3 x + 2y = 0 1. Ekvationer 1.1. Ekvationer och lösningar. En linjär ekvation i n variabler x 1,..., x n är en ekvation på formen a 1 x 1 + a 2 x 2 + a n x n = b, med givna tal a 1,..., a n och b. Ett linjärt ekvationssystem

Läs mer

TDDD02 Språkteknologi för informationssökning / 2015. Textklassificering. Marco Kuhlmann Institutionen för datavetenskap

TDDD02 Språkteknologi för informationssökning / 2015. Textklassificering. Marco Kuhlmann Institutionen för datavetenskap TDDD02 Språkteknologi för informationssökning / 2015 Textklassificering Marco Kuhlmann Institutionen för datavetenskap Textklassificering UK China Elections Sports congestion London Olympics Beijing recount

Läs mer

ASR3 Språkmodeller Talgrammatiker

ASR3 Språkmodeller Talgrammatiker ASR3 Språkmodeller Talgrammatiker Talteknologi VT2005 Rebecca Jonson Litteratur Jurafsky &Martin: kap 6 (witten-bell och good-turing översiktligt, ej 6.5), sid 316, s 573-577577 Blomberg&Elenius: s16-17,

Läs mer

Omtentamen i DV & TDV

Omtentamen i DV & TDV Umeå Universitet Institutionen för Datavetenskap Gunilla Wikström (e-post wikstrom) Omtentamen i Teknisk-Vetenskapliga Beräkningar för DV & TDV Tentamensdatum: 2006-06-05 Skrivtid: 9-15 Hjälpmedel: inga

Läs mer

Föreläsning 5: Dynamisk programmering

Föreläsning 5: Dynamisk programmering Föreläsning 5: Dynamisk programmering Vi betraktar en typ av problem vi tidigare sett: Indata: En uppsättning intervall [s i,f i ] med vikt w i. Mål: Att hitta en uppsättning icke överlappande intervall

Läs mer

Sannolikhetslära. 1 Grundläggande begrepp. 2 Likformiga sannolikhetsfördelningar. Marco Kuhlmann

Sannolikhetslära. 1 Grundläggande begrepp. 2 Likformiga sannolikhetsfördelningar. Marco Kuhlmann Marco Kuhlmann Detta är en kompakt sammanfattning av momentet sannolikhetslära som ingår i kurserna Matematik 1b och 1c på gymnasiet. I slutet av dokumentet hittar du uppgifter med vilka du kan testa om

Läs mer

ASR3 Språkmodeller Taligenk änningsgrammatiker

ASR3 Språkmodeller Taligenk änningsgrammatiker ASR3 Språkmodeller Taligenk änningsgrammatiker Talteknologi VT2006 Rebecca Jonson Litteratur Jurafsky &Martin: kap 6 (witten-bell och good-turing översiktligt, ej 6.5), sid 316, s 573-577577 Blomberg&Elenius:

Läs mer

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer

Laboration 2. i 5B1512, Grundkurs i matematisk statistik för ekonomer Laboration 2 i 5B52, Grundkurs i matematisk statistik för ekonomer Namn: Elevnummer: Laborationen syftar till ett ge information och träning i Excels rutiner för statistisk slutledning, konfidensintervall,

Läs mer

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS

Målet för D3 är att studenterna ska kunna följande: Dra slumptal från olika sannolikhetsfördelningar med hjälp av SAS Datorövning 3 Statistisk teori med tillämpningar Simulering i SAS Syfte Att simulera data är en metod som ofta används inom forskning inom ett stort antal ämnen, exempelvis nationalekonomi, fysik, miljövetenskap

Läs mer

Anna: Bertil: Cecilia:

Anna: Bertil: Cecilia: Marco Kuhlmann 1 Osäkerhet 1.01 1.02 1.03 1.04 1.05 Intelligenta agenter måste kunna hantera osäkerhet. Världen är endast delvist observerbar och stokastisk. (Jmf. Russell och Norvig, 2014, avsnitt 2.3.2.)

Läs mer

Word2Vec. Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data. Innehåll LINKÖPINGS UNIVERSITET. 1. Inledning...

Word2Vec. Högkvalitativa vektorrepresentationer av ord tränat på stora mängder data. Innehåll LINKÖPINGS UNIVERSITET. 1. Inledning... LINKÖPINGS UNIVERSITET Innehåll 1. Inledning... 2 2. Terminologi... 3 3. Allmänt om Word2Vec... 3 4. Continous Skip-gram model... 4 Word2Vec Högkvalitativa vektorrepresentationer av ord tränat på stora

Läs mer

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper

Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Envägs variansanalys (ANOVA) för test av olika väntevärde i flera grupper Tobias Abenius February 21, 2012 Envägs variansanalys (ANOVA) I envägs variansanalys utnyttjas att

Läs mer

Lathund för Stava Rex

Lathund för Stava Rex Lathund för Stava Rex för PC Stava Rex är ett avancerat svenskt rättstavningsprogram som kan rätta grava stavfel, lättförväxlade ord samt enklare grammatikfel. Stava Rex klarar av att rätta text i de vanligaste

Läs mer

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann

729G43 Artificiell intelligens / Maskininlärning 3. Marco Kuhlmann 729G43 Artificiell intelligens / 2015 Maskininlärning 3 Marco Kuhlmann Förra gången: Perceptroninlärning Beslutsregel predicerat y-värde Exempel: AND Välj parametrar θ 0, θ 1, θ 2 sådana att perceptronen

Läs mer

händelsen som alltid inträffar. Den tomma mängden representerar händelsen som aldrig inträffar.

händelsen som alltid inträffar. Den tomma mängden representerar händelsen som aldrig inträffar. Marco Kuhlmann Detta är en kompakt sammanfattning av momentet sannolikhetslära som ingår i kurserna Matematik 1b och 1c på gymnasiet. 1 Grundläggande begrepp 1.01 När vi singlar slant eller kastar tärning

Läs mer

Extramaterial till Matematik X

Extramaterial till Matematik X LIBER PROGRAMMERING OCH DIGITAL KOMPETENS Extramaterial till Matematik X NIVÅ ETT Sannolikhet ELEV Du kommer nu att få bekanta dig med Google Kalkylark. I den här uppgiften får du öva dig i att skriva

Läs mer

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python

Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python Instruktioner - Datortentamen TDDD73 Funktionell och imperativ programmering i Python Hjälpmedel Följande hjälpmedel är tillåtna: Exakt en valfri bok, t.ex. den rekommenderade kursboken. Boken får ha anteckningar,

Läs mer

tal. Mängden av alla trippel av reella tal betecknas med R 3 och x 1 x 2 En sekvens av n reella tal betecknas med (x 1, x 2,, x n ) eller

tal. Mängden av alla trippel av reella tal betecknas med R 3 och x 1 x 2 En sekvens av n reella tal betecknas med (x 1, x 2,, x n ) eller Augusti, 5 Föreläsning Tillämpad linjär algebra Innehållet: linjen R, planet R, rummet R, oh vektor rummet R n Matriser punkter oh vektorer i planet, rummet, oh R n Linjen, planet, rummet, oh vektor rummet

Läs mer

Universitetet i Linköping Institutionen för datavetenskap Anders Haraldsson 2

Universitetet i Linköping Institutionen för datavetenskap Anders Haraldsson 2 Anders Haraldsson 1 Anders Haraldsson 2 Dagens föreläsning Programmering i Lisp Fö 5 - Funktioner - lambda-uttryck (avs 7.1) - funcall och function (avs 7.2) - Högre ordningens funktioner (avs 7.) - Iteratorer

Läs mer

Programmering för språkteknologer II. OH-serie: Sökning och sortering. Algoritm

Programmering för språkteknologer II. OH-serie: Sökning och sortering. Algoritm Programmering för språkteknologer II OH-serie: Sökning och sortering Mats Dahllöf Sökning och sortering Sökning: lokalisera objekt i samlingar. Finns ett visst värde? I så fall: var? Sortering: placera

Läs mer

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder.

Asymptotisk analys innebär att... man försöker uppskatta vad som händer för stora indatamängder. OBS! För flervalsfrågorna gäller att ett, flera eller inget alternativ kan vara korrekt. På flervarlsfrågorna ges 1 poäng för korrekt svar och 0,5 poäng om skillnaden mellan antalet korrekta svar och antalet

Läs mer

Stora talens lag eller det jämnar ut sig

Stora talens lag eller det jämnar ut sig Stora talens lag eller det jämnar ut sig kvensen för krona förändras när vi kastar allt fler gånger. Valda inställningar på räknaren Genom att trycka på så kan man göra ett antal inställningar på sin räknare.

Läs mer

TVM-Matematik Adam Jonsson

TVM-Matematik Adam Jonsson TVM-Matematik Adam Jonsson 014-1-09 LABORATION 3 I MATEMATISK STATISTIK, S0001M REGRESSIONSANALYS I denna laboration ska du lösa ett antal uppgifter i regressionsanalys med hjälp av statistikprogrammet

Läs mer

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012

Autokorrelation och Durbin-Watson testet. Patrik Zetterberg. 17 december 2012 Föreläsning 6 Autokorrelation och Durbin-Watson testet Patrik Zetterberg 17 december 2012 1 / 14 Korrelation och autokorrelation På tidigare föreläsningar har vi analyserat korrelationer för stickprov

Läs mer

Tentamen i Matematisk statistik Kurskod S0001M

Tentamen i Matematisk statistik Kurskod S0001M Tentamen i Matematisk statistik Kurskod S0001M Poäng totalt för del 1: 25 (10 uppgifter) Tentamensdatum 2017-08-22 Poäng totalt för del 2: 30 (3 uppgifter) Skrivtid 9.00 14.00 Jourhavande lärare: Mykola

Läs mer