SPRÅKTEKNOLOGI Marco Kuhlmann Institutionen för datavetenskap
Vad är språkteknologi?
Vad är språkteknologi? all teknologi som hanterar mänskligt språk Exempel: analys, förståelse, produktion ett tvärvetenskapligt forskningsområde med inslag av lingvistik, datavetenskap och kognitionsvetenskap
Philosophy Psychology Linguistics Computer Science Anthropology Neuroscience Sloan Report (1978)
Informationssökning Manning, Raghavan och Schütze (2008) Information Retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). = språk!
Källa: http://www.apple.com/ios/siri/
mening diskursanalys pragmatisk analys semantisk analys syntaktisk analys morfologisk analys fonetisk analys ljudsignal
Källa: cbsonline.com
Källa: www.sentiment140.com
associated ollection of le in 2006 d in publicly icon of 964 er variety of ap them to ch the terms et term that ginal POMS ) and via the ension. The mined as the tweet term nd methods e series we l mean and days before core of time (1) an and stan- [t k, t+k]. ate around a rd deviation. gainst large S to capture apply them ber 5, 2008 specifically at may have ublic mood, 2008) and nd GPOMS against the he resulting increases of Vital, Happy as well as Kind scores. The latter indicates a public that is energized, happy and friendly on election day. On November 5, these GPOMS dimensions continue to indicate positive mood levels, in particular high levels of Calm, Sure, Vital and Happy. After November 5, all mood dimensions gradually return to the baseline. The public mood response to Thanksgiving on November 27, 2008 provides a counterpart to the differentiated response to the Presidential election. On Thanksgiving day we find a spike in Happy values, indicating high levels of public happiness. However, no other mood dimensions are elevated on November 27. Furthermore, the spike in Happy values is limited to the one day, i.e. we find no significant mood response the day before or after Thanksgiving. z-scores 1.75 1.25 1-1 1-1 1-1 1 1-1 -1 1-1 OpinionFinder CALM ALERT SURE VITAL KIND HAPPY day after election pre- election anxiety election results pre! election energy Humör och aktiepriser Thanksgiving Thanksgiving happiness Oct 22 Oct 29 Nov 05 Nov 12 Nov 19 Nov 26 Fig. 2. Tracking public mood states from tweets posted between October 2008 to December 2008 shows public responses to presidential election and thanksgiving. Twitter Mood Predicts the Stock Market Johan Bollen, Huina Mao, and Xiao-Jun Zeng
Geographic meaning of words (ba Källa: Jason Baldridge
Naturliga språk Språkteknologi avser naturliga språk. Exempel: svenska; mandarin, spanska, engelska, hindi, arabiska, portugisiska, bengali, ryska, japanska, punjabi Det finns idag ca. 7 000 levande språk.
Världens språk
Naturliga språk vs. programmeringsspråk Programmeringsspråk kan tolkas i isolation. Tolkning av naturliga språk beror av kunskap utanför språket. Programmeringsspråk strävar efter entydighet. Naturliga språk är extremt flertydiga.
Kontextualitet Tolkningen av ett yttrande går utöver den information som ges av orden och syntaxen. Exempel: A: Kommer du ikväll? B: Jag har träning. Grammatisk korrekthet varierar med kontext. Exempel: A: Hur mycket är klockan? B: Fem, tror jag.
Flertydighet Hur kan jag boka en tågresa med rullstol? Denna mening är flertydig. På vilket sätt? Hur hanterar vi flertydigheten? Hur skulle en dator kunna hantera flertydigheten?
Kursens innehåll och uppläggning
Samläsning 729G17 kandidatprogram i kognitionsvetenskap (obligatorisk kurs) TDDD01 kandidatprogram i datavetenskap (C); civilingenjörsutbildning i datateknik (D); kandidatprogram i innovativ programmering (IP); civilingenjörsutbildning i informationsteknologi (IT)
Lärandemål (1) Efter avslutad kurs ska ni kunna redogöra för grundläggande metoder och tekniker för automatisk analys och tolkning av ord och meningar tillämpa reguljära uttryck, formell grammatik och statistiska metoder för analys av ord och meningar i löpande text redogöra för delproblem och standardlösningar i samband med automatisk textförståelse
Lärandemål (2) Efter avslutad kurs ska ni kunna utvärdera algoritmer och system med avseende på korrekthet, precision och recall redogöra för de vanligaste arkitekturerna i språkteknologiska tillämpningssystem värdera svårighetsgrad och görbarhet av olika språkteknologiska tillämpningar
Daniel Jurafsky och James H. Martin. Speech and Language Processing, 2nd edition. Prentice Hall, 2009.
Undervisning Föreläsningar (12 föreläsningar à 2 h) Föreläsare: Marco Kuhlmann Laborationer (3 handledda labpass à 8 h) Laborationsassistenter: Sarah Albertsson, Per Fallgren, Marcus Liw, Jonas Rybing Projektarbete (40 h)
Examination 729G17 LAB 1,5 hp U, G Laborationskurs PROJ 1,5 hp U, G, VG Projektarbete TEN2 3 hp U, G, VG Skriftlig tentamen 2015-03-16 Kursbetyget baseras i första hand på TEN2.
Examination TDDD01 LAB 3 hp U, 3, 4, 5 Laborationskurs med projekt TEN1 3 hp U, 3, 4, 5 Skriftlig tentamen 2015-03-16 Kursbetyget baseras i första hand på TEN1.
Textklassificering
Textklassificering Sortera in dokument i fördefinierade klasser. Exempel: klassificera dokument utifrån språk eller författare; hitta dokument som innehåller information om ett givet ämne
Skräppostfiltrering inget ärende dolda mottagare stavfel misstänkta ord många frågetecken obskyra adresser
Författaridentifiering Alexander Hamilton James Madison
Attitydpredicering The gorgeously elaborate continuation of The Lord of the Rings trilogy is so huge that a column of words cannot adequately describe co-writer/director Peter Jackson s expanded vision of J.R.R. Tolkien s Middle-earth. positiv is a sour little movie at its core; an exploration of the emptiness that underlay the relentless gaiety of the 1920 s, as if to stop would hasten the economic and global political turmoil that was to come. negativ
Handskrivna regler Vi kan tilldela ett dokument en klass genom handskrivna regler. Exempel: om anonyma mottagare och texten innehåller ditt konto kommer att raderas då sortera som skräp Handskrivna regler kan ha hög precision, men att utveckla och att underhålla dem är kostsamt.
Maskininlärning De flesta system för automatisk textklassificering använder idag någon form av maskininlärning. Den vanligaste ansatsen är att träna upp ett system på data bestående av dokument taggade med korrekta klasser. Sedan använder man det tränade systemet för att klassificera nya dokument.
Övervakad inlärning UK China Elections Sports congestion London Olympics Beijing recount votes diamond baseball Parliament Big Ben tourism Great Wall seat run-off forward soccer Windsor The Queen Mao Communist TV-ads campaign team captain first private Chinese airline?
Predicera talarens blocktillhörighet Herr talman! Bostadsministern är kategorisk. Inget samhällsstöd för byggnation av bostäder. Bostaden ska vara en handelsvara, ingen social rättighet. Bostadspolitiken avpolitiseras och rangeras ut från välfärdspolitiken. Men det är ok med RUT, att någon kommer hem och hjälper till med serveringen. 2 miljarder är kostnaden. Det är ok med ROT, reparation och ombyggnad i sommarstugan eller bostadsrätten - 13,2 miljarder. Det är ok med sänkt restaurangmoms - 5,4 miljarder. Hamburgare och korv kan subventioneras, medan bostadsköerna växer. Det är sorgligt, i sanning mycket sorgligt att bostadsministern har den uppfattningen om vikten av politisk prioritering. Jag vill upprepa för tredje gången: Kan bostadsministern här i kammaren tala om vad han säger till det unga par som har flyttat till Stockholm från arbetslösheten på någon annan plats i landet men inte har någon bostad? Vad säger bostadsministern till det paret?
Predicera talarens blocktillhörighet vänster (L) höger (R)
Utvärdering av textklassificeringssystem
Guldstandard Ett sätt att utvärdera klassificeringssystem är att jämföra deras resultat med en guldstandard: texter taggade med korrekt klass. En guldstandard kan vara objektivt eller subjektivt korrekt. Exempel: riksdagsanföranden vs. spam Att få tag i eller skapa en guldstandard kan ibland vara relativt lätt, ibland kosta mycket pengar och tid.
Utvärderingsmått: Korrekthet Korrekthet (eng. accuracy) mäter andelen av alla dokument i testmängden för vilka systemet har predicerat rätt klass. Korrekthet är ett enkelt och överskådligt mått, men kan ibland vara missvisande. Exempel: detektering av sällsynta sjukdomar
Problem med korrekthetsmåttet Antag att vi ska bygga ett system som utifrån texter skrivna av patienter på en geriatrimottagning ska predicera om patienterna har eller inte har en ovanlig neurologisk sjukdom. Vår testmängd består av 10 000 texter, 10 skrivna av patienter med sjukdomen och 9 990 skrivna av patienter utan denna sjukdom. Det är väldigt lätt att bygga ett system som får 99,9% på denna uppgift: Predicera alltid att patienten inte har inte sjukdomen.
Korstabell guldstandard ja guldstandard nej klassificerare ja sanna positiva falska positiva klassificerare nej falska negativa sanna negativa
Korstabell för diagnosexemplet guldstandard ja guldstandard nej klassificerare ja 0 0 klassificerare nej 10 9990 systemet ska inte få poäng för dessa!
Utvärderingsmått: Precision och täckning Precision och täckning (eng. recall) är utvärderingsmått som zoomar in på hur bra systemet är att identifiera specifika klasser. Exempel: Hur bra är systemet på att detektera sjukdomen? Ett bra system bör balansera precision och recall.
Precision guldstandard ja guldstandard nej klassificerare ja sanna positiva falska positiva klassificerare nej falska negativa sanna negativa
Täckning (recall) guldstandard ja guldstandard nej klassificerare ja sanna positiva falska positiva klassificerare nej falska negativa sanna negativa
Precision och täckning guldstandard G K klassificerare precision = G K K täckning = G K G
Precision och täckning fn fp guldstandard G sp K klassificerare precision = G K K täckning = G K G
Precision och täckning för diagnosexemplet 10 0 guldstandard G 0 K klassificerare precision = 0 0 + 0 täckning = 0 10 + 0 odefinierad!
Baseline En baseline är en enkel, ibland till och med trivial metod för att lösa ett problem. En vanlig baseline för klassificering är Most Frequent Class: predicera alltid den mest frekventa klassen. Denna baseline förutsätter att vi delar upp guldstandarden i två delmängder: en för att testa, en för att räkna klasser på. Fråga: Varför bör dessa delmängder vara disjunkta?
Experiment Testdata: 60 riksdagsanföranden från riksmötet 2013/2014 modell korrekthet baseline 55% studentgrupp 80% Naive Bayes 84%