Innehåll. Maskinöversättning. Språkteknologitillämpningar. Hercules Dalianis

Relevanta dokument
Innehåll. Maskinövers. versättning. kteknologitillämpningar. Språkteknologitill. Hercules Dalianis

Lexikon. versättning. Maskinövers. Flerspråklig nyhetsbevakning, maskinöversättning Termexpansion, Frågeexpansion, Fuzzy Matching, Lexikon

Business Intelligence. Vad är r Business Intelligence? Andra termer. Övergripande faktorer. Specifika termer för BI är:

Språkteknologin i industrin

Erfarenheter från ett pilotprojekt med barn i åldrarna 1 5 år och deras lärare

Vad är en webbläsare?

Handledning för digitala verktyg Talsyntes och rättstavningsprogram. Vital, StavaRex och SpellRight

POL 102 VT07, Polska, språkfärdighet I

Södervångskolans mål i svenska

Kursplan i svenska. Därför tränar vi följande färdigheter under elevens skoltid i ämnet svenska: Tala, lyssna och samtala. År 1

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring

Skriva B gammalt nationellt prov

Projektets syfte. Att lära sig skriva i IT-samhället. Forskningsfrågor, forts. Forskningsfrågor. Hur skriver barn? Ursprunget till projektidén

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

EXECUTIVE SUMMARY. Hållbarhet i svenska företag. Demoskop. En sammanfattning av resultat från undersökning om svenska bolag och hållbarhet

912 Läsförståelse och matematik behöver man lära sig läsa matematik?

Tillståndsmaskiner. 1 Konvertering mellan Mealy och Moore. Ola Dahl och Mattias Krysander Linköpings tekniska högskola, ISY, Datorteknik

Vi skall skriva uppsats

Bedömningsuppgift i geografi och svenska (se kraven och bedömning för svenska längre ned)

Laborativ matematik som bedömningsform. Per Berggren och Maria Lindroth

Diskussionsfrågor till version 1 och 2

KOMMUNIKATIONSBAROMETERN för företag ATT JOBBA HEMIFRÅN. Rapport september

Disclosure. SOMP-I skapades av Kristina Persson. SOMP-I ägs av Barnens rörelsebyrå Kristina Persson & Kine Johansen är delägare i företaget

Vetenskapliga begrepp. Studieobjekt, metod, resultat, bidrag

Erasmus+ Online Linguistic Support. Få ut så mycket som möjligt av Erasmus+!

SVENSKA ÖVERGRIPANDE MÅL FÖR ÅR 6, 7, 8, 9: LYSSNA

Bilaga B Kartläggningsmaterial - Litteracitet Samtals- och dokumentationsunderlag avkodning, läsning, läsförståelse och skrivning

Resultat. Kommunernas hantering av läs- och skrivsvårigheter. Dyslexiförbundet FMLS. Föräldraföreningen för Dyslektiska Barn (FDB) Inläsningstjänst

PRÖVNINGSANVISNINGAR

facebookbarometern 2016

Kvalitetsregistret för svår sepsis/septisk chock Årsrapport för 2013

Distribuerade Informationssystem VT-04

UNGA LÄSARE. Enkätrapportering

kostar en lägenhet i Helsingfors? Det varierar. ska köttet vara i ugnen? Ungefär en timme.

Arbeta bäst där du är Dialect Unified Mi

Minoritetsspråk Åk 9

Kritisk granskning. Innehåll - Teori

Resultat från de nationella proven 2014 för årskurs 3. Upplands Väsby kommun Utbildningsenheten

Hjälp för digital röst. Mikro Værkstedet A/S

Kurs: Svenska som andraspråk Kurskod: GRNSVA2 Verksamhetspoäng: 1000

Konsekvenser sv/sva åk 8 vt 13

DATASAMORDNING NYHETERNA I CHAOS Utbildning Chaos/Handledning - Nyheterna i Chaos 3/

Målet är att ge maskiner förmågan att plocka ut information ur

My Language a g Biography

Syftet är att öka medvetenheten dels om vilka språkliga handlingar som krävs i ämnet, dels om vilka som utförs.

Information till elever och föräldrar i skolår 5

Innehåll. Informationssökning språkteknologiska hjälpmedel

Jo, Den Talande Boken har så många möjligheter inbyggda, att den kan användas från förskoleklassen och ända upp på högstadiet.

Svenska som andraspråk, år 8

Kommun Kommunkod Skolform

URVALSSAMARBETET INOM NATURBRUK OCH MILJÖOMRÅDET I YRKESHÖGSKOLORNA URVALSPROV Provet i matematik

Detta dokument beskriver vilka regler som gäller för lagspecifika hemsidor använda av Ackers lag.

Svenska som andraspråk, 1000 verksamhetspoäng

I regionen ökade svinnet på grund av utgånget datum med 18% under perioden.

INNOVATIONSPOLITISKA MÅL FÖR EUROPA

Svenska Du kan med flyt läsa texter som handlar om saker du känner till. Du använder metoder som fungerar. Du kan förstå vad du läser.

FASTIGHETSFAKTA. Kvartalsrapport

Single sourcing Bra eller dåligt?

Handbok Blinken. Danny Allen Översättare: Stefan Asserhäll

ANSÖKNINGS- BLANKETT. för medel från Centerkvinnornas fond VÄRLDEN ANGÅR OSS

Mer, mindre eller oförändrat att göra nu jämfört med tre månader tidigare. Feb mar 11. Aug 12. Feb mar 12. Mar apr 14. Sep 11. Apr 10. Nov 11.

Upplägg och genomförande - kurs D

Samverkan för att minska ungdomsarbetslösheten i Sverige. Hur arbetar Arbetsförmedlingen och kommunerna tillsammans

DET HÄR ÄR RIKSFÖRENINGEN AUTISM

FOLKUNIVERSITETET. Google Analytics 10/10/14

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

ATT KUNNA TILL. MA1050 Matte Grund Vuxenutbildningen Dennis Jonsson

Kulturmöten. Det var vi som gjorde det.

Förstklassig säkerhet för virtuella miljöer

Frågor och svar TLV:s beslut att begränsa subventionen för Cymbalta

Vågkraft och tidvattenkraft

Vad är Skrivrummet? *Se även sid

Praktisk programmering

Föräldrabroschyr. Björkhagens skola - en skola med kunskap och hjärta. Vad ska barnen lära sig i skolan?

Vägledning. De nordiska konsumentombudsmännens ståndpunkt om dold marknadsföring

Mottagande av nyanlända elever i grundskolan - erfarenheter från Sverige

Svensk författningssamling

8 European Foundation for Osteoporosis

Låt lönsamma kunder driva affären!

Arbetsskador och sjukfrånvaro inom svensk gruv- och mineralindustri Sammanfattande siffror för gruv- och mineralindustrin

Hävarmen. Peter Kock

Svensk författningssamling

ELEV- HANDLEDNING (Ansökan via webben)

Del ur Lgr 11: kursplan i teknik i grundskolan

Resultatprofil. Läsåret Alsike skola

Föreläsning 8: Räkning. Duvhålsprincipen. Kombinatorik

Laxabon Frågor, svar och praktiska tips

För dig som är valutaväxlare. Så här följer du reglerna om penningtvätt i din dagliga verksamhet INFORMATION FRÅN FINANSINSPEKTIONEN

Artikel/reportage år 9

Rapportskrivning Examensarbete

Särskilt stöd i grundskolan

Lärarmaterial. Vad handlar boken om? Lgr 11 - Centralt innehåll och förmågor som tränas: Eleverna tränar följande förmågor: har lim pa skorna

729G04 - Hemuppgift, Diskret matematik

Befolkningsuppföljning

Statistiska data över elevernas resultat i grund- och gymnasieskolan

Rabattkoder : Kupongerna.se

Begreppet delaktighet inom rättspsykiatrisk vård

SVENSKA år 5 ******** Övergripande mål i svenska

Utveckla arbetsmiljö och verksamhet genom samverkan

Sag Mal 1 Woche DET HÄR SKA DU ARBETA MED: DU KOMMER LÄRA DIG: LÄXA: Kapitel 1 och 2 *Berätta om dig själv *Siffror *Böja verb i jag- och duform

Transkript:

Språkteknologitillämpningar Hercules Dalianis NADA-KTH Email: hercules@nada.kth.se Tel: 08-790 91 05 http://www.nada.kth.se/~hercules Hercules Dalianis sid 1 Innehåll Maskinöversättning NL-gränssnitt till databaser Validering av formella specifikationer Diktafoner/Diktering Stavningskontroll/Ordprediktion Sökmotor med språkstöd Textsammanfattning/ Indexering Nyhetsbevakning / TDT / Business Intelligence Hercules Dalianis sid 2 Maskinöversättning Machine Translation (MT) Machine Aided Human Translation (MAHT) Human-Aided Machine Translation (HAMT) Computer Aided Translation (CAT) Hercules Dalianis sid 3 Hercules Dalianis sid 4 Automatisk översättning mellan två naturliga språk Ideerna kom på 1700-talet. Första patenten 1933 i Frankrike och Sovjet Första systemen kom på 50-talet. Ryska till engelska Parsning och generering Ord för ord Mening för mening (syntaktiskt) Mening för mening (semantiskt) Hercules Dalianis sid 5 Hercules Dalianis sid 6

Interlingua och Pivot Interlingua språkoberoende beskrivning Logik, Frames, Scripts, Pivot- Naturliga språk som Interlingua Esperanto (DLT systemet) Qechua (Mellan Spanska och Engelska) Transfer Transfer-Transformation av syntaktiska eller semantiska träd, så att det blir mer målspråkliknande? Direkt transfer - direkt mapping. Syntaktisk transfer - gör om syntaxträdet Semantisk transfer- gör om det semantiska trädet Hercules Dalianis sid 7 Hercules Dalianis sid 8 Syntaktisk transfer Källa) Jag skulle vilja ha en Magnum! Syntaxträd S Transformation Syntaxträd M Mål) Could I have a Magnum, please Vauqois Triangel Interlingua Semantic transfer Syntactic transfer Direct transfer Hercules Dalianis sid 9 Hercules Dalianis sid 10 Statistisk MT IBM 1978 Ideér från talteknologin Canadas parlament har parallella texter på två språk engelska och franska Sk Hansarddata, efter den förläggare som publicerade brittiska parlamentsdebatter i början på 1800- talet. Hercules Dalianis sid 11 98 miljoner franska ord och deras ekvivalens på engelska. Ett lexikon på 82.000 franska ord och ett på 60.000 engelska ord (Engelska språket använder färre ord än franska språket). Detta gör 2,8 miljoner ordpar och medianlängden på en sats är 22 ord. Hercules Dalianis sid 12

De tre parametrarna i den statistiska maskinöversättningsmodellen är: 1) Längdfördelningen, längden av engelska ord. 2) Distortionssannolikheten, positionen av ett franskt ord i en sats beroende på positionen av ett engelskt ord i en annan sats och längden av ett franskt ord. 3) Översättningssannolikheten, att ett franskt ord ord skall översättas till ett engelskt ord beroende på ett engelskt ord. Upplärning av systemet tog 150 CPUtimmar på en IBM stordator. Ett experiment: De 1000 vanligaste förkommande orden i engelska valdes ut och de 1700 mest förekommande orden i franska. 73 satser kortare än 10 ord, översattes till franska. Av dessa satser blev 5% exakt som Hansard versionen och 48% semantiskt korrekta!!! Hercules Dalianis sid 13 Hercules Dalianis sid 14 Ett exempel där det blev en exakt översättning jämfört med det upplärande Hansard exemplet. Franska: Ces ammendements sont certainement nécessaires Engelska Hansard data: These amendments are certainly necessary Avkodat som: These amendments are certainly necessary Ett exempel där det blev en semantiskt korrekt översättning jämfört med det upplärande Hansard exemplet. Franska: C`est pourtant très simple Engelska Hansard data: Yes it is very simple Avkodat som: It is still very simple Hercules Dalianis sid 15 Hercules Dalianis sid 16 SYSTRAN systemet i företaget Babelfish Hercules Dalianis sid 17 MT system SYSTRAN (Babelfish) (Kommersiellt) Rosetta (Philips) Holl.-Engelska Eurotra, Europeiska språk METAL (Siemens) Tyska-Engelska etc Pangloss, Spanska, Engelska, Japanska Global One (Kommersiellt) Japan och Kina etc Hercules Dalianis sid 18

MT och tal Swetra Lunds Universitet Spoken Language Translator SLT, Telia-SICS-SRI Tal till tal Svenska Engelska Multra - Uppsala Universitet ESTEAM Svenska, Engelska, etc Inlärning i en viss domän Tal till talöversättning i telefoni Hercules Dalianis sid 19 Hercules Dalianis sid 20 Automatisk dokumentation Modell över systemet, telefonisystem, video, tvättmaskin etc Generering av styrkod C Pascal Generering av bruksanvisningar på flera språk Andra tillämpningar Diktering - Dragon Systems Taligenkänning och skrivning av text Taligenkänning och styrning av maskiner I vissa yrken, maskinskötare, läkare, sjuksköterska SJ-tågupplysning Bilregistret Telia nummerupplysning Hercules Dalianis sid 21 Hercules Dalianis sid 22 Stavningskontroll/ Prediktion Stavnings- och grammatikkontroll lokalt eller på server Ordprediktion SMS vid inmatning av meddelande Handikapptillämpning Sökmotor med språkstöd Automatisk språkigenkänning Stemming / expandering Stavningsstöd Hercules Dalianis sid 23 Hercules Dalianis sid 24

Automatisk språkigenkänning Mha av en liten mängd statistik kunna avgöra vilket språk en text är skriven på. Kategorisering av texter. Stemming/expandering Normalisering/lemma/rotform Olika för olika språk bilverkstäder => bilverkstad För sökmotorer för att öka täckning => förbättra precision 5-40% bättre beroende på språk Hercules Dalianis sid 25 Hercules Dalianis sid 26 Dynamiskt stavningsstöd 10 % av frågorna felstavande Index som lexikon Hercules Dalianis sid 27 Hercules Dalianis sid 28 Indexering Indexering/Nyckelordsextraktion Ta ut nyckelord automatiskt från en text Bibliotekssystem Manuell indexering tar tid och är tråkigt Textsammanfattning I sökmotorer för att presentera sökresultaten komprimerat (jmfr Google) PDA Internetbrowser med sammanfattning Korta texter -korta ner texterna ytterligare Sammanfatta nyheter till SMS eller WAP format I automatisk nyhetsbevakning Text till talsammanfattning Hercules Dalianis sid 29 Hercules Dalianis sid 30

Längre texter nyckelordsextraktion-minisammanfattning Automatsammanfattning av en text innan den maskinöversätts för att spara tid och pengar Automatisk nyhetsbevakning Agent bevakar massor av nyhetskanaler Användaren talar om vilka nyckelord han/hon och vilka nyhetskanaler han/hon vill bevaka. Ordet/orden eller del av ordet skall finnas i nyheten, dvs stemming tillämpas. Om detta uppfylls så mailas nyheten sammanfattad eller som vanligt till användaren. Omvärldsbevakning, (Business Intelligence). Hercules Dalianis sid 31 Hercules Dalianis sid 32 Hercules Dalianis sid 33 Hercules Dalianis sid 34 TDT-Topic Detection Tracking TDT begreppet kommer från DARPA programmet TIDES Translingual Information Detection, Extraction and Summarization, dvs med datorer automatiskt detektera nyheter, extrahera och översätta dessa. Engelska och kinesiska nyheter på radio, TV och vanliga textmedia bevakas med taligenkänning och statistiska och lingvistiska metoder. Hercules Dalianis sid 35 Hercules Dalianis sid 36

Fem olika uppgifter i TDT. Segmentation - att kunna urskilja olika nyheter i nyhetsfloden, Tracking - att kunna följa nyheter med samma ämne/topic. Detection - att kunna gruppera nyheter efter ämne, Link detection- har två nyheter ngn koppling ämnesmässig t och slutligen det svåraste och intressantaste First Story Detection kunna upptäcka en helt ny nyhet i nyhetsfloden. Man lyckas hyfsat bra med de fyra första uppgifterna, man gör 33-25 % fel där, men med First Story Detection hamnar man på 70% fel. Hercules Dalianis sid 37