Lexikon. versättning. Maskinövers. Flerspråklig nyhetsbevakning, maskinöversättning Termexpansion, Frågeexpansion, Fuzzy Matching, Lexikon



Relevanta dokument
Innehåll. Maskinöversättning. Språkteknologitillämpningar. Hercules Dalianis

Innehåll. Maskinövers. versättning. kteknologitillämpningar. Språkteknologitill. Hercules Dalianis

Språkteknologin i industrin

Anna Sågvall Hein, Institutionen för lingvistik, Uppsala universitet Rosenbad/ Automatisk översättning och översättningshjälpmedel

Vad är en webbläsare?

Isländska NOI 320 Isländska, 1-20 p 20? NOI 324 Island: Historia, språk och kultur, 5 p 5? NOI 325 Isländska, inledningskurs, 5 p 5?

I Nationalbibliografin redovisad utgivning (monografier)

Omvärldsbevakning. Sammanfattning av Business Intelligence-kursen. Nyhetsarkiv och källork. Hämta webbnyheter. Modeller över texter

Höstnyheter!

Love Peace and Understandning

BILAGA. till. Förslag till rådets beslut

912 Läsförståelse och matematik behöver man lära sig läsa matematik?

Etiopiska språk Fisksätra bibliotek 42 Etiopiska språk Nacka Forum bibliotek 7 Etiopiska språk Orminge bibliotek 3 Fang Saltsjöbadens bibliotek 1

Utveckling av aktiviteter för språkmedvetenhet i Norden och Baltikum

Svenska som andraspråk, år 8

CD-ORD 8.3 med språ kpåket - såmt SkånReåd 3.0, Ordbok och ro ster

Erasmus+ Online Linguistic Support. Få ut så mycket som möjligt av Erasmus+!

DATASAMORDNING NYHETERNA I CHAOS Utbildning Chaos/Handledning - Nyheterna i Chaos 3/

EUROPEISKA GEMENSKAPERNAS KOMMISSION. Förslag till RÅDETS BESLUT

Språk, datorer och textbehandling

IBIS Resultat från de 15 största enskilda utlandsmarknaderna samt Kina

Enkätresultat. Enkät om språkanvändningen i utbildningen på KTH. Datum: :32:26

BILAGA. till. förslag till rådets beslut

Q1 Hur många undervisningstillfällen har du haft under september månad?

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

Situationen i Sverige

POL 102 VT07, Polska, språkfärdighet I

LATIN SPRÅK OCH KULTUR

Kommun Kommunkod Skolform

Grammatik för språkteknologer

Skriva B gammalt nationellt prov

Utbildningsplan för. Utöver detta krävs för respektive inriktning även behörighet/ kunskaper enligt nedan: Inriktning mot arabiska:

7115/15 KSM/cc 1 DGD 1

Kursplan i svenska. Därför tränar vi följande färdigheter under elevens skoltid i ämnet svenska: Tala, lyssna och samtala. År 1

My Language a g Biography

Statsminister Matti Vanhanen

tot tot

DELA NOBA Lärarenkät Fridaskolorna

Holmatros serviceweb nås på adressen

SVENSKA år 5 ******** Övergripande mål i svenska

I Nationalbibliografin redovisad utgivning (monografier)

Grim. Några förslag på hur du kan använda Grim. Version 0.8

Maskinöversättning möjligheter och gränser

ELEV- HANDLEDNING (Ansökan via webben)

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

Språkpsykologi/psykolingvistik

Målinrikta Marknadsföring och Produktutveckling Hur kan Du som entreprenör finslipa ditt Säljbudskap och din Sportfiskeprodukt?

Sag Mal 1 Woche DET HÄR SKA DU ARBETA MED: DU KOMMER LÄRA DIG: LÄXA: Kapitel 1 och 2 *Berätta om dig själv *Siffror *Böja verb i jag- och duform

Föreläsningens upplägg. Språket, individen och samhället HT Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)

Introduktion till semantik

Svenska Finska Estniska. Ryska Engelska Koreanska. Franska Tyska Italienska. Grekiska Danska Norska. Isländska Ungerska Spanska

SCS Data Manager. Versionsinformation. Version 3.00

UPPGIFT: SKRIV EN DEBATTARTIKEL

Använda Esri Sveriges svenska baskartor i ArcGIS Online och ArcMap som administratör

I Nationalbibliografin redovisad utgivning (monografier)

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

Två konstiga klockor

Breddutbildning el. "Mötet med de flerspråkiga barnen" eller motsvarande kurs (ej högskoleutbildnin g)

SVENSKA ÖVERGRIPANDE MÅL FÖR ÅR 6, 7, 8, 9: LYSSNA

BILAGA. till. förslaget till rådets beslut

Kartläggning av stödet till anhöriga i Strängnäs kommun. Lena Talman, FoU-handledare, doktorand Carina Forsman Björkman, FoU-chef

FÖRETRÄDARNA FÖR REGERINGARNA I EUROPEISKA GEMENSKAPENS MEDLEMSSTATER, FÖRSAMLADE I RÅDET, HAR ENATS OM FÖLJANDE

en cigarett en flaska ett rum ett äpple en kurs en kompis en turist en buss en gurka ett brev

ZA5943 Flash Eurobarometer 397 (Consumer Attitudes Towards Cross-border Trade and Consumer Protection, wave 4)

Diskussionsfrågor till version 1 och 2

Språkteknologiska stöd. Förskolor. Stemming. Slå ihop till samma ord

Logga in. Gå in på: Klicka på Logga in. Klicka på den region, kommun eller organisation där din verksamhet finns

Office 365 Kompetens 2013 / MB

Kartläggning av barn och personal med annat modersmål i Skärholmens kommunala förskolor 2011

Dövas teckenspråk i Sverige har inget med svenska att göra. Egen grammatik, lexikon, fonologi Det är inte samma sak som tecknad svenska

Bedömningsuppgift i geografi och svenska (se kraven och bedömning för svenska längre ned)

Svenska Du kan med flyt läsa texter som handlar om saker du känner till. Du använder metoder som fungerar. Du kan förstå vad du läser.

Att komma igång. Vad är ett program? Kompilerande-Interpreterande Programmeringsmiljö Hello World! Att programmera och ett enkelt program

EUROPEISKA GEMENSKAPERNAS KOMMISSION. Förslag till RÅDETS BESLUT

Projektets syfte. Att lära sig skriva i IT-samhället. Forskningsfrågor, forts. Forskningsfrågor. Hur skriver barn? Ursprunget till projektidén

Bruksanvisning UCR-100

Information till elever och föräldrar i skolår 5

Lingvistiska grundbegrepp

15410/17 MLB/cc DGC 1A

Information inför utlandsstudier 16/17. Karin Karltorp, Utbildningsledare IL Ida Ekström, Studievägledare IL Susann Årnfelt, Studievägledare IL

ANNEX BILAGA. till. förslag till rådets beslut

Lärarröster. lektor i samhällslära i år 7-9.

ZA6585. Flash Eurobarometer 421 (Internationalisation of Small and Medium-Sized Enterprises) Country Questionnaire Sweden

ANVÄND NAVIGATIONEN I CAPITEX SÄLJSTÖD

Arbeta bäst där du är Dialect Unified Mi

Kan myndigheternas webbplatser bli tillgängliga för alla? Ett svenskt språkpolitiskt perspektiv. Rickard Domeij Språkrådet i Sverige

MagniLink tillbehör HJÄLPER DIG SE!

Kvalitetsregistret för svår sepsis/septisk chock Årsrapport för 2013

17196/09 akb/ell/am 1 DQPG

MENTALISERINGSBASERAD TERAPI

Svenskt uttal i Sundbyberg

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

DISPLAY & DESIGN MEDIA SOM STÖDS 2-DIN DVD MULTIMEDIASTATION MED INBYGGD NAVIGERING/ SMART ACCESS

FÖRESKRIFTER FÖR DE ELEKTRONISKA PROVEN I DET ANDRA INHEMSKA SPRÅKET OCH I FRÄMMANDE SPRÅK

Den kompakta sy- och brodyrmaskinen

Handledning för digitala verktyg Talsyntes och rättstavningsprogram. Vital, StavaRex och SpellRight

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

Lathund, procent med bråk, åk 8

Utbildningsplan för masterprogrammet Språk och språkvetenskap (NY sept 2010)

Procent - procentenheter

Transkript:

Flerspråklig nyhetsbevakning Hercules Dalianis DSV-SU-KTH e-post:hercules@kth.se 070-568 13 59 / 08-674 75 47 Flerspråklig nyhetsbevakning, maskinöversättning Termexpansion, Frågeexpansion, Fuzzy Matching, Lexikon Hercules Dalianis 1 Hercules Dalianis 2 Lexikon Nyheter på andra språk än svenska Engelska nyheter bevakar vi Men danska, norska, finska? Tyska, polska, ryska? Estniska, och de baltiska språken lettiska och litauiska? ELRA European Language Resources Association http://www.elra.info/ ELDA European Language Distribution Agency, http://www.elda.fr/ Nordisk skolenet, http://www.nordskol.org/ordbog/ Danska,norska Lingustic Data consortium LCC http://www.ldc.upenn.edu/ för andra språk Hercules Dalianis 3 Hercules Dalianis 4 versättning versättning Machine Translation (MT) Machine Aided Human Translation (MAHT) Human-Aided Machine Translation (HAMT) Computer Aided Translation (CAT) Hercules Dalianis 5 Hercules Dalianis 6 1

Automatisk översättning mellan två naturliga språk Ideerna fanns innan den första datorn existerade Första patenten 1933 i Frankrike och Sovjet Första systemen kom på 50-talet. Ryska till engelska Automatisk analys Parsning och generering Parsning att förstå text Generering att skapa text Ord för ord Enklare översättningssystem Mening för mening (syntaktiskt) Mening för mening (semantiskt) Hela texter semantiskt korrekta? Hercules Dalianis 7 Hercules Dalianis 8 Jämför kompilatorer för programmeringsspråk Syntaxanalys Översättning av syntaxträd till maskinkod Syntax - ordningen på symbolerna Semantik - betydelserna av symbolerna Pragmatik - riktiga användningen av språket Kan du öppna fönstret? Hercules Dalianis 9 Hercules Dalianis 10 Parsning Parseträd Parsning- syntaktisk analys av en mening som matas in. Grammatik Syntaktiskt träd Löven är ordklasser Ofullständiga meningar orsakar problem Stavfel likaså Egenamn S konjunktion pronomen substantiv hjälpverb verb art. substantiv Cesare Peschle och hans forskargrupp har identifierat ett äggviteämne Hercules Dalianis 11 Hercules Dalianis 12 2

Grammatik S => S S => S, S (TEXT flera meningar) S =>, =>, =>, konjunktion, => artikel, substantiv => artikel, adjektiv, substantiv => verb => hjälpverb, verb Lexikon Verb => identifiera Hjälpverb => ha Konjunktion => och, eller Pronomen => hans (possessivt pronomen) Artikel => ett Substantiv => forskargrupp Substantiv => äggviteämne Egennamn => Cesare Peschle Hercules Dalianis 13 Hercules Dalianis 14 Grammatik Tusentals regler för ett språk Nya konstruktioner uppkommer hela tiden Lexikon Hundratusentals ord Baslexikon på 30 000 ord Domänlexikon på lika mycket Domänberoende svårt att komma ifrån Nya ord tillkommer hela tiden Hercules Dalianis 15 Hercules Dalianis 16 Syntax och semantik Syntaktiskt träd (parseträd) översätts till ett semantiskt träd. Predikatlogik eller liknande (finns många kunskapsrepresentationer) Transferregler omvandlar det svenska syntaxträdet till ett engelsk syntaxträd Generering av de engelska löven från det engelska syntaxträdet Proper name possesive form Compound.noun Parseträd S Cesare Peschle s research group has identified a protein Aux verb verb art. noun Hercules Dalianis 17 Hercules Dalianis 18 3

Transferregler Transferregel svenska => engelska Egennamn, konjunktion, poss.pronomen, np Proper name, possesive form, np Cirka 100 transferregler Vid icke-besläktade språk många fler regler Interlingua Språkoberoende representation av mänskliga språk Predikatlogik med utökningar Esperanto Quechua Då behöver man inga transferregler Man tappar dock lingvistisk information Hercules Dalianis 19 Hercules Dalianis 20 Vauquois triangel Statistisk MT Interlingua Semantisk transfer IBM 1978 Ideér från talteknologin Källspråk Syntaktisk transfer Direkt transfer Antal transferregler Målspråk Kanadas parlament har parallella texter på två språk engelska och franska Sk Hansarddata, efter den förläggare som publicerade brittiska parlamentsdebatter i början på 1800-talet. Hercules Dalianis 21 Hercules Dalianis 22 98 miljoner franska ord och deras ekvivalens på engelska. Ett lexikon på 82.000 franska ord och ett på 60.000 engelska ord (Engelska språket använder färre ord än franska språket). Detta gör 2,8 miljoner ordpar och medianlängden på en sats är 22 ord Jämför meningar, ord, ordpositioner. Ett exempel där det blev en exakt översättning jämfört med det upplärande Hansardexemplet. Franska: Ces ammendements sont certainement nécessaires Engelska Hansard data: These amendments are certainly necessary Avkodat som: These amendments are certainly necessary Hercules Dalianis 23 Hercules Dalianis 24 4

Ett exempel där det blev en semantiskt korrekt översättning jämfört med det upplärande Hansard exemplet. Franska: C`est pourtant très simple Engelska Hansard data: Yes it is very simple Avkodat som: It is still very simple ättningssystem använder idag Lingvistiska metoder grammatik och lexikon Statistiska metoder (parallella korpusar) Hercules Dalianis 25 Hercules Dalianis 26 versättningssystem Rosetta (Philips) Holl.-Engelska Eurotra, Europeiska språk METAL (Siemens) Tyska-Engelska etc Pangloss, Spanska, Engelska, Japanska Japan och Kina etc versättningssystem Systran-Babelfish http://babel.altavista.com/ engelska, tyska, franska, italienska, tyska, ryska, spanska, grekiska, kinesiska, koreanska, japanska Prompt http://www.translate.ru Ryska, engelska, tyska, franska, spanska, portugisiska och italienska. ESTEAM språkoberoende? Inlärning i en viss domän Hercules Dalianis 27 Hercules Dalianis 28 Svenska system Swetra -Lunds Universitet Används i Baltikum Spoken Language Translator SLT, Telia- SICS-SRI Tal till tal Svenska Engelska Multra, Koma, Mats -Uppsala Universitet Hercules Dalianis 29 Hercules Dalianis 30 5

Demo surfa på p japanska tidningar http://world.altavista.com http://www.yomiuri.co.jp/ Hercules Dalianis 31 Hercules Dalianis 32 Tvärspr rspråklig söknings Tvärspråklig sökning på nära besläktade språk Ej aktiv kunskap Passiv förståelse av språken Danska, norska, tyska, holländska ättning Fuzzy matching eller spell checking Sök på ett ord på svenska Sök efter alternativa stavningar på svenska Sök efter alternativa stavningar för var och ett av de andra språken Hercules Dalianis 33 Hercules Dalianis 34 Tal till text TV och radionyheter Transkribering (manus) finns? Ja ibland men inte alltid SVT, Sveriges Radio ej kompletta arkiv Språkigenkänning Talarberoende och begränsad vokabulär VoiceXML lagring Hercules Dalianis 35 Hercules Dalianis 36 6

Taligenkänningssystem nningssystem SDR-Spoken Dokument Retrieval ASR-Automated speech recognition LVCSR-large vocabulary speaker independent continuous speech recognition systems Virage.com (ett Autonomyföretag) använder BBN-http://www.bbn.com/speech/am.html MUMIS http://parlevink.cs.utwente.nl/projects/mumis/ 50-75 procent rätt i taligenkänningen Hercules Dalianis 37 Hercules Dalianis 38 Diktering och telefoni Diktering Philips FreeSpeech, Dragons Dragon Dictate VoiceExpress (från f.d. Lernout & Hauspie) Telefonkommando Philips SpeechPearl Nuance Diverse länkar http://www.speechstudio.com/commercial/speech. htm Hercules Dalianis 39 Sammanfattning Lexikonresurser finns ättning har blivit bättre Domänberoende Både lingvistiska och statistiska metoder Radio och TV-nyheter ej alltid sökbara/bevakningsbara Hercules Dalianis 40 7