Målet är att ge maskiner förmågan att plocka ut information ur



Relevanta dokument
Introduktion till språkteknologi

Datorlingvistik och språkteknologi

Lingvistik I Delmoment: Datorlingvistik

Introduktion till. språkteknologin; OH-serie 1. Kursen

Lingvistik I Delmoment: Datorlingvistik

Lingvistik I Delmoment: Datorlingvistik

Introduktion till språkteknologi. Datorstöd för språkgranskning

Grammatik för språkteknologer

Skrivstöd. Joakim Nivre. Introduktion till språkteknologi. Skrivstöd. Inledning. Orsaker till stavfel. Detektering av icke-ord

Föreläsning 3.1: Datastrukturer, en översikt

12 Programstege Substantiv

Vad är semantik? LITE OM SEMANTIK I DATORLINGVISTIKEN. Språkteknologi semantik. Frågesbesvarande

Föreläsningens upplägg. Språket, individen och samhället HT Döva och språk. Internationell manifestation för teckenspråket (29 september 2007)

Verksamhetsplan. Höglandskolans Förskoleklass.

Generellt kan vi säga att för att vi ska värdera ett argument som bra bör det uppfylla åtminstone följande kriterier:

Kurslitteratur Taltranskription: Introduktion

Språkpsykologi/psykolingvistik

FTEA12:2 Filosofisk metod. Att värdera argumentation I

Semantik och pragmatik

Grim. Några förslag på hur du kan använda Grim. Version 0.8

ENGELSKA ÅRSKURS 3 ÅRSKURS 4

Teoretisk lingvistik och datalingvistik. Robin Cooper

Ryska pronomen. Pronomen är en sluten ordklass som består av många undergrupper. Pronomina kan fungera självständigt eller förenat

Taltaggning. Rapport av Daniel Hasselrot , 13 oktober 2003

BARNS SPRÅKUTVECKLING

Moderna språk. Ämnets syfte

Kurskatalog

Kungliga Tekniska Högskolan Patrik Dallmann

Skriftlig kommunikation. Att väcka och behålla läsarnas intresse

Att fånga bedömningar i flykten

Programmering och digital kompetens

Tankar om språkundervisning

Plugga/slappa/leva/plugga/slappa/leva/plugga/slappa/leva. Carina Bäckström & Ola Olefeldt

Lathund till PEP. AND: begränsar sökningen, båda sökorden måste förekomma i samma referens, t.ex. infantile AND sexuality

MSPR Moderna språk, steg poäng inrättad SkolFs: 2000:87. Mål. Betygskriterier

Kurskatalog för Särvux. Särskild utbildning för vuxna

svenska som andraspsråk

Undervisningsmål Svenska Årskurs 1-5. Läsa

Svenska 8B v Syfte:

SpellRight. för Google Docs. Manual för SpellRight för Google Docs

1. Vad är ett språk? 1. Vad är ett språk? 2. Språkets struktur och delar. 2. Språkets struktur och delar

Professionella samtal. Martha Kesthely Fil.dr i pedagogik Lektor i socialt arbete Mälardalens högskola Akademi för Hälsa Vård och Välfärd

Rapport från Praktik på SVOX AG till

Planering i Musik Ö7 Ansvarig lärare Jenni Jeppsson jenny.jeppsson@live.upplandsvasby.se

Prövning i Moderna språk 2

Capítulo 5, La ciudad V 9-14 Spanska år 8

Vad tycker du om sfi?

Artiklarna. Grindenheten Ämne, årskurs och tidsperiod. Arbetsformer. Spanska, åk 6, vecka 2-8.

Lantbrukares syn på risker och säkerhet i arbetsmiljön ett genusperspektiv

Tips och verktyg för studietiden om studieteknik och stresshantering. Carina Bäckström & Karolina Källoff Studentcentrum

MODERSMÅL FINSKA 1. Syfte

Innehåll. Föreläsning 11. Organisation av Trie. Trie Ytterligare en variant av träd. Vi har tidigare sett: Informell specifikation

Nya Medier. Gränssnitt, Interaktivitet och Digital kod

Artiklarna. Grindenheten Ämne, årskurs och tidsperiod. Arbetsformer. Spanska, åk 6, vecka 3-10.

Kommentarmaterial, Skolverket 1997

Semantik och pragmatik (Serie 3)

Lässvårigheter, språklig förmåga och skolresultat i tidiga skolår. Maria Levlin, lektor i språkvetenskap/leg logoped Institutionen för språkstudier

Broskolans röda tråd i Språkval

Terminsplanering i Moderna språk, franska, årskurs 8 Ärentunaskolan

Kompositionell semantik och λ-kalkyl

Kärlekens språk En analys

Det musikaliska hantverket

Allmän beskrivning av B2-språk i årskurs 7-9

PEDAGOGISK PLANERING SVENSKA

(Grundkurs i medier och kommunikation vid Tammerfors Universitet, Finland) 1.1 Kommunikation

Nedan listas ett antal portaler och länkbibiliotek, svenska och internationella. Prova dem och jämför med kritierierna ovan.

Kategorisering och klustring. Kategorisering vid indexering. Kategorisering. Kategorisering föränderligtf. Klustring

Anvisningar för utformning av sammandrag som mognadsprov

Ledarskap i klassrummet. Lärarens relationella kompetens

Att välja sin framtid entreprenörskap

ATT NÅ FRAMGÅNG GENOM SPRÅKET

Lär dig mer om de. kulturella näringarna!

Lärande & utveckling. En kvalitetsanalys inom det systematiska kvalitetsarbetet Läsåret 2014/2015 Solbringen Barn- och utbildningsförvaltningen

PRATA INTE med hästen!

Jordbruksverkets service till företagare

Eftersom jag är gravt hörselskadad och inte har stor möjlighet att använda telefon på ett betryggande sätt är it ett fantastiskt hjälpmedel.

Kvalitetsredovisning 2010/2011

Tekniken bakom språket

Lära känna varandra. För äldre barn kan man ställa sig upp och passa bollen med fötterna.

F5 Introduktion till digitalteknik

Hörselvetenskap B, Audiologisk rehabilitering, 13,5 hp

Språklig variation: Dialekt, sociolekt, sexolekt, kronolekt, register och stil. Ellen Breitholtz

LÄROPLAN FÖR GRUNDSKOLAN, FÖRSKOLEKLASSEN OCH FRITIDSHEMMET 2011 SVENSKA Ämne: Svenska åk 4-6

Korpusanalys kvo ht 06 Ellen Breitholtz Institutionen för lingvistik Göteborgs uniersitet Vad är en korpus? Korpus = kropp (massa) Samling språkliga

Lägga till olika dokument i en fil

Språket, individen och samhället VT08

Innehåll. Språkinlärning: mänsklig och datorstödd. Olika typer av program för datorstödd språkinlärning. Varför datorer i språkutbildning?

Att skriva Hur utformar man en Social berättelse? Lathund för hur en Social berättelse kan skrivas

Lokala kursplaner i engelska reviderad 2005 Lokala mål Arbetssätt Underlag för bedömning

TTS är stolta över att ingå i

Särvux. Kurskatalog 2011/12

Bilder av kvinnors företagande i Kronobergs län möjligheter och hinder. Charlotte Silander & Malin Henriksson, Linnéuniversitetet

Maskinöversättning och språkgranskning, ht 2006

Grundläggande Textanalys VT Språkgranskning (1) Eva Pettersson

Kvalitetsarbete. Kungshöjdens förskola. Förskolor Syd Munkedals kommun Majvor Kollin Lena Klevgård Jenny Pettersson

Att lära sig skriva i IT-samhället

Pedagogisk dokumentation

UTVÄRDERING AV KOMPETENSHÖJNING I UTTALSPROJEKTET

ENGELSKA ÅR 7-9, RISBROSKOLAN I FAGERSTA

Brukarundersökning 2010 Särvux

Transkript:

Språkteknologi Mats Dahllöf & Eva Pettersson Institutionen för lingvistik och filologi Språkhantering i datorer med känslighet för språket som språk: Den språkvetenskapliga teorin: datorlingvistik Tillämpningsområdet: språkteknologi Målet är att ge maskiner förmågan att plocka ut information ur text och tal på ett sätt som verkar förutsätta något slags förståelse, samt att använda naturligt språk för att presentera information. oktober 2005 1 2 Tekniska grundvalar Primär situation: prat är här-och-nu! Sentida utveckling: lagring och överföring av yttranden : Skrift, senare typografi Analog elektronisk överföring av tal (i nätverk) (telefoni, radio, etc.) Digitalisering av tal och skrift: digitala media och nätverk. digital bearbetning: datorer. Av avgörande betydelse för (kommunikationen i) vårt samhälle. 3 Digital text Sekvenser av symboler. Västerländska skriftsystem: små uppsättningar symboler. Relativt lätt att representera digitalt på ett kompakt och klart sätt (textfiler). I stort sett all professionell texthantering är digital i den industrialiserade världen idag (produktion, lagring, mångfaldigande, tryckning). Enorma mängder text är maskinläsbar, alltså. (Enorma mängder information.) 4 Digitalt tal Överföring och lagring alltmer digital. Ljud: mycket informationsrikt mänskligt/digitalt sett. (En liten boksida, kanske 1 kb. En minut ljud [i vanlig mp3], ca 1 MB, alltså 1000 gånger mer.) Tal enorma variationmöjligheter: röst, röstanvändning, intonation, tempo, rytm, volym, klang, etc. Svårt att urskilja den språkliga strukturen automatiskt kontinuerligt ljudflöde. Ljuden överlappar. Språkteknologi: tillämpningsområden Informationssökning och -utvinning Sammandrag och sammanfattning Dokumentklassificering Språkgranskning (stavnings-, stil- och grammatikkontroll) Maskinöversättning Dialogsystem/interaktiva telefontjänster Språkvetenskaplig forskning, t.ex. vid lexikonbyggande (lexikografi) 5 6 Problem med språk: ord och grammatik Många olika ord med komplext innehåll. Naturliga språks grammatik är mycket rik. Det finns många olika typer av ord med olika grammatiskt beteende. Språkanvändningen trotsar ofta traditionella grammatikideal: Lösa fraser och ord (snarare är fullständiga meningar), (i tal) omtagningar och avbrutna enheter, etc. är vanliga. Problem med språk: tvetydighet Språk är rika på ord. Ord ofta tvetydiga (polysemi, homonymi). Olika språk olika begrepp. Det sitter ett djur i taket:... on the ceiling.... Det sitter ett djur på taket:... on the roof.... i/på on. tak ceiling/roof. Möjligheter multipliceras: bara ben har minst fyra möjliga översättningar till engelska. 7 8

Problem med språk: pronomensyftning Pronomen har typiskt flera möjliga antecedenter. De fångar olika egenskaper i olika språk. Personliga pronomina i singularis: Svenska: den, det, han, hon. Saker: grammatiskt genus. Personer: kön. Engelska: it, he, she. Saker: ett pronomen. Personer: kön. Problem med språk: öppenhet Vi kan alltid vara kreativa i språket och använda gamla ord och uttryckssätt på nya sätt. Vi kan hitta på nya ord. Vi kan uttrycka oss indirekt, t.ex. i ironi, över- och underdrifter, metaforer, artiga frågor, etc. Franska: il, elle. Saker och personer i maskulinum eller femininum. 9 10 Datorlingvistik: grammatik Utgår från teoretisk formell syntax, där grammatik beskrivs i termer av matematiska regelsystem (Chomsky, Syntactic Structures, 1957). Datorlingvistik: grammatik, syntaxträd Grammatiska strukturer representeras i de flesta fall som träd: M.h.a. speciella beräkningsprocedurer (s.k. algoritmer) kan formella grammatiker användas för att bestämma den grammatikens strukturen hos språkliga uttryck (parsing). Parsing ofta utgångspunkt för annan bearbetning. t.ex. översättning. 11 12 Datorlingvistik: semantik Datorlingvistisk semantik handlar om att analysera/generera naturligt språk (meningar) till/från representationer av betydelse. Utgår från logisk semantik, som utvecklats ur 1900-talets logik och språkfilosofi. Semantik och grammatik kopplas samman. Kompositionell semantik: en sammansatt enhets betydelse kan räknas fram ur delarnas betydelser. Datorlingvistik: diskurs Diskurser är texter och samtal. Hur etableras ett sammanhang (koherens/kohesion)? Diskursers struktur avspeglar deras syften. Referens: införande av referenter, tillbakasyftande referens (ofta med pronomina). Referens: vilka saker står i centrum? Retorisk struktur 13 14 Datorlingvistik: statistiska modeller Datorlingvistik olika angreppssätt: tidig tradition mer sentida kategoriska regler probabilistiska samband grammatikliknande system statistiska modeller lingvisten modell från automatisk skriver regler analys av data dyrt billigare (?) språkspecifikt mindre språkspecifikt Statistiska metoder har visat sig framgångsrika. Informationssökning, exempel (1) www.ask.com: Who is Göran Persson? Två första träffarna Löpsedel Regeringskansliet Läs pressmeddelande: Göran Persson överlägger med Matti Vanhanen Statsrådsberedningen, 25 juni 2003... From: www.regeringen.se/ Presentation Göran Persson Regeringen Regeringskansliet Faktablad Göran Persson svenska (55K) Göran Persson engelska (23K) Göran Persson franska (80K) Göran Persson tyska (81K) Aktuellt... From: www.statsradsberedningen.regeringen.se/persson/ 15 16

Informationssökning, exempel (2) www.ask.com: Who is the king of Sweden? Två första träffarna: Karl XII, King of Sweden: 1682-1718 Karl XII, King of Sweden... Patricia Wengraf Ltd. Jacques-Philippe BOUCHARDON: Adolf Frederik, Patricia Wengraf Ltd. Fine European Sculpture, Bronzes and Works of Art. Jacques-Philppe Bouchardon: Adolf Frederik, King of Sweden (terracotta... From: www.patwengraf.com/bochardon3.htm Textsammandrag Att komprimera text och ta ut de viktigaste bitarna Användningsområden: I kombination med sökmotor på Internet För presentation av information på små skärmar Ledtrådar: Ytliga tecken, såsom fetstil och närvaron av siffror Nyckelord som fastställts statistiskt Meningarnas position i texten Lingvistisk: morfologisk analys, stavningskontroll m.m. 17 18 Textsammandrag, (forts) Textsammanfattare för svenska: SweSum (KTH) Domän: Svensk tidningstext Prova själv och läs mer: http://swesum.nada.kth.se. Dokumentklassificering Att klassificera och sortera dokument utifrån ämneskategori Ofta i kombination med sökmotor på Internet Sorterar bort spam Ledtrådar: Nyckelord som fastställts statistiskt Samförekomst av ord i dokument. Baseras ofta på inlärning från samlingar med redan klassificerade dokument. 19 20 Språkgranskning Automatisk kontroll av stavning, grammatik och stil Två uppgifter: Feldetektering och felkorrigering Stavningskontroll: Uppslagning i lexikon fångar felstavningar som inte utgör några ord, t ex coh och spårkteknolog Lexikonets storlek avgörande: För stort lexikon ger missade fel, för litet lexikon ger falska alarm Går inte att lista alla sammansättningar: sms-analys Alltför tillåtande sms-analys gör att osannolika ord slinker igenom, t ex medalg, kotroll och cykelsäll 21 Språkgranskning (forts) Grammatikkontroll: Behövs för stavningskontroll: s k Real Word Errors, t ex Jag kan inte stavar och vi är tjära Behövs för grammatikfel, t ex Vi är kär och samhällets utvecklingen Ofta lokala felregler för förutsedda fel 22 Språkgranskning (forts) Stilkontroll: Ord- och meningslängd Minusord: ålderdomliga, byråkratiska och alltför vardagliga ord Vissa syntaktiska konstruktioner, t ex passiv Konsekvenskontroll, t ex ska vs skall Exempel på språkgranskningssystem: Grammatifix (i svenska Word), SCARRIE (från Uppsala universitet) och Granska (från KTH) Maskinöversättning Maskinöversättning: automatisk översättning av en text från ett språk till ett annat Datorstödd översättning: Mänsklig översättning av en text, med hjälp av datoriserade lexikon, termordlistor, översättningsminnen o dyl. Tre typer av maskinöversättning: Direktöversättning Regelbaserad översättning Korpusbaserad översättning 23 24

Maskinöversättning (forts) Mest använda systemet idag: Systran På institutionen: MATS (regelbaserat) Användbarhet idag: Kan ge oss hjälp att förstå dokument på språk vi inte kan Bra översättningar inom begränsade domäner, särskilt i kombination med kontrollerat språk Effektiviserar översättningsarbetet: Automatisk översättning kombinerat med mänsklig korrigering Skönlitteratur skulle man inte maskinöversätta 25 Maskinöversättning: Exempel från Systran Källtext: I vårt företagsregister kan du söka efter företag i Uppsala. Du kan söka efter ett enskilt företag eller en bransch och få resultatet på en karta. Sök företag: Översättning: In our company register can you look for companies in Uppsala. You can look for an individual company or a sector and few result on a map. Applies for companies: 26 Korpuslingvistik Språkvetenskap som undersöker stora textmängder (korpusar), tex mha sk konkordanser: Korpuslingvistik, (forts) Fler saker man kan göra med korpusar och datorer: Räkna ord Se samband mellan ords relativa frekvenser Se samband mellan samförekomst av ord Bas för lexikografi och grammatikstudier En korpus behöver inte vara baserad på text, utan kan istället innehålla tal, t ex Göteborg Spoken Language Corpus (GSLC) 27 28 Talteknologi Talteknologin har i hög grad blivit ett eget fält. Talsyntes: att artificiellt framställa tal Taligenkänning: att utifrån tal automatiskt bestämma vilka ord som uttalas. All sådan teknik utnyttjar statistiska modeller. Problem med tal: olika grundton (män, kvinnor, barn), intensitet, tempo, uttalssätt, dialekter, intonation, betoning etc. 29 Talsyntes Text till tal: Översättning av ortografisk representation till fonetisk representation. Ofta olika typer av klipp-och-klistra-metoder. Kräver grammatisk-semantisk analys för homografer, såsom matris, banan, finskor. Måste kunna hantera intonation, betoning m.m. Dagens teknik ger inte fullt naturligt tal. Kan kombineras med artificiell animnation av gester och mimik, s k talking heads. 30 Taligenkänning (-analys) Tal till text (att identifiera vilka ord som uttalats): Problem: Tal kan låta väldigt olika: olika grundton, intensitet, tempo, uttalssätt, dialekter etc. Bakgrundsljud kan störa taligenkänningsprocessen. Ofta för bokningstjänster av olika slag, där ordförrådet är begränsat och kan styras. Bäst resultat fås om systemet tränas för en viss person. Exempel på taligenkänningssystem: SJ:s tågbokningssystem, Vägverkets trafikregister. Tillämpningar Dokumentuppläsning mha talsyntes för människor som ej har möjlighet att läsa Dikteringssystem. Interaktiva telefontjänster, t ex biljettbokning Styrning av apparater, t ex i hushållet eller i bilar 31 32

Sammanfattning (1) Språkteknologin börjar bli betydelsefull, även från ett vardagligt perspektiv: Enorma volymer av språklig kommunikation förlitar sig på digital överföring och lagring. Språkgranskningsverktyg har fått stor spridning och är användbara, men långt ifrån perfekta. Sammanfattning (2) Taligenkänningstekniken utvecklas snabbt och får en allt större användning. Talsyntes kombineras med gester och mimik. Interaktiva telefontjänster blir allt vanligare. Elektronisk dokumenthantering blir en allt viktigare verksamhet. Maskinöversättning får en allt större spridning. 33 34