Pressmeddelande 2006-03-23. Skriv med rösten - det lönar sig*



Relevanta dokument
Vanliga frågor för VoiceXpress

ClaroDictionary med tal. ClaroDictionary utan tal

ONSCREENKEYS 5. Windows XP / Windows Vista / Windows 7 / Windows 8

Office Synchronizer. Utgåvekommentarer. Version 1,61

del 3 ARBETA MED PROGRAM

Kompensatoriska Tekniska Hjälpmedel - appar och andra verktyg. Cecilia Widlund, leg. logoped Logopederna Sverige AB

Lathund Claro Read Plus

ANVÄNDARGUIDE VITAL & TALANDE TANGENTBORD

Office Synchronizer. Versionsinformation. Version 1,66

Widgit symbolskrift 2000, version 2.0

E-POST3 Ett lättanvänt e-postprogram med stöd för talsyntes

Guider för specialprogrammen

Kristian Almgren Artificiell Intelligens Linköpings Universitet Talstyrning

Så här fungerar Stava Rex

Manual TorTalk version 1.3

Foto: Björn Abelin, Plainpicture, Folio bildbyrå Illustrationer: Gandini Forma Tryck: Danagårds Grafiska, 2009

Juridik. Professional Dictation Systems. Juridik

FOR BETTER UNDERSTANDING. Kom igång med. WordFinder Snabbguide

Egenskaper för digitala läromedel och film

Denna beskrivning är gjord på uppdrag av Specialpedagogiska institutet, för nätversionen av Hej skärm! , logoped Bitte Rydeman.

Handbok till Oribi Speak for Chrome

Att skriva på datorn

Tips och idéer för Chrome OS och Google Dokument

Kapitel 1 Introduktion

FOR BETTER UNDERSTANDING. Snabbguide.

CD-ORD 8 elevdata.se

Installationsmanual OpenOffice 3.0

Handicom. Symbol for Windows. Encyklopedi. Version 3.4

Wizkeys skärmtangentbord

Anvia Online Backup 1(8) Installationsguide

Symbol för Windows: Samtala 2.1

FileMaker. Köra FileMaker Pro 10 på Citrix Presentation Server

Lathund för Stava Rex

Allmänt om programvaror och filer i Windows.

För installationer av SQL Server som inte görs från Hogias installation måste följande inställningar göras:

UPPFÖLJNING AV- OCH SÄKERHETSINSTÄLLNINGAR FÖR WEBBSIDOR 1 (8)

Inga papper i släptåg med ecopy det digitala arbetsflödet. ecopy SHARESCAN / DESKTOP

ViTal. Talsyntes. Användarhandledning

Produktionsstöd har erhållits från Specialpedagogiska skolmyndigheten

Att få inskannad text uppläst med talsyntes

Låt datorn prata med mobilen

Nej, Latitude ON Flash är för närvarande endast tillgängligt på följande Dell datorer: Dell Latitude E4200 Dell Latitude E4300

Du kan installera Widgitprodukter på ett nätverk. Följande program och tillägg hanteras (du kanske inte har licens att installera all dessa):

Kom igång med Skype (PC)

25. Hämta Adobe Reader

Skärmtangentbordet som är enkelt att använda både med mus, touchskärmar och interaktiva whiteboards

KAPITEL 5 Användbara program. Tillbehör. WordPad. Paint

ANVÄNDARHANDBOK. Advance Online

Mind Express 3.0. Kort beskrivning. Systemkrav. Styrsätt

1. Hur öppnar jag Polisens blanketter / formulär, trycksaker och annat som är i PDF-format?

Använd WordFinder optimalt! Lathund med nyttiga tips och trix.

Henrik Asp. Allt du behöver veta för att KÖPA DATOR

Inledning till Wavesurfer av Christine Ericsdotter (Lingvistik, Stockholms universitet)

Handicom. Symbol for Windows. Blisseditor. Version 3.4

CODE-STAT 8.0 DATAGRANSKNINGSPROGRAM

Modernt arbete kräver moderna verktyg

Beslut Denna utbildningsplan är fastställd av Humanistiska fakultetsnämnden

ZoomText 10.1 Snabbguide Tillägg

Till flera av ovanstående finns det dessutom varianter, vilka kommer att presenteras i de olika avsnitten.

TERA Touch (version 1.2)

Stödet för Windows XP upphörde

Följande program utvecklades av BITTECH. De flesta såldes via Elevdata, Frölunda Data och VetaMer. De finns inte längre till försäljning.

WordRead 3. Manual. Artikelnummer: 10301

Gränslös kommunikation

Hjälper dig att kontrollera din text efter felstavningar och lättförväxlade ord. Manual

Kom igång med Denna korta manual hjälper dig med att komma igång med programmen Vital och ViTex.

Multifunktionsur. Ett lättanvänt digitalt kopplingsur som gör vardagen till en fest.

JAG HANDLAR EN INTERAKTIV WEBBOK

Snabbguide AlphaSmart NEO2

Datum, klockslag samt mätarställning vid tjänsteresans start samt varifrån resan startade

Handbok. Installation av Dovado Tiny

För att du ska kunna lita på ditt Waratah-aggregat/utrustning i det dagliga arbetet

ClaroRead Plus Mac Manual. Artikel.nr

EasyProducer Kom igång guide

FYRA ENKLA SÄTT ATT LÅTA PERSONALEN ARBETA MER FLEXIBELT

FileMaker. Köra FileMaker Pro 10 på Terminal Services

Det virtuella tangentbordet

Ikonen för ett Microsoft Word-dokument.

NUANCE TUTORIAL TALTEKNOLOGI KURSEN VT2006. Labkonstruktör: Rebecca Jonson Labhandledare: Håkan Burden

Taligenkänning. - Anteckna direkt in i journalen med rösten. Anders Eidergard & Hanna Nilsson-Levin

EXTRA ANPASSNINGAR OCH FÄRDIGHETSTRÄNING

Använd WordFinder optimalt! Lathund med nyttiga tips och trix.

man kan lyssna på vad de betyder man kan lyssna efter hur de låter utan att bry sig om vad de betyder.

Bilaga 4: Tidsuppskattning. Wikispeech. en användargenererad talsyntes på Wikipedia

U SB M I N I ADAPTE R BLUETOOTH

OBS! FÖRSÖK INTE INSTALLERA PROGRAMVARAN INNAN DU HAR LÄST DET HÄR DOKUMENTET.

Lathund ClaroRead Plus v6

Datorns delar DATORLÅDA CD/DVD-SPELARE/BRÄNNARE SKÄRM. DISKETT-STATION Finns sällan i nya datorer. TANGENTBORD

StoCKK Stockholm Center för Kommunikativt och Kognitivt stöd. Tips på appar för träning av tidig läs- och skrivförmåga

IT-körkort för språklärare. Modul 9: Rätta skrivuppgifter

CD-ORD 9.0. Snabbhjälp

Läs- och skrivstöd för dator

Olika former av metodstöd

Använd WordFinder från Mac App Store optimalt! Snabbguide med nyttiga tips och trix.

Upplev den nya generationen kösystem!

StoCKK Stockholm Center för Kommunikativt och Kognitivt stöd. Tips på appar för träning av tidig läs- och skrivförmåga

Scan2Text Svensk Doc 2.0. Scan2Text Användarguide

Transkript:

Pressmeddelande 2006-03-23 Skriv med rösten - det lönar sig* Många har under åren försökt använda taligenkänning för att förenkla och snabba på skrivprocessen. Många har misslyckats, men idag kan man med mycket gott resultat skriva med rösten både på svenska och på andra språk. VoiceXpress och Dragon NaturallySpeaking 8 kan bli en lönsam investering Mycket pengar skulle sparas i företag och organisationer om man började använda taligenkänning och röststyrning istället för att skriva med tangentbordet. Med taligenkänning, d v s vanligt tal till klartext, skriver även tangentbordsvirtuoserna flera gånger snabbare med rösten än med tangentbordet. Jämfört med den traditionella pekfingervalsen kan det gå 10 gånger snabbare att skriva med rösten än med tangentbordet. Redan i början av 1990-talet kom program som skulle göra det möjligt att skriva till datorn direkt med rösten. Men det skulle visa sig vara en lång startsträcka. Varken program, datorer, ljudkort eller mikrofoner var tillräckligt bra för att kunna ge en bra taligenkänning. De flesta datorer som tillverkas idag är tillräckligt bra och taligenkänningsprogrammens prestanda har förbättrats dramatiskt. När Scansoft (nuv Nuance) år 2004 lanserade det internationella programmet Dragon NaturallySpeaking 8 togs ett avgörande steg på väg mot perfekt taligenkänning. I slutet av 2004 hade det svenska programmet VoiceXpress också blivit moget för taligenkänning i dagligt kontorsarbete. Nu, i början av 2006, kan man med mycket gott resultat skriva med rösten både på svenska och på andra språk. Man kan tala till det svenska programmet med en hastighet av upp till 140 ord per minut och taligenkänningen når 96%. D v s 96 ord av 100 blir rätt tolkade av programmet. Hur snabbt är då 140 ord per minut? Det är två till tre gånger så snabbt som en driven sekreterare kan skriva. När man skriver med rösten blir stavningen korrekt vilket inte alltid är fallet när man skriver med tangentbordet. Finns på de större språken plus svenska Svenska är för närvarande det enda nordiska språk för vilket vi har ett helt fungerande taligenkänningsprogram. Språkvetare kanske opponerar sig och påpekar att holländska faktiskt kan räknas in i den nordiska språkgruppen. I så fall blir det två nordiska språk med det holländska språket i Dragon NaturallySpeaking 8. Det programmet finns dessutom i versioner för engelska, tyska, franska, spanska och italienska. Svenska är ju inte direkt något världsspråk. Att utveckla taligenkänningsprogram för svenska är förenat med stora investeringskostnader. Därför har det inte varit rimligt att vidareutveckla taligenkänningsprogram på svenska för varje ny version som utvecklats för de stora språken. Det är grunden till att det internationella programmet Dragon NaturallySpeaking 8 hittills nått längre än det svenska VoiceXpress både i fråga om taligenkänning och hur snabbt talet kan omvandlas till text. Med Dragon NaturallySpeaking 8 når man en taligenkänning på 99 procent och en hastighet av 160 ord per minut.

En annan fråga som jag ofta får är hur taligenkänning fungerar med olika dialekter. Eftersom både VoiceXpress och Dragon NaturallySpeaking 8 är talarberoende system, så lär sig programmet den dialekt man använder. Även för personer med en utländsk brytning går det som regel bra. Fungerar rättstavnings och grammatikprogram när man skriver med rösten? Självklart fungerar det. Grammatikaliskt skriver programmet det man säger, utom med några få undantag, somt ex att det ändrar dom till de. I övrigt fungerar ju grammatikprogrammet i MS Office, Open Office och liknande program normalt. Naturligtvis kan taligenkänningsprogram tolka ord fel. Det kan välja en ljudsynonym (en s.k. homonym) - ett ord som uttalas lika men stavas annorlunda. I och för sig är ordet då fonetiskt (ljudmässigt) rättstavat, men det hjälper ju inte om programmet valt fel ord. Eftersom programmen också lär sig i vilket sammanhang ord förekommer blir det som regel rätt i alla fall. Många frågar sig också hur det går med yrkesspecifik vokabulär som medicinska termer och juridisk vokabulär. Till programmen utvecklas hela tiden nya vokabulärer. För närvarande finns till det svenska programmet VoiceXpress specialvokabulärer för yrkesgrupper inom hälso- och sjukvård, juridik, röntgen, dental och polis förutom standardvokabulären. Till de internationella programmen finns också ett antal olika vokabulärer. Man kan arbeta mobilt och stationärt Numera kan ljudfiler med diktat också transkriberas d v s överföras till text mer eller mindre automatiskt. De internationella programmen, som kommit en bra bit längre än de svenska kan i dag spara röstfilerna som sedan kan skickas till en sekreterare. Sekreteraren som har personens röstprofil (som innehåller information om hur användaren uttalar ord) i sin dator, kan aktivera personens röstprofil och låta programmet läsa in ljudfilen. Datorn omvandlar automatiskt ljudfilen till ett rent textdokument. Det är lätt att förstå hur en sådan rutin kan spara mycket tid. För den mobile användaren kan en liknande teknik användas med hjälp av en digital diktafon. Många yrkesgrupper som säljare, besiktningsmän m m, som ofta är på resande fot, kanske inte alltid kan ha datorn med sig. Då är det mycket praktiskt att redan på fältet diktera in sina observationer eller besöksrapporter direkt i en digital diktafon. Sedan låter man datorn transkribera ljudfilen till en vanlig rapport när man kommer tillbaka till kontoret. Man kan också e-posta sina ljudfiler till kontoret och låta någon annan skriva ut dem med hjälp av sin talarprofil som man gjort tillgänglig på kontoret. Kan man använda taligenkänning och röststyrning med alla program? Såväl VoiceXpress som Dragon NaturallySpeaking fungerar tillsammans med ordbehandlingsprogram, kalkylprogram, e-postprogram, webbläsare mm. Taligenkänning fungerar också i de flesta applikationsprogram som journalprogram, säljstödsprogram, redovisningsprogram mm. Resultatet blir detsamma som om det skulle ha skrivits med tangentbordet, fast det går snabbare. Taligenkänningsprogrammen har faktiskt idag utvecklats så långt att de kan användas i de flesta Windowsprogram, inte bara till att skriva med rösten, utan också till att med rösten effektivt styra såväl datorn som specifika applikationer. Den som vill kan använda mus och tangentbord parallellt med taligenkännings- och röststyrningsprogrammen. Vad fordras av datorerna?

De flesta moderna datorer fungerar utmärkt, specifikationerna varierar något beroende på program och antal vokabulärer. Windows 2000 eller XP rekommenderas även om det svenska programmet också fungerar med Windows 98 2:a utgåvan och Windows Millennium. Dragon NaturallySpeaking Standard och Preferred fungerar i Windows Millenium eller senare versioner. Dragon NaturallySpeaking 8 Professional fordrar Windows 2000 SP4 eller Windows XP. Även om tillverkarna av taligenkänningsprogram specificerar miniminivåer för RAM-minnet (arbetsminnet) har vi kommit till slutsatsen att 512 MB är den praktiska nedre gräns man bör satsa på. 256 MB fungerar hjälpligt men man märker snabbt problematiken när flera program laddas. Generellt gäller att mer RAM-minne, snabbare och bättre processor ger bättre resultat. Val av mikrofoner De moderna taligenkänningsprogrammen klarar att arbeta med ett antal olika mikrofontyper. Det gör att man kan välja den typ av mikrofon/headset/fickminne som passar bäst för ens arbetssituation. Du kan till och med välja att arbeta med ett trådlöst headset. Hur lång tid tar det att lära sig? Normalt tar det en förmiddag att komma så långt med det svenska programmet, att man kan börja skriva och redigera text med rösten. Sedan följer normalt 1-2 veckors övning, innan man tar itu med steg två att börja med mera avancerade övningar. Även med de internationella programmen får man räkna med två ½-dagar för att kunna använda programmet effektivt. Att få programmet att lära sig ens röst går snabbt, kanske på en timme. Däremot tar det som regel något längre tid för att lära sig vissa formateringskommandon, om man inte har mycket goda kunskaper i språklära och syntax i det språk man valt. De internationella programmen har också många fler funktioner vilket gör att utbildningsinnehållet behöver koncentreras på andra delar än i det svenska. Generellt kan man säga att de flesta är i gång så att man kan skriva och korrigera text med rösten efter det första utbildningstillfället. Hur får man programmet att uppnå en maximal taligenkänning? Programmen förbättrar taligenkänningen på flera olika sätt Via övningsmoment lär sig datorn hur du talar Programmen analyserar också ditt sätt att skriva, vilka ord du använder och i vilken kontext de förekommer Genom att träna ord samt lägga till och träna nya ord Genom röstkorrigering av feltolkade ord. Vilka grupper har mest nytta av taligenkänning VoiceXpress och Dragon NaturallySpeaking har breda användningsområden till exempel - Alla som skriver och vill skriva snabbare och korrekt stavat. - Alla som vill effektivisera arbetet genom att styra datorn med rösten. - Den som har eller börjar känna av belastningsskador, musarm etc. - Den som behöver ha fria händer och den som arbetar mobilt. Vilka har börjat använda tekniken? För närvarande ligger Sverige långt efter länder som Tyskland, England och USA när det gäller att utnyttja fördelarna med röststyrning och taligenkänning i dagligt arbete med datorn. Inom tyska polisen och EU-parlamentet är taligenkänning redan standard.

Men det börjar också slå igenom i Sverige och vi ser allt fler yrkesgrupper som börjar använda taligenkänning och röststyrning i sitt dagliga arbete. De som tidigast anammade tekniken var naturligtvis de som kunde spara tid och resurser genom att eliminera transkriberingsmomentet t ex läkare och advokater. Idag kan vi bland annat räkna in annat Sveriges Riksdag, exportföretag, myndigheter, forskare, läkare, advokater och privatpersoner. Tekniken utvecklades från början för personer med vissa motoriska handikapp. På grund av att den snabba utvecklingen av taligenkänningsmotorerna blivit så mycket bättre, har även personer med begynnande belastningsskador t ex musarm börjat använda röst- och talstyrning. Här är funktionen för att styra datorns olika funktioner med rösten minst lika viktig som själva dikteringsmöjligheten. Man kan nämligen med lite övning styra nästan alla funktioner i datorn med rösten. Till och med musrörelser och musklick kan röststyras. Vilken utveckling kan förväntas? Att titta in i "kristallkulan" är inte alltid lätt för att kunna skönja trender och utvecklingslinjer. Men efter att ha följt utvecklingen under ett antal år kan följande strömningar skönjas. Man kan räkna med att programmen i allt högre grad kommer att vara självlärande när det gäller de korrigeringar som man gör av texterna. Man kan också räkna med att två arbetssätt kommer att utvecklas parallellt. - Diktering till text i realtid, d v s texten presenteras direkt på skärmen och korrigeras med rösten eller med röst och tangentbord i kombination. - Diktering till ljudfil, som sedan vid valfri tidpunkt, manuellt eller automatiskt, körs genom taligenkänningsprogrammet för transkribering (omvandling) till text där eventuell följande redigering görs med röst eller tangentbord. Det är möjligt redan i dag, men väldigt få känner till det. Automatisk taligenkänning under sammanträden med automatisk transkribering av mötesprotokoll på engelska finns redan och kommer att utvecklas ytterligare. Detta program klarar redan nu upp till fyra samtidiga användare och man kan nog förvänta sig att det inom snar framtid kommer att klara ännu flera användare. Taligenkänningsprogram kommer att finnas för ytterligare ett antal språk och specialvokabulärer kommer att utvecklas för fler yrkesområden. Programmen kommer att förses med ännu bättre språkmodeller och taligenkänningen kommer allt närmare 100%. Därigenom kommer sannolikt också inlärningstiden att reduceras till ett minimum. Man kan räkna med att taligenkännings- och röststyrningsmöjligeter kommer att utvecklas för flera operativsystem kanske till och med bli integrerade med operativsystemen. Tillverkare av applikationsprogram kommer också att utveckla möjligheterna för koppling/integrering med röststyrningsprogram. Allteftersom handdatorerna blir mer kraftfulla, kommer man att få en ökad mobil användning för taligenkänning, även under mera fältmässiga förhållanden.

Mobiltelefoner kommer att få en stor betydelse för att diktera rapporter när man är ute på fältet och automatiskt få dem transkriberade och färdigskrivna i sina applikationsprogram när man kommer tillbaka till kontoret. Redan nu finns ett sådant system kallat datacollector som vid Riksstämman 2005 fick pris som årets bästa produkt för IT-stöd inom sjukvården. Vi tror att taligenkänning och röststyrning i allt större omfattning kommer ersätta mus och tangentborde vid arbete med datorn. Rationaliserar arbetet och effektiviserar hela organisationen. De företag och organisationer som börjat använda taligenkänning märker snabbt hur det påverkar hela organisationen. Vissa monotona arbetsmoment, som traditionell renskrift, kommer att till stor del försvinna och arbetsflöden kommer att förändras. Ett exempel på detta är sekvensen Diktera eller skriva utkast på papper Till sekreterare för utskrift (avlyssning/tydning) Dokumentet tillbaka för genomläsning och eventuella korrigeringar Åter till sekreteraren för slutgiltig korrigering och utskrift Jämför detta med nedanstående typiska sekvensen med taligenkänning Tala in texten (man ser resultatet direkt på skärmen) Redigera Skriv ut Då inser man lätt möjligheten att spara tid och pengar när man skriver med rösten. Därmed är inte sekreterarens roll är utagerad, men tiden kan användas till mer kvalificerat arbete än att vara skrivautomat. En annan positiv effekt av taligenkänning är att personer som börjar känna av musarm och liknande belastningsskador på grund av sitt arbete med tangentbordet kommer att kunna fortsätta fullt produktivt arbete i stället för att tillhöra de sjukskrivnas skara. Detta är talteknologi Talteknologi handlar bl a om följande tre huvudområden talaridentifiering - man identifierar personer med hjälp av personens röstavtryck (som identifiering med fingeravtryck fast med rösten) text till tal eller talsyntes man omvandlar skriven text till tal tal till text - taligenkänning som omvandlar tal till skriven text Taligenkänning indelas i talaroberoende och talarberoende system Talaroberoende system har stora begränsningar i såväl vokabulär som grammatik, men behöver inte tränas av användaren. Sådana system hittar man bland annat vid SJ:s biljettbokning och i moderna telefonväxlar. Talarberoende system är en förutsättning för att man skall kunna diktera fritt med hjälp av naturligt tal. Det är då frågan om program där man måste lära datorn hur ens röst låter och hur man uttrycker sig. Man måste alltså träna programmet för varje enskild person som skall använda det och i många fall också för de olika mikrofontyper man använder.

Så här fungerar taligenkänning i stort Talet omvandlas av mikrofonen till elektriska svängningar. Dessa omvandlas till ett spektrogram för att bestämma klangbilden, något som sker hundra gånger per sekund. Programmet utför därefter en spektralanalys och genom statistiska beräkningar avgörs vilka fonem (minsta språkliga ljudelement; förenklat en bokstav) det innehåller. I nästa steg matchas fonemen mot ett uttalslexikon för att matcha ljudet mot det mest sannolika ordet. Sedan tar själva språkanalysen vid. Programmet matchar ordföljder och sätter med hjälp av språkmodeller och artificiell intelligens ihop det hela till en mening. *Denna text har skrivits med programmet VoiceXpress och därefter redigerats med rösten. Vissa finjusteringar har slutligen gjorts med en kombination av röst och tangentbord. Kalle Wannberg XnX Data AB För ytterligare information kontakta: Kalle Wannberg XnX Data AB, tel 08-626 7100 e-post: kalle.wannberg@xnxdata.se http://www.xnxdata.se