Kapitel 9. Reguljära uttryck. 9.1 Ett tecken:. [ ] [^ ] 9.2 Ankring: ^ $ \< \> 9.3 Bakstreck: \

Kapitel 9 Reguljära uttryck I kapitel 5 togs reguljära uttryck upp som argument till grep. I detta kapitel lär vi oss mer om sådana och om några andra sammanhang där de används. 9.1 Ett tecken:. [ ] [^ ]. = ett godtyckligt tecken [abc] = något av tecknen a, b eller c [^abc] = ett tecken som inte är a, b eller c Inom hakparenteser kan - användas mellan två tecken för intervall. Så [0-9] betyder 0, 1, 2, 3, 4, 5, 6, 7, 8 eller 9, och [0-9,.] betyder 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, komma eller punkt. De flesta tecken som är speciella annars i regexpar är inte speciella inom []. T. ex. matchar [9.*] en nia eller en punkt eller en asterisk. (Utanför hakparenteserna hade båda punkten och asterisken haft en särskild betydelse.) Dessutom kan man inom [] stoppa in en beteckning för en hel klass tecken, som betyder t. ex.»en bokstav«eller»ett skiljetecken«. Dessa teckenklasser har namn som börjar med [: och slutar med :], t. ex. [:lower:] för en gemen bokstav. Tabell 9.1 visar några av dessa. Traditionellt har man skrivit t. ex. [A-Z] för att få en versal, och detta (och [a-z] och [A-Za-z]) kan man se på många håll i exempel på reguljära Tabell 9.1: Några namngivna teckenklasser. Betydelserna är inte helt strikta här, utan kan variera med olika locale. Namn [:alnum:] [:alpha:] [:blank:] [:cntrl:] [:digit:] [:graph:] [:lower:] [:print:] [:punct:] [:upper:] Betydelse Alfanumeriska: [:alpha:] + [:digit:] Bokstäver: [:lower:] + [:upper:] Blanka tecken (mellanrum och TAB) Kontrolltecken Siffror Grafiska: [:alnum:] + [:punct:] Gemena (små) bokstäver Skrivbara: [:graph:] + mellanrum Interpunktion Versala (STORA) bokstäver uttryck. Det är dock säkrare att använda namngivna klasser. Då ska man få man med alla bokstäver, även t. ex. åäö, oavsett språkinställningar. 1 Observera att hakparenteserna ingår i namnen på dessa teckenklasser! Det gör att det blir dubbla hakparenteser i de reguljära uttrycken. Om man byter ut A-Z mot [:upper:] så betyder det att ett reguljärt uttryck som [A-Z] istället blir [[:upper:]], medan [^A-Z] blir [^[:upper:]], och uttrycket [z[:punct:] ] betyder ett z eller ett interpunktionstecken eller ett mellanslag. 9.2 Ankring: ^ $ \< \> Metatecknen ^ och $ för början av raden respektive slutet av raden har vi redan sett. Så med t. ex. ^xyz hittar man rader som börjar med xyz (radbörjan följt av»xyz«) och med [[:blank:]]$ hittar man rader som slutar med något blankt tecken. Dessa båda tecken matchar alltså inget tecken alls på egen hand, utan ställer bara krav på var det övriga i uttrycket ska befinna sig. Man säger att dessa ankrar ett reguljärt uttryck. Med \< respektive \> matchar man en ordbörjan respektive ett ordslut. Så med \<anti hittar man»anti«som står i början av ett ord (t. ex.»anti«i»antites«eller»antilop«men inte i»fantisera«). 9.3 Bakstreck: \ Bakstrecket betyder nånting tillsammans med det tecken som följer direkt efter det. I synnerhet kan man sätta ett metatecken efter bakstreck när man verkligen vill söka efter det tecknet. Så för att söka efter t. ex. en siffra mellan asterisker, som t. ex.»*3*«kan man använda det reguljära uttrycket \*[0-9]\* med bakstreck för att visa att det verkligen ska vara med asterisker i texten. 1 Skriv inte [a-ö] när du menar en bokstav! Dels skulle det vara beroende av en viss sorteringsordning, och dessutom funkar det ändå inte som man skulle kunna tro. 83

9. REGULJÄRA UTTRYCK I övrigt används bakstreck följt av annat tecken för lite olika funktioner. Under ankring ovan nämndes två. En annan användbar är \w där»w«står för»word«. Det betyder liksom [[:alnum:]] ett alfanumeriskt tecken, men är kortare att skriva. Så a\wa matchar t. ex.»axa«och»a7a«, men inte»a!a«eller»a a«. 9.4 Utökade reguljära uttryck Det finns olika varianter av reguljära uttryck med lite olika uppsättningar metatecken. Hittills har vi sett enkla reguljära uttryck (basic regular expressions) där de speciella tecknen är. * ^ $ [ ] \ Alla andra tecken matchar bara sig själva. Med så kallade utökade reguljära uttryck (extended regular expressions) tillkommer dessa speciella tecken: +? ( ) { } Kommandot grep använder normalt de enkla (basic) regexparna, men med en väljare -E (som i Extended) använder den de utökade. 9.5 Repetitioner: * +? {} Asterisken har vi sett förut. Nytt i de utökade regexparna är + efter något för att säga att detta något ska förekomma en eller flera gånger. Det utökade reguljära uttrycket bä+ matchar därmed strängarna»bä«,»bää«,»bäää«,»bääää«, osv., hur långt som helst. (Observera att det bara är ä som repeteras. Detta reguljära uttryck matchar t. ex. inte»bäbäbä«.) Skillnaden med asterisken * är att den även tilllåter att den repeterade delen inte är med någon gång alls. Så bä* matchar samma texter som bä+, men dessutom även»b«. Med? efter något anger man ett det är frivilligt, dvs. det kan vara med en gång eller inte alls. Så bä? matchar»b«och»bä«och inget annat. Med {n} efter något kan man säga att detta något ska förekomma n gånger. Så [sz]{3} matchar samma som [sz][sz][sz], dvs.»sss«,»ssz«,»szs«,»szz«,»zss«,»zsz«,»zzs«och»zzz«. Med {n,m} ska det vara minst n och högst m förekomster, så br{2,5} matchar»brr«,»brrr«,»brrrr«och»brrrrr«, och inget annat. Maxantalet m kan utelämnas, och 8{3,} betyder minst tre åttor, dvs.»888«eller»8888«eller»88888«eller... (Hur många som helst.) Om inte det som står före det som visar repetition är något inom [] eller () (som vi kommer till snart!) så är det ett ensamt tecken som repeteras. Så hej?hopp matchar»hejhopp«eller»hej hopp«. 9.6 Alternativ: Med lodstreck ( ) visar man alternativ. Så vit svart grå matchar»vit«eller»svart«eller»grå«och foo b[aä]r matchar»foo«eller»bar«eller»bär«(eftersom alternativet efter lodstrecket hade två varianter). Glöm inte att hakparenteser kan användas om alla alternativ består av ett tecken, så istället för a e i o u är det enklare att skriva [aeiou]. 9.6.1 Parenteser: ( ) Med parenteser kan man föra samman ett större uttryck. Så med en (grå liten stor) katt matchar man»en grå liten katt«eller»en stor katt«. Utan parenteser skulle det bli allt före eller efter lodstrecket. Parenteser är också användbara för att hålla ihop något som ska repeteras. Det gör t. ex. att (bar){2,5} matchar»barbar«,»barbarbar«,»barbarbarbar«och»barbarbarbarbar«. Fler exempel: en (grön blå)+ kavaj matchar t. ex.»en grön kavaj«eller»en blågrön kavaj«eller»en gröngrön kavaj«eller»en blåblågrönblågrön kavaj«. en grön blå+ kavaj vore däremot något helt annat! Det skulle matcha antingen»en grön«eller också något som matchas av blå+ kavaj, dvs.»blå kavaj«eller»blåå kavaj«eller»blååå kavaj«osv. mo(no)+ton matchar»monoton«,»mononoton«,»monononoton«, osv. 9.7 Exempel Här är några ytterligare exempel på (utökade) reguljära uttryck [a-h][1-8] en ruta på ett schackbräde, som»e2«eller»b4«. [0-9]*[13579] en sekvens med siffror som slutar med en udda siffra, som t. ex.»4711«eller»007«. (fjor fem sex sjut ar nit)ton tjugo något av orden fr. o. m.»fjorton«t. o. m.»tjugo«(..)* ett jämnt antal tecken, vilka som helst \<pre\w*ing\> ett ord som börjar med»pre«och slutar med»ing«. 9.8 Olika sorters reguljära uttryck Reguljära uttryck används inte bara av grep utan dyker upp i flera sammanhang. Av historiska skäl används dock tyvärr flera olika varianter av reguljära uttryck. Ibland används de utökade (som 84

Girighet och hunger grep -E använder), ibland de enkla (som grep använder normalt) där tecknen +? ( ) { } inte har någon särskild betydelse, utan betyder sig själva. (En del program som använder reguljära uttryck har dessutom sina egna utökningar av dem. Det har t. ex. Emacs och programspråket Perl. Flera utökningar som har gjorts för Perl har plockats över till andra sammanhang också, t. ex. programspråken Java och Python.) I grep så kan man komma åt all funktionalitet som man kan få med +? ( ) { } utan att gå över till utökade reguljära uttryck genom att skriva \+ \?  \{ \} \ istället. Så dessa två kommandon gör samma sak: Med väljaren -o ändras detta och man får istället ut just de delar som matchade sökuttrycket istället för hela rader. $ grep l.ll verb.txt lalla lulla parallellställa parallellisera $ grep -o l.ll verb.txt lall lull lell lell $ grep -E '^(tre fyr fem)' verb.txt trefaldiga femfaldiga fyrfaldiga tredubbla fyrdubbla tremulera trepanera fyra treva $ grep '^$tre\ fyr\ fem$' verb.txt [ samma svar ] nämligen hittar de rader i den filen som börjar med»tre«,»fyr«eller»fem«. 9.9 Reguljära uttryck i Emacs Det finns flera kommandon i Emacs som använder reguljära uttryck. Vid sidan av C-s och C-r som söker framåt respektive bakåt efter en textsträng så finns även C-M-s och C-M-r som söker framåt respektive bakåt efter ett reguljärt uttryck. (Här ska alltså både Control och Meta användas tillsammans.) Under en inkrementell sökning kan man också använda M-r för att slå om huruvida sökningen ska gälla reguljära uttryck eller inte. Det finns även andra kommandon som ni kommer att möta i labben. De reguljära uttrycken i Emacs är ungefär som enkla reguljära uttryck, men även plustecknet och frågetecknet är metatecken. 9.10 grep -o Kommandot grep arbetar som många andra kommandon normalt med rader. Den fungerar som ett filter som bara släpper igenom de rader som innehåller ett visst sökuttryck. (Eller med väljaren -v de rader som inte innehåller ett visst sökuttryck.) Se sökningarna i figur 9.1 där vi söker efter ord som börjar på»f«. Utan -o spelar det ingen roll om vi söker efter \<f\w* eller bara \<f. Det är samma rader (i detta fall bara en rad) som hittas. Men med \w* på slutet hittas hela ordet, vilket gör skillnad när vi använder -o för att få se vilken del av texten som matchade sökuttrycket. Det kan (som här) bli flera matchningar per rad. 9.11 Girighet och hunger Ett sådant uttryck som [1-9]0* matchar ju en siffra 1 9 eventuellt följt av nollor, t. ex.»5«,»10«eller»30000«. $ echo 'Timmy 2000' grep -o '[1-9]0*' 2000 I exemplet ovan ser vi hur uttrycket matchade»2000«. Men det skulle ju också kunna ha matchat bara»200«eller»20«eller»2«. Ändå är det just matchningen»2000«som vi fick fram. Vid matchningen väljs nämligen den längsta av flera möjligheter som börjar på samma plats. Man säger att operatorn * här är girig eller hungrig (greedy på engelska) vilket innebär att den»vill«matcha så mycket som möjligt. Samma gäller de andra repetitionsoperatorerna vi har tagit upp. Detta behöver man tänka på ibland, i synnerhet med.* eller.+ som lätt kan matcha mer än man egentligen hade tänkt sig. Om man t. ex. vill söka efter citat inom»«kan det ligga nära till hands att använda ett reguljärt uttryck».*«för att visa att det ska börja med», sluta med «och däremellan får innehålla vad som helst. Men»vad som helst«kan bli mer än man tänkt sig: 85

9. REGULJÄRA UTTRYCK $ grep '\<f' saga.txt ingenting, för han var försäkrad. Några dagar senare flyttade $ grep -o '\<f' saga.txt f f f $ grep '\<f\w*' saga.txt ingenting, för han var försäkrad. Några dagar senare flyttade $ grep -o '\<f\w*' saga.txt för försäkrad flyttade Figur 9.1: Greppande med och utan -o i en saga. \<f betyder ett f i början av ett ord, och \w* betyder godtyckligt många ytterligare»ordtecken«efter det, så tillsammans betyder det ett ord som börjar på f. $ cat testfil Hej hopp! Ska det stå»i dag«eller»idag«? $ grep -o '».*«' testfil»i dag«eller»idag«detta svar börjar ju och slutar med de efterfrågade tecknen, men är längre än bara»i dag«som man kanske snarare var ute efter. I detta fall är ett sätt att lösa problemet att kräva att tecknen mellan de båda citattecknen inte själva får vara slutcitattecken, dvs. att använda [^«] istället för. för varje tecken mellan citattecknen. $ grep -o '»[^«]*«' testfil»i dagidag«9.12 sed Med kommandot sed kan man göra en mängd olika omvandlingar av text. Namnet står för stream ed och sed: Den ursprungliga editorn på Unix, som användes redan i forntiden före bildskärmarnas tid, hette ed och var skriven av Ken Thompson. Det var Thompson som först introducerade reguljära uttryck i editorer. När kommandot sed kom några år senare som en variant att använda för icke-interaktiv editering av en inputström så byggde därför dess kommandon på motsvarande kommandon i ed. Det enda sed-kommando vi tar upp här, s, finns t. ex. även i ed. editor. Det kan göra mycket som en editor kan göra, men gör det inte interaktivt utan genom att bearbeta text som kommer in i en inputström. Detta kan läggas in som ett avancerat filter som läser text från standard input och skriver ut en editerad version av texten på standard output. Kommandot sed är lite som en schweizisk armékniv som kan utföra en mängd olika saker, bland annat sådant som ni har använt andra kommandon till, som head, tail och tr. Här kommer vi dock att bara använda detta kraftfulla verktyg till en specifik sak, nämligen att byta ut text. 9.12.1 Att ersätta text med sed Tidigare har vi använt tr för att byta ut text, men det är begränsat genom att det bara är enstaka tecken som hanteras. Det duger inte om vi t. ex. vill byta ut alla förekomster av»foo«mot»bar«. Dessutom har det begränsningar vid hantering av flerbytestecken. Eftersom ni nu bara kommer att använda sed till en sak så kommer alla era anrop av sed att likna varandra. De kommer alla att se ut ungefär som Varför heter det grep?: I editorn ed användes reguljära uttryck inte bara med kommandot s, utan även med bl. a. ett kommando g med vilket man sökte upp rader som matchade ett visst reguljärt uttryck och gjorde nåt med dessa rader. För att ta bort alla rader som innehåller»foo«kunde man t. ex. göra g/foo/d där d är ett kommando som tar bort en rad. För att skriva ut alla rader som matchade ett reguljärt uttryck använde man istället p (= print). Ibland förkortas regular expression med re, så en sådan operation kunde beskrivas g/re/p vilket är skälet till att det senare skrivna program som utförde just den operationen fick namnet grep. 86

sed sed 's/regexp/replacement/g' Här är det bara ett argument till sed, och det talar om vilken editering som ska utföras. Det s som argumentet börjar med här är ett kommando i sed för substitute. Det söker upp förekomster av text som matchar det reguljära uttrycket regexp och byter ut dessa mot texten replacement. Så t. ex. kan man skriva sed 's/color/colour/g' för att byta ut alla»color«mot»colour«. 2 eller 9.12.2 Att återanvända originaltexten I sed 's/regexp/replacement/g' är det bara regexp som är ett reguljärt uttryck. I ersättningsdelen har inte asterisker, parenteser osv. någon särskild betydelse, utan blir sig själva. $ echo 'byt allt' sed 's/././g'... $ echo 'foo bar' sed 's/[aou]/[äöü]/g' f[äöü][äöü] b[äöü]r $ echo 'hej hopp' sed 's/e.*o/***/g' h***pp sed 's/s\>/z/g' för att byta ut varje s som står i slutet av ett ord mot z. Man brukar normalt använda snedstreck (/) som här för att avdela argumentet, men det kan vara något annat tecken istället, bara det är samma tecken på alla tre ställen. Så om man behöver snedstreck i sitt reguljära uttryck eller i ersättningen får man lov att välja nåt annat, t. ex. sed 's!1/2!½!g' för att byta alla förekomster av de tre tecknen»1/2«mot det enda tecknet»½«. Efter det sista snedstrecket står väljare till s- kommandot. I exemplen ovan är det g som gör att alla förekomster byts ut (global). Annars byts bara den första förekomsten på varje rad ut. En annan väljare är i som ignorerar skillnader mellan versaler och gemener. Jämför följande fyra exempel som bara skiljer sig i vilka av dessa väljare som har använts. Om man ger ett andra argument till sed så är det vilken fil den ska hämta input från. Ett tecken som ändå är speciellt i ersättningstexten är & (ampersand) som betyder hela den text som matchade det reguljära uttrycket. Om man vill bryta raden efter varje interpunktionstecken kan man därför göra sed 's/[[:punct:]]/&\n/g' där ersättningsdelen betyder det som [[:punct:]] matchade följt av ett nyradstecken (vilket skrivs \n här precis som t. ex. i tr). Följande exempel dubblerar vokaler genom att använda ampersand två gånger. sed 's/[aeiouyåäö]/&&/gi' $ cat jaha.txt Procent procent procent PROCENT $ sed 's/procent/%/' jaha.txt Procent % procent PROCENT $ sed 's/procent/%/g' jaha.txt Procent % % PROCENT $ sed 's/procent/%/i' jaha.txt % procent procent PROCENT $ sed 's/procent/%/gi' jaha.txt % % % % Kommandot sed använder normalt enkla reguljära uttryck, men har en väljare -r som gör att den istället använder utökade reguljära uttryck. 2 I detta fall behövdes inte några citattecken runt argumentet till sed, eftersom inga tecken där är speciella i skalet, men oftast behövs det, så det kan vara säkrast att alltid ha med det. 87

Laboration 9: Reguljära uttryck Redovisning Checka in en fil ids9.txt med svar på frågorna senast fredag 25 november. När frågan är i stil med»vilka ord finns det som...?«så ge dels svar på frågan och tala dels om hur du fick fram svaret, t. ex. vilket kommando eller vilka kommandon du använt för att få fram svaret. Svenska ord I /local/dict/dsso-list.txt finns en stor samling svenska ordformer tagna från Den stora svenska ordlistan. Använd den för frågorna i detta avsnitt. Eftersom filen bara innehåller ord med ett ord per rad kan du använda ^ och $ för ankring till ordbörjan och ordslut och. för ett godtyckligt tecken inne i ordet. Uppgift 9.1 Hur många ord finns det som slutar på bokstaven v? Uppgift 9.2 Vad finns det för ord som innehåller minst tre ä, som t. ex.»självbestämmanderätt«? Uppgift 9.3 Vilka ord med minst nio bokstäver går att skriva enbart med tecknen på översta bokstavsraden på tangentbordet? (qwertyuiopå) Uppgift 9.4 Vad finns det för ord som är minst 12 tecken långa vars enda vokal är o? Uppgift 9.5 Du löser korsord och söker ett elvabokstavsord som har å näst sist och f eller l på femte plats. Vad finns det för möjligheter (om ordet står med i denna ordlista)? Uppgift 9.6 Vilka ord med minst fem tecken har inte med någon av bokstäverna eantrsildogm? (De vanligaste tecknen på svenska enligt någon källa.) Uppgift 9.7 En del ord i den filen innehåller tecken som inte räknas som ingående i teckenklassen [:alpha:]. Hur många ord? Väljaren -o I dessa uppgifter ska du använda väljaren -o för att bara få ut det som matchar ett uttryck från en fil. Uppgift 9.8 Vilka tecken var det som fanns med i ordlistan trots att de inte ingår i teckenklassen [:alpha:] i förra uppgiften Uppgift 9.9 Vilka ord i /local/kurs/ids/ wonderland.txt börjar med»cal«? (Rensa bort dubbletter från ditt svar.) Uppgift 9.10 Vad finns det för ord som börjar med versal och slutar med k i samma fil? Använd \w för att beteckna ett tecken inne i ett ord, och rensa bort dubbletter från ditt svar. Uppgift 9.11 Vad finns det för ord som innehåller q i samma fil? (Rensa bort dubbletter från ditt svar.) Uppgift 9.12 Använd det utökade reguljära uttrycket [0-9]+ för att ta fram vilka sifferuttryck som finns i filen /local/kurs/ids/ THE-GNU-PROJECT och sortera dem i nummerordning. (Rensa bort dubbletter från ditt svar.) Uppgift 9.13 Skapa en fil gnuord-3 som listar alla ord i filen GNU. Använd denna gång grep -o med lämpliga argument för att plocka ut orden och rensa bort dubbletter. På vilka sätt blev denna ordlista bättre än den gnuord-1 som du skapade i uppgift 5.59 (s. 58)? En sluttagg i HTML börjar ju med»</«och slutar med»>«. Prova därför med grep -o '</.*>' ~ellen/public_html/saga.html för att ta fram sluttaggar från denna HTML-fil. Uppgift 9.14 En del rader i svaret blev verkligen sådana, t. ex.»</head>«, men andra rader kom att innehålla mer. Vad är problemet? Hur kan du fixa det? Ge ett sorterad lista (utan dubbletter) med alla sluttaggar som förekommer i den filen. Ta sed dit man kommer Uppgift 9.15 Stavningsreform! Skriv ett sedkommando som byter ut alla»ck«mot»kk«. Du kan prova ditt kommando med t. ex. ditt kommando ck-test.txt där ck-test.txt är en fil som du gjort med lite testord, eller typ echo sicksack ditt kommando. 88

I Emacs Uppgift 9.16 Hur lyder din saga på i-sprikit (även kallat i-språket), dvs. med alla vokaler utbytta mot i. Svaret ska börja»dit vir in ging«. Uppgift 9.17 Hur lyder din saga om alla mellanslag byts ut mot dubbla mellanslag? Svaret ska alltså börja Det var en gång. Uppgift 9.18 Om Strindberg hade behövt skriva Roeda rummet på en engelsk skrivmaskin och fått lov att skriva aa ae oe istället för å ä ö, hur hade då början av den lydit? Uppgift 9.19 Skriv ett kommando som byter ut alla ord»ej«mot»icke«i en text. Se till att du bara byter ut hela ord så att du inte råkar byta t. ex.»mejl«mot»mickel«. Uppgift 9.20 Skapa en fil GNU2 i din ids-katalog som är som GNU, men där du lagt till»<abbr>«före och»</abbr>«efter varje ord som är minst två bokstäver långt och som bara består av versaler. Så t. ex. ska varje förekomst av ordet»mit«ha bytts mot»<abbr>mit</abbr>«. Uppror! (igen) Dessa uppgifter använder sig av den uppror.txt som du har sedan tidigare. Använd teckenklasser när det är lämpligt. Uppgift 9.21 Vilka rader innehåller en liten bokstav som följs direkt av en stor? Uppgift 9.22 Hur många rader innehåller minst tre interpunktionstecken i rad? Vilka rader har minst sex konso- Uppgift 9.23 nanter i rad? Uppgift 9.24 Vilka rader innehåller något av orden mitt, ditt, sitt, hans, hennes följt av ett mellanslag och sedan ordet liv? Uppgift 9.25 y? Uppgift 9.26 Vilka rader börjar med bokstaven Vilka rader börjar med ordet kan? Uppgift 9.27 Vilka rader både börjar och slutar med bokstaven m? Uppgift 9.28 Vilka rader både börjar och slutar med bokstaven m, men har inga ytterligare m i sig? Uppgift 9.29 Vilka rader innehåller exakt ett w? Uppgift 9.30 med»flä«? Uppgift 9.31 tecken långa? Vilka rader har med ord som börjar Hur många rader är minst femtio Uppgift 9.32 Gör en frekvenslista över vilka interpunktionstecken som förekommer, sorterade i frekvensordning. Texten i denna bok är inlagd med OCR (Optical Character Recognition) och det kan mycket väl ha blivit fel. I listan över med interpunktion ser du att det finns två streck, bindestreck (-) och ett längre streck ( ) och jag är misstänksam angående hur det kortare bindestrecket används i filen. Uppgift 9.33 Vad finns det för rader som innehåller ett bindestreck omgivet av tecken före och efter det som varken är ett annat bindestreck eller ett [:alnum:]-tecken? Du bör hitta en del konstigheter i filen här. Uppgift 9.34 uppror.txt? På en rad står det t. ex. Vad finns det för parentesuttryck i försvar (och anfall) för att bevara den bästa av Alltså ska (och anfall) ingå i ditt svar. En del parenteser börjar på en rad och slutar på en annan. Dem kan du för enkelhets skull strunta i. (Men har du några idéer om hur du skulle kunna ta hand om det också, så berätta gärna!) I Emacs Öppna filen /local/kurs/ids/wonderland.txt i Emacs. Det finns ett Emacs-kommando som heter occur som listar de rader som innehåller text som matchar ett visst reguljärt uttryck. Detta kommando finns dock inte i menyerna, så använd M-x för att köra det kommandot. Du får sen skriva ett ett reguljärt uttryck. Skriv uet\> för att lista rader som innehåller ord som slutar på»uet«. Uppgift 9.35 Hur många matchingar blev det och hur visas dessa? Sökträffarna visas i en buffert som är i ett särskilt Emacsläge där man kan gå direkt till en träff genom att klicka på den, eller genom att trycka på RET. Uppgift 9.36 När man ger ett kommando med M-x i Emacs får man ett tips i ekoarean om hur man också hade kunnat ge kommandot om det finns ett kortkommando för det. Med vilka tangenttryckningar kan man också ge kommandot occur? Använd nu Tools Search Files (Grep) i samma Emacs. I minibufferten får du ett påbörjat grepkommando. Lägg till gren *.txt till det för att leta efter»gren«i alla filer *.txt i den katalogen (/local/kurs/ids). Här kan du på ett liknande sätt använda musklick eller RET för att gå till sökträffarna. 89

LABORATION 9: REGULJÄRA UTTRYCK Uppgift 9.37 En av de väljare som användes till grep-kommandot här var -n. Den har vi inte använt i kursen. Vad betyder den? Uppgift 9.38 En av träffarna är från filen nordic-authors.txt. Vilken författare var det som hittades där? Upproriska ord Låt oss se vad det finns för ord romanen Uppror!. För att slippa ifrån sifferuttryck och konstiga egennamn som»fitzschkloff«och»knöckl«så nöjer vi oss med ord som bara består av små bokstäver. Uppgift 9.39 Skapa en fil uppror-ord.txt med en svensksorterad ordlista (utan dubbletter) över ord med bara små bokstäver i uppror.txt. Uppgift 9.40 Hur många ord finns i uppror-ord.txt? Hur många av dessa finns även i dsso-list.txt? Spara de ord som finns i båda dessa filer i uppror-ord-ok.txt. (Också den svensksorterad och utan dubbletter.) Ett sätt att få fram de rader som finns i två filer är att sortera ihop filerna och plocka fram de rader som det finns dubbletter av då. De övriga orden är kanske intressantare. En del är udda sammansättningar (som»zombifieringsmaskineri«) som man knappast väntar sig i en ordlista, men en del av dessa skulle kunna vara fel i uppror.txt. Och en del skulle kunna vara ord som borde stå med i DSSO men saknas där. Kommandot diff visar skillnader mellan två filer. Använd diff uppror-ord.txt uppror-ord-ok.txt för att i kompakt form få se alla skillnader mellan filerna. Det blir rader som börjar med»<«som visar det som bara finns i den första filen. (Raderna med siffror är för att visa var i filen det är.) Uppgift 9.41 Ge något exempel på ord där som tyder på en brist på DSSO-listan något som gott borde ha funnits med i en svensk ordlista. Kolla på http://dsso.se/ om ordet finns i den allra senaste versionen av DSSO. Gör det det? Mer( mer)+ Det finns många varianter på hur man stavar Gaddafi med latinskt alfabet. Ett förslag på ett utökat reguljärt uttryck att använda för att söka efter hans namn är \<[KGQ]h?add?h?af?fi\>. Uppgift 9.42 Hur många olika möjligheter matchar detta reguljära uttryck? Uppgift 9.43 Vilka tecken är metatecken i enkla reguljära uttryck? Uppgift 9.44 Hur lyder din saga.txt om man tar bort alla vokaler? (Svaret ska alltså börja»dt vr n gng«.) Uppgift 9.45 Hur lyder din saga.txt om alla bokstäver dubbleras? (Svaret ska alltså börja»ddeett vvaarr eenn ggåånngg«. Bara bokstäverna är dubblerade, men inte mellanslag eller interpunktion.) Uppgift 9.46 Hur lyder din saga.txt om sista bokstaven i varje ord tas bort? (Svaret ska alltså börja»de va e gån«.) Uppgift 9.47 Hur lyder din saga.txt om alla versaler sätts inom hakparenteser? (Svaret ska alltså börja»[d]et var en gång«.) Uppgift 9.48 Hur lyder din saga.txt översatt till rövarspråket som blivit känt från Astrid Lindgrens böcker om Kalle Blomkvist där varje konsonant byts ut mot konsonanten + o + konsonanten. (Svaret ska alltså börja»dodetot vovaror enon gogånongog«.) (Ännu bättre vore det egentligen med»dodetot«där bara det första d-et är versalt. Mycket frivillig överkurs.) Uppgift 9.49 Ge ett reguljärt uttryck som matchar något av 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13 osv. till hur höga tal som helst, men inget annat (t. ex. inte 007). Uppgift 9.50 Ge ett kort utökat reguljärt uttryck som matchar både»arton«och»aderton«(men inget annat). En möjlighet är helt enkelt arton aderton, men gör något kortare! Uppgift 9.51 Ge ett utökat reguljärt uttryck som matchar»mormor«,»morfar«,»farmor«och»farfar«(men inget annat). Här är mormor morfar farmor farfar förstås en möjlighet, men försök att skriva något kortare! Uppgift 9.52 Ta med grep -Eo och lämpliga argument fram telefonnummer med riktnummer från tidningstexterna i /local/kurs/ids/ ivt2-svenska.txt. Din lösning kan vara mer eller mindre bra. Ju fler korrekta nummer du får ut desto bättre, men undvik att få falska träffar med sånt som inte är telefonnummer. 90