Reguljära uttryck. Kapitel Reguljära uttryck. 8.2 Metatecken Ett tecken:. []

Relevanta dokument
Kapitel 8. Reguljära uttryck. 8.1 Ett tecken:. [ ] [^ ] 8.2 Ankring: ^ $ \< \>

Reguljära uttryck. Kapitel Reguljära uttryck Ett godtyckligt tecken: Ett speciellt tecken: [ ] 8.1.

Kapitel 9. Reguljära uttryck. 9.1 Ett tecken:. [ ] [^ ] 9.2 Ankring: ^ $ \< \> 9.3 Bakstreck: \

Program. Kapitel make Program Interpreterande och kompilerande program

Textbearbetning i skalet och man-sidor

Kapitel 12. Mer om program Att rapportera buggar och problem make

Reguljära uttryck och textbehandling II

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

STRÄNGAR DATATYPEN. Om du vill baka in variabler eller escape-tecken måste du använda dubbla citattecken. strängar

Reguljära uttryck och textbehandling

Sed och Awk. Linuxadministration II 1DV421. Monday, August 8, 11

729G09 Språkvetenskaplig databehandling

Labb 1 - Textbearbetning med reguljära uttryck. Formella språk. Definitioner. Chomskyhierarkin. Formella språk. Formella språk

729G09 Språkvetenskaplig databehandling

awk, sed och grep awk döpt efter Aho Weinberger Kernighan (1977) sed en stream editor grep sed g/re/p bygger i viss mån på ed line editor

Ersätta text, specialtecken och formatering

Uttryck, satser och strömhantering

Egna genvägar. Subhashish Pradhan T.C. Hollingsworth Översättare: Stefan Asserhäll

Omkoppling av in- och utmatning. In- och utmatning i Unix. Kommando exempel, ls, pipe forts. Kommando exempel, ls, pipe

Programmering för språkteknologer II. OH-serie: Ändliga automater. reguljära uttryck i Java. Deterministiska ändliga automater

Uppgift 1 (grundläggande konstruktioner)

awk, sed och grep ed kommandon grep Standard unix editor tidig 70-tal program < 8Kbyte awk döpt efter Aho Weinberger Kernighan (1977)

Filers innehåll. Grundläggande databehandling. Representation av text. pffb = påhittat filformat för bilder

Laboration 10: LaTeX. Redovisning. Omgivningen document. Början. Instruktionerna nedan. Repetitionsuppgifter

Övning 5 - Tillämpad datalogi 2013

Lab 7, 48 steg till ett bättre liv i Unix-labbet

Konstruktion av datorspråk

Handbok KFind. Dirk Doerflinger Översättare: Stefan Asserhäll

DD1361 Programmeringsparadigm. Formella Språk & Syntaxanalys. Per Austrin

Objektorienterad programmering i Java I. Uppgifter: 2 Beräknad tid: 5-8 timmar (OBS! Endast ett labbtillfälle) Att läsa: kapitel 5 6

Introduktion till programmering SMD180. Föreläsning 2: Variabler, uttryck och satser

Användarmanualen. Visma Enterprise Content Search. Standard Version 2.0 for Platina. Version 1.1

Använda Python Laboration 1 GruDat, DD1344

TDP Uppgift 1

Om e-post. Introduktion till Emacs. Att skicka e-post. ÅÄÖåäö i pine. Varför Emacs? Vad är Emacs? Emacs en editor/textbehandlare

Mathematica. Utdata är Mathematicas svar på dina kommandon. Här ser vi svaret på kommandot från. , x

Användarhandledning PW Excel Manager

UPPGIFT 1 LAMELLER. Minsta antalet hål: 1. Första lamellen? Andra lamellen? Minsta antalet hål: 3

Extramaterial till Matematik Y

[:alnum:] [:alpha:] [:blank:] [:cntrl:] [:digit:] [:graph:] [:lower:] [:print:] [:punct:] [:upper:] 8.2 Ankring: ^ $ \< \>

Laboration: Grunderna i Matlab

Labb i Datorsystemteknik och programvaruteknik Programmering av kalkylator i Visual Basic

Grundläggande datorkunskap. Kom igång med dator

Filbindningar. Mike McBride Översättare: Stefan Asserhäll

Emacs. Eric Elfving Institutionen för datavetenskap (IDA) 22 augusti 2016

Innehåll. Inledning. Inställningar. Inledning Inställningar Kortkommandon Övriga inställningar Kommandofönstret Övrigt

kl Tentaupplägg

Mer om språk och Ruby

Introduktion till programmering D0009E. Föreläsning 1: Programmets väg

Föreläsning 3. Programmering, C och programmeringsmiljö

Vanliga frågor för VoiceXpress

Editering, Kompilering och Exekvering av Javaprogram

Uppgift 1 ( Betyg 3 uppgift )

Det virtuella tangentbordet

Introduktion till programmering, hösten 2011

Välkommen 2 Navigering 3 Bokstäverna 3 Övningar kopplade till boken 6 Ord 10

DATORÖVNING 5: SANNOLIKHETSFÖRDELNINGAR FÖR

Handbok för Klipper. Philip Rodrigues Carsten Pfeiffer Översättare: Stefan Asserhäll

Handbok Artikulate. Andreas Cord-Landwehr Ondrila Gupta Översättare: Stefan Asserhäll

kl Tentaupplägg

F2 Datarepresentation talbaser, dataformat och teckenkodning

Laboration 0. Enhetsbokstaven anges med ett kolon efter och man läser ofta ut detta, exempelvis C:(sekolon).

TENTA: TDDD11 & TDDC68. Tillåtna hjälpmedel. Starta Emacs, terminal och tentakommunikationsfönster. Skicka in frågor och uppgifter

F2 Datarepresentation talbaser, dataformat och teckenkodning EDAA05 Datorer i system! Roger Henriksson!

Laboration: Grunderna i MATLAB

Gränssnitt för FakeGranska. Lars Mattsson

MÄLARDALENS HÖGSKOLA. CD5560 Formella språk, automater och beräkningsteori. Användarmanual. för simulatorn JFLAP

TDP Regler

UNIX. Laborations-PM Anders Egneus, Henrik Lindgren, 2004, Raphael Corsoski, Erik Eliasson, Christian von Schultz, 2008.

Datalogi för E Övning 3

Programmering II (ID1019) :00-11:00

Introduktion till användning av linux-servern sledge och några övningsuppgifter

kl Tentaupplägg

BASH. Bourne-Again SHell. Eric Elfving Institutionen för datavetenskap (IDA)

Föreläsning 18 Filer och avbildningar

Guide: Programmera Ryze Tello

Föreläsning 7: Syntaxanalys

Programkonstruktion med datorintroduktion, 2D1339

Elias Castegren. (Version 1, 2012)

Switch Driver 5. Programvara för Radio Switch, JoyBox och JoyCable. Sensory Software

Introduktion till datateknik för språkvetare

Emacs. Eric Elfving Institutionen för Datavetenskap (IDA)

Introduktion till Matlab

Föreläsning 2 Programmeringsteknik och C DD1316. Mikael Djurfeldt

Introduktion till datormiljön och Python

Programmering i C++ Kompilering från kommandoraden

LÄSLANDET - BOKSTÄVER OCH ORD

HI1024 Programmering, grundkurs TEN

Reguljära uttryck. Reguljära uttryck. Nu kommer en siffra78 och en till SIFFRA(78) men utan 7kstuga SIFFRA(89)

TDDI16: Datastrukturer och algoritmer

First Class uppgift 2

Att söka i W3D3. Det nya fönster du då får upp ser ut så här.

Instruktion för laboration 1

! "# # # $ # " % & # # '(") " " )## (")"#*+*(, ( - " ' # (") #. % % /

Konsolfönster i Windows Momentet ingår i kursen PDA DTR1206 Lab 1 DOS Konsolfönstret

Uppgift 1 (Sorterade heltal som är OK)

Tio vanliga Excel-problem

Till flera av ovanstående finns det dessutom varianter, vilka kommer att presenteras i de olika avsnitten.

Arduinokurs. Kurstillfälle 4

Handbok KFind. Dirk Doerflinger Översättare: Stefan Asserhäll

Transkript:

Kapitel 8 Reguljära uttryck I kapitel 6 togs reguljära uttryck upp som argument till grep. I detta kapitel lär vi oss mer om sådana och om några andra sammanhang där de används. 8.1 Reguljära uttryck På engelska heter det regular expression vilket ibland kortas till bara regexp eller regex. Även på svenska talar man ofta om regexpar. Ett reguljärt uttryck är ett mönster som beskriver en mängd strängar. T. ex. kan det reguljära uttrycket [Dd]at(a or)lingvistik beskriva strängarna»datalingvistik«,»datorlingvistik«,»datalingvistik«och»datorlingvistik«, men inga andra strängar. Detta reguljära uttryck matchar dessa fyra strängar (och dessa fyra strängar matchar detta reguljära uttryck). I detta exempel har tydligen inte bara hakparenteser speciell betydelse som ni sett tidigare, utan även lodstreck och vanliga parenteser. 8.2 Metatecken De tecken som har speciell betydelse i reguljära tecken kallas för metatecken. Det finns olika varianter av reguljära uttryck med lite olika uppsättningar metatecken. I kapitel 6 togs några upp. Med Errata: I uppgift 6.35, punkt c (s. 79) står cat fil.txt tr. Det skulle vara cat fil.txt tr \t. (Jag skrev felaktigt cat fil.txt tr '\t' ' ' i LaTeX och använde därmed LaTeX-kommandot \t på ett oönskat sätt.) så kallade utökade reguljära uttryck (extended regular expressions) finns det fler allt som allt följande fjorton:. * +? ^ $ ( ) [ ] { } \ och det är reguljära uttryck med dessa som beskrivs nedan. 8.2.1 Ett tecken:. []. = ett godtyckligt tecken [abc] = något av tecknen a, b eller c [^abc] = ett tecken som inte är a, b eller c Inom hakparenteser kan - användas för intervall. De flesta tecken som är speciella annars i regexpar är inte speciella inom []. T. ex. matchar [9*+] en nia, en asterisk eller ett plustecken. Dessutom kan man inom [] stoppa in en beteckning för en hel klass tecken, som betyder t. ex.»en bokstav«eller»ett skiljetecken«. Dessa teckenklasser har namn som börjar med [: och slutar med :], t. ex. [:lower:] för en gemen bokstav. Tabell 8.1 visar några av dessa. Traditionellt har man skrivit t. ex. [A-Z] för att få en versal, och detta (och [a-z] och [A-Za-z]) kan man se på många håll i exempel på reguljära uttryck. Det är dock säkrare att använda namngivna klasser. Då ska man få man med alla bokstäver, även t. ex. åäö. Vilka tecken som ingår i dessa olika klasser beror på vad ens locale säger om teckenkodning. Så länge filer stämmer med ens normala locale så fungerar det bra. Om man använder en teckenkodning med grekiska tecken så omfattar [:alpha:] t. ex. förstås dessa också. Även [:digit:] kan omfatta fler tecken än bara [0-9]. 83

8. REGULJÄRA UTTRYCK Tabell 8.1: Några namngivna teckenklasser. Betydelserna är inte helt strikta här, utan kan variera med olika locale. Namn [:alnum:] [:alpha:] [:blank:] [:cntrl:] [:digit:] [:graph:] [:lower:] [:print:] [:punct:] [:upper:] Betydelse Alfanumeriska: [:alpha:] + [:digit:] Bokstäver: [:lower:] + [:upper:] Blanka tecken (mellanrum och TAB) Kontrolltecken Siffror Grafiska: [:alnum:] + [:punct:] Gemena (små) bokstäver Skrivbara: [:graph:] + mellanrum Interpunktion Versala (STORA) bokstäver Observera att hakparenteserna ingår i namnet på dessa teckenklasser! Det gör att det blir dubbla hakparenteser i de reguljära uttrycken. Om man byter ut A-Z mot [:upper:] så betyder det att ett reguljärt uttryck som [A-Z] istället blir [[:upper:]], medan [^A-Z] blir [^[:upper:]], och uttrycket [z[:punct:] ] betyder ett z eller ett interpunktionstecken eller ett mellanslag. 8.2.2 Repetitioner: + *? {} Med + efter något kan man säga att detta något ska förekomma en eller flera gånger. Det reguljära uttrycket bä+ matchar därmed strängarna»bä«,»bää«,»bäää«,»bääää«, osv., hur långt som helst. Observera att det bara är ä som repeteras. Detta reguljära uttryck matchar t. ex. inte»bäbäbä«. Asterisken * fungerar ungefär likadant, men tilllåter även att den»repeterade«delen inte är med någon gång alls. Så bä* matchar samma texter som bä+, men dessutom»b«. Med? efter något anger man ett det är frivilligt, dvs. det kan vara med (en gång) eller inte. Så bä? matchar»b«och»bä«och inget annat. Med {n} efter något kan man säga att detta något ska förekomma n gånger. Så [sz]{3} matchar samma som [sz][sz][sz], dvs.»sss«,»ssz«,»szs«,»szz«,»zss«,»zsz«,»zzs«och»zzz«. Med {n,m} ska det vara minst n och högst m förekomster, så br{2,5} matchar»brr«,»brrr«,»brrrr«och»brrrrr«, och inget annat. Maxantalet m kan utelämnas, och 8{3,} betyder minst tre åttor, dvs.»888«eller»8888«eller»88888«eller... (Hur många som helst.) Om inte det som står före det som visar repetition är något inom [] eller () (som vi kommer till snart!) så är det ett ensamt tecken som repeteras. Så hej?hopp matchar»hejhopp«eller»hej hopp«. 8.2.3 Alternativ: Med lodstreck ( ) visar man alternativ. Så vit svart grå matchar»vit«eller»svart«eller»grå«och foo bar? matchar»foo«eller»bar«eller»ba«(eftersom alternativet efter lodstrecket hade två varianter, med eller utan r). Glöm inte att hakparenteser kan användas om alla alternativ består av ett tecken, så istället för a e i o u är det enklare att skriva [aeiou]. 8.2.4 Parenteser: ( ) Med parenteser kan man föra samman ett större uttryck. Så med en (grå liten stor) katt matchar man»en grå liten katt«eller»en stor katt«. Utan parenteser skulle det bli allt före eller efter lodstrecket. Parenteser är också användbara för att hålla ihop något som ska repeteras. Det gör t. ex. att (br){2,5} matchar»brbr«,»brbrbr«,»brbrbrbr«och»brbrbrbrbr«. Fler exempel: en (grön blå)+ kavaj matchar t. ex.»en grön kavaj«eller»en blågrön kavaj«eller»en gröngrön kavaj«eller»en blåblågrönblågrön kavaj«. mo(no)+ton matchar»monoton«,»mononoton«,»monononoton«, osv. ([ptkbdg][aeiou]){3} matchar trestaviga ord där varje stavelse består av en klusil + någon av de angivna vokalerna, t. ex. bikupa, pitebo eller tekaka. (Eller för den delen icke-ord som pubogi.) 8.2.5 Ankring: ^ $ Metatecknen ^ och $ betyder början av raden respektive slutet av raden. Så med t. ex. ^xyz hittar man rader som börjar med xyz (radbörjan följt av»xyz«) och med [[:blank:]]$ hittar man rader som slutar med något blankt tecken. Dessa båda tecken matchar alltså inget tecken alls på egen hand, utan ställer bara krav på var det övriga i uttrycket ska befinna sig. Man säger att dessa ankrar ett reguljärt uttryck. 84

8.5. Girighet och hunger 8.2.6 Bakstreck: \ Bakstrecket betyder nånting tillsammans med det tecken som följer direkt efter det. I synnerhet kan man sätta ett metatecken efter bakstreck när man verkligen vill söka efter det tecknet. Så för att söka efter t. ex. en siffra inom parenteser, som t. ex.»(3)«kan man använda det reguljära uttrycket \([0-9]\) med bakstreck för att visa att det verkligen ska vara med parenteser i texten. I övrigt används bakstreck följt av annat tecken för lite olika funktioner. En användbar är \w där»w«står för»word«. Det är synonymt med [[:alnum:]], dvs. ett alfanumeriskt tecken, men kortare att skriva. Så a\wa matchar t. ex.»axa«och»a7a«, men inte»a!a«. Med \< respektive \> matchar man en ordbörjan respektive ett ordslut. Liksom ^ och $ så matchar detta inte någon text i sig självt, men ger ett krav på var det som står runtomkring ska finnas. Så med \<anti hittar man»anti«som står i början av ett ord (t. ex.»anti«i»antites«eller»antilop«men inte i»fantisera«) och med \<\w\w\> hittar man ett ord med exakt två bokstäver. 8.3 Exempel Här är några ytterligare exempel på reguljära uttryck. [a-h][1-8] en ruta på ett schackbräde, som»e2«eller»b4«. [0-9]*[02468] en sekvens med siffror som slutar med en jämn siffra (fjor fem sex sjut ar nit)ton tjugo något av orden fr. o. m.»fjorton«t. o. m.»tjugo«(..)* ett jämnt antal tecken, vilka som helst \<pre\w*ing\> ett ord som börjar med»pre«och slutar med»ing«. ^[^ ].* $ en rad som inte börjar med mellanslag men som slutar med mellanslag. uttryck, där tecknen +? ( ) { } inte har någon särskild betydelse, utan betyder sig själva. (En del program som använder reguljära uttryck har dessutom sina egna utökningar av dem. Det har t. ex. Emacs och programspråket Perl. Flera utökningar som har gjorts för Perl har plockats över till andra sammanhang också, t. ex. programspråken Java och Python.) 8.4.1 Reguljära uttryck i Emacs Det finns flera kommandon i Emacs som använder reguljära uttryck. Vid sidan av C-s och C-r som söker framåt respektive bakåt efter en textsträng så finns även C-M-s och C-M-r som söker framåt respektive bakåt efter ett reguljärt uttryck. (Här ska alltså både Control och Meta användas tillsammans.) M-x list-matching-lines är ett kommando som listar alla rader i aktuell buffert som innehåller något som matchar ett reguljärt uttryck. Det är alltså lite som en grep inne i Emacs. Man kan också köra riktiga grep från Emacs med M-x grep för att få resultatet i en Emacsbuffert. Reguljära uttryck används även i olika hjälpsystem. När man använder C-h a för att ta fram hjälp apropå något i Emacs så lyder t. ex. ledtexten»apropos command (word list or regexp)«. De reguljära uttrycken i Emacs är ungefär som enkla reguljära uttryck, men även plustecknet är ett metatecken. 8.5 Girighet och hunger Ett sådant uttryck som [1-9]0+ matchar ju en siffra 1 9 följt av en eller flera nollor, t. ex.»10«eller»30000«. $ echo 'Timmy 2000' grep -Eo '[1-9]0+' 2000 8.4 Olika sorters reguljära uttryck Reguljära uttryck används inte bara av grep utan dyker upp i flera sammanhang. Av historiska skäl används dock tyvärr flera olika varianter av reguljära uttryck. För att få grep att använda utökade reguljära uttryck använder man väljaren -E (som i Extended). Annars används enkla (basic) reguljära I exemplet ovan ser vi hur uttrycket matchade»2000«. Men det skulle ju också kunna ha matchat bara»200«eller»20«. Ändå är det just matchningen»2000«som vi fick fram. Vid matchningen väljs nämligen den längsta av flera möjligheter som börjar på samma plats. Man säger att operatorn + här 85

8. REGULJÄRA UTTRYCK är girig eller hungrig (greedy på engelska) vilket innebär att den»vill«matcha så mycket som möjligt. Samma gäller de andra repetitionsoperatorerna vi har tagit upp. Detta behöver man tänka på ibland, i synnerhet med.* eller.+ som lätt kan matcha mer än man egentligen hade tänkt sig. Om man t. ex. vill söka efter citat inom citattecken kan det ligga nära till hands att använda ett reguljärt uttryck ".*" för att visa att det ska börja och sluta med " och däremellan får innehålla vad som helst. Men»vad som helst«kan bli mer än man tänkt sig: $ cat testfil Hej hopp! Ska det stå "i dag" eller "idag"? $ grep -o '".*"' testfil "i dag" eller "idag" Kommandot sed är lite som en schweizisk armékniv som kan utföra en mängd olika saker, bland annat sådant som ni har använt andra kommandon till, som head, tail och tr. Här kommer vi dock att bara använda detta kraftfulla verktyg till en specifik sak, nämligen att byta ut text. 8.6.1 Att ersätta text med sed Tidigare har vi använt tr för att byta ut text, men det är begränsat genom att det bara är enstaka tecken som hanteras. Det duger inte om vi t. ex. vill byta ut alla förekomster av foo mot bar. Dessutom har det begränsningar vid hantering av flerbytestecken. Eftersom ni nu bara kommer att använda sed till en sak så kommer alla era anrop av sed att likna varandra. De kommer alla att se ut ungefär som Detta svar börjar ju och slutar med citattecken, men är längre än bara "i dag" som man kanske snarare var ute efter. (Observera hur jag fick lov att sätta extra citattecken runt argumentet. Om jag hade skrivit bara grep -o ".*testfil så hade det reguljära uttrycket varit bara.*.) I detta fall är ett sätt att lösa problemet att kräva att tecknen mellan de båda citattecknen inte själva får vara citattecken, dvs. att använda [^"] istället för. för varje tecken mellan citattecknen. $ grep -o '"[^"]*"' testfil "i dag" "idag" sed -r 's/regexp/replacement/g' Väljaren -r till sed gör att utökade reguljära uttryck ska användas. Annars använder den enkla reguljära uttryck, precis som grep. Argumentet till sed talar om vilken editering som ska utföras. Det s som argumentet börjar med här är ett kommando i sed för substitute. Det söker upp förekomster av text som matchar det reguljära uttrycket regexp och byter ut dessa mot texten replacement. Så t. ex. kan man skriva sed -r 's/color/colour/g' 8.6 sed Med kommandot sed kan man göra en mängd olika omvandlingar av text. Namnet står för stream editor. Det kan göra mycket som en editor kan göra, men gör det inte interaktivt utan genom att bearbeta text som kommer in i en inputström. Detta kan läggas in som ett avancerat filter som läser text från standard input och skriver ut en editerad version av texten på standard output. ed och sed: Den ursprungliga editorn på Unix, som användes redan i forntiden före bildskärmarnas tid, hette ed och var skriven av Ken Thompson. Det var Thompson som först introducerade reguljära uttryck i editorer. När kommandot sed kom några år senare som en variant att använda för icke-interaktiv editering av en inputström så byggde därför dess kommandon på motsvarande kommandon i ed. Det enda sed-kommando vi tar upp här, s, finns t. ex. även i ed. 86

8.6. sed för att byta ut alla»color«mot»colour«1 eller sed -r 's/s\>/z/g' för att byta ut varje s som står i slutet av ett ord mot z. Man brukar normalt använda snedstreck (/) som här för att avdela argumentet, men det kan vara något annat tecken istället, bara det är samma tecken på alla tre ställen. Så om man behöver snedstreck i sitt reguljära uttryck eller i ersättningen får man lov att välja nåt annat, t. ex. sed -r 's!1/2!½!g' för att byta alla förekomster av de tre tecknen»1/2«mot det enda tecknet»½«. Efter det sista snedstrecket står väljare till s- kommandot. I exemplen ovan är det g som gör att alla förekomster byts ut (global). Annars byts bara den första förekomsten på varje rad ut. En annan väljare är i som ignorerar skillnader mellan versaler och gemener. Jämför följande fyra exempel som bara skiljer sig i vilka av dessa väljare som har använts. $ cat jaha.txt Procent procent procent PROCENT $ sed -r 's/procent/%/' <jaha.txt Procent % procent PROCENT $ sed -r 's/procent/%/g' <jaha.txt Procent % % PROCENT Varför heter det grep?: I editorn ed användes reguljära uttryck inte bara med kommandot s, utan även med bl. a. ett kommando g med vilket man sökte upp rader som matchade ett visst reguljärt uttryck och gjorde nåt med dessa rader. För att ta bort alla rader som innehåller»foo«kunde man t. ex. göra g/foo/d där d är ett kommando som tar bort en rad. För att skriva ut alla rader som matchade ett reguljärt uttryck använde man istället p (= print). Ibland förkortas regular expression med re, så en sådan operation kunde beskrivas g/re/p vilket är skälet till att det senare skrivna program som utförde just den operationen fick namnet grep. $ sed -r 's/procent/%/i' <jaha.txt % procent procent PROCENT $ sed -r 's/procent/%/gi' <jaha.txt % % % % 8.6.2 Att använda den gamla texten I sed -r 's/regexp/replacement/g' är det bara regexp som är ett reguljärt uttryck. I ersättningsdelen har inte asterisker, parenteser osv. någon särskild betydelse, utan blir sig själva. $ echo "byt allt" sed -r 's/././g'... $ echo "foo bar" sed -r 's/[aou]/[äöü]/g' f[äöü][äöü] b[äöü]r $ echo "hej hopp" sed -r 's/e.*o/***/g' h***pp Ett tecken som ändå är speciellt i ersättningstexten är & (ampersand) som betyder hela den text som matchade det reguljära uttrycket. Om man vill bryta raden efter varje interpunktionstecken kan man därför göra sed -r 's/[[:punct:]]/&\n/g' där ersättningsdelen betyder det som [[:punct:]] matchade följt av ett nyradstecken (vilket skrivs \n här precis som t. ex. i tr). Följande exempel dubblerar vokaler genom att använda ampersand två gånger. sed -r 's/[aeiouyåäö]/&&/gi' 1 I detta exempel och en del kommande exempel behövdes inte väljaren -r egentligen, men jag har använt den genomgående ändå. I detta fall behövdes förresten inte några citattecken runt argumentet till sed heller, men oftast behövs det, så det kan vara säkrast att alltid ha med det. 87

Laboration 8: Reguljära uttryck Redovisning Skicka svar på frågorna till Per senast fredag 7/11. Frågorna är samlade i olika teman snarare än att vara sorterade från lätta till svåra, så hoppa gärna runt bland uppgifterna medan du löser dem istället för att fastna på någon klurig uppgift som du kan behöva tänka mer på. När frågan är i stil med»vilka ord finns det som...?«så ge dels svar på frågan och tala dels om vilket kommando eller vilka kommandon du använt för att få fram svaret. På slutet följer en del överkursuppgifter som är frivilliga. Om du bara kan lösa en uppgift till hälften så ge din lösning ändå, men påpeka vad som saknas i den. Uppror! (igen) Dessa uppgifter använder sig av den uppror.txt som du har sedan tidigare. Uppgift 8.1 Vilka rader innehåller en liten bokstav som följs direkt av en stor? Uppgift 8.2 Hur många rader innehåller minst tre interpunktionstecken i rad? Uppgift 8.3 Vilka rader innehåller en labial konsonant (någon av p, b, m, f eller v) följt av el följt av antingen ett h eller interpunktion? Uppgift 8.4 Vilka rader har minst sex konsonanter i rad? Uppgift 8.5 Vilka rader innehåller ordet ägg? Uppgift 8.6 Vilka rader innehåller något av orden mitt, ditt, sitt, hans, hennes följt av ett mellanslag och sedan ordet liv? Uppgift 8.7 Vilka rader börjar med bokstaven y? Uppgift 8.8 Vilka rader börjar med ordet kan? Uppgift 8.9 Vilka rader både börjar och slutar med bokstaven m? Uppgift 8.10 Vilka rader både börjar och slutar med bokstaven m, men har inga ytterligare m i sig? Uppgift 8.11 Vilka rader både börjar och slutar med bokstaven m, men har inga ytterligare m i sig? Uppgift 8.12 Vilka rader innehåller exakt ett w? Uppgift 8.13 Vilka rader har med ord som börjar med»flä«? Uppgift 8.14 Hur många rader är minst femtio tecken långa? Diverse Uppgift 8.15 Ge ett kort utökat reguljärt uttryck som matchar både»arton«och»aderton«(men inget annat). Uppgift 8.16 Ge ett utökat reguljärt uttryck som matchar orden»mormor«,»morfar«,»farmor«och»farfar«. Här är mormor morfar farmor farfar förstås en möjlighet, men försök att skriva något kortare! Uppgift 8.17 Här ges ett antal utökade reguljära uttryck som alla går att skriva kortare så att ändå exakt samma texter matchas. Hur? a) foo* b) bar{1,} 88

Väljaren -o c) Anderson Andersson d) [[:alnum:]]{0,1} e) (f){1}[o]{2} f) ((kan)(a e y)l) g) (måndag tisdag) kväll h) [aouå] [eiyäö] i) [abc][abc][abc][abc][abc][abc]? j) (0 1 2 3 4) k) (ha he hi ho) l) x.*.*y Uppgift 8.18 De tre metatecknen *, + och? som kan sättas efter en del av ett utökat reguljärt uttryck kan alla uttryckas med {}-konstruktionen istället. Hur, i de tre olika fallen? Svenska ord I /local/dict/dsso-list.txt finns en stor samling svenska ordformer tagna från Den stora svenska ordlistan. Använd den för frågorna i detta avsnitt. Eftersom filen bara innehåller ord med ett ord per rad kan du använda ^ och $ för ankring till ordbörjan och ordslut och. för ett godtyckligt tecken inne i ordet. Uppgift 8.19 Hur många ord finns det som slutar på bokstaven f? Uppgift 8.20 Hur många ord finns det som innehåller»stp«i sig (som t. ex.»hästpolo«) och hur långt är det längsta av dessa ord? Uppgift 8.21 Vilka ord har f som näst första tecken och p som näst sista tecken? Uppgift 8.22 Vilka ord med minst nio bokstäver går att skriva enbart med tecknen på översta bokstavsraden på tangentbordet? (qwertyuiopå) Uppgift 8.23 Vad finns det för ord på sju bokstäver som innehåller de sju bokstäverna»endator«i någon annan ordning? Uppgift 8.24 (Monoton) Vad finns det för ord som är minst 12 tecken långa vars enda vokal är o? Uppgift 8.25 (korsord) Du söker ett elvabokstavsord som börjar på h, l eller s och slutar på a eller e. Den fjärde bokstaven är säkert m och den sjunde är säkert f. Vad finns det för möjligheter (om ordet står med i denna ordlista)? Uppgift 8.26 Vilka ord med minst sex tecken har inte med någon av bokstäverna eantrsildogm? (De vanligaste tecknen på svenska enligt någon källa.) Uppgift 8.27 En del ord i den filen innehåller tecken som inte räknas som ingående i teckenklassen [:alpha:]. Hur många ord? Väljaren -o I dessa uppgifter ska du använda väljaren -o för att bara få ut det som matchade ett uttryck från en fil. Uppgift 8.28 Vilka tecken var det som fanns med men inte ingick i [:alpha:] i förra uppgiften? Uppgift 8.29 Vad finns det för ord med exakt 22 tecken i uppror.txt? Använd \w för att beteckna ett tecken inne i ett ord. Uppgift 8.30 Vilka ord i uppror.txt börjar med»flä«? Uppgift 8.31 Ange vilka sifferuttryck som finns i filen /local/kurs/ids/the-gnu-project. Sortera dem i nummerordning. Uppgift 8.32 Vilka tecken är vanligast som förstatecken i orden i uppror.txt? Gör en tjugo-i-topplista! Uppgift 8.33 Vad finns det för ord med minst tre vokaler i rad i uppror.txt? I uppgift 6.32 delade du upp en text i ord (med ett ord på varje rad) på ett enkelt sätt med en hel del brister. Det finns flera sätt att göra sådant. Ett är att använda grep -o med ett reguljärt uttryck som matchar ett ord. Uppgift 8.34 Hur ser ett kommando ut som använder denna metod för att ta fram motsvarande frekvenslista som gjordes i uppgift 6.32? Vad ger det för resultat? Uppgift 8.35 Vad finns det för ord på minst fyra tecken som förekommer bara en gång i /local/ kurs/ids/wonderland.txt och som inte innehåller något av tecknen aeioaeio? 89

LABORATION 8: REGULJÄRA UTTRYCK Uppgift 8.36 Ta med grep -o (eller grep -Eo) fram telefonnummer med riktnummer från tidningstexterna i /local/kurs/ids/ivt2-svenska. txt. Din lösning kan vara mer eller mindre bra. Ju fler korrekta nummer du får ut desto bättre, men undvik att få falska träffar med sifferuttryck som inte är telefonnummer. Ta sed dit man kommer Uppgift 8.37 (Stavningsreform) Skriv ett kommando som byter ut alla»ck«mot»kk«. Uppgift 8.38 Om Strindberg hade behövt skriva Roeda rummet på en engelsk skrivmaskin och fått lov att skriva aa ae oe istället för å ä ö, hur hade då början av den lydit? Uppgift 8.39 Byt ut alla ord»ej«och»icke«mot»inte«i en text. Se till att du bara byter ut hela ord så att du inte råkar byta t. ex.»mejl«mot»mintel«eller»kicken«mot»kinten«. Uppgift 8.40 Skapa en fil GNU2 i din kurskatalog som är som filen GNU där, men med alla tecken i teckenklassen [:blank:] som står i början av en rad bortrensade. Uppgift 8.41 Skapa även en fil GNU3 som är som GNU, men där du lagt till»<abbr>«före och»</abbr>«efter varje ord som är minst två bokstäver långt och som bara består av versaler. Så t. ex. ska varje förekomst av ordet»mit«ha bytts mot»<abbr>mit</abbr>«. Rorövovarore (igen!) Uppgift 8.42 Skriv ett sed-kommando som omvandlar sin input till rövarspråket! Så med echo ett exempel sed... (slutet av kommandot utelämnat här) ska du få ut»etottot exoxemompopelol«. Du ska alltså omvandla t. ex.»t«till»tot«. Versaler ställer till med en komplikation. Allra helst vill man att»per«ska bli»poperor«, men gör istället en lösning som ger»poperor«vilket är helt OK! Bonusuppgift (överkurs): Läs på i Info om sed för att se hur du med s-kommandot kan lösa detta versalproblem och gör så. I Emacs Öppna i Emacs filen /local/kurs/ids/ wonderland.txt och använd där Emacskommandot list-matching-lines för att lista rader som innehåller något som matchar ness\> (dvs. ord som slutar på»ness«). (Detta kommando finns inte i menyerna, så du får använda M-x i Emacs för att köra det.) Uppgift 8.43 Hur många matchingar blev det och hur visas dessa? Sökträffarna visas i en buffert som är i en särskild mode där man kan gå direkt till en träff genom att klicka på den, eller genom att trycka på RET. Uppgift 8.44 Vad heter den bufferten och vad heter det Emacs-kommando som utförs när man trycker på RET där? Använd nu Tools Search Files (Grep) i samma Emacs. I minibufferten får du ett påbörjat grepkommando. Lägg till gren *.txt till det för att leta efter»gren«i alla filer *.txt i den katalogen (/path/local/kurs/ids). Här kan du på ett liknande sätt använda musen eller RET för att gå till sökträffarna. Uppgift 8.45 Vad heter bufferten som dessa resultat visas i? Mer mer mer Uppgift 8.46 Gör en version av din saga.txt utan vokaler. (Svaret ska alltså börja»dt vr n gng«.) Uppgift 8.47 Gör en version av din saga.txt med alla bokstäver dubblerade. (Svaret ska alltså börja»ddeett vvaarr eenn ggåånngg«. Bara bokstäverna är dubblerade.) Uppgift 8.48 Med grep -v a kan man ta fram alla rader som inte har något a. Hur kan man lösa samma uppgift med grep utan någon väljare? 90

Bakåtreferenser Uppgift 8.49 Några av följande utökade reguljära uttryck betyder samma sak, dvs. matchar precis samma strängar. Vilka? a) spexx* b) spex*x c) spex+ d) spex e) spex? f) (spe)x Uppgift 8.50 Ge ett reguljärt uttryck som matchar något av»1«,»2«,»3«,»4«,»5«,»6«,»7«,»8«,»9«,»10«,»11«,»12«,»13«osv. till hur höga tal som helst, men inget annat. (Första siffran är speciell!) Uppgift 8.51 Det utökade reguljära uttrycket ab?c[de] beskriver strängarna»acd«,»ace«,»abcd«och»abce«. Vilka strängar beskriver följande utökade reguljära uttryck? (Ange samtliga strängar!) I nedanstående textsträngar skrivs mellanrum som för att det ska bli tydligare. a) foo?-bar b) rök?fritt c) a b? c d) fo{4,6}l? e) ([abc]-)?foo f) foo(bar?)? Bakåtreferenser Hela detta avsnitt är frivillig överkurs. Läs om bakåtreferenser (back-references) i reguljära uttryck och använt sådant för att lösa följande. Tabell 8.2: Några smeknamn på svenska pojknamn Original Frans Hans Karl Leif Nils Olof Stefan Urban Smeknamn Frasse Hasse Kalle Leffe Nisse Olle Steffe Ubbe Uppgift 8.56 Tänk dig att en text har använt decimalpunkt istället för decimalkomma, dvs. där står t. ex.»3.14«istället för»3,14«, men det ska ändras till decimalkomma. Skriv ett sed-kommando som byter ut sådana punkter som står mellan två siffror till komman (men inte byter ut andra punkter!). Uppgift 8.57 Använd sed för att lösa om uppgift 6.46. En del smeknamn på pojknamn följer mönstret i tabell 8.2. Vi kan för enkelhets skull anta att den dubblerade konsonanten alltid är den sista konsonanten i konsonantgruppen som följer efter den första vokalen. (Dvs. att»ludvig«skulle bli»luvve«istället för det egentligen bättre»ludde«.) Uppgift 8.58 Skriv ett sed-kommando som gör omvandlingar enligt denna princip om det får ett pojknamn som input. Uppgift 8.52 Vilka ord i /local/dict/ dsso-list.txt består av två likadana halvor (som t. ex. orden»kaka«och»mormor«)? Uppgift 8.53 Vad finns det för sjubokstavsord i samma fil som är palindrom? (Palindrom är sådana texter som lyder likadant framlänges som baklänges, t. ex. kajak.) Uppgift 8.54 Vilka ord i samma fil har högst åtta bokstäver och har två dubbeltecknade bokstäver i rad, så som t. ex.»rättssal«. Uppgift 8.55 Hur lyder raderna i din uppror.txt där något ord om minst åtta bokstäver förekommer två gånger. 91