Språk, datorer och textbehandling Föreläsning 4: Korpussökning Eva Pettersson Institutionen för lingvistik och filologi Uppsala universitet eva.pettersson@lingfil.uu.se
Föreläsningsöversikt Språkbanken Konkordanssökning i Språkbanken Korpussökning: Boolesk sökning Korpussökning: Sökning med jokertecken Sökning med jokertecken i Språkbanken: o sökning på ord o sökning på ordklass Dagens labb
Språkbanken http://spraakbanken.gu.se/ Utvecklat av Göteborgs universitet Tillhandahåller referensmaterial i form av lexikon, korpusar och verktyg för sökning i korpusarna m.m. Innehållet utökas och förändras med tiden
Språkbanken: konkordanser Språkbanken innehåller texter av olika slag och från olika tider Lättanvänt sökgränssnitt gör att man kan söka på ord eller fraser i texterna och få dem presenterade i konkordansform
Språkbankens texter Språkbanken innefattar texter om ca 75 miljoner ord, från modern tidningstext och litterär text till Strindbergs produktion och bakåt till medeltida rimkrönikor. Texterna är åtkomliga gratis över nätet i konkordansform och antalet sökningar ligger på ca 25 000 varje månad.
Språkbankens innehåll (1) Korpusar o Svensk korpussamling med sökfunktion för konkordanser o Svenska dagbladets årsbok 1923-1958 o Riksdagens snabbprotokoll 1978-1979 o PAROLE och SUC med sökfunktion för ordklasstaggar o Bellmans samlade verk o Strindbergs samlade verk o Färöisk TextSamling o Spansk korpus med sökfunktion för konkordanser
Språkbankens innehåll (2) Lexikon o Svenska Akademiens OrdBok (SAOB) o Lexin o TERMIN (Samhällstermer på invandrarspråk) o AVENTINUS (Narkotikarelaterad terminologi) o Ordböcker över svenska medeltidsspråket o Sportanglicismer (Engelska lånord i svenska sportspalter) Statistiska data om texter och namn, dvs ordfrekvenser från de flesta av Språkbankens tidningsmaterial samt från PAROLEkorpusen
Konkordanssökning i Språkbanken Sökning på enskilda ord o ordet skrivs in under rubriken söksträng o vill man söka på flera ord samtidigt, t.ex. alla böjningsformer av kvinna, separeras de olika formerna med mellanslag eller kommatecken o man kan välja att få resultatet av sökningen i konkordansform eller i frekvensform Sökning på fraser o sammanhängande fraser skrivs inom citationstecken Boolesk sökning o även booleska sökuttryck skrivs inom citationstecken
Boolesk sökning Booleska operatorer används för att förfina en sökning o AND o OR o NOT Boolesk sökning används t.ex. i många korpussökningsverktyg Booleska operatorer används även vid sökning med hjälp av sökmotorer, t.ex. i Google
Boolesk sökning med AND används för att ange att flera ord ska finnas med i ett dokument eller en mening för att sökningen ska lyckas begränsar sökningen betecknas ofta med plustecken (+) exempel på användning i Språkbanken: August +Strindberg söker ut alla meningar som innehåller båda ordformerna August och Strindberg
Boolesk sökning med OR används när man vill att något av de angivna orden (men inte nödvändigtvis alla) ska finns med i ett dokument eller i en mening för att sökningen ska lyckas ger en bredare sökning kan typiskt användas för att söka på flera böjningsformer av ett ord (springa, sprang, sprungit) eller vid sökning på synonymer (taggad, annoterad)
Boolesk sökning med NOT används när man vill att de angivna orden inte ska finnas med i ett dokument eller en mening för att sökningen ska lyckas betecknas ofta med minustecken (-) exempel på användning i Språkbanken: August Strindberg söker ut alla meningar som innehåller ordformen August men inte ordformen Strindberg
Sökning i Språkbankens ordklasstaggade korpusar I språkbanken finns två ordklasstaggade korpusar, SUC och Parole För att söka i dessa gäller andra sökuttryck än för konkordanssökningarna: o Citationstecken ( ) fungerar som ordavskiljare o För att hitta alla förekomster av August: [word= August ] o För att hitta alla förekomster av August Strindberg: [word= August ] [word= Strindberg ] o För att hitta alla ord över huvud taget: []
Jokertecken (Wild Cards) Vanliga tecken som inom ett visst program tolkas på ett speciellt sätt av datorn Används ofta vid exempelvis sökning i databaser eller korpusar Jokertecken används för att beteckna ett eller flera tecken, vilka som helst Olika program kan ha olika uppsättningar jokertecken, men vissa tecken används av många och kan nästan räknas som standard
Några vanliga jokertecken asterisk (*) matchar noll eller flera förekomster av närmast föregående tecken a*b matchar b, ab, aab, aaab, aaaab... plustecken (+) matchar en eller flera förekomster av närmast föregående tecken a+b matchar ab, aab, aaab, aaaab... frågetecken (?) matchar noll eller en förekomst av närmast föregående tecken a?b matchar b och ab
Mer om jokertecken punkt (.) matchar en förekomst av vilket tecken som helst a. matchar aa, ab, ac, ad, ae... Man kan kombinera flera jokertecken i följd: a.? matchar a, ab, ac, ad, ae... (a följt av noll eller ett tecken vilket som helst) a.* matchar a, ab, abb, abc, abcd... (a följt av noll eller flera tecken vilka som helst)
Jokersökning i Språkbanken Alla förekomster av ordformerna förvaltningen eller förvaltningens Alla ord som börjar på anti Alla ord som slutar på ing
Jokersökning i Språkbanken Alla förekomster av ordformerna förvaltningen eller förvaltningens [word="förvaltningens?"] Alla ord som börjar på anti [word="anti.*"] alt [word="anti.+"] Alla ord som slutar på ing [word=".+ing"]
Fler vanliga jokertecken pipe-tecken betecknar disjunktion, dvs eller (a b) matchar a och b (a b+) matchar a, b, bb, bbb, bbbb... (a b)+ matchar a, b, aa, bb, aaa, bbb...
Intervall Måsvingar {} med siffror mellan används i Språkbanken (och i många andra program) för att uttrycka att ett visst tecken ska förekomma ett bestämt antal gånger En siffra anger exakt hur många gånger tecknet ska förekomma: b{2} matchar bb Två siffror avskilda med kommatecken anger minsta och mesta antalet gånger som tecknet får förekomma: b{1,2} matchar b och bb En siffra med komma efter sig anger minsta antalet gånger som tecknet ska förekomma b{2, } matchar bb, bbb, bbbb...
Mer om jokersökning i Språkbanken Alla ord som har dubbeltecknat b eller p
Mer om jokersökning i Språkbanken Alla ord som har dubbeltecknat b eller p [word=".*(b p){2}.*"]
Fler exempel Hur gör man om man vill söka efter just en punkt, en asterisk eller något annat tecken som datorn vill tolka som ett jokertecken? Använd escape-tecken o Sätts framför det tecken som ska matchas o Oftast används bakstrecktecknet (\) som escape-tecken a\.b matchar a.b Hur gör man om man vill matcha just escape-tecknet? o Sätt escape-tecknet framför escape-tecknet! a\\b matchar a\b
Sökning på ordklass i Språkbanken Sökning på MSD o Morfo-Syntaktisk Definition, dvs ordklasstagg o Man kan begränsa sin sökning till att exempelvis bara gälla substantiv o Jokertecken fungerar på samma sätt för sökning på MSD som för sökning på ord o Ordklasserna anges med Parole-korpusens tagguppsättning Man kan kombinera sin sökning så att man söker både på ord och på ordklass, t.ex. alla förekomster av order var som inte har taggats som verb: [word="var" & msd!="v@.*"]
Sökning på ordklass i Språkbanken Negation kan uttryckas med hjälp av utropstecken (!), t.ex. om man vill söka på alla ordklasser utom verb: [msd!="v@.*"] Man kan kombinera sin sökning så att man söker både på ord och på ordklass, t.ex. alla förekomster av order var som inte har taggats som verb: [word="var" & msd!="v@.*"]
Jokersökning i Språkbanken Alla prepositioner Alla ord som slutar på ing och är substantiv Alla ord som slutar på ing och inte är substantiv
Jokersökning i Språkbanken Alla prepositioner [msd="sps"] Alla ord som slutar på ing och är substantiv [word=".*ing" & msd="nc.+"] Alla ord som slutar på ing och inte är substantiv [word=".*ing" & msd!="nc.+"]
Varför använda jokertecken? Användning av jokertecken ger färre antal sökningar för att uppnå samma resultat Man kan få fram alla ord som liknar varandra på ett eller annat sätt med en enda sökfråga, t.ex. alla ord som slutar på -ing Man kan hitta det ord man söker, även om man inte riktigt vet hur ordet ser ut, t.ex. om man vill få fram alla ord som inleds med en viss stam
Dagens labb Utforska Språkbanken Gör korpusundersökningar med konkordanssökning i Språkbanken Gör korpusundersökningar med sökning i ordklasstaggad korpus i Språkbanken Deadline: onsdag 31 oktober Labbinstruktioner (även länkat från schemasidan): http://stp.lingfil.uu.se/~evapet/undervisning/sdt07/labb2.html
Mittkursvärdering Glöm inte mittkursvärderingen!