ON-LINE UNIX-MANUAL FÖR FISC- KORPUSEN



Relevanta dokument
Textbearbetning i skalet och man-sidor

Snabbguide AlphaSmart NEO2

2. Komma igång Skapa grupper och elever Skriv också ut sidan 13 så att eleverna har en snabbguide till programmet.

Övningar till UNIX/Linux Grundkurs och förslag till LÖSNING

LÄSLANDET - BOKSTÄVER OCH ORD

Software Translator 6.1 Manual

Manual till 3C för CPUP

Manual till 3C för CPUP

1284_omslag.qxd :13 Sida 1 ECDL START OFFICE 2003 Allmän IT Windows XP Word 2003 Outlook 2003

Handledning för uppsatsadministratörer

Switch Driver 5. Programvara för Radio Switch, JoyBox och JoyCable. Sensory Software

Får jag be om ordet!

Objektorienterad programmering D2

Färgklövern. Färgklövern är gjord 1998 i samarbete mellan Datateket i Linköping och Hargdata AB i Linköping.

Decipher och Datataker DT100

Läs detta innan du fortsätter, eller skriv ut det, klicka runt lite och läs samtidigt.

Kom igång. Version 3

SmiNet 2 Manual Webanmälan

ADAD-net. Användarmanual INDIVIDEN. Råbe och Kobberstad Februari 2010

KALENDER2 Version 2.00 Ett program med stöd för talsyntes

Manual. Användargränssnitt

19. Skriva ut statistik

Klicka på en sökrad för att få fram hänvisningar, fullständig information och möjlighet att skicka meddelande via e-post eller sms.

Laborationer i kursmomentet Datoranvändning E1. Laboration nr 5: Mer om FrameMaker

Instruktioner för dig som ska söka till Mattekollo 2016

Uppgift 1 (Oläsliga krypterade meddelanden)

Laboration 2 Grunderna i Photoshop

Referens till. WeavePoint 6 Mini

Användarmanual HOIF.org

Länken the breeder link är till för uppfödare som bidragit med information och som vill göra reklam för sin uppfödning.

TDDD02 Föreläsning 2 HT Reguljära uttryck och reguljära språk Lars Ahrenberg

DD1311 Programmeringsteknik för CL1 Laborationer läsåret

ClaroRead Plus Mac Manual. Artikel.nr

FLEXILAGER Ett hjälpmedel för anpassad lagerhantering. Original -version

Användarmanual Jobb i Stan. CV-Handboken. Registrering, jobbsökning mm. Copyright Aditro. All rights reserved.

Lär dig sökmöjligheterna i Disgen 8

Användarhandbok för e-curia

Guide för pdf-formulär

Introduktion till datormiljön och Python

UNIX. Laborations-PM Anders Egneus, Henrik Lindgren, 2004, Raphael Corsoski, Erik Eliasson, Christian von Schultz, 2008.

Programmeringsteknik med C och Matlab

En guide till FirstClass

Artiklar via UB:s sö ktja nst

DD1310 Programmeringsteknik för Open1 och Med2 Laborationer läsåret 2014/2015

Chapter 3: Using Classes and Objects

Användarhandledning Rapportgenerator Version: 1.1

E-POST3 Ett lättanvänt e-postprogram med stöd för talsyntes

ViTex snabbguide. 1. Inläsning till ViTex från scanner eller PDF Läs in text via scanner Läs in text från en JPEG-bild eller ett PDF-dokument

Resurscentrum för kommunikation Dako SymWriter 2. Minimanual

MBX Mobilapp. Inloggning. Mobilapplikationens huvudmeny. MBX Mobilapp

RödGrön-spelet Av: Jonas Hall. Högstadiet. Tid: minuter beroende på variant Material: TI-82/83/84 samt tärningar

kommando -fl argument

Komma igång med Eventor

kl Tentaupplägg

Administration av landstingsstatistik. Statistiktjänsten

Sida 1 av 12. WSB Biodling. Manual V

Skriv in sökvägen sam.sll.se

Kapitel 15: Data/Matrix Editor

Tentaupplägg denna gång

Look what I say. Imagetalk Book Editor Handbok. Svenskspråkig. Handbook Page 1

WordRead Plus för Mac

Manual för studerande Version 2.2.0

Manual Jourläkarschema Närhälsan V7 - Version 1.0

Resurscentrum för kommunikation Dako SymWriter. Minimanual

Kortfattad användarhandbok

Snabbguide. Telia Maxi 10. Bruksanvisning. Ställa klockan Se sid 5. Viloläge. Du har bläddrat fram en påringning 16 LZTA , 98-04

Lathund till Academic Search Complete

KPP053, HT2015 MATLAB, Föreläsning 1. Introduktion till MATLAB Skript Inläsning och utskrift av variabler Ekvationssystem Anonyma funktioner

Inspektion Användarmanuel

Datorintroduktion 2009 Föreläsning 1. Dieter Larsen (IT-chef Matematiska vetenskaper)

ISP-verktyget i WebOodi

Lathund till PsycINFO (OVID)

Innehåll. WordWall låter dig som pedagog skapa övningar, aktiviteter och presentationer med några enkla klick.

Användarmanual konsult

Rolladministration i PaletteArena 5.3

En handledning för studerande på Högskolan Kristianstad

FÖR DATORER. Historiskt arkiv. Användarguide. För Österbottens Tidning

Exam Pen Instruktionsbok

Guide för "RedaxPlot" dataöverföring och användning

SCHOLA COMAI ELEV WEBBKALENDER / SCHEMA VERSION 1.1. [Skriv text]

Nallelek Lärarvägledning

Elisabeth Bejefalk IT-Assistent Avesta kommun

Med CW DoorDesign registreras all beslagning på dörren. För att hantera låsning och låsning mot dörr se manualen för CW KeyDesign.

SMARTBOX. Användarmanual

InPrint. Grunderna för hur du kommer igång och arbetar med Communicate: InPrint. Habilitering & Hjälpmedel

Användarmanual CallPad och VoicePad

Frågor och svar om TNC-term

Datorer och datoranvändning Föreläsningar 2014/15. Föreläsning 1 Unix. Operativsystem. Unix

Programmeringsuppgifter 1

Home Prosafe 1132 GSM larm (Art.nr )

Här kan du välja befintligt upplägg eller skapa ett nytt. Klicka på edit uppe till höger för att redigera och/eller skapat nytt.

Valet 2010 på facebook!

Labbrapport: HTML och CSS

Denna laboration skapades för elever vid Roslagens Högskola men kan användas av vem som helst. Namnen på servrarna måste i så fall ändras.

ORDy 1.0 Användarmanual 1. Användarmanual. Reviderat den 1 october, 2000

Konfigurera Xenta från Point

Lathund till PEP. AND: begränsar sökningen, båda sökorden måste förekomma i samma referens, t.ex. infantile AND sexuality

BLI VÄN MED DIN DATOR ENHETER MAPPAR FILER

Google Apps For Education

Installationsguide. För att installera mjukvara och hårdvara, följ nedanstående anvisningar.

Transkript:

ON-LINE UNIX-MANUAL FÖR FISC- KORPUSEN Av Jan Lindström, Nordica, Helsingfors universitet Publicerad 7 november 2001 4. Operationer med korpusmaterialet 4.1 Logga in/ur Att "logga in" innebär att du tar kontakt med en värddator för att kunna använda dig av de tjänster den kan meddela. För att komma åt FISC-korpusen måste du logga in i en värddator (t.ex. "tuuri") vid institutionen för allmän språkvetenskap vid Helsingfors universitet. Tekniska förutsättningar är att din dator måste vara kopplad till Internet och att du har tillgång till ett kommunikationsprogram som krypterar lösenord i nätverkstrafiken, t.ex. F-Secure SSH. Inskrivningsproceduren är följande: Kontakta värden: venus.ling.helsinki.fi Login-menyn kommer fram på din skärm. Skriv efter login: din användarkod (dvs. din allmänna namnidentifiering som kommer fram av användaravtalet). Då du trycker på enter frågar värden efter ditt lösenord (det har du också fått med kopian av användaravtalet). Efter en lyckad inskrivning kommer du in i värddatorn som fungerar som "University of Helsinki Language Corpus Server". Du är dock ännu inte i FISC-korpusen utan i din s.k. hemkatalog, dvs. på ett ställe där dina personliga filer, t.ex. resultat av sökningar ifall du vill spara dem, blir placerade. Markören på bildskärmen blinkar vid en s.k. Unix-prompt, som vanligen består av värddatorns namn plus ett dollar- eller procenttecken, t.ex. venus$. Arbetspasset med en värddator avslutas alltid genom att man "loggar ur" systemet. Använd kommandot: logout För att byta lösenord anväder du kommandot: passwd

4.2 Operera med FISC-shell Centrala konkordansfunktioner med FISC-korpusen kan du utföra med hjälp av ett menybaserat användargränssnitt som fungerar inom Unix. I det följande redogörs för typiska operationer med FISC-shell. 4.2.1. Starta programmet FISC-shell startas vid systemprompten med kommando: fiscsh 4.2.2. Huvudmenyn Efter det att du fört in startkommandot visas skalprogrammets huvudmeny på din skärm. Numren på menyns vänstra kant står för olika funktionsalternativ och du kan göra val i menyn utgående från dessa nummer. A FINLAND SWEDISH CORPUS (FISC) Department of Scandinavian Languages and Literature, University of Helsinki # for Extent (tokens) Description 1. Daily newspapers 895.000 - Hufvudstadsbladet (20 iss.)(from 1991) - Vasabladet (7 issues) 2. Literary prose 665.000-12 novels, short stories (from 1990-92) 3. Non-fiction 455.000 - Various texts of factual prose (1990-1993) 4. Authorities texts 440.000 - Legal texts from the Statute Book of Finland (1990) - Various texts produced by public services etc. 5. Spoken language 85.000 - Transcripts of speech 6. Monitor undefined - Miscellaneous texts 7. Corpus Header 8. News 9. Exit FISC Enter # for your choice:

Ditt första val kommer att gälla vilka data som ska användas som input vid sökningarna. Numret för önskad avdelning i korpusen ska skrivas på den nedersta raden (där markören automatiskt väntar): Enter # for your choice:_ Det gäller alltså att trycka på en nummertangent och bekräfta med enter. Siffrorna 1 4 på menyn syftar på de fyra centrala avdelningarna i FISC-kärnkorpusen, vars totala omfattning är ca 2,5 miljoner löpord. Förhållandet mellan benämningarna på menyn, namnen på de verkliga Unix-katalogerna i FISC-arkivet och innehållet i dem illustreras med hjälp av nedanstående ruta: 1. Daily newspapers press tidningstext (Hbl, Vbl) 2. Literary prose lit skönlitteratur 3. Non-fiction nonf saktext 4. Authorities auth myndighetstext (lag - och förvaltningstext) Siffrorna 5 6 syftar på avdelningar i FISC-korpusen som är under utveckling. Under 5 finns det transkriptioner av talat språk, till en början material från projektet Svenska samtal i Helsingfors. Avdelning 6 ska bli en ostrukturerad utvidgning av korpusen där man kan placera nya texter i samma takt som man får tag på dem. För närvarande finns där fyra nummer av Hufvudstadsbladet från augusti 1991; dessa nummer ingår alltså inte i den så kallade kärnkorpusen som också innehåller flera nummer av Hufvudstadsbladet (se avdelning 1). Med siffrorna 7 8 kan man ta fram textfiler på skärmen. 7 hämtar FISC-korpusens innehållsbeskrivning (Corpus header) som utformats enligt ett standardmönster av Text Encoding Initiative (TEI). Corpus headern kan man förstå som en bibliografisk redovisning av korpusen och texterna i den. Siffran 8 ("news") hämtar information som finns på en elektronisk FISC-anslagstavla (filen BULLB i korpusens huvudkatalog). Där redogörs kortfattat för innovationer och eventuella förändringar i FISC-korpusen. Genom att välja 9 i menyn får du fram enkla instruktioner för unixoperationer och genom att välja 10 kommer du ut från FISC-shell.

4.2.3. Funktionsmenyer När du väljer input med någon av siffrorna 1 4 får du fram en funktionsmeny. Funktionsmenyns utformning är beroende av innehållet i varje avdelning så de är inte alla identiska. Funktionsprinciperna är dock gemensamma: 1. Du kan skapa både rad- och styckebaserade konkordanser. 2. Du kan ha hela innehållet i avdelningen som input (alternativet "global"). 3. Du kan läsa allmän information om avdelningens innehåll genom att hämta textfilen README. 4. Du kan gå tillbaka till huvudmenyn eller avsluta skalprogrammet. Vissa avdelningar i korpusen innehåller underavdelningar, och möjligheten att bevara indelningen har också beaktats i funktionsmenyer: 1. Funktionsmenyn för "Daily newspapers" ger möjligheten att göra separata excerperingar i materialet från Hufvudstadsbladet och Vasabladet. 2. Funktionsmenyn för "Authorities" ger möjligheten att göra separata excerperingar i lagtext och övrig förvaltningstext. 4.2.4. Skapa, bläddra i och spara en konkordans I det följande ges ett exempel på hur man kan skapa, bläddra i och spara en radbaserad konkordans utgående från tidningsmaterialet. Första steget är att välja t.ex. avdelningen "Daily newspapers" genom att ange siffran 1 i huvudmenyn (se ovan). Efter detta kommer funktionsmenyn för tidningsavdelningen fram:

A FINLAND SWEDISH CORPUS (FISC) Department of Scandinavian Languages and Literature, University of Helsinki --------------------------------------------------------------------------- You have chosen the section PRESS ( Daily newspapers ) of FISC: =========================================================================== # for: Make line-concordances within: --------------------------------------------------------------------------- 1. Hufvudstadsbladet (20 issues from September 1991) 2. Vasabladet (7 issues from December 1991) 3. Global --------------------------------------------------------------------------- # for: Make paragraphs of concordances within --------------------------------------------------------------------------- 4. Hufvudstadsbladet (20 issues from September 1991) 5. Vasabladet (7 issues from December 1991) 6. Global --------------------------------------------------------------------------- 7. README 8. Back to MAIN MENU 9. Exit FISC =========================================================================== Enter # for your choice:_ Låt oss anta att du är intresserad av en form både i Hufvudstadsbladet och i Vasabladet. Du vill bara snabbt överblicka förekomsten så du föredrar en funktion som visar beläggen i form av en radkonkordans. Således anger du siffran 3 (för "global") på raden: Enter # for your choice: 3 och kvitterar genom att trycka på enter. Efter valet av input och funktion frågar skalprogrammet nederst på skärmen efter den form du är ute efter: Type the expression to search within the files and press enter. Expression:_

Låt oss anta att du är intresserad av formen flere. På markörplatsen skriver du helt enkelt flere Expression: flere och kvitterar med enter. Härefter börjar sökningen som kan ta några sekunder. Tips! Vill du vara explicit om att du är ute efter ett visst grafem kan du definiera dess kontur t.ex. så här: \\<flere\\> Tips! Slår du fel kan du radera tecken från höger till vänster genom att trycka på CTRL+ backsteg. När sökningen är klar kommer det fram en meddelanderad som inleds med information om antalet träffar ("n hits"). Raden innehåller också korta anvisningar om hur sidbrytarprogrammet fungerar. Till sist ombeds du titta på resultatet genom att kvittera med enter : 68 hits. You can now view the results with a pager. Within the pager use <space> to scroll forwards, <b> backwards, <q> to quit, <h> for help. Press <enter> now to view results. Och så kvitterar du med enter och en radkonkordans rullar fram på din skärm. Som anvisningarna säger bläddrar du framåt, en skärmfull åt gången, genom att trycka på mellanslag. En skärmfull bakåt kommer du med tangenten b. Utfallet borde se ut så här: fhb12:1386: i början av år 1993. *om flere *efta-länder sällat sig till *e*g- fhb03:331: mmanhang går jag inte in på flere. *sjöfolksorganisationerna har na fhb09:254: i att utrikespolitiken får flere aktiva aktörer framöver, framhåll fhb09:287: itiska hantverket sprids på flere aktörer, men det får inte leda ti fvb07:947: slå *suomenmaa med en eller flere andra centerpartistiska tidningar fhb09:1777: ra är noterade i ett eller flere andra europeiska länder. fhb16:1779: poäng. *ahvala hade dock flere andra placeringar och tog därmed s

fhb14:420: *lingell och *möller också flere andra roller säkert och nyanserat fhb12:518: *också flere av bilderna i boken, däribland *i fhb07:449: *i flere av de kraftledningar som går över fhb16:519: " släpptes förra veckan. *flere av låtarna har som singlar spelats fhb08:207: redan var på tillbakagång i flere av våra västliga grannländer stärk fhb17:674: *nyström menar att flere beslut som yrkesskolan fattat peka fhb14:35: skat med 15 procent i år och flere bolag har gått omkull. *gemensam fhb20:1701: tiftning, som han skrivit flere böcker om. *han pensionerades 198 fhb08:253: n bedrivit köpslåendet över flere centrala vattendelare. fhb05:410: sen är musiker och använder flere exotiska instrument, bl.a. från * fhb18:222: på ett *e*e*s-avtal även om flere experter på internationell ekonomi fhb04:1614: ll som helst dramatiska. *flere fartyg med besättningar står direk fvb02:1846: *f*s*u har på sitt kansli flere fastanställda personer. *paradoxa fhb12:668: på goda grunder framställa flere frågor : fhb17:179: ör finländarna att klargöra flere frågor för sig själva. *varför vi fhb11:455: vi besvikna när inte desto flere följt uppmaningen att lämna bilen fhb17:13: ver, har ännu att spåra upp flere förhoppningsfulla ynglingar för tj fhb01:1667: rouhiainen som vunnit *f*m flere gånger blev bara åttonde. *även * /tmp/fisclog.2857 I den vänstra marginalen på konkordansen placeras beläggets källhänvisning, som består av filnamn och nummer på den rad i filen där belägget finns. På basis av elementet "hb" respektive "vb" i filnamnet vet man om det är fråga om Hufvudstadsbladet eller Vasabladet. Utanför FISC-shell kan filerna tas fram med hjälp av texteditorn Emacs och utgående från radnumret hittar man beläggsplatsen (se "sök i text"). Tips! Skandinaverna <å> och <ä> måste tyvärr tillsvidare anges som <}> respektive <{> (dvs. spetsparenteser). Bokstaven <ö> vållar mest problem ifall den ingår i sökargumentet, för den måste anges som < > (dvs. lodstreck) som faller samman med ett funktionstecken. Ifall < > anges i sökargumentet måste det särmarkeras ("quote out") med hjälp av dubbla bakstreck (\\), t.ex. föra bör du tyvärr ange så här kryptiskt: f\\ ra. Allt detta beror på att skandinaverna <å>, <ä>, <ö> har kodats enligt ett 7-bitars ASCII teckentabell.

När du har gått igenom konkordansen till slutet ser du kommentaren (END)lägst på skärmen. För att avsluta bläddrandet ska du ange q (tryck på tangenten q ) varefter programmet frågar om du vill spara konkordansen: Save results (ny)? Svaret "nej" prioriteras så att du kommer ut genom att kvittera med enter. Anser du att konkordansen är värd att spara, måste du svara med y och kvittera med enter. Programmet bekräftar att utfilen sparas i din hemkatalog genom att skriva ut sökvägen till den. Using directory /usr1/nord/xxx/xxx/xfiscare Enter a name for the log file: Som det syns ovan måste du naturligtvis ange ett lämpligt filnamn på markörplatsen efter raden enter a name for the log file. Vi kan ge filen namnet flere.conc och detta bekräftas givetvis med en kvittering med 'enter'. Programmet svarar i sin tur: flere.conc saved och flyttar dig tillbaka till funktionsmenyn. Där kan du starta med en ny sökning eller byta till huvudmenyn eller avsluta skalprogrammet. 4.3. Sökningar i UNIX 4.3.1. Hitta kataloger, filer, texter FISC-korpusen och katalogerna och filerna i den är hierarkiskt organiserade på vissa ställen i en värddator. För att komma till rätt katalog och fil måste du skriva en riktig sökväg till dessa. När du loggar in kommer du till din hemkatalog: du startar således alltid från "noll" på sökvägen. För att komma till grundnivån i FISC-hierarkin måste du skriva följande sökväg efter systemprompten: cd /corp/swe/fisc När du trycker på 'enter' byter du till en bestämd korpus i värddatorn, i detta fall "fisc". Det visas inte något meddelande om detta utan markören fortsätter att blinka framför systemprompten som om ingenting hänt. Detta är en typisk egenskap hos Unix. Ifall systemet inte protesterar innebär det vanligen är allting går bra. Vill du få bekräftelse på

att du flyttat dig någonstans kan du antingen fråga var du är eller ta fram katalogens innehållslista. Fråga efter aktuell katalog/sökväg med kommandot: pwd Lista innehållet i katalogen med kommandot: ls Tar du fram innehållet ser du att katalogen "fisc" har följande filer och subkataloger (de senare är understreckade här): BULLB Iface README lit nonf spoken CHeader MANUAL auth monitor press Textfilerna innehåller allmän information om korpusen: BULLB = Bulletin board ; nyheter kring korpusen. CHeader = Korpusens formella beskrivning och innehållsförteckning. Iface = En elektronisk manual för menybaserat användargränssnitt MANUAL = En elektronisk version av FISC-manualen. README = En presentation av FISC-projektet i prosaform. Subkatalogerna hänvisar till följande avdelningar i korpusen: auth = Myndighetstexter ( authorities ). lit = Allmän skönlitteratur. monitor = Texter som är införda utanför FISC-kärnkorpusen. nonf = Saktexter, icke-fiktiv prosa ('non-fiction') press = Tidningstext (Hufvudstadsbladet, Vasabladet). spoken = Transkriptioner av talat språk.

4.3.2. Läs en text(fil) Du kan läsa en text med hjälp av texteditorn Emacs. Ta fram anslagstavlan, dvs. filen BULLB, genom att skriva kommandot : emacs BULLB Obs! Stora och små bokstäver ska användas enligt anvisningar. I Unix är de olika tecken. 4.3.3. Bläddra i text Det finns för Emacs specifika sätt att flytta på markören när man är inne i en text, följande är de viktigaste att veta: CTRL + v en skärm nedåt ESC, v en skärm uppåt CTRL + a till början av raden CTRL + e till slutet av raden ESC, > till slutet av filen ESC, < till början av filen Tips! Det finns två sätt att ange ett kommando i Emacs, antingen genom att trycka på två tangenter samtidigt eller en efter en. Då ett kommando ska anges genom samtidigt tryckande märks det med + (plustecken). Då två tangenter ska tryckas en efter en märks det med, (kommatecken). 4.3.4. Kom ut ur text När du är klar med en text avslutar du läsningen genom att avsluta Emacs. Använd kommando:

CTRL+x, CTRL+c Här ska du alltså ange två kommandon efter varandra och båda kommandona konstrueras med hjälp av tangenten 'control'. Du kastas tillbaka till $-läget, men du befinner dig fortfarande i den katalog dit du senast kommit. 4.3.5. Gå vidare För att komma åt texterna i FISC måste du öppna en vederbörlig subkatalog och eventuellt en text(fil) där, ifall du vill titta på den, såsom ovan visats. Om du redan är på FISC-nivå (se ovan) räcker det med att du går ett steg vidare till subnivå i korpusen. Du öppnar t.ex katalogen "press" genom att ange kommando: cd press Men om du startar direkt från hemkatalogen, t.ex. genast efter att ha loggat in, måste du skriva hela långa sökvägen till "press"-katalogen: cd /corp/swe/fisc/press Tips! Snedstreck i början av sökvägen behövs bara vid starten från hemkatalogen. Vid fortsättning från högre nivåer utelämnas det första snedstrecket. Innehållet syns igen bara efter egen önskan, dvs. med kommando "ls". Gör du detta ser du att katalogen innehåller filer med två slags slutidentifieringar: ".snt" och ".tei". ".snt" utmärker den egentliga texten, ".tei" står för en formell beskrivning av innehållet i motsvarande snt-fil (dvs. textfil). Denna princip gäller hela korpusen. I "press"-katalogen finns en ytterligare uppdelning i texter ur Hufvudstadsbladet och texter ur Vasabladet. De förra identifieras med koden "fhb", de senare med "fvb". Efter koden följer en löpande numrering fr.o.m. "01". 4.3.6. Gå bakåt För att komma från en subkatalog till en annan på samma nivå i hierarkin måste man ta ett steg bakåt på sökvägen emellan. För att gå en nivå bakåt, ange kommando: cd..

Ifall du var t.ex. i "press"-katalogen har du nu flyttat dig tillbaka till grundnivå, dvs. katalogen "fisc". Härifrån kan du igen fortsätta till någon av subkatalogerna, te.x. "lit" (se "gå vidare" ovan). 4.3.7. Gå hem Vill du komma direkt till din hemkatalog från någon annan katalog kan du ange det enkla kommandot: cd Nu är dina egna filer tillgängliga för dig. I hemkatalogen kan du spara t.ex. resultat av sökningar i korpusen, såsom konkordanser på ord eller fraser. 4.3.8. Egen fil och korpusfil Du öppnar och behandlar dina egna filer precis på samma sätt som filerna i FISCkorpusen. Den enda skillnaden är att du har skrivanderätt till egna filer, medan du inte kan lägga till eller ta bort något när du jobbar med korpustexterna. De är skyddade. Du kan överföra dina egna filer till din persondator med hjälp av en kryptad version av ett FTP-program, t.ex. F-Secures FSFTP. 4.3.9. Sök i text Du kan göra enkla sökningar medan du är inne i en text. Först ska du öppa en textfil med texteditorn Emacs genom att ange kommandot: emacs infil där "infil" alltså står för namnet på en given textfil, t.ex. fhb01.snt. På detta sätt kan man naturligtvis öppna och behandla bara en fil åt gången. När du tagit fram en text på det ovan beskrivna sättet kan du söka efter en grafisk "sträng" (t.ex. ord) på följande sätt: 1. Tryck på: CTRL+s 2. Börja skriva sökordet efter texten I-search på skärmen.

Samma sökning kan upprepas genom att trycka på CTRL+s på nytt. Bakåt söker man genom att använda kommando CTRL+r. 4.3.10. Vilken rad? Det kan vara viktigt att veta på vilken rad i text någonting som verkat intressant finns. Radnumret kan du anteckna och du hittar textstället på nytt på basis av numret. Du kan fråga efter numret på den rad där markören blinkar så här: 1. Tryck på: ESC, x 2. Skriv: what-line och tryck på enter Radnumret syns i den vänstra nedkanten på Emacs-skärmen. 4.3.11. Gå till rad... Du hittar en bestämd rad i en text genom att göra följande medan du har texten framför dig: 1. Tryck på ESC, x 2. Skriv: goto-line och tryck på enter 3. Ange relevant radnummer och tryck på enter. 4.3.12. Räkna antalet ord Att veta antalet ord i en fil kan vara viktigt av flera orsaker. Antalet ord i hela presskatalogen räknar du så här: wc *.snt Resultatet kommer fram fil för fil och slutar på en summarad. I vänstra spalten anges antalet tecken, i mitten antalet ord och i högra spalten antalet rader. Obs! Du får inte stirra blint på dessa siffror, eftersom även skiljetecken och enskilda koder räknas som ord.

4.4 Excerperingar 4.4.1. Skapa radkonkordans Du kan skapa radkonkordanser utifrån FISC-materialet med särskilda program som är utarbetade av professor Kimmo Koskenniemi (institutionen för allmän språkvetenskap, Helsingfors universitet). Konkordansen kan baseras på en fil, en grupp av filer eller en hel katalog. Då du skapar en konkordans är det behändigast att befinna sig under den subkatalog där de relevanta texterna finns. När du kommit t.ex. till katalogen "press" och vill göra en konkordans på ett visst ord, säg, flere i materialet ur Hufvudstadsbladet, skriv så här: kw-alg flere fhb*snt more Resultatet kommer direkt på skärmen och du kan bläddra framåt med mellanslagstangenten, bakåt med tangenten b. Du kan avbryta tittandet genom att trycka på CTRL+c. Tips! Skandinaverna <å>, <ä>, <ö> bör anges enligt s.k. 7-bitars ersättningstecken: <}>, <{>, <\ >, dvs. <ö> med lodstreck som föregås av ett bakstreck. Om du vill att en konkordans sparas som en fil i din hemkatalog måste du i stället för att kombinera konkordansprogrammet med sidbrytarprogrammet more rikta utfallet till en fil som skapas automatiskt i din hemkatalog (bara du ger ett namn åt den, här betecknad som "utfil"). Skriv då så här: kw-alg flere fhb*snt > utfil Nu ser du inte konkordansen på skärmen utan du måste gå till hemkatalogen och öppna den nyskapade filen (konkordansen) där. Obs! Radkonkordansprogrammet innehåller en "broms" som hugger av sökningen efter 20 belägg. Vill du strunta i detta måste du köra om bromsen. Gör så här: 1. Skriv: MAXOCC=99999 2. Skriv: export MAXOCC 3. Skapa en konkordans som vanligt. Denna omkörning gäller tills du loggar ur.

4.4.2. Skapa styckekonkordans Du kan skapa konkordanser med mera kontext än en rad, dvs. bestående av ett textstrycke i originaltexten. Proceduren är densamma som ovan med radkonkordanser utom att du skriver kommandot så här: kw-snt flere fhb*snt more Du ser att träffarna bekvämt nog utmärkts med dubbla vinklar, t.ex. <<träff>>. Tips! När du är vid $, tryck på piltangenten "uppåt" och dina föregående kommandon visas ett efter ett. Du kan använda samma kommando som sådant genom att kvittera med enter eller redigera det, t.ex. byta sökord. Långa kommandon och sökvägar beöver alltså inte skrivas om i sin helhet om du använder dig av ett bestående mönster. 4.4.3. Grep-sökningar Du får ungefär samma utfall som med styckekonkordanser med s.k. grep-sökningar ( global regular expression print ). Utöver detta kan grep-sökningar preciseras med en mängd tilläggsfunktioner (s.k. flags). Nedan beskrivs några av de vanligaste, men mera information om grep-programfamiljen kan läsas i en elektronisk manual som du kan starta med kommandot: man grep Den allra vanligaste sökningen med grep kan göras så här: grep argument infil more Specificera grafem Med alternativet -w kan du ange att du vill få fram ett visst grafem, dvs. i just den form du anger det. Skriv: egrep -w fler fhb*snt more

Nu beaktas inte sådana former som t.ex. flera eller flere, eftersom argumentet har den explicita grafiska strukturen fler. Specificera radnummer Med alternativet -n kan du specificera i källangivelsen i utfallet på vilken rad ett belägg träffats. Utgående från radnumret hittar du beläggsplatsen i textfilen entydigt. Skriv: egrep -n flere fhb*snt more Specificera fördelning Vill du bara se hur ett belägg fördelar sig mellan olika input ska du använda alternativet - c: Skriv: egrep -c flere *snt more På resultatlistan redovisas bara namnen på källfilerna och antalet träffar i respektive fil. Funktionen visar behändigt om fördelningen av ett led är jämn eller koncentrerad på vissa källor. Definiera antalet rader i utfallet Antalet rader i output kan specificeras med en variabel siffra, t.ex. så här: Skriv: egrep -5 flere fhb*snt more Variera sökmönstret Vid grep kan man variera sökmönstret med hjälp av vissa symboler. Nedan finns en förteckning på de viktigaste av dem:

SYMBOL BETYDELSE. matcha vilket enskilt tecken som helst (inte 'ny rad') * matcha noll eller flera av de föregående tecknen [ ] matcha ett av de inkluderade tecknen [^ ] matcha tecken som inte inkluderats \ ta följande tecken bokstavligt ^ matcha början av raden $ matcha slutet av raden Användningen av specialsymboler vidgar sökmöjligheterna. Nedan ges några triviala exempel på hur det fungerar. Vi vill studera förekomsten av en teckensträng som innehåller bokstäverna <bo>, en godtycklig bokstav och bokstäverna <en>, t.ex. i presskorpusen: egrep 'bo.en' *.snt more Detta mönster borde ge oss ord som boken, boven, boden, bogen. Eftersom formen boken är så vanligt vill vi utesluta den: egrep 'bo[^k]en' *.snt more Om vi däremot vill begränsa oss till former som boven och boden, bör vi skriva så här: egrep 'bo[dv]en' *.snt more Observera att symbolerna uppfattas inte som "tecken" i sin egen rätt av grep, eftersom specialfunktionen är deras primära egenskap. Om du vill excerpera tecken som sammanfaller med specialsymbolerna måste du ange att symbolen ska tas "bokstavligt", dvs. använd bakstreck (\) före symbolen i sökmönstret. De stora bokstäverna är märkta med asterisk i FISC. Om du t.ex. vill få fram förekomsten av strängen Boken med stor initialbokstav (i korpusen *boken) skriver du: egrep '\*boken' *.snt more

Tips! Specialsymbolerna fungerar också med konkordansprogrammen kw-alg och kwsnt. 6. Ordlistor 6.1. Skapa format för lista För att en löpande text skall lämpa sig för utarbetningen av ordlistor, måste den konverteras till ett listformat. Detta innebär att varje grafem ska få en egen rad, dvs. orden följer varandra i en vertikal ordning i stället för det vanliga horisontella. Det är också bekvämt att radera skiljetecknen från ordlistor. När du befinner dig i en vederbörlig katalog, skriv så här (för infil väljer vi t.ex. "fhb01.snt" i "press"-katalogen: cat fhb01.snt tr \012 tr -d "*.,:;?! more Vi har ovan kombinerat fyra program: cat organiserar input bestående av en eller flera filer för följande program, tr ersätter ett tecken med ett annat (här ersätts mellanslag med radbrytning vars kod är 012; som du ser måste koden föregås av ett bakstreck), optionen -d raderar angivna tecken. Titta med more hur resultatet ser ut. Nedan följer mera om verkliga sorteringar och beräkningar. 6.2. Alfabetisera listan För att alfabetisera raderna behöver du bara lägga till unix-filtret sort i kommandot: cat fhb01.snt tr \012 tr -d "*.,:;?! sort more Kommandoramsan kan fritt fortsätta från en rad till en annan. Det kan hända att din skärm nu visar blankt. Detta är därför att textfilerna kan innehålla "tomma" tecken som placeras först i sorteringen. Du måste bläddra förbi dessa med mellanslagstangenten (det kan hända att du måste bläddra länge!). Obs! Alfabetiseringen utgår från ASCII-koden där olika slags symboler och siffror kommer före regelrätta bokstäver.

6.3. Behandla listan En alfabetiserad lista kan vidarebehandlas på flera sätt. Här presenteras några möjligheter. 6.3.1. Radera dubbleringar Du kan använda filtret uniq för att behandla dubbleringar på ett önskat sätt. Detta filter placerat efter sort eliminerar dubblerade rader i output, dvs. bara en förekomst för varje rad visas. N.B. dubbleringarna ignoreras inte, de bara döljs! cat fhb01.snt tr \012 tr -d "*.,:;?! sort uniq more Tips! Andra möjligheter att behandla dubbleringar: uniq -d visa endast dubbleringar uniq -u visa endast unikt förekommande rader 6.3.2. Räkna rader Du vill kanske också veta hur många gånger varje rad förekommer. Optionen -c till uniq gör beräkningen: cat fhb01.snt tr \012 tr -d "*.,:;?! sort uniq -c more Listan visar inte dubbleringar men anger antalet eventuella dubbleringar i form av en frekvenssiffra. Frekvenssiffran placeras i början av varje rad. 6.3.3. Sortera enligt beräkning Raderna kan sorteras enligt dubbleringars frekvens. Optionen -nr till sort gör jobbet:

cat fhb01.snt tr \012 tr -d "*.,:;?! sort uniq -c sort -nr more Så här har du skapat en frekvensordlista! 6.3.4. Numrera raderna Du kan komplettera din ordlista genom att lägga till ett filter (nl) som numrerar varje rad: cat fhb01.snt tr \012 tr -d "*.,:;?! sort uniq -c sort -nr nl more Men du vill kanske städa listan något innan du radnumrerar, för där finns fortfarande mycket sådant som är språkligt ointressant: mindre frekventa skiljetecken, siffror, taggar (se tips) osv. Du kan behandla en preliminär frekvenslista som egenfil och använda filtret nl därefter, t.ex.: cat behandlad.lista nl > radnumrerad.lista De svenskspråkiga delarna i exempelkommandot ovan ersätter du förstås med vederbörliga filnamn. Tips! I början av kommandoraden, efter första angivna tr-filtret, kan du ange följande: sed 's/<[^>]*>/ /g' (med ett mellanslag inom de senare snedstrecken). Detta ersätter alla korpustaggar med mellanslag, vilka således är borta från den fortsatta behandlingen av listan. sed är ett unix-program, stream line editor. 6.4. Baklängeslista En lista med en omvänd alfabetisk följd kan du åstadkomma med hjälp av filtret rev. cat fhb01.snt tr \012 tr -d "*.,:;?! rev sort uniq rev more 6.5. Speciallistor

Ibland är det nyttigt med mera specificerade ordlistor, t.ex. baserade på morfologiska eller grafemiska drag. Speciallistorna kräver excerperingar, som lämpligen utförs med egrep (se ovan). I det följande ges några exempel. 6.5.1. Rader börjande på... Vi skapar en lista över rader som inleds med strängen <er> för att fånga in ord som har förleden er-, såsom i erkänna: cat fhb01.snt tr \012 tr -d "*.,:;?! egrep ^er sort uniq more 6.5.2. Rader slutande på... Med en liten förändring kan vi skapa en motsvarande lista som den här gången utgår från strängen i<er> slutet av raden, såsom i tekniker: cat fhb01.snt tr \012 tr -d "*.,:;?! egrep er$ sort uniq more Tips! Härvid betyder alltså "hatt" <^> början av raden och "dollartecken" <$> slutet av raden. 6.5.3. Rader innehållande... Ordlistan kan också byggas på en sträng inuti grafemet. I det följande söker vi efter rader som har teckenkombinationen <mn> någonstans i mitten: cat fhb01.snt tr \012 tr -d "*.,:;?! egrep [a-z{} ]mn[a-z{} ] sort uniq more Är det intressant eller inte så hittar vi såhär strängar som famnen, hamna, hämnd, jämna, kolumnen, lämna, namnet, somna, ämne osv. Som det framgår ovan kan man definiera godtyckliga tecken inuti hakparenteser <[ ]>. Vi definierar helt enkelt hela alfabetet enligt 7-bitars kodning (vilken gör definitionen krångligare): Bokstäverna från <a> till <z> med hjälp av räckan a-z, och skandinaverna <å>, <ä>, <ö> representeras av symbolerna <{>, <}> och < >. Inte så elegant, men det fungerar.