Persiska Albin Finne 2002-10-10
Sammanfattning Den här uppsatsen beskriver det persiska språket. Språkets historia, morfologi, syntax och ordförråd behandlas. Tonvikten läggs på morfologi och syntax. Avslutningsvis dras några slutsatser om datoranalys av språket. Syftet med uppsatsen är att få en djupare inblick i något språkteknologiskt ämne. Uppsatsen baseras på information från Nationalencyklopedin och material från Internet. Morfologin i persiska är ett system baserat på affix. Korta vokaler skrivs inte ut i skriven text vilket gör ordanalys svår. Det finns inget skiljetecken för fras- och meningsslut. Det innebär att språket är svårt att analysera för en dator. Persiska är ett SOV-språk vilket innebär att ordföljden är Subjekt-Objekt-Verb. Många av orden i språket är arabiska lånord.
Innehållsförteckning BAKGRUND...1 INLEDNING...2 HISTORIA...2 MORFOLOGI...3 SYNTAX...4 ORDFÖRRÅD...5 SLUTSATSER...5 KÄLLFÖRTECKNING...6
Bakgrund Den här uppsatsen har skrivits på uppdrag av kursledaren i. Uppsatsen handlar om det persiska språket med tonvikten lagd på dess morfologi och syntax. Syftet med rapporten är att få en djupare förståelse för ett ämne med anknytning till språkteknologi. Dessutom har uppgiften gett övning i muntlig och skriftlig framställan. För att kunna skriva uppsatsen samlade vi först in information och litteratur om det persiska språket. Vi sökte information på KTHB (KTH:s Bibliotek) och på Internet. Vi använde oss även av delar av kursens föreläsningsanteckningar. Vi läste in oss på materialet och skrev sedan ihop denna uppsats. Dessutom presenterade vi uppsatsen vid ett seminarium den 7 oktober. 1
Inledning Persiska, som även kallas Farsi, är det officiella språket i den islamska republiken Iran. Det talas även av en stor del av befolkningen i Afghanistan och Tadzjikistan. Det finns dock lokala skillnader och dialekter i språket mellan dessa tre länder. Dessutom talas språket av minoriteter i exempelvis Bahrain, Irak, Oman, Yemen och Förenade Arabemiraten. * Historia Persiskan härstammar från de Indo-Iranska språken som i sin tur är en förgrening från de Indo-Europeiska språken. De Indo-Iranska språken delades upp i Iranska språk och Indo-Aryanska språk omkring 1500 f.kr. De Indo-Aryanska språken utvecklades senare till de olika språken som talas i Indien nuförtiden. Fornpersiska är ett av de Iranska språken och började talas och skrivas omkring 550 f.kr under den Akemenidiska dynastin. Därefter kom Medelpersiskan under det Sasanidiska riket som uppstod efter att Alexander den Stores erövring av Persien var över. Kurdiska, Pashto och Baluchi är andra förgreningar från de Iranska språken. Bild : http://crl.nmsu.edu/research/projects/shiraz/ling/introduction.html Det moderna persiska språket kom omkring 600 e.kr. i samband med den arabiska erövringen av Persien. Trots att den moderna persiskan är nära besläktad med fornpersiskan och medelpersiskan är det inte säkert att den är en direkt följd av de båda språken. Det kan istället vara så att en dialekt av medelpersiskan som talades i nordöstra Persien är den främsta föregångaren till modern persiska. Det arabiska inflytandet har varit stort på det persiska språket vilket gör att många ord lånats in från arabiskan. Dessutom skrivs persiska med det arabiska alfabetet. ** * Fakta i detta avsnitt baseras på material från The Shiraz Project ** Historiematerialet är hämtat från The Shiraz Project och Language Materials Project. 2
Morfologi Morfologin i persiska är ett system baserat på affix och består främst av suffix och mindre av prefix. Det finns inte särskilt många olika typer av affix och persiska är ett relativt formfattigt språk. Inom persiskan förekommer affix både som fria och bundna morfem. När persiska ska analyseras med datoriserade metoder finns det ofta tvetydigheter på grund av att olika morfem kan ha samma grundform. Dessutom skrivs inte korta vokaler ut i skriven text vilket gör att flera olika tolkningar är möjliga vid en analys. Exempelvis kan ett ord skrivas mrdm och få olika betydelser beroende på vilka vokaler som sätts in i ordet. Om a och o sätts in bildas substantivet mardom (folk) eller alternativt verbet mordam (jag dör). Substantiv i persiska skiljer varken på kasus eller på genus. Istället är det partiklar eller prepositioner som gör det. Bestämd och obestämd form används bara när det behövs. Det finns inget sätt i persiska att markera att en fras är slut. Däremot finns suffix som beskriver att ett adjektiv eller ett substantiv inte är slutet på en mening eller en fras. Det finns flera sätt att markera att ett substantiv är i pluralis. Dels finns det sätt som följer det persiska viset och dels finns det sätt som följer det arabiska viset att markera pluralis. Orden i en nominalfras sätts samman med en påhängd partikel som kallas ezafe (ez) som uttalas ye. Den kan markera flera olika saker. Oftast markerar den bestämd form eller ägande form. Den utelämnas dock i skriven text vilket gör det svårt att avgöra när en fras är slut. ru-ye miz på-ez bord `på bordet' Morfologin för adjektiv fungerar som för substantiv men de kan dessutom ha komparativa och superlativa former. Personliga pronomen kan både stå fria i en mening eller vara bundna till ett ord. Exempel på ett bundet; ketâb-at bok + 2sg `din bok' Verben i persiskan kan böjas med antingen enkel böjning eller sammansatt böjning. Den enkla böjningen delas in i två olika grupper beroende på vilken stam verbet har. En grupp består av de verb där stammen står i presens och den andra gruppen av de verb som står i preteritum. Verb med sammansatt böjning kräver ett extra verb för att böjas. Det kan röra sig om extra verb som budan (vara), khâstan (vilja) eller shodan (bli). 3
Många verb i det persiska språket bildas med hjälp av ett substantiv, adjektiv eller en preposition följt av ett enkelt verb (exempelvis kardan 'göra', dâdan 'ge', eller zadan 'slå'). Det enkla verbet förlorar oftast hela eller delar av sin betydelse. Den här typen av konstruktion är mycket produktiv i persiska och de flesta nya verb bildas på det viset. * zamyn xordan "golv äta" att falla fekr kardan "tänkte göra" att tänka dust dâshtan "vän ha" att älska gush dâdan "öra ge" att lyssna jâru zadan "kvast slå" att sopa Syntax Det persiska språket är ett så kallat SOV-språk vilket innebär att ordföljden är subjektobjekt-verb. Denna ordföljd används både i huvudsatser, bisatser, frågande satser och jakande satser. I verbet anges tempus och syftning. Personsubjekt kan anges i verbändelsen och därför kan dessa utelämnas. Trots att persiska är ett SOV-språk är ordföljden fri och satsdelarna i en mening kan i viss mån kastas om. Verbet i en mening brukar oftast ändå stå sist. Det finns bland annat verbfraser (VP), nominalfraser (NP) och prepositionsfraser (PP) i det persiska språket. I en nominalfras kan huvudet vara antingen ett substantiv, ett verb i infinitiv form eller ett pronomen. Om det är ett pronomen fungerar det som ägandeform (exempelvis ketâb-e Hushang 'Hushangs bok'). Ordföljden i en nominalfras är vanligtvis; determinerare specificerare huvud modifierare. Exempel på dessa är; Determinerare: Determinerare ex. in (den här, de här) Specificerare: Numerus ex. do milion nafar (två miljoner människor) Ordningsnumerus ex. dovomin (den andra) Superlativ ex. bozorgtarin (den största) Kvantifierare ex. ba'zi (några) Modifierare: Adverb/Adjektiv ex. kheyli kohne (väldigt gammal) * Morfologin baseras på Nationalencyklopedin och The Shiraz Project 4
I en verbfras kan den relativa ordningen mellan det direkta objektet och ett indirekt objekt eller en prepositionsfras variera beroende på om det direkta objektet har bestämd form *. Exempelvis; Hushang be bache-hâ nân dâd Hushang till barn-plur bröd gav/3sg `Hushang gav bröd till barnen.' Hushang nân râ be bache-hâ dâd Hushang bröd Obj till barn-plur gav/3sg `Hushang gav brödet till barnen.' Ordförråd Persiskans ordförråd rymmer ord med många olika sorters ursprung. Uppemot hälften av alla ord är lånade från det arabiska språket. Men eftersom de flesta vanliga orden har iranskt ursprung är andelen arabiska lånord i löpande text uppskattningsvis bara en fjärdedel. Persiska ord har även lånats i många europeiska språk. Ordet risk kommer från medelpersiskans roziko (dagligt bröd eller öde), kiosk från koshk (palats), pyjamas från pei-jama (benkläder) och khaki från just khaki (jordfärgad). ** Slutsatser Persiska verkar vara ett svårhanterligt språk när det gäller att analysera det med hjälp av datorkraft. Eftersom alla vokaler i ett ord inte skrivs ut är det svårt att avgöra vilket ord som avses. Det innebär att datorn måste tolka i vilket sammanhang ett ord står och därefter göra en bedömning av det. Utöver detta är det svårt för datorn att veta när en mening eller en fras är slut eftersom det inte finns något särskilt meningsavslut. Det kan lösas genom att leta efter ett verb i en mening om ett sådant finns, eftersom ordföljden oftast placerar verbet sist. * Syntaxavsnittet baseras på material från The Shiraz project. ** Ordförrådsdelen grundar sig på Nationalencyklopedin. 5
Källförteckning Nationalencyklopedin Shiraz Project: http://crl.nmsu.edu/research/projects/shiraz/ling/index.html The UCLA, Language Materials Project: http://www.lmp.ucla.edu/profiles/profp01.htm 6