Semantik och pragmatik OH-serie 7.2 http://stp.lingfil.uu.se/~matsd/uv/uv12/semp/ Dagens punkter Om att undersöka språkbruket i politisk text, närmare bestämt riksdagsanföranden. Text från ett parti kontra de andra. Text från ett kön (kvinnor, män) kontra det motsatta. Mats Dahllöf Institutionen för lingvistik och filologi Februari 2012 1 2 Frågeställningar Finns det intressanta relativa frekvensskillnader i hur ord används i anföranden från ett parti jämfört med andra? Och motsvarande vad gäller kön. Annan användning: automatisk textklassificering. Informativa ord nyckelord Överrepresenterade ord. Styrkan mätt med Information Gain (IG) (som tar hänsyn till frekvens och skevhet i ordets distribution). IG anges multiplicerad med 1 000 000 000. IG ger en typ av mått på hur starka nyckelord är. (Avsett för automatisk textklassificering.) För den som är speciellt intresserad av IG och den matematiska uträkningen: Yang, Y. and Pedersen, J. O. (1997). A Comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning. 3 4
Nyckelord per parti Total undersökning. Partierna, Riksmötet 2010/2011. Relativa frekvenser hos ord. Anföranden från visst parti kontra dem som kommer från alla andra talare. Visas som antal förekomster per en miljon löpord. Dessa tabeller visar de av IG högst rangordnade orden, deras relativa frekvens F r för partiet och för motsatta kategorin (alla andra). Rena graford ingen lingvistisk analys. Graford med versal/gemen neutraliserat. Riksmötet 2010/2011 antal ord Anföranden tagna ur riksdagsprotokollet. (Annan text borttagen.) För varje anförande anges talare och parti. Antal löpord: (M) 1 045 516 (FP) 388 992 (S) 840 411 (MP) 388 204 (V) 495 838 (KD) 345 554 (C) 446 504 (SD) 234 033 totalt 4 189 185 opolitiska 4 133 5 6 (C) centerpartiet 978 84 173151 pts 219 11 47587 centerpartiets 199 11 41467 bredband 165 10 34051 förnybara 270 48 30473 vi 18974 16412 26477 gröna 230 43 24516 vindkraft 257 55 24461 landsbygden 217 39 24084 matilda 92 3 21783 (FP) folkpartiet 638 57 99484 förskolan 374 59 41150 folkpartiets 215 13 39523 ann-christin 120 6 24258 damberg 120 8 21681 elever 341 103 19564 ahlberg 100 6 19189 detta 4733 3636 18263 utrikes 123 13 17725 iran 136 19 16564 7 8
(KD) kristdemokrater 522 4 137315 bostadsbyggandet 268 15 46850 vi 19865 16399 37905 kristdemokrat 141 2 35643 hälso- 346 59 32683 socialstyrelsen 288 44 29455 bostadsmarknaden 213 26 25606 kristdemokraterna 262 44 25034 kristna 242 43 22183 olika 2080 1289 22016 (MP) miljöpartiet 1469 290 134459 miljöpartiets 367 33 57411 reservation 591 211 26565 mångfald 259 62 19816 regeringen 3183 2270 19585 uranbrytning 195 37 18653 biologisk 175 33 16719 friåret 74 3 16399 inte 14006 12216 15296 klimatpåverkan 95 8 14932 9 10 (M) arbetsmarknaden 784 388 39195 viktigt 1915 1288 34677 trafikverket 247 70 31324 frågat 256 77 30363 avser 383 158 28131 reformer 269 90 27542 arbete 1197 763 27245 utvecklingsgarantin 124 20 26591 eva-lena 75 4 25497 finanser 113 18 23644 (S) socialdemokrater 743 35 243832 ministern 1233 215 219495 arbetsmarknadsministern 421 24 130707 statsrådet 758 163 113728 engström 269 7 101376 hillevi 265 6 100055 borgerliga 659 150 93307 regeringen 3379 2097 73789 säger 1944 1014 73646 fas 449 96 67074 11 12
(SD) sverigedemokrater 473 7 86013 svenska 3252 1307 75907 sverigedemokraterna 1215 239 72180 invandringen 435 15 65567 invandring 460 23 61429 islam 345 7 59922 invandringspolitik 303 3 58164 invandrare 580 69 50813 sverigedemokraternas 435 44 41781 svenskar 486 60 41522 (V) vänsterpartiet 1427 243 179588 kvinnor 1250 452 67595 riskkapitalbolag 193 2 61854 carl 358 41 58583 borgerliga 692 193 53738 bildt 247 22 46841 vinster 227 27 36777 skattepengar 199 24 31731 marocko 181 26 25675 valutaunion 74 0 25562 13 14 Nyckelordsextraktion med IG Vad får vi ut? Självreferens. Ett undantag... Sakliga nyckelbegrepp. Motståndarlagets talesperson i partiets profilfrågor namnet får nyckelstatus. Nyckelord per kön Total undersökning. Riksmötena 2006/2007 2009/2010. (Fyra år.) Nyckelordsextraktion med IG, som tidigare. Tabeller som tidigare. Verkar detta (intuitivt) vara en bra metod att extrahera nyckelord? 15 16
Riksmötena 2006/2007 2009/2010 Anföranden tagna ur riksdagsprotokollet. (Annan text borttagen.) För varje anförande anges talare. Kön kopplat till det via data från Riksdagens beskrivningar av ledamöterna. Antal löpord: Män 11 547 420 Kvinnor 8 574 548 totalt 20 121 968 Kvinnliga talare Ord F r kvinnor F r män IG kvinnor 1071 311 160693 barn 924 428 67191 och 28113 25550 44491 också 5198 4140 42859 våld 246 72 36676 män 364 149 33480 försäkringskassan 220 83 23302 kvinnors 170 54 22882 barnen 239 102 20474 många 2364 1874 20122 17 18 Kvinnliga talare (tio ord till) Ord F r kvinnor F r män IG mäns 96 20 19846 kvinnorna 113 28 19816 äldreomsorgen 115 32 17782 behöver 1061 761 17670 sjuka 175 70 16969 ministern 535 337 16273 otroligt 140 55 13657 viktigt 1493 1180 13064 undrar 249 133 12819 föräldrar 235 124 12480 Manliga talare Ord F r män F r kvinnor IG den 12630 11212 30067 detta 3823 3174 21247 låt 405 228 17544 arbetsmarknadsministern 190 79 16354 svenska 1244 931 15796 sverige 2429 1992 15253 östros 80 17 14844 punkten 96 26 14360 europeiska 256 139 12245 han 1099 847 11467 19 20
Manliga talare (tio ord till) Ord F r män F r kvinnor IG politik 869 649 11160 möjligen 112 43 11143 naturligtvis 860 646 10678 sysselsättningen 99 36 10660 en 16302 15338 10525 lars 206 110 10262 peter 173 89 9547 ulla 55 14 9150 svensk 470 326 9145 unionen 126 58 9022 Nyckelordsextraktion per kön Vad får vi ut? Innehållsteman : Kvinnor: former av substantiven kvinna, man (grundformen dock osynlig utan analys) och barn. Män: Geografiska termer, egennamn, han. Tematiskt mer neutrala ord: Kvinnor: otroligt, viktigt, och, också, många, undrar. Män: den, detta, låt, naturligtvis. Vad säger detta? 21 22