Språk, datorer och textbehandling. Kön och politik. Mats Dahllöf Institutionen för lingvistik och filologi Mars 2012



Relevanta dokument
Semantik och pragmatik

Riksdagsvalet 2014 på karta

Ipsos Sakfrågeägarskap i politiken

Resultat. Analys av Sverigedemokraternas valresultat. Timbro

DN/Ipsos Sakfrågeägarskap i politiken

Förteckning över den politiska organisationen för Regionförbundet Örebro,

Demokrati. Ordet demokrati kommer ifrån grekiskan och betyder folkstyre. All makt utgår ifrån folket. Sveriges Riksdag

Ja, absolut Ja, kanske Nej, troligen inte Nej, absolut inte Ej svar. I alla partier är oron stor för att trollfabrikernas aktivitet under valrörelsen.

Så går det i riksdagsvalet!

Här bor väljarna. Fokus den 15 september Alliansen

Moderaterna tappar. Juli YouGov Sweden AB Holländargatan 17B Stockholm

Stort stöd för rätten att välja skola

DN/Ipsos temaundersökning: Svenskarnas attityder till invandring och integration

Om undersökningen. Kvantitativ undersökning i Inizios webbpanel intervjuer Intervjuer genomförda 3-4 januari 2018 Uppdragivare: Timbro

Almedalen Om ingen vinner valet Kompromisser i politiken

SKOP. Rapport till Frivärld oktober 2015

Skåneopinion i samarbete med Sydsvenskan Oktober 2011


SIFOs Telefonbuss 2010

Väljaropinion i samarbete med Metro Maj 2011

SKOP:s EU-barometer kommentar av SKOP:s Örjan Hultåker

Väljaropinion i samarbete med Metro Januari 2013

Instuderingsfrågor till Tema demokrati

Journalistkårens partisympatier

Väljaropinion i samarbete med Metro Juli 2011

Rapport till KAK om infrastruktursatsningar juni 2015

Väljaropinion i samarbete med Metro April 2012

EU och småföretagen. - EU-valet och Sveriges småföretagare

LÄTTLÄSTA NYHETER. Nr 27 Fredag 24 september 2010

DN/Ipsos Är Sverige tryggt eller otryggt? Ger medier en rättvisande bild?

Novus partiernas ba sta fra ga, januari 2014

Resultaten redovisas i denna rapport. Undersökningens genomförande framgår av Bilaga 1.

Eftervalsundersökning Byggnads Byggnads medlemspanel eftervalsundersökning

Väljaropinion i samarbete med Metro December 2011

Politikernas trygghetsundersökning Förtroendevaldas utsatthet och oro för hot, våld och trakasserier

DN/Ipsos väljarbarometer april 2017 Stockholm, 21 april Kontakt: David Ahlin,

DN/Ipsos väljarbarometer mars 2017 Stockholm, 22 Mars Kontakt: David Ahlin,

Väljaropinion i samarbete med Metro November 2011

Partierna och politikerna i medierna

Väljaropinion i samarbete med Metro Juni 2013

Karin Nelsson. Svenskarnas missnöje med olika samhällsproblem

Rapport till Företagarombudsmannen vid Den Nya Välfärden 26 oktober 2017

DN/Ipsos: Allmänheten om Nato och Sveriges försvar Stockholm den 22 december

DN/IPSOS VÄLJARBAROMETER

SEKO:s undersökning bland riksdagsledamöter gällande förbättring av arbetsmiljön vid vägarbeten. En undersökning genomförd juni 2011

Väljaropinion i samarbete med Metro September 2011

Svenska regeringspartier (våra största partier)

TV4/NOVUS VÄLJARBAROMETER

DN/Ipsos: Valvinden samt väljarnas betyg på regeringen och alliansen

Lärarbarometern. Eftervalsenkät

Svenskarnas syn på politiska frågor

SKOP:s väljarbarometer kommentar av SKOP:s Örjan Hultåker

DN/Ipsos Sakfrågeägarskap i politiken

Attityder till svensk industri

Ipsos opinionsmonitor Partisympatier, väljarnas viktigaste frågor och sakfrågeägarskap Februari 2015

Äldrefrågor på undantag igen! UPPFÖLJNING AV PRO-RAPPORTEN ÄLDREFRÅGOR PÅ UNDANTAG I SVENSK POLITIK

Rapport till Företagarombudsmannen vid Den Nya Välfärden om attityder till migranter oktober 2016

December DN/IPSOS JANUARI DECEMBER. POLITISK BAROMETER December 2017 David Ahlin, Björn Benzler, Ipsos

Ekonomi-SKOP Hushållens ekonomiska förväntningar 14 juni kommentar av SKOP:s docent Örjan Hultåker

DN/IPSOS VÄLJARBAROMETER

Sverigedemokraterna i Skåne

DN/IPSOS VÄLJARBAROMETER

Variabelförteckning Open Opinion Uppdaterad

Väljarbarometern CAWI Kön Ålder Man-ålder Kvinna-ålder

DN/IPSOS VÄLJARBAROMETER

Januari DN/IPSOS JANUARI DECEMBER. POLITISK BAROMETER Januari 2018 David Ahlin, Björn Benzler, Ipsos

Så svarade. Medborgarpanelen. LORE Laboratory of Opinion Research

Nytt politiskt landskap för partier och väljare?

Solna stad EN INTRODUKTION SVENSKA

SKOP:s väljarbarometer kommentar av SKOP:s Örjan Hultåker

Sakpolitiskt ägande December 2016

Så styrs Sverige. #Idas-plugg-akut

DN/Ipsos väljarbarometer januari 2017 Stockholm, 24 januari Kontakt: David Ahlin,

Uppdelning av partianhängare

Maj DN/IPSOS JANUARI DECEMBER. POLITISK BAROMETER 22 Maj 2018 David Ahlin, Björn Benzler, Ipsos

Nytt läge i väljaropinionen

DN/Ipsos: Väljarna om svenska värderingar augusti 2016

DN/Ipsos: Inställning till flyktingmottagande i den egna kommunen 13 november 2015

Partiledare,Expr Internetundersökning med allmänheten 9-12 aug 2012 Copyright (c) 2012 Demoskop AB ----Kön Ålder -----

SKOP-research. Rapport till KAK om framkomlighet juli 2016

November DN/IPSOS JANUARI DECEMBER. POLITISK BAROMETER 20 November 2017 David Ahlin, Björn Benzler, Ipsos

INLEDNING... 3 SYFTE... 3 METOD... 3 URVAL OCH INSAMLING AV INFORMATION... 3 FRÅGEFORMULÄR... 3 SAMMANSTÄLLNING OCH ANALYS... 4

DN/Ipsos väljarbarometer november 2016 Stockholm, 22 november Kontakt: David Ahlin,

MINSKAT FLYKTINGMOTSTÅND SVÅR MARKNAD FÖR FRÄMLINGSFIENTLIG POLITIK

Väljaropinion i samarbete med Metro Juni 2012

Februari DN/IPSOS JANUARI DECEMBER. POLITISK BAROMETER 20 februari 2018 David Ahlin, Björn Benzler, Ipsos

MEDLEMSUNDERSÖKNING 2012

Förutsättningarna, agendan och mobiliseringen

MARS DN/IPSOS JANUARI DECEMBER. POLITISK BAROMETER 22 mars 2018 David Ahlin, Björn Benzler, Ipsos

DN/IPSOS VÄLJARBAROMETER

Väljaropinion i samarbete med Metro. September 2015

Den politiska bloggvärlden. - en analys av politiska bloggar 2013

SD-sympatisörer tror att livet blir sämre de kommande åren i högre utsträckning än andra väljare!!

Underkänt! Skövdebornas åsikter om skolan

Faktamaterial till bilderna om Arbetet i Kammare och utskott

Är det partiledarna som avgör valet?

Fortsatt kraftigt fall för socialdemokraterna - Skillnaden mellan blocken halverad sedan juni

DN/Ipsos väljarbarometer februari 2017 Stockholm, 21 februari Kontakt: David Ahlin,

DN/Ipsos väljarbarometer 7 18 augusti 2014

Ett urval ur WWF:s undersökning till privatpersoner för Svenska pärlor 2013

Transkript:

Språk, datorer och textbehandling Kön och politik Mats Dahllöf Institutionen för lingvistik och filologi Mars 2012

Dagens punkter Om att undersöka språkbruket i politisk text, närmare bestämt riksdagsanföranden. Text från ett parti kontra de andra. Text från ett kön (kvinnor, män) kontra det motsatta.

Frågeställningar Finns det intressanta relativa frekvensskillnader i hur ord används i anföranden från ett parti jämfört med andra? Och motsvarande vad gäller kön. Annan användning: automatisk textklassificering.

Lite om textklassificering Klassificering bestämma vilken kategori en text tillhör, t.ex. språk, spam vs intressant brev, skönlitteratur vs facktext, avdelning i tidning (ledare, sport,... ). Även indirekt författarens person ålder, politisk inriktning, kön. Ledtrådar (särdrag): Vilka ord förekommer? Hur ofta? Eller ordklassekvenser. System som bygger på maskininlärning kan tränas från givna data. Och sedan appliceras på nya fall.

Egen forskning några resultat Riksdagsledamöter utifrån ordförekomster i riksdagsanföranden. De inledande 200 orden. Tre klassifikationsuppgifter: vänster ((MP), (S), (V)) vs höger ((C), (FP), (KD), (M)), äldre (f. 1953) vs yngre (f. 1959), kvinnor vs män. Tränar klassifikationssystemet på 6000 texter från vardera gruppen. (Totalt 2,4 miljoner ord alltså.)

Resultat Mått: korrekthet andelen prediktioner som är korrekta. Basnivå blir 50 % (tvåvalsfråga) om utvärderingsdata (facit med nya data) är balanserade hälften av varje klass. (Gissa konsekvent på ena eller rent slumpmässigt.) 100 % alla rätt. Träningsdata från andra personer än vad utvärderingsdata kommer ifrån så att systemet inte får pluspoäng på att lära sig känna igen bestämda individer. Bästa resultat per text (200 ord): vänster vs höger 66,4 % äldre vs yngre 62,7 % kvinnor vs män 64,7 %

Resultat Bästa resultat om vi väger samman 21 texter (4200 ord): vänster vs höger 89 % äldre vs yngre 79 % kvinnor vs män 81 % Det är lättare att skilja män och kvinnor (ger högre korrekthet) åt om man begränsar sig till högerpolitiker eller till äldre individer. Det är lättare att skilja äldre och yngre personer åt om man begränsar sig till högerpolitiker. Automatic prediction of gender, political affiliation, and age in Swedish politicians from the wording of their speeches A comparative study of classifiability, Literary and Linguistic Computing, under utgivning.

Informativa ord nyckelord Överrepresenterade ord. Styrkan mätt med Information Gain (IG) (som tar hänsyn till frekvens och skevhet i ordets distribution). IG anges multiplicerad med 1 000 000 000. IG ger en typ av mått på hur starka nyckelord är. (Avsett för automatisk textklassificering.) För den som är speciellt intresserad av IG och den matematiska uträkningen: Yang, Y. and Pedersen, J. O. (1997). A Comparative Study on Feature Selection in Text Categorization, Proceedings of the Fourteenth International Conference on Machine Learning.

Nyckelord per parti Total undersökning. Partierna, Riksmötet 2010/2011. Relativa frekvenser hos ord. Anföranden från visst parti kontra dem som kommer från alla andra talare. Visas som antal förekomster per en miljon löpord. Dessa tabeller visar de av IG högst rangordnade orden, deras relativa frekvens F r för partiet och för motsatta kategorin (alla andra). Rena graford ingen lingvistisk analys. Graford med versal/gemen neutraliserat.

Riksmötet 2010/2011 antal ord Anföranden tagna ur riksdagsprotokollet. (Annan text borttagen.) För varje anförande anges talare och parti. Antal löpord: (M) 1 045 516 (S) 840 411 (V) 495 838 (C) 446 504 (FP) 388 992 (MP) 388 204 (KD) 345 554 (SD) 234 033 opolitiska 4 133 totalt 4 189 185

(C) Ord F r parti F r andra IG centerpartiet 978 84 173151 pts 219 11 47587 centerpartiets 199 11 41467 bredband 165 10 34051 förnybara 270 48 30473 vi 18974 16412 26477 gröna 230 43 24516 vindkraft 257 55 24461 landsbygden 217 39 24084 matilda 92 3 21783

(FP) Ord F r parti F r andra IG folkpartiet 638 57 99484 förskolan 374 59 41150 folkpartiets 215 13 39523 ann-christin 120 6 24258 damberg 120 8 21681 elever 341 103 19564 ahlberg 100 6 19189 detta 4733 3636 18263 utrikes 123 13 17725 iran 136 19 16564

(KD) Ord F r parti F r andra IG kristdemokrater 522 4 137315 bostadsbyggandet 268 15 46850 vi 19865 16399 37905 kristdemokrat 141 2 35643 hälso- 346 59 32683 socialstyrelsen 288 44 29455 bostadsmarknaden 213 26 25606 kristdemokraterna 262 44 25034 kristna 242 43 22183 olika 2080 1289 22016

(MP) Ord F r parti F r andra IG miljöpartiet 1469 290 134459 miljöpartiets 367 33 57411 reservation 591 211 26565 mångfald 259 62 19816 regeringen 3183 2270 19585 uranbrytning 195 37 18653 biologisk 175 33 16719 friåret 74 3 16399 inte 14006 12216 15296 klimatpåverkan 95 8 14932

(M) Ord F r parti F r andra IG arbetsmarknaden 784 388 39195 viktigt 1915 1288 34677 trafikverket 247 70 31324 frågat 256 77 30363 avser 383 158 28131 reformer 269 90 27542 arbete 1197 763 27245 utvecklingsgarantin 124 20 26591 eva-lena 75 4 25497 finanser 113 18 23644

(S) Ord F r parti F r andra IG socialdemokrater 743 35 243832 ministern 1233 215 219495 arbetsmarknadsministern 421 24 130707 statsrådet 758 163 113728 engström 269 7 101376 hillevi 265 6 100055 borgerliga 659 150 93307 regeringen 3379 2097 73789 säger 1944 1014 73646 fas 449 96 67074

(SD) Ord F r parti F r andra IG sverigedemokrater 473 7 86013 svenska 3252 1307 75907 sverigedemokraterna 1215 239 72180 invandringen 435 15 65567 invandring 460 23 61429 islam 345 7 59922 invandringspolitik 303 3 58164 invandrare 580 69 50813 sverigedemokraternas 435 44 41781 svenskar 486 60 41522

(V) Ord F r parti F r andra IG vänsterpartiet 1427 243 179588 kvinnor 1250 452 67595 riskkapitalbolag 193 2 61854 carl 358 41 58583 borgerliga 692 193 53738 bildt 247 22 46841 vinster 227 27 36777 skattepengar 199 24 31731 marocko 181 26 25675 valutaunion 74 0 25562

Nyckelordsextraktion med IG Vad får vi ut? Självreferens. Ett undantag... Sakliga nyckelbegrepp. Motståndarlagets talesperson i partiets profilfrågor namnet får nyckelstatus. Verkar detta (intuitivt) vara en bra metod att extrahera nyckelord?

Nyckelord per kön Total undersökning. Riksmötena 2006/2007 2009/2010. (Fyra år.) Nyckelordsextraktion med IG, som tidigare. Tabeller som tidigare.

Riksmötena 2006/2007 2009/2010 Anföranden tagna ur riksdagsprotokollet. (Annan text borttagen.) För varje anförande anges talare. Kön kopplat till det via data från Riksdagens beskrivningar av ledamöterna. Antal löpord: Män 11 547 420 Kvinnor 8 574 548 totalt 20 121 968

Kvinnliga talare Ord F r kvinnor F r män IG kvinnor 1071 311 160693 barn 924 428 67191 och 28113 25550 44491 också 5198 4140 42859 våld 246 72 36676 män 364 149 33480 försäkringskassan 220 83 23302 kvinnors 170 54 22882 barnen 239 102 20474 många 2364 1874 20122

Kvinnliga talare (tio ord till) Ord F r kvinnor F r män IG mäns 96 20 19846 kvinnorna 113 28 19816 äldreomsorgen 115 32 17782 behöver 1061 761 17670 sjuka 175 70 16969 ministern 535 337 16273 otroligt 140 55 13657 viktigt 1493 1180 13064 undrar 249 133 12819 föräldrar 235 124 12480

Manliga talare Ord F r män F r kvinnor IG den 12630 11212 30067 detta 3823 3174 21247 låt 405 228 17544 arbetsmarknadsministern 190 79 16354 svenska 1244 931 15796 sverige 2429 1992 15253 östros 80 17 14844 punkten 96 26 14360 europeiska 256 139 12245 han 1099 847 11467

Manliga talare (tio ord till) Ord F r män F r kvinnor IG politik 869 649 11160 möjligen 112 43 11143 naturligtvis 860 646 10678 sysselsättningen 99 36 10660 en 16302 15338 10525 lars 206 110 10262 peter 173 89 9547 ulla 55 14 9150 svensk 470 326 9145 unionen 126 58 9022

Nyckelordsextraktion per kön Vad får vi ut? Innehållsteman : Kvinnor: former av substantiven kvinna, man (grundformen dock osynlig utan analys) och barn. Män: Geografiska termer, egennamn, han. Tematiskt mer neutrala ord: Kvinnor: otroligt, viktigt, och, också, många, undrar. Män: den, detta, låt, naturligtvis. Vad säger detta?

Bigram partier Lite annan undersökning: Bigram, två löpord intill varandra utan mellanliggande skiljetecken. (Därför färre än löporden.) Total undersökning. Partierna, Riksmötet 2010/2011. Rena graford (och grafbigram ) ingen lingvistisk analys. Graford med versal/gemen neutraliserat. Samma kvantitativa mått som tidigare. Relativa frekvenser och IG hos bigram. Anföranden från visst parti kontra dem som kommer från alla andra talare.

Riksmötet 2010/2011 antal bigram Anföranden, som tidigare. (M) 947 421 (S) 758 295 (V) 448 555 (C) 404 151 (MP) 353 175 (FP) 351 158 (KD) 312 944 (SD) 212 505 opolitiska 3 676 totalt 3 791 880

(C) bigram Bigram F r parti F r andra IG i+centerpartiet 181 2 53453 centerpartiet+och 173 12 32589 centerpartiet+har 136 6 30707 och+centerpartiet 139 8 27474 för+centerpartiet 101 2 26971 centerpartiet+vill 87 1 25949 centerpartiet+är 114 4 25936 det+förnybara 141 12 23587 matilda+ernkrans 96 3 22653 åsa+romson 144 15 21750

(FP) bigram Bigram F r parti F r andra IG i+folkpartiet 222 1 63612 från+folkpartiets 83 0 24622 folkpartiets+sida 77 0 22839 födda+kvinnor 71 0 21057 folkpartiet+har 97 3 20716 så+vidare 490 166 19906 utrikes+födda 111 10 16408 och+så 621 263 16185 folkpartiet+och 97 8 14811 betänkandet+och 185 40 13867

(KD) bigram Bigram F r parti F r andra IG vi+kristdemokrater 463 0 135391 som+kristdemokrat 141 0 39970 oss+kristdemokrater 86 0 24018 kristdemokrater+har 80 0 22148 det+civila 163 15 21238 och+sjukvården 176 20 20789 eva+olofsson 134 10 19559 civila+samhället 137 11 19542 vårt+land 489 160 19115 öppna+jämförelser 105 5 18612

(MP) bigram Bigram F r parti F r andra IG i+miljöpartiet 283 6 68622 miljöpartiet+anser 142 1 39880 miljöpartiet+har 238 20 36571 miljöpartiet+vill 130 8 23262 från+miljöpartiets 85 2 20526 miljöpartiet+är 110 7 19238 biologisk+mångfald 187 30 18842 till+reservation 277 66 18745 miljöpartiets+reservationer 62 0 18341 miljöpartiets+sida 76 2 17524

(M) bigram Bigram F r parti F r andra IG jag+avser 268 44 50682 frågat+mig 239 42 42705 avser+att 339 97 36126 bengt+berg 82 3 29696 har+frågat 233 58 29640 offentliga+finanser 109 10 28863 och+utvecklingsgarantin 135 19 28671 viktigt+att 1305 747 27031 på+arbetsmarknaden 512 222 25757 är+viktigt 968 548 21037

(S) bigram Bigram F r parti F r andra IG vi+socialdemokrater 688 1 314892 hillevi+engström 284 5 109086 anders+borg 336 47 64202 den+borgerliga 413 75 64014 i+fas 236 25 53037 oss+socialdemokrater 104 0 46419 att+ministern 226 31 43880 borgerliga+regeringen 261 48 40104 socialdemokrater+har 100 1 39826 maria+larsson 183 23 37222

(SD) bigram Bigram F r parti F r andra IG vi+sverigedemokrater 438 0 99886 det+svenska 885 171 48415 svenska+samhället 292 31 25921 illegala+invandrare 118 1 24741 till+sverige 442 88 23472 här+landet 273 35 20997 menar+att 664 209 19748 svenska+folket 344 65 19112 svenska+ungdomar 99 2 17715 sverigedemokraterna+har 169 15 16624

(V) bigram Bigram F r parti F r andra IG i+vänsterpartiet 352 5 107089 carl+bildt 261 20 50057 vänsterpartiet+har 236 17 46644 den+borgerliga 435 101 36907 vänsterpartiet+är 143 8 31410 kvinnor+som 281 61 25449 vänsterpartiet+vill 123 9 24100 vi+rödgröna 136 12 23929 vänsterpartiet+anser 82 2 23050 i+afghanistan 241 58 19596

Nyckelbigramsextraktion med IG Vad får vi ut? Självreferensbigram. Ett undantag igen... Kollokationer: förnamn-efternamn, vissa sakliga fraser (t.ex. utrikes födda, civila samhället, biologisk mångfald). Motståndarlagets talesperson i partiets profilfrågor förnamn-efternamn får nyckelstatus. Verkar detta (intuitivt) vara en bra metod att extrahera nyckelbigram?

Nyckelbigram per kön Total undersökning. Riksmötena 2006/2007 2009/2010. (Fyra år.) (Som för graford.) Samma kvantitativa mått som för partiundersökningen.

Riksmötena 2006/2007 2009/2010 Anföranden tagna ur riksdagsprotokollet. (Annan text borttagen.) För varje anförande anges talare. Kön kopplat till det via data från Riksdagens beskrivningar av ledamöterna. Antal bigram: Män 10 452 716 Kvinnor 7 757 611 Totalt 18 21 0327

Kvinnliga talare bigram Bigram F r kvinnor F r män IG kvinnor+som 172 43 29957 kvinnor+och 189 53 29220 mot+kvinnor 114 21 25409 våld+mot 112 22 24296 mäns+våld 80 13 19712 och+män 116 32 18559 att+kvinnor 97 26 16018 barn+och 180 76 15715 barn+som 151 60 14928 viktigt+att 986 733 13285

Kvinnliga talare bigram (tio till) Bigram F r kvinnor F r män IG jag+undrar 140 64 10503 vet+att 443 301 9737 och+unga 50 12 9344 för+kvinnor 72 24 9037 och+barn 57 16 8642 på+landsbygden 83 32 8577 många+kvinnor 48 12 8529 handlar+om 1109 892 8382 och+att 1142 922 8368 är+otroligt 59 18 8192

Manliga talare bigram Bigram F r män F r kvinnor IG den+svenska 521 326 15762 thomas+östros 80 18 14503 europeiska+unionen 111 37 13319 låt+mig 258 139 12513 den+punkten 65 14 12352 i+sverige 1191 929 11367 ulla+andersson 50 8 11204 offentliga+finanserna 45 7 11072 offentliga+finanser 39 4 10897 på+den 729 536 10357

Manliga talare bigram (tio till) Bigram F r män F r kvinnor IG full+sysselsättning 51 11 9541 de+offentliga 59 18 7951 i+grunden 118 56 7681 politik+som 233 143 7661 patrik+björck 55 17 7502 lars+johansson 41 10 7289 låt+oss 161 91 6961 lång+rad 59 21 6510 allt+väsentligt 28 5 6005 kalle+larsson 65 26 5918

Nyckelbigram per kön Nyckelbigrammen relaterade till de nyckelord vi fann tidigare. Innehållsteman bekräftas: Kvinnor: fraser med former av substantiven kvinna, man och barn. Män: Tvåledade geografiska termer, tvåledade egennamn, offentliga finanser(na). Tematiskt mer neutrala bigram: Kvinnor: jag undrar, vet att, viktigt att, och att. Män: låt mig, låt oss, i grunden, lång rad, allt väsentligt. Vad säger detta?