SU publikationer och ESI klasser: citeringsgrad och andel högt citerade publikationer Per Ahlgren, avd. för e-resurser, Stockholms universitetsbibliotek 1 Inledning I föreliggande rapport redogörs för en citeringsstudie av en uppsättning publikationer kopplade till Stockholms universitet (SU). I studien har Thomson Reuters ämnesklassifikation av tidskrifter, med avseende på verktyget Essential Science Indicators (ESI), använts. 1 Varje i studien ingående publikation tilldelades, som en funktion av den tidskrift i vilken publikationen ingår, endera av 22 ämnesklasser. I fortsättningen av rapporten kallar vi dessa ämnesklasser för ESI-klasser. Två indikatorer tillämpas i studien: ESI-normerad citeringsgrad samt Top-10%. Indikatorerna beskrivs i nästföljande avsnitt. Syftet med studien är belysa SU-publikationers internationella genomslagskraft ( impact ) inom ett antal breda ämnesområden. Fortsättningen av rapporten är strukturerad enligt följande. Datainsamling och metoder beskrivs i avsnitt 2. Resultaten redovisas i avsnitt 3, och avslutande synpunkter ges i avsnitt 4. 2 Datainsamling och metoder De analyserade publikationerna hämtades från Web of Science (Science Citation Index Expanded och Social Sciences Citation Index). Tre publikationstyper ingår i studien: artikel, proceedingspaper 2 och review. Med databasåret för en publikation representerad i Web of Science avses i denna studie det år, under vilket publikationen tillfördes Web of Science. Varje i studien ingående publikation har något av databasåren 2005-2008. Datauttaget från Web of Science gjordes i början på januari år 2010, och följande sökfråga användes: AD=("stockholms universitet" OR "stockholm universitet" OR "stockholms univ" OR "stockholm univ" OR "stockholms university" OR "stockholm university" OR "university of stockholm" OR "university stockholm" OR "univ of stockholm" OR "univ stockholm") 1 Drygt 11200 tidskrifter har tilldelats exakt en av de 22 ämnesklasser, som klassifikationen ifråga involverar. 2 Endast papers publicerade i tidskrifter. 1
Sökfrågan returnerade 5321bibliografiska poster. Dessa laddades ner i form av textfiler, vilka sedan bearbetades med hjälp av olika program. Adresserna i posterna granskades manuellt, i syfte att detektera icke-relevant material. 257 poster visade sig vara sådana att ingen adress kunde kopplas till SU. Ytterligare 85 poster gällde publikationer publicerade i bokserier, och fick därför tas bort från studien. Efter eliminering av icke-relevant material återstod således 4979 publikationer. Varje återstående publikation tilldelades den ESI-klass, till vilken dess tidskrift tilldelats. På så sätt genererades 22 grupper av SU-publikationer, motsvarande de 22 ESI-klasserna. 87 publikationer tilldelades klassen Multidisciplinary. I syfte att få en mer precis klassificering av dessa publikationer genomfördes en omklassificering. Web of Sciencefunktionerna Related Records och Analyze Records användes här. Den förstnämnda returnerar, för en given publikation, varje publikation bibliografiskt kopplad med den givna, d v s varje publikation med minst en gemensam referens med den givna. För varje publikation i klassen Multidisciplinary togs först de bibliografisk kopplade publikationerna fram. Analyze Records användes sedan för att ordna ämneskategorier (Subject Categories) fallande efter förekomstfrekvens i de bibliografiskt kopplade publikationerna. Den mest frekventa kategorin fick sedan ligga till grund för till vilken ny ESI-klass publikationen skulle föras. Efter omklassificeringen förelåg då 21 grupper av SU-publikationer, motsvarande 21 ESI-klasser. En av dessa grupper, (Agricultural Sciences) SU, innehöll endast 20 publikationer, och togs därför bort. ESI tillhandahåller referensvärden avseende dels genomsnittlig citeringsgrad, dels percentiler. För såväl genomsnittlig citeringsgrad som percentiler gäller att värdena avser de tre ovan angivna publikationstyperna, ett visst databasår och en given ESI-klass. I tabell 2 (Appendix A), hämtad från ESI, listas de 22 ESI-klasserna, och inom en given klass ges genomsnittliga citeringsgrader för databasåren 1999-2009. Värdena i tabellen resulterar från den uppdatering av ESI, som Thomson Reuters gjorde i början av januari år 2010. Exempelvis gäller att artiklar, proceedingspapers och reviews, tillförda databaserna år 2005 och publicerade i tidskrifter tillhörande klassen Biology & Biochemistry, i genomsnitt mottagit 14,21 citeringar (rad 4, kolumn 8) fram till början av år 2010. Tabell 3 (Appendix A) ger ett utdrag ur den percentiltabell, som tillhandhölls av ESI efter den ovan nämnda uppdateringen. För att exemplifiera, den 90:e percentilen i den citeringsfördelning vilken gäller artiklar, proceedingspapers och reviews, tillförda databaserna år 2005 och publicerade i tidskrifter tillhörande klassen Biology & Biochemistry är lika med 32 (rad 12, kolumn 8). Detta innebär att 10% av fördelningens publikationer mottagit fler än 32 citeringar. I detta arbete studeras grupper av SU-publikationer, grupper motsvarande ESI-klasser. Gällande indikatorn ESI-normerad citeringsgrad jämförs citeringsfrekvenserna för en grupps publikationer med förväntade värden (referensvärden) för den ESI-klass, som motsvarar gruppen, med hänsyn taget till databasår. För en given grupp av SU-publikationer dividerades citeringsfrekvensen för en publikation i gruppen med den genomsnittliga citeringsgraden för kombinationen av den ESI-klass som publikationen (tillsammans med övriga publikationer i gruppen) tilldelats och det databasår, vilket gäller för publikationen. Summan av de på så sätt framtagna värdena dividerades sedan med antalet publikationer i gruppen, och resultatet av divisionen utgör gruppens värde på indikatorn. Ett indikatorvärde större än 1 betyder att gruppens publikationer i genomsnitt citeras mer jämfört med det förväntade värdet. 2
Indikatorn Top-10% belyser i vilken utsträckning en grupps publikationer finns bland de 10% högst citerade publikationerna, genom att gruppens andel publikationer bland de 10% högst citerade jämförs med den förväntade andelen, 0,1. För given grupp av SU-publikationer jämfördes först en publikations citeringsfrekvens med den 90:e percentilen för kombinationen av den ESI-klass publikationen tilldelats och det databasår, vilket gäller för publikationen. Sedan dividerades antalet publikationer, vars citeringsfrekvenser överstiger motsvarande 90:e percentil med det totala antalet publikationer i gruppen, och den resulterande andelen dividerades med den förväntade andelen 0,1. Resultatet av den sistnämnda divisionen utgör gruppens värde på indikatorn. Ett indikatorvärde större än 1 betyder att gruppens andel publikationer bland de 10% högst citerade överstiger den förväntade andelen. Formella definitioner av ESI-normerad citeringsgrad och Top-10% ges i Appendix B. 3 Resultat I tabell 1 ges värden gällande antal publikationer, ESI-normerad citeringsgrad, antal publikationer bland de 10% högst citerade samt Top-10%. Figur 1 visualiserar, med avseende på ESI-normerad citeringsgrad och Top-10%, det utfall som rapporteras i tabell 1. Den ESI-normerade citeringsgraden är i 18 av de 20 fallen större än 1. Störst värde har gruppen (Physics) SU, vars 512 publikationer i genomsnitt citeras över fyra gånger mer än förväntat. Dock ligger två extremvärden bakom det höga värdet. Dessa associeras med en artikel och en review, vilka citeras flera hundra gånger mer än sina referensvärden. Tas dessa båda publikationer bort ur analysen sjunker den ESI-normerade citeringsgraden till 2,10. Ytterligare sju grupper har ett indikatorvärde större än 2, medan grupperna (Immunology) SU och (Psychiatry/Psychology) SU har värden mindre än 1. Lägst värde, 0,66, har den förstnämnda gruppen. Värdet innebär att gruppens publikationer i genomsnitt har en citeringsfrekvens, som ligger 34% under det förväntade värdet. För indikatorn Top-10% gäller att 14 av de 20 grupperna har ett värde större än 1. Gruppen (Computer Science) SU har det största värdet (3,95), vilket innebär att andelen publikationer bland de 10% högst citerade är nära fyra gånger större än den förväntade. Efter (Computer Science) SU följer (Space Science) SU (3,01) och (Materials Science) SU (2,69). Sex av grupperna har värden mindre än 1, vilket är klart mer jämfört med fallet ESI-normerad citeringsgrad. De två minsta värdena, också ifråga om denna indikator, har (Psychiatry/Psychology) SU (0,50) och (Immunology) SU (0,17). 3
Tabell 1. Antal publikationer, ESI-normerad citeringsgrad, antal publikationer bland de 10% högst citerade och Top-10%. Grupperna ordnade fallande efter ESI-normerad citeringsgrad (tredje kolumnen). SU grupp # pub ESI normerad citeringsgrad # Top 10% Top 10% Physics 512 4,42 127 2,48 Computer Science 38 3,87 15 3,95 Space Science 156 3,39 47 3,01 Geosciences 482 2,38 108 2,24 Engineering 106 2,35 24 2,26 Environment/Ecology 501 2,28 130 2,59 Materials Science 145 2,05 39 2,69 Chemistry 740 2,04 164 2,22 Biology & Biochemistry 523 1,97 90 1,72 Plant & Animal Science 351 1,92 72 2,05 Pharmacology & Toxicology 49 1,67 11 2,24 Social Sciences, general 279 1,50 25 0,90 Economics & Business 149 1,47 19 1,28 Neuroscience & Behavior 96 1,42 14 1,46 Mathematics 100 1,31 9 0,90 Microbiology 61 1,15 7 1,15 Molecular Biology & Genetics 174 1,15 17 0,98 Clinical Medicine 258 1,11 21 0,81 Psychiatry/Psychology 180 0,91 9 0,50 Immunology 59 0,66 1 0,17 4,50 4,00 3,50 3,00 2,50 2,00 1,50 1,00 0,50 0,00 Physics Computer Science Space Science Geosciences Engineering Environment/Ecology Materials Science Chemistry Biology & Biochemistry Plant & Animal Science Pharmacology & Toxicology Social Sciences, general Economics & Business Neuroscience & Behavior Mathematics Molecular Biology & Genetics Microbiology Clinical Medicine Psychiatry/Psychology Immunology ESI normerad citeringsgrad Top 10% Figur 1. ESI-normerad citeringsgrad och Top-10% för studiens 20 SU-grupper. Grupperna ordnade fallande efter ESI-normerad citeringsgrad. 4
Mellan ESI-normerad citeringsgrad och Top-10% föreligger en tämligen stark positiv korrelation (r = 0,85), vilket figur 1 tydligt indikerar. Från mönstret avviker exempelvis (Molecular Biology & Genetics) SU och (Mathematics) SU : den förstnämnda gruppen har ett lägre värde på ESI-normerad citeringsgrad än den sistnämnda, medan det omvända gäller för Top-10% (tabell 1; figur 1). 4 Avslutande synpunkter Vi har studerat grupper av SU-publikationer, där varje grupp motsvarar en ESI-klass, med avseende på internationell genomslagskraft mätt med mottagna citeringar. Två indikatorer användes, ESI-normerad citeringsgrad och Top-10%. Utfallet får betraktas som positivt för SU. Gällande ESI-normerad citeringsgrad är 18 av de 20 grupperna sådana att gruppens publikationer i genomsnitt citeras mer jämfört med det förväntade värdet, medan för 14 av de 20 grupperna gäller att gruppens andel publikationer bland de 10% högst citerade överstiger den förväntade andelen. Ett problem med att normera mot ESI-klasser gäller precisionen i normeringen. Det är klart att en av bibliometrins grundprinciper att jämföra likar med likar endast grovt approximeras med en sådan normering. Detta kan relateras till följande två omständigheter. (a) I en och samma ESI-klass kan förekomma tidskrifter med mycket olika ämnesinriktning. Vissa publikationers citeringsfrekvenser kan då komma att jämföras med citeringsfrekvenser för publikationer, vilka ämnesmässigt på ett betydande sätt avviker från de förstnämnda publikationerna. (b) Hänsyn tas inte till publikationstyp. Exempelvis jämförs citeringsfrekvenser för artiklar med citeringsfrekvenser för såväl artiklar som reviews. Under iakttagande av den i föregående stycke beskrivna begränsningen anser vi att utfallet av studien på ett intressant sätt belyser de involverade gruppernas internationella genomslagskraft. 5
Appendix A Tabell 2. Genomsnittlig citeringsgrad för ESI-klasser (Fields) och databasåren 1999-2009. Fields 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 All Years All Fields 18,48 17,95 16,78 15,43 13,60 11,87 9,54 6,93 4,60 2,04 0,37 10,26 Agricultural Sciences 12,32 12,48 11,40 10,52 9,66 8,35 6,51 4,84 3,00 1,16 0,20 6,54 Biology & Biochemistry 29,58 28,93 26,53 24,02 21,29 18,15 14,21 10,18 6,71 3,05 0,54 16,67 Chemistry 16,90 17,09 15,67 15,35 13,65 12,19 10,17 7,55 5,13 2,49 0,46 10,33 Clinical Medicine 21,57 20,98 19,87 18,58 16,80 14,72 12,06 8,73 5,70 2,39 0,42 12,36 Computer Science 6,93 6,39 6,71 6,82 4,44 3,23 2,62 1,66 1,78 0,76 0,15 3,34 Economics & Business 10,91 10,32 9,26 9,19 7,86 6,66 4,98 3,33 1,98 0,76 0,17 5,52 Engineering 7,40 7,26 7,05 6,42 5,83 5,29 4,20 3,07 2,19 0,94 0,18 4,29 Environment/Ecology 19,78 20,09 17,63 16,32 14,47 12,43 9,72 7,02 4,59 1,92 0,36 10,36 Geosciences 18,03 16,45 15,48 13,16 11,91 10,13 8,09 6,25 3,61 1,68 0,40 9,12 Immunology 34,81 35,24 33,25 29,81 26,52 23,72 18,87 14,00 9,44 4,22 0,72 21,04 Materials Science 10,34 10,67 10,09 9,19 8,88 7,65 6,21 4,75 3,20 1,47 0,26 6,23 Mathematics 6,48 5,90 5,19 5,04 4,39 3,78 3,11 2,27 1,44 0,67 0,15 3,24 Microbiology 28,53 26,94 24,97 22,58 20,11 17,59 14,83 10,19 6,46 2,93 0,47 15,27 Molecular Biology & Genetics 47,03 45,14 41,94 37,95 32,58 28,09 22,00 16,11 10,46 4,80 0,81 25,10 Multidisciplinary 3,39 3,57 6,44 7,19 7,21 5,87 5,59 6,44 4,80 3,28 0,93 4,60 Neuroscience & Behavior 34,15 32,63 31,08 27,52 23,37 20,32 16,43 12,04 7,65 3,34 0,55 18,62 Pharmacology & Toxicology 19,66 19,54 18,98 18,21 15,45 14,37 11,00 8,82 5,57 2,46 0,38 11,52 Physics 14,33 14,21 12,97 11,75 10,61 9,71 8,03 6,05 3,73 1,87 0,35 8,62 Plant & Animal Science 13,43 13,07 12,09 11,09 9,76 8,53 6,58 4,78 3,05 1,34 0,26 7,31 Psychiatry/Psychology 20,33 18,98 18,01 15,77 14,60 12,32 9,49 6,78 4,04 1,66 0,30 10,45 Social Sciences, general 8,15 8,00 7,30 6,92 6,16 5,53 4,48 3,13 1,89 0,75 0,17 4,35 Space Science 24,73 19,64 21,57 17,16 18,03 15,42 13,48 10,37 7,97 3,57 1,04 13,77 6
Tabell 3. Percentiler för tre ESI-klasser (Fields) och databasåren 1999-2009. Agricultural Sciences 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 All Years 0.01 % 525 584 326 433 322 384 272 89 63 45 13 321 0.10 % 229 227 202 162 165 123 92 56 39 21 7 139 1.00 % 99 92 81 73 67 54 41 29 19 10 3 57 10.00 % 31 31 29 26 24 21 16 12 8 4 1 18 20.00 % 19 19 18 17 15 13 11 8 5 3 1 10 50.00 % 6 7 6 6 6 5 4 4 2 1 0 3 Biology & Biochemistry 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 All Years 0.01 % 1629 1668 1379 1468 949 683 538 488 321 204 32 1026 0.10 % 689 594 548 518 416 313 255 178 126 64 15 403 1.00 % 234 212 190 174 156 129 98 69 47 23 6 143 10.00 % 67 65 60 54 47 40 32 23 15 8 2 40 20.00 % 41 41 38 34 30 26 21 15 10 5 1 24 50.00 % 15 16 15 14 12 11 9 7 4 2 1 8 Chemistry 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 All Years 0.01 % 1285 1349 1375 1351 850 563 586 314 266 129 32 863 0.10 % 445 455 423 399 307 272 213 146 102 53 13 287 1.00 % 139 139 125 125 105 95 77 56 39 20 6 92 10.00 % 39 39 36 35 32 28 24 19 13 7 2 25 20.00 % 24 24 22 21 20 18 15 12 8 4 1 15 50.00 % 8 8 8 8 7 6 6 4 3 2 0 4 Appendix B Låt A vara en enhet och n antalet publikationer från A. Den ESI-normerade citeringsgraden för A ges av / där c i är citeringsfrekvensen för den i:te publikationen och µ i den förväntade citeringsgraden (referensvärdet) för kombinationen av den i:te publikationens ESI-klass och dess databasår. Top-10% för A ges av där k i är 1 eller 0 beroende på om citeringsfrekvensen för den i:te publikationen är större än den 90:e percentilen med avseende den fördelning, som gäller kombinationen av den i:te publikationens ESI-klass och dess databasår, eller inte. 0,1 / 7