Kunskapens miljonprogram. Sverker Johansson Högskolan Dalarna

Relevanta dokument
Öppna data för robotar ger tillgängliga data för människor. Sverker Johansson Högskolan Dalarna

Kan en robot skriva teknisk information? Exempel från Wikipedia. Sverker Johansson Högskolan Dalarna

Vil vi bli millionær? - Botprodusert Wikipedia

Wikipedia och Wikipedianer i folkbildningens tjänst. Olof Sundin Högskolan i Borås & Lunds universitet

Digital sekvensinformation och Nagoyaprotokollet

Eric Luth IB-alumni Per Brahegymnasiet, Jönköping

Tänk dig en värld där varje människa på den här planeten får fri tillgång till mänsklighetens samlade kunskap.

Registrera konferenspublikationer i DiVA

Jimmy Wales, Wikipedias grundare. Välkommen till. Wikipedia

DSpace som system för årsredovisning av forskning. Linda Gustafsson Bibliotek och IT, Malmö högskola. Mötesplats Open Access april 2007

Digital Writer: Skapa, berika och förstärk ditt innehåll

Svensk nationell datatjänst, SND BAS Online

Kunskapsgraf. Fredrik Åkerberg Tommy Kvant 1 Introduktion. 2 Relaterade projekt.

Pass 3: Metadata. Svensk nationell datatjänst, SND BAS Online

5. Vad jag kan / What I can do. CHECKLISTA Nivå B2 Level B2. 1. Jag kan i detalj förstå vad man säger till mig på normalt samtalsspråk.

Plankton basen i havets näringsvävar

Informationssökning och bibliotekets resurser Uddevalla Gymnasieskolas bibliotek

Framsida På framsidan finns:

En databas över förlagens policies

Open Access perspektiv från ett lärosätes ledning. Stefan Bengtsson Rektor Malmö högskola Prorektor/vice VD Chalmers -1107

Open access till artiklar 2018 Årlig uppföljning av öppen tillgång till artiklar registrerade i DiVA

Protokoll fo r examination av examensarbeten vid juridiska institutionen

Medaktörskap i ArchSafeforskningen. Presentation vid MSB:s forskardagar 2015 i Stockholm den november

Informations- och artikelsökning

Astronomi. Vetenskapen om himlakropparna och universum

Presentationen i korthet

Rapport för Andrew Jones

RMAD MED APPSALES BLACK CONNECTS YOUR BUSINESS TO A MOBILE WORLD.

Handlingsplan och sammanställning efter genomförd kartläggning på förskolan av 42 barn, April 2016 (Juni 2016)

ROOFCALCULATOR. Webbaserad mjukvara KOMPLETT vindlastberäkningsprogram. Framsida. Eurocode EN

Undervisningen ska även bidra till att eleverna får möta och bekanta sig med såväl de nordiska grannspråken som de nationella minoritetsspråken.

Basfrågor: En delad värld

SKOLPORTENS NUMRERADE ARTIKELSERIE FÖR UNDERVISNING, LÄRANDE OCH LEDARSKAP GRANSKNINGS- INSTRUKTION FÖR LEDA & LÄRA

En dansk version av detta dokument kan laddas ned här: people/hagerman/retningslinjer.pdf (pdf, 500 kb)

Slutrapport Projekt Internet i Sverige

Handledning Sherpa/RoMEO

Norden. Du kommer att få lära dig mer om:

Skyddad natur. Statistiska centralbyrån SCBDOK (11) MI0603. Innehåll

LIBRIS öppna infrastruktur

Fortsättning av en bibliometrisk studie för jämförelse mellan LTU och vissa andra europeiska universitet

HTAi konferens i Köln juni 2019

Handbok i konsten att köpa översättningar

Skriv! Hur du enkelt skriver din uppsats

LUP = Mer pengar till forskning?

Lässtrategier för att förstå och tolka texter samt för att anpassa läsningen efter textens form och innehåll. (SV åk 1 3)

Universell utformning tillgänglighet och skälig anpassning

Redovisning av Kalmar kommuns arbete med Öppna data

Textalk AB Krokslätts fabriker Mölndal. Tel: Fax:

Handbok i konsten att köpa översättningar

Minifakta om dinosaurier

PCKeeper. Human Inside

Söka artiklar i CSA-databaser Handledning

HUGO-projektet. Kartläggningen av det mänskliga genomet

Sammanfattning av kommunbibliotekens önskemål och åsikter i frågan om E-tjänster

Klipp-och-klistra DNA: fixa mutationen med gen editering DNA, RNA och Protein

Introduktion EFFSO Excelutbildning för inköpare

Open Access i Sverige

Assistans med språklig kvalitet Stöd eller irritationsmoment?

INFÖR NATIONELLA PROVEN I SVENSKA. Olika typer av texter

Projecticon PKS. Microsoft Project och dokumenthantering

Svensk nationell datatjänst, SND BAS Online

Internal Market Information System -IMI. Utrikesdepartementet

KN - Seminarium. (Litteratursökning)

Får jag använda Wikipedia?

AARO Integration. Snabbare rapportering och analys med kvalité. Dan Hellum

Naturvetenskapsprogrammet

Moment 6: E-arkivet och våra verksamhetssystem

Från bibliografisk kontroll till verktyg för att upptäcka och navigera

Kostnadsdelning mellan medregistranter med olika datakrav. maj 2017

*För examensarbeten som skrivs inom ämnena engelska / moderna språk ska examensarbetet skrivas på målspråk

Vad är. Domändriven design?

Öppen tillgång Nationella riktlinjer

HANDLÄGGNINGSORDNING FÖR HANTERING AV SJÄLVSTÄNDIGA ARBETEN

Curriculum Vitae Jenni Wallin

Handledning för användare av ALLASKA

PROJEKTDIREKTIV. Genomizer. Dokumenthistorik version datum utförda förändringar utförda av granskad

- nya möjligheter att göra forskningen tillgänglig. Vetenskaplig publicering och Open Access Karlstads universitet, 18 februari 2010

Amerikanerna och evolutionen

KVINNORS HISTORIA. Handledning i att arrangera föredrag och diskussionskvällar Guide i att arrangera wiki-workshops för att skriva historia

Stockholm 9 maj 2017 Lars Thunberg

En verktygslåda för tjänsteorientering

Vi arbetar också medvetet med de andra målen i förskolans läroplan som t.ex. barns inflytande, genus och hälsa och livsstil.

Idunskolans lokala pedagogiska planering för gymnasiesärskolan. Läsåret 2015/2016 och 2016/2017

Källor och källhantering enligt Harvardsystemet

Snabbstartsguide. Få hjälp Klicka på frågetecknet om du vill söka efter hjälpinnehåll.

Underlag till kravspecifikation för Vårdförbundets tidningsarkiv

Kopplingar till kursplaner för grundskolan

Dinosaurier och livet på jorden

Rymdpromenad med fakta och grubbel. Vilken raket kommer först till Jupiter? Räkna ihop. Högst summa vinner!

Kopplingar till kursplaner för grundskolan

Bilaga 5: Nytt språk svenska. Wikispeech. en användargenererad talsyntes på Wikipedia

Publicera och registrera uppsats (examensarbete) i DiVA

"Jordens processer" I Europa finns det vulkaner, glaciärer och bergskedjor. Varför finns de hos oss? Hur blir de till?

LÄRARHANDLEDNING. ROBOTS: gå-själv-material - årskurs 4-6

Med koppling till EmiWeb

Ekologiskt fotavtryck

Måndag 8/ :05 Avfärd med buss från Söderhamn. 06:25 Byte till tåg i Gävle

HTML5 Semantic. Informationen kommer från w3schools.com. En semantisk elementet beskriver tydligt dess betydelse för både webbläsaren och utvecklaren.

Transkript:

Kunskapens miljonprogram Sverker Johansson Högskolan Dalarna

Från arkivdata till miljoner Wikipediaartiklar Sverker Johansson (Lsj)

Wikipedia Imagine a world in which every single person on the planet is given free access to the sum of all human knowledge. That's what we're doing. Jimmy Wales, 2004. Alla kan läsa Wikipedia, alla kan skriva. Någon miljard människor läser verkligen men långt ifrån alla skriver. Wikipedia läses mest av inte alltför fattiga som talar ett världsspråk. Wikipedia skrivs mest av unga manliga nördar i rika västländer, vilket återspeglas i artiklarna.

Sum of all human knowledge Det är väldigt mycket kunskap Även med tusentals skribenter så skrapar vi bara på ytan. Vi skrapar mest på ställen som intresserar oss, vilket gör täckningen väldigt ojämn. Svenska Wikipedia: Mer än 100 artiklar om personer från Sagan om Ringen. Bara 10 artiklar om personer från Vietnamkriget. Vad gör vi åt det?

every single person on the planet is given free access Det är mycket människor, som talar många olika språk Även med tusentals skribenter så skrapar vi bara på ytan. Vi skrapar mest på språk som vita manliga nördar talar, vilket gör täckningen väldigt ojämn. Ojämn täckning mellan språk. Javanesiska: 82 miljoner talare, 45 000 Wikipediaartiklar Franska: 74 miljoner talare, 1 400 000 Wikipedia artiklar Hur fritt tillgänglig är kunskap för den som bara kan javanesiska? Vad gör vi åt det?

Platser som har artiklar på Wikipedia. Artikelförfattares hemtrakter? Sannolikt samma fördelning av biologiska artiklar

Förbättra täckningen och gör den både mer representativ och bredare tillgänglig! Två sätt att göra det. Båda behövs! Rekrytera miljoner skribenter, som inte är unga vita manliga nördar. Vi försöker, men det är svårt Använda verktyg för att skapa artiklar som är både effektivare och neutralare än manuellt skrivande. Konvertera arkivdata till artikeltext. Det är det jag ska prata om idag!

Masskapande av artiklar Wikipedia är öppet för automatiserat skrivande med mer eller mindre självständig mjukvara botar. Mycket rutinunderhåll på Wikipedia görs med botar stor andel av alla ändringar på Wikipedia (26%). Artikelskapande med bot är mer komplext och mer kontroversiellt. Flera projekt på flera språkversioner av Wikipedia de senaste åren.

Artikelförfattande med bot 8,6 miljoner artiklar skapade totalt (25,7% av totalen) Handfull människor involverade, med min Lsjbot den enskilt flitigaste (3,5 miljoner). Holländska, svenska, cebuano, vietnamesiska, och waray har alla kring en miljon botskapade artiklar var. Inte stora världsspråk Djur, växter, kommuner, sjöar, Inte typiska manliga nördintressen

Exempel på botskapad artikel

Egenskaper hos botskapade artiklar Bra: Basfakta korrekt presenterade, koncist och konsekvent. Korrekt wikipediaformat. Faktarutor, språklänkar, kategorier Tryckfelsnisse håller sig borta Problem kan ofta fixas med bot. Dåligt: Brödtexten kort och standardiserad. Tråkig att läsa. Begränsat till standardiserbara fakta i maskinläsbart format i öppna källor med bot-tillgängligt gränssnitt. Följer källorna blint. Svårigheter med anomalier och undantag.

Vad behövs för att botskapa artiklar? Öppna data! Maskinläsbart (api eller nedladdat). Användarvillkor kompatibla med botskapande. Standardiserade fakta om ett stort antal enheter, antingen: Språkoberoende (siffror, vetenskapliga namn, kodade data ) eller På målspråket. Mjukvara Ingenting väldigt avancerat. Många verktyg fungerar. Vad som helst som kan läsa en databas och stoppa in data i ett textformulär. MS Excel, C#, AWB, Pythia har alla använts i stor skala. En som talar målspråket, och kan relevanta facktermer. Konsensus på målspråkets Wikipediaversion!

Ämnesområden för botskapande Krav: Finns ett stort antal liknande enheter, som var och en är värd en Wikipediaartikel. Varje enhet kan beskrivas med en uppsättning standardiserade basfakta. Basfakta helst språkoberoende. Öppna data med komplett täckning av ämnesområdet finns. Exempel på möjliga ämnesområden: Djur- och växtarter. Geografiska platser (städer, berg, sjöar ). Himlakroppar (asteroider, galaxer ). Gener och proteiner. Böcker och författare. Konstverk och konstnärer. Fornminnen.

Sprida kunskap på flera språk Väldesignade botprogram kan lätt anpassas till olika språk. Kräver språkoberoende basfakta i databasen. Kan kräva både tekniskt pyssel och förhandlingar på Wikipedia, eftersom de olika språkversionerna har stor självständighet. Nödvändigt för att sprida kunskap till de miljarder människor som inte talar ett stort västerländskt världsspråk.

Samma fjärilsartikel på språket Waray-Waray

Slutförda botprojekt som jag känner till: Fågelarter, 8000 artiklar: Svenska, Lsjbot, Excel+Pythia+Google Translate (aldrig mer G.T.!) Frankrikes kommuner, 50,000: Svenska, Naskobot, Excel+AWB Kemiska grundämnen, 100: Cebuano, Lsjbot, C# Filippinernas kommuner, 1 300 Cebuano, Lsjbot, C# Sveriges sjöar, 56 000 Svenska, Naskobot, Excel+GIS+AWB Counties i USA Svenska, Innocent Bot,? Alla världens arter (djur+växter+svampar), 3 500 000 Svenska+Cebuano+Waray, Lsjbot, C# Djurarter på holländska & vietnamesiska, 1 000 000 + 750 000 Cheers!-bot, Joopwikibot m.fl.

Summering Nackdelar med botskapande: Tråkiga artiklar om obskyra ämnen. Fungerar bara inom vissa områden. Fortfarande kontroversiellt bland en del wikipedianer. Databasfel och programmeringsfel kan förekomma. Fördelar med botskapande: Effektivt sätt att få fullständig täckning inom de områden där det fungerar. Pålitliga källbelagda artiklar. Utsträcker Wikipedias täckning utanför vita manliga nördars intresseområden. Utsträcker Wikipedias täckning utanför vita nördars språk. Kan föra oss påtagligt närmare målet att göra all kunskap tillgänglig för alla människor.

Varför bör vi underlätta botars spridning av kunskap? En minoritet av befolkningen som söker kunskap direkt hos det digitala kulturarvets förvaltare. Vet inte om var relevanta data finns. Förstår inte data inbäddade i facktermer. Tekniskt svårt att komma åt. Även för den som kan det som behövs kan det vara svårt att sammanställa rätt uppgifter från olika datavärdar. En minoritet av befolkningen i världen talar de språk som våra arkiv och databaser använder. Sprid kunskapen bredare! Kulturarvet är inte bara till för experter, men svårt att paketera data bra för allmänheten. Botar bra mellanhand!

Wikipediaartiklar om platser Öppna data om platser (geonames.org)