Öppna data för robotar ger tillgängliga data för människor. Sverker Johansson Högskolan Dalarna

Relevanta dokument
Kunskapens miljonprogram. Sverker Johansson Högskolan Dalarna

Kan en robot skriva teknisk information? Exempel från Wikipedia. Sverker Johansson Högskolan Dalarna

Vil vi bli millionær? - Botprodusert Wikipedia

Wikipedia och Wikipedianer i folkbildningens tjänst. Olof Sundin Högskolan i Borås & Lunds universitet

Eric Luth IB-alumni Per Brahegymnasiet, Jönköping

Avtal om mjukvara: UsedSoft v. Oracle i ett internationellt sammanhang. Jan Leidö, Umeå universitet jan.leido@jus.umu.se

Tänk dig en värld där varje människa på den här planeten får fri tillgång till mänsklighetens samlade kunskap.

5. Vad jag kan / What I can do. CHECKLISTA Nivå B2 Level B2. 1. Jag kan i detalj förstå vad man säger till mig på normalt samtalsspråk.

Jimmy Wales, Wikipedias grundare. Välkommen till. Wikipedia

Registrera konferenspublikationer i DiVA

INDIREKTA INKÖP MED PALETTE BUYER

Pass 3: Metadata. Svensk nationell datatjänst, SND BAS Online

Dialogue Technologies April 2005

Framsida På framsidan finns:

Handbok i konsten att köpa översättningar

Slutrapport Projekt Internet i Sverige

Digital Writer: Skapa, berika och förstärk ditt innehåll

Medaktörskap i ArchSafeforskningen. Presentation vid MSB:s forskardagar 2015 i Stockholm den november

Svensk nationell datatjänst, SND BAS Online

Får jag använda Wikipedia?

Handbok i konsten att köpa översättningar

Digital sekvensinformation och Nagoyaprotokollet

OFFENTLIG INFORMATION. A government of the people, by the people, for the people - ABRAHAM LINCOLN

Plankton basen i havets näringsvävar

DSpace som system för årsredovisning av forskning. Linda Gustafsson Bibliotek och IT, Malmö högskola. Mötesplats Open Access april 2007

Internal Market Information System -IMI. Utrikesdepartementet

FAQ. Frågor och svar. Mercell Tender Service

Återkoppling på referenshantering och informationssökning. Lotta Janson Lotta Mathiesen

Vi arbetar också medvetet med de andra målen i förskolans läroplan som t.ex. barns inflytande, genus och hälsa och livsstil.

Rapport Version 1.0 Johan Aldén Sida 1 av Rapport Förstudie Elevadministration och schemaläggning Sambruk

Öppen data och vad vi kan vinna på att offentliggöra uppgifter! Formatdag i västerås Björn Hagström bjorn.

Karriärplanering Övning 08: Professionellt nätverkande

Kunskapsgraf. Fredrik Åkerberg Tommy Kvant 1 Introduktion. 2 Relaterade projekt.

Inspirationsfasen. Fortsättning på nästa sida. Hållbar utveckling B, vårterminen Cemus/CSD Uppsala, Uppsala universitet & SLU

Euroling SiteSeeker. Sökning som en tjänst för webbplatser, intranät och e-handel.

Protokoll fo r examination av examensarbeten vid juridiska institutionen

Redovisning av Kalmar kommuns arbete med Öppna data

SKOLPORTENS NUMRERADE ARTIKELSERIE FÖR UNDERVISNING, LÄRANDE OCH LEDARSKAP GRANSKNINGS- INSTRUKTION FÖR LEDA & LÄRA

En verktygslåda för tjänsteorientering

Svensk nationell datatjänst, SND BAS Online

HTML5 Semantic. Informationen kommer från w3schools.com. En semantisk elementet beskriver tydligt dess betydelse för både webbläsaren och utvecklaren.

Vad är. Domändriven design?

Klinisk psykologi. Klinisk psykologi - Psykologi 2a Inlämningsuppgift - SA13A Söderslättsgymnasiet, Trelleborg

Importera och använda en textdatabas i Excel

Amerikanerna och evolutionen

Aktivitetstips. Drömlandet

Open access till artiklar 2018 Årlig uppföljning av öppen tillgång till artiklar registrerade i DiVA

Informationssökning och bibliotekets resurser Uddevalla Gymnasieskolas bibliotek

Handledning Sherpa/RoMEO

Barn och ungas delaktighet! Så mycket mer än att bara bestämma

PROGRAMMERING. Ämnets syfte. Kurser i ämnet

Sammanställning resultat workshop Viltkameror och medborgarforskning

I CINAHL hittar du referenser till artiklar inom omvårdnad och hälsa. Även en del böcker och avhandlingar finns med.

02. historia 03. E Ink 04. epaper 05. ebook 06. framtid 07. källor. Mjölk choklad

Det perfekta mötet med politiker och media finns det? 4 februari 2015

Den 21. life for the individual. i världen och för individen. Elevernas

Anne Persson, Professor

Marcus Eldh KARLSTAD OKT 2017

Aristi Fernandes Examensarbete T6, Biomedicinska analytiker programmet

INFÖR NATIONELLA PROVEN I SVENSKA. Olika typer av texter

Förbättringskunskap i Västernorrland

INFOKOLL. Formulera frågor Söka information

En introduktion till pr och mediebearbetning V 1.2

Hur gör jag för att ladda ner kemidata och använda dem i MS Excel?

QC i en organisation SAST

Användarhandledning DORUM

ROOFCALCULATOR. Webbaserad mjukvara KOMPLETT vindlastberäkningsprogram. Framsida. Eurocode EN

Skriv! Hur du enkelt skriver din uppsats

PROGRAMMERING. Ämnets syfte. Kurser i ämnet

Kandidatexjobb vid Industriell Marknadsföring. Process, tidsplan och opponenter samt krav

Frågor & svar om nya PuL

Astronomi. Vetenskapen om himlakropparna och universum

Föreläsning 3.1: Datastrukturer, en översikt

1. Polopoly och webbpublicering på SU

Tingsholmsgymnasiet är en modig och nytänkandeskola som kännetecknas av gemenskapoch trygghetoch utmärker sig genom kunskap och kompetens

Rapport för Andrew Jones

Introduktion till MySQL

- nya möjligheter att göra forskningen tillgänglig. Vetenskaplig publicering och Open Access Karlstads universitet, 18 februari 2010

För att då har jag ingen fritidsaktivitet och vi har bokklubb då här.

Projecticon PKS. Microsoft Project och dokumenthantering

LnuOpen Open Access-tidskrifter och konferenspublikationer från Linnéuniversitetet

Rindö skolas förskoleklass Nyckelpigan

Lärarmaterial. Vad handlar boken om? Mål och förmågor som tränas: Eleverna tränar på följande förmågor: Författare: Berit Härd

Checklista för systematiska litteraturstudier 3

Flex - Manual. Innehåll

Introduktion till Lean, dag1

Självvärdering The big five

Naturvetenskapsprogrammet

HANDLEDARE: Jonny Pedersen Datum: (Detta skrevs i November 09)

Tingsholmsgymnasiet är en modig och nytänkande skola som kännetecknas av gemenskap och trygghet och utmärker sig genom kunskap och kompetens

EXAMENSARBETE CIVILEKONOM

Informationsbrev oktober 2015

Nyhetsbrev 25/6 13 Rapport från din bankonsulent!

Grafisk manual. Studentkåren i Sundsvall 2013

Norden. Du kommer att få lära dig mer om:

Föreläsning 2: Datainsamling - Observation, enkät, intervju. Att läsa: Kapitel 7 i Rogers et al.: Interaction design

TILLÄMPNING. Hudiksvalls kommun. Grafisk profil

Arbetsplan - turkiska.


Transkript:

Öppna data för robotar ger tillgängliga data för människor Sverker Johansson Högskolan Dalarna

Från öppna data till miljoner Wikipediaartiklar Sverker Johansson (Lsj)

Wikipedia Imagine a world in which every single person on the planet is given free access to the sum of all human knowledge. That's what we're doing. Jimmy Wales, 2004. Alla kan läsa Wikipedia, alla kan skriva. Hundratals miljoner läser verkligen men långt ifrån alla skriver. Wikipedia läses mest av inte alltför fattiga som talar ett världsspråk. Wikipedia skrivs mest av av unga manliga nördar i rika västländer, vilket återspeglas i artiklarna.

Sum of all human knowledge Det är väldigt mycket kunskap Även med tusentals skribenter så skrapar vi bara på ytan. Vi skrapar mest på ställen som intresserar oss, vilket gör täckningen väldigt ojämn. Svenska Wikipedia: Mer än 100 artiklar om personer från Sagan om Ringen. Mindre än 10 artiklar om personer från Vietnamkriget. Vad gör vi åt det?

every single person on the planet is given free access Det är mycket människor, som talar många olika språk Även med tusentals skribenter så skrapar vi bara på ytan. Vi skrapar mest på språk som vita manliga nördar talar, vilket gör täckningen väldigt ojämn. Ojämn täckning mellan språk. Javanesiska: 82 miljoner talare, 45 000 Wikipediaartiklar Franska: 74 miljoner talare, 1 400 000 Wikipedia artiklar Hur fritt tillgänglig är kunskap för den som bara kan javanesiska? Vad gör vi åt det?

Förbättra täckningen och gör den både mer representativ och bredare tillgänglig! Två sätt att göra det. Båda behövs! Rekrytera miljoner skribenter, som inte är unga vita manliga nördar. Vi försöker, men det är svårt Använda verktyg för att skapa artiklar som är både effektivare och neutralare än manuellt skrivande. Det kräver öppna data. Det är det jag ska prata om idag!

Masskapande av artiklar Wikipedia är öppet för automatiserat skrivande med mer eller mindre självständig mjukvara botar. Mycket rutinunderhåll på Wikipedia görs med botar stor andel av alla ändringar på Wikipedia (26%). Artikelskapande med bot är mer komplext och mer kontroversiellt. Flera projekt på flera språkversioner av Wikipedia de senaste åren.

Artikelförfattande med bot 8,6 miljoner artiklar skapade totalt (25,7% av totalen) Handfull människor involverade, med min Lsjbot den enskilt flitigaste (3,5 miljoner). Holländska, svenska, cebuano, vietnamesiska, och waray har alla kring en miljon botskapade artiklar var. Inte stora världsspråk Djur, växter, kommuner, sjöar, Inte typiska manliga nördintressen

Exempel på botskapad artikel

Egenskaper hos botskapade artiklar Bra: Basfakta korrekt presenterade, koncist och konsekvent. Korrekt wikipediaformat. Faktarutor, språklänkar, kategorier Tryckfelsnisse håller sig borta Problem kan ofta fixas med bot. Dåligt: Brödtexten kort och standardiserad. Tråkig att läsa. Begränsat till standardiserbara fakta i maskinläsbart format i öppna källor med bot-tillgängligt gränssnitt. Följer källorna blint. Svårigheter med anomalier och undantag.

Vad behövs för att botskapa artiklar? Öppna data! Maskinläsbart (api eller nedladdat). Användarvillkor kompatibla med botskapande. Standardiserade fakta om ett stort antal enheter, antingen: Språkoberoende (siffror, vetenskapliga namn ) eller På målspråket. Mjukvara Ingenting väldigt avancerat. Många verktyg fungerar. Vad som helst som kan läsa en databas och stoppa in data i ett textformulär. MS Excel, C#, AWB, Pythia har alla använts i stor skala. En som talar målspråket, och kan relevanta facktermer. Konsensus på målspråkets Wikipediaversion!

Ämnesområden för botskapande Krav: Finns ett stort antal liknande enheter, som var och en är värd en Wikipediaartikel. Varje enhet kan beskrivas med en uppsättning standardiserade basfakta. Basfakta helst språkoberoende. Öppna data med komplett täckning av ämnesområdet finns. Exempel på möjliga ämnesområden: Djur- och växtarter. Geografiska platser (städer, berg, sjöar ). Administrativa enheter (kommuner etc.). Himlakroppar (asteroider, galaxer ). Kemiska ämnen och föreningar. Gener och proteiner. Böcker och författare.

Sprida kunskap på flera språk Väldesignade botprogram kan lätt anpassas till olika språk. Kräver språkoberoende basfakta i databasen. Kan kräva både tekniskt pyssel och förhandlingar på Wikipedia, eftersom de olika språkversionerna har stor självständighet. Nödvändigt för att sprida kunskap till de miljarder människor som inte talar ett stort västerländskt världsspråk.

Samma fjärilsartikel på språket Waray-Waray

Slutförda botprojekt som jag känner till: Fågelarter, 8000 artiklar: Svenska, Lsjbot, Excel+Pythia+Google Translate (aldrig mer G.T.!) Frankrikes kommuner, 50,000: Svenska, Naskobot, Excel+AWB Kemiska grundämnen, 100: Cebuano, Lsjbot, C# Filippinernas kommuner, 1 300 Cebuano, Lsjbot, C# Sveriges sjöar, 56 000 Svenska, Naskobot, Excel+GIS+AWB Counties i USA Svenska, Innocent Bot,? Alla världens arter (djur+växter+svampar), 3 500 000 Svenska+Cebuano+Waray, Lsjbot, C# Djurarter på holländska & vietnamesiska, 1 000 000 + 750 000 Cheers!-bot, Joopwikibot m.fl.

Summering Nackdelar med botskapande: Tråkiga artiklar om obskyra ämnen. Fungerar bara inom vissa områden. Fortfarande kontroversiellt bland en del wikipedianer. Databasfel och programmeringsfel kan förekomma. Fördelar med botskapande: Effektivt sätt att få fullständig täckning inom de områden där det fungerar. Pålitliga källbelagda artiklar. Utsträcker Wikipedias täckning utanför vita manliga nördars intresseområden. Utsträcker Wikipedias täckning utanför vita nördars språk. Kan föra oss påtagligt närmare målet att göra all kunskap tillgänglig för alla människor.

Varför bör datavärdar underlätta botars spridning av kunskap? En minoritet av befolkningen som söker kunskap direkt hos datavärdar. Vet inte om var relevanta data finns. Förstår inte data inbäddade i facktermer. Tekniskt svårt att komma åt. Även för den som kan det som behövs kan det vara svårt att sammanställa rätt uppgifter från olika datavärdar. En minoritet av befolkningen i världen talar de språk som datavärdar använder. Sprid kunskapen bredare! Datavärdskapet är inte bara till för experter, men svårt att paketera data bra för allmänheten. Botar bra mellanhand!

Hur kan datavärdar underlätta botars spridning av kunskap? Tillgänglighet för botar API och/eller nedladdning. Friast möjliga licens, så att inte upphovsrätt hindrar. Strukturerade data. Samarbete mellan olika datavärdar, så att botar kan koppla ihop olika data om samma objekt. Gemensamma objekt-id eller liknande.

Tillgänglighet för botar. API som möjliggör för en bot att systematiskt gå igenom hela eller delar av databasen: Post för post sekventiellt. Strukturerat/hierarkiskt. Nedladdningsbara data, om volymen är måttlig. Vettigt, öppet och dokumenterat dataformat. Inget som kräver kommersiell mjukvara för tolkning. Nedladdningsbara nycklar till data. Gärna flerspråkiga. Inga hårda begränsningar för bot-access.

Upphovsrätt Om att en bot ska kunna tillgängliggöra kunskap från en datavärd, kan inte data vara strikt upphovsrättsskyddade. Någon variant av Creative-Commons-licens lämpligt. För t.ex. Wikipedia krävs cc-by-sa eller friare. Om möjligt bör detta gälla även bilder m.m.

Strukturerade data Så mycket data som möjligt i väldefinierade fält med väldefinierade värden. Fritext värdelöst för en bot! Gärna illustrationer, men inte data i diagramform eller liknande hellre ge boten tillgång till dataserierna bakom diagrammen. Var konsekvent i hur data matas in! I mångt och mycket samma behov som er interna dataanalys har låt botarna få tillgång till det interna snarare än det ni presenterar externt för människor.

Wikipediaartiklar om platser Öppna data om platser (geonames.org)