Vil vi bli millionær? - Botprodusert Wikipedia

Relevanta dokument
Kunskapens miljonprogram. Sverker Johansson Högskolan Dalarna

Öppna data för robotar ger tillgängliga data för människor. Sverker Johansson Högskolan Dalarna

Kan en robot skriva teknisk information? Exempel från Wikipedia. Sverker Johansson Högskolan Dalarna

Wikipedia och Wikipedianer i folkbildningens tjänst. Olof Sundin Högskolan i Borås & Lunds universitet

Slutrapport Projekt Internet i Sverige

Eric Luth IB-alumni Per Brahegymnasiet, Jönköping

Framsida På framsidan finns:

Wikipedia i skolan LENNART GULDBRANDSSON

Åtgärderna i samband med tillämpningen av konventionen

Detta dokument innehåller anvisningar för upprättande av en sökplan i kursen TDDD39 Perspektiv på informationsteknologi.

3 Wikipedia i utbildning 4 Tre principer 5 Till Dig som pedagog 6 Läromål 7 Läromål forts. 8 Adoptionsbyrå Per Falk 9 Skriva en artikel Pia Palm 10

Jimmy Wales, Wikipedias grundare. Välkommen till. Wikipedia

Wi ki ped ia i u tb i ldn in g

Tänk dig en värld där varje människa på den här planeten får fri tillgång till mänsklighetens samlade kunskap.

DSpace som system för årsredovisning av forskning. Linda Gustafsson Bibliotek och IT, Malmö högskola. Mötesplats Open Access april 2007

Mälardalens högskola

Open APC Sweden. Nationell öppen databas över publicerings- kostnader för öppet tillgängliga artiklar

Att skriva en ekonomisk, humanistisk eller samhällsvetenskaplig rapport

Informationskompetens

EUROPAPARLAMENTET. Utskottet för jordbruk och landsbygdens utveckling * FÖRSLAG TILL BETÄNKANDE

Informationssökning och bibliotekets resurser Uddevalla Gymnasieskolas bibliotek

HTML5 Semantic. Informationen kommer från w3schools.com. En semantisk elementet beskriver tydligt dess betydelse för både webbläsaren och utvecklaren.

Vi i Femman 2012 Semifinal 2

FÖA110 Informationssökningsövningar frågor

För dig som är intygsgivare

ROOFCALCULATOR. Webbaserad mjukvara KOMPLETT vindlastberäkningsprogram. Framsida. Eurocode EN

Bibliotekets kurser i informationssökning för studenter och doktorander

Behörighetssystem. Ska kontrollera att ingen läser, skriver, ändrar och/eller på annat sätt använder data utan rätt att göra det

Digital sekvensinformation och Nagoyaprotokollet

VÄGLEDNING för litteraturöversikt om

POLITIK och DEBATT svenska + SO

Geografi. Klasserna 7-8

Återkoppling på referenshantering och informationssökning. Lotta Janson Lotta Mathiesen

Enkät 1: Om din läsning (7-11 år)

Informations- och artikelsökning

Det första steget blir att titta i Svensk MeSH för att se om vi kan hitta några bra engelska termer att ha med oss på sökresan.

- LATHUND MED Tips och exempel för dig som ska skriva en källförteckning

Källuppgifter i fysik FAFA55

Open access till artiklar 2018 Årlig uppföljning av öppen tillgång till artiklar registrerade i DiVA

Enkätundersökning: Svenska utlandsföräldrar och deras barns skolgång Sammanfattning och analys

Sammanfattning av informationssökning VT19

***I FÖRSLAG TILL BETÄNKANDE

Alexandra Lind Labanskolan

Importera från PubMed till DiVA

Obemannade flygplan. Namn: Hampus Hägg. Datum: Klass: TE14B. Gruppmedlemmar: Gustav, Emilia, Henric och Didrik

Enkät 1; Om din läsning (7-11 år)

Tingsholmsgymnasiet är en modig och nytänkande skola som kännetecknas av gemenskap och trygghet och utmärker sig genom kunskap och kompetens

Svenska barnboksinstitutet. Bokprovning Årgång Statistik. Vilka titlar döljer sig bakom statistiken? Vill du ha boklistor?

Syfte och inriktning. Bidragstyper.

DET WEBBASERADE BIBLIOTEKSDATASYSTEMET KOHA - ETT FRITT ALTERNATIV Viktor Sarge - Utvecklingsledare vid Kultur i Halland

Vad är The CHALLENGE?

UB:s sö ktjä nst - Söka artiklar och annan litteratur

Enkät 2: Om din läsning (12 15 år)

För att kunna använda konsulentuppsättningarna, skall på varje enskild dator göras följande inställningar.

Wi ki ped ia i u tb i ldn in g

För att då har jag ingen fritidsaktivitet och vi har bokklubb då här.

Hitta en artikel som använt samma teoretiker i samma sammanhang som du. Viktor Öman, bibliotekarie viktor.oman@mdh.se

Bibliotek och ITs informationssökningswebb

Biologi. Ämnesprov, läsår 2012/2013. Delprov C. Årskurs. Elevens namn och klass/grupp

Pass 3: Metadata. Svensk nationell datatjänst, SND BAS Online

Import- och exportföreskrifter/veterinärkontroll m.m. 1. Anm. Rubriken har fått sin nuvarande lydelse enligt SJVFS 2005:53.

Registrera konferenspublikationer i DiVA

Enkätundersökning: Svenska utlandsföräldrar och deras barns skolgång Sammanfattning och analys

Liten introduktion till akademiskt arbete

Infrastruktur och humaniora

TDDD92 Artificiell intelligens -- projekt

Vad kan jag låna på biblioteket?

Open Access perspektiv från ett lärosätes ledning. Stefan Bengtsson Rektor Malmö högskola Prorektor/vice VD Chalmers -1107

För dig som är intygsgivare

Ärenden till kommunstyrelsens sammanträde den 9 oktober 2018

Enkät 2; Om din läsning (12-15 år)

Anvisningar för skriftlig rapport av fältstudien Hälsans villkor i HEL-kursen

EFR BIDRAGSAVTAL NR XXX. PROJEKTETS TITEL [FÖRKORTNING eller KORTFORM] STÖD TILL SPETSFORSKNING

Att skriva papers och använda biblioteksresurser

Gymnasiearbetets namn (En underrubrik om man vill)

UNG MEDIA SVERIGES. Guide för medlemsrekrytering

Källhänvisningar enligt parentessystemet

SKOLPORTENS NUMRERADE ARTIKELSERIE FÖR UNDERVISNING, LÄRANDE OCH LEDARSKAP GRANSKNINGS- INSTRUKTION FÖR LEDA & LÄRA

Information efter genomgång av Microsoft Excel 2010

GR Omdöme Så här kan det användas

Källhänvisningar enligt fotnotssystemet

Institutionen för kulturvård KURSGUIDE. KGM 511 Kulturvårdens hantverk fördjupning, litteraturkurs 7,5 hp. Höstterminen 2016.

Söka, värdera, referera

Tingsholmsgymnasiet är en modig och nytänkandeskola som kännetecknas av gemenskapoch trygghetoch utmärker sig genom kunskap och kompetens

Handledning för publicering av avhandlingar och andra vetenskapliga publikationer i DiVA

Case-based resoning. och dess användning inom sjukvården. Linköpings universitet Artificiell intelligens II 729G11 HT 2011

Så fungerar Wikipedia. Lennart Guldbrandsson

Underlag till kravspecifikation för Vårdförbundets tidningsarkiv

QC i en organisation SAST

SCHENSTRÖM VÄGAR TILL MINDFULNESS RÅD FÖR EN BÄTTRE VECKA BONNIER FAKTA

EDLocal EDLocal tillgängliggör digitalt kulturarvsmaterial från lokala och regionala aktörer genom European Digital Library (EDL)

Skriv! Hur du enkelt skriver din uppsats

Historiska källor ETT LÄROMEDEL FÖR HÖGSTADIET OM HISTORISKA KÄLLOR MIKAEL BRUÉR. CC BY-NC-SA 4.0 internationell licens.

LIBRIS öppna infrastruktur

Fortsättning av en bibliometrisk studie för jämförelse mellan LTU och vissa andra europeiska universitet

FYLL I DE ORD SOM SAKNAS I TEXTEN

Gymnasiearbete Datum. Uppsatsens rubrik. Ev. underrubrik. Ditt namn, klass Handledarens namn

Certifieringswebb. Version 1.0 Mats Persson

DNA-analyser: Introduktion till DNA-analys med PCR och gelelektrofores. Niklas Dahrén

Marie Gustafsson. Forskning och publicering Olika typer av publikationer och informationskällor Vetenskapliga artiklar.

Transkript:

Vil vi bli millionær? - Botprodusert Wikipedia Mattias Blomgren Ordförande Wikimedia Sverige Wikipedia Academy Oslo 14 december 2013 CC-BY-SA 3.0 Mattias Blomgren, Sverker Johansson

Wikipedia Imagine a world in which every single person on the planet is given free access to the sum of all human knowledge. That's what we're doing. Jimmy Wales, 2004. Alla kan läsa på Wikipedia, alla kan skriva. Hundratals miljoner läser men långt ifrån alla skriver.

Sum of all human knowledge Det är mycket kunskap Även med tusentals wikipediaskribenter, skulle vi enbart skrapa på ytan. Vi kommer att skriva om det som intresserar oss, vilket ger en ojämn täckning. Svenskspråkiga Wikipedia: Fler än 100 figurer från Lord of the Rings. Färre än 10 personer från Vietnamkriget. Vad kan vi göra åt det?

Öka täckningen, och göra det mer representativt och mer Det kan göras på två sätt: tillgängligt! Rekrytera miljoner skribenter med olika intressen och kunskaper. Använda verktyg för artikelskapande är effektivare än manuellskapande.

Masskapande av artiklar Wikipedia är öppet för automatiskt artikelskrivande av programvara, botar. Mycket rutinarbete görs av botar stor andel av all redigering på Wikipedia (26%). Artikelskapande av botar är mer komplext, och mer kontroversiellt. Flera projekt på olika språkversioner av Wikipedia under de senaste åren.

Bot-skapande 7 miljoner bot-skapade artiklar (23,5% av alla) En handfull personer arbetar med botskapande. Lsjbot är den största bidragsgivaren (2,6 miljoner). Holländska, svenska, cebuano, waray är språkversioner som har omkring en miljon bot-skapade artiklar var. Inte världens största språk. Djur, växter, samhällen, sjöar, Inte de typiska intressena för de typiska wikipedianerna.

Kännetecken för bot-skapade artiklar Fördelar: Grundläggande fakta presenteras koncist och konsekvent. Korrekt wiki-format. Infobox, mallar, källor, interwikilänkar Inga stavfel. Problem kan ofta åtgärdas med en bot. Nackdelar: Artikeltexten kort och standardmässig. Tråkig att läsa. Begränsat till standardiserade fakta som finns tillgängliga i maskinläsbart format. Följer källan blint. Hanterar specialfall och avvikelser dåligt.

Ämnen för bot-skapande Krav: Stort antal liknande entiteter existerar, vilka är relevanta för Wikipedia-artiklar. Varje entitet kan på ett lämpligt sätt beskrivas utifrån en uppsättning standardiserade fakta. Grundläggande faktauppgifter bör helst vara språkoberoende. Databaser med komplett täckning av ämnet finns tillgängliga. Exempel på lämpliga ämnen: Arter av djur och växter Geografiska objekt Administrativa enheter Astronomiska objekt Kemiska ämnen Gener och proteiner Böcker och författare

Några genomförda projekt Fågelarter, 8.000 artiklar: Svenska, Lsjbot, Excel+Pythia+Google Translate Kommuner i Frankrike, 50.000: Svenska, Naskobot, Excel+AWB Kemiska ämnen, 100 Cebuano, Lsjbot, C# Kommuner i Filippinerna, 1.300 Cebuano, Lsjbot, C# Sjöar i Sverige, 56.000 Svenska, Naskobot, Excel+GIS+AWB Amerikanska Counties Svenska, Innocent Bot,? Djurarter och svampar Svenska+cebuano+waray, Lsjbot, C#, 3*1.000.000 Djurarter på holländska och vietnamesiska (Känner ej till detaljerna)

Fördelar och nackdelar med botskapande Nackdelar: Tråkiga artiklar om obskyra ämnen. Fungerar bara för vissa ämnen. Kontroversiellt inom vissa Wikipedia-gemenskaper. Databasfel och programmeringsfel inträffar. Fördelar: Effektivt för att få en fullständig täckning inom de områden där det fungerar. Korrekta och källbelagda artiklar. Täcker områden som få är intresserade av att skriva om. Kan få oss väsentligt närmare målet att göra all kunskap tillgänglig för alla människor.

Erfarenheter från svenskspråkiga Wikipedia Diskussioner Januari 2012: 250.000 artiklar om djurarter på nl:wp. Lsj: Intressant idé Invändningar Tar bort det roliga med att skapa nya artiklar. Intetsägande stubbartiklar som i Wikipedias barndom. Blodigt tråkiga artiklar om amerikanska orter på en:wp Behövs ingen konstgjord andning. Intressantare att jämföra storlek på wikipediaversioner om det gäller artiklar skrivna av människor. Korta artiklar påverkar statistiken.

Erfarenheter från svenskspråkiga Wikipedia Diskussioner Januari 2012: 250.000 artiklar om djurarter på nl:wp. (forts.) Synpunkter: Låt robotarna göra det tråkiga jobbet. Börja med faktaboxar. Komplettera existerande artiklar med faktaboxar. Lämpligare för kemiska ämnen med basfakta i siffror än datorspel, som är mer humaniora. Acceptabelt utformade artiklar kan byggas ut senare. Förslag: Använd IAAF:s databas över internationella friidrottare. Diskussion om hur kategorisera artartiklar och namnsättning: vetenskapligt eller svenskt Lsjbot startade i januari 2012

Erfarenheter från svenskspråkiga Diskussioner Wikipedia Mars 2012: sv:wp nionde språkversionen 100.000 kvar till pl:wp Invändning: Inte längre relevant att räkna antalet artiklar räkna antalet utvalda artiklar. Positivt: De robotskapade artiklarna är bättre än många manuellt skapade. Negativt: Inte alls informationsrika. Faktaruta och många källor.

Erfarenheter från svenskspråkiga Wikipedia Diskussioner Januari 2013: Större än kinesiska Wikipedia Sv:wp: 673.130 artiklar zh:wp 668.264 artiklar April 2013: Tyska invändningar Tysk användare hade uppmärksammat en negativ tysk diskussion om de svenska botartiklarna och ville veta mer om hur vi resonerat. Tyskarna hade tidigare röstat nej till botskapande. Förslag från tysk användare: Skapa en bot:wp språkversion. Förslaget avvisades.

Erfarenheter från svenskspråkiga Wikipedia Diskussioner November 2013: Workshop om överföring av institutioners databaser till Wikipedia-artiklar. Idéer: 300.000 växter 500.000 kommuner i hela världen 1.200.000 böcker från Libris/Kungliga Biblioteket Stjärnor och planeter Invändningar: Charmen ligger i att någon skrivit manuellt Faktafel slinker igenom då den som botskapar inte har kunskap om all information (exempel: sjöar i fel socken). Hur många artiklar kan vi underhålla?

Erfarenheter från svenskspråkiga Diskussioner November 2013 (forts.): Wikipedia Idé: Bot skapar på förfrågan en faktamall när en människa vill skriva en artikel om en stad/region. Skepsis mot botartiklar om böcker (relevans?) bättre skriva om författare. Oro: Vi går från uppslagsverk till databas med data kopierad från andra databaser. Sjöar har större allmänintresse än 5.939 obskyra hoppspindlar. Teknokratiskt och användarfrånvänt intryck (Matsbosjön (Hedemora socken, Dalarna, 668694-150841))

Erfarenheter från svenskspråkiga Veckans tävling Wikipedia Februari 2012: Robotskapade fågelartiklar Mars 2012: Puts av robotskapade hardjursartiklar Augusti 2012: Robotskapade fågelartiklar II December 2012: Robotskapade fågelartiklar III Maj 2013: Robotskapade däggdjursartiklar September 2013: Robotskapade ormartiklar November 2013: Puts av robotskapade sköldpaddsartiklar