Projekt:Strategisk inkludering av biblioteksdata på Wikidata 2019/Wikidatadagarna/Frågor

Wikidatadagarna 2020

13 och 15 oktober, online

Vällkommen

Utbildning 13 oktober

Bakgrund

Den 13 oktober erbjöd Wikimedia Sverige i samarbete med Kungliga Biblioteket en utbildning om Wikidata. Detta som en del i vårt gemensamma projekt Strategisk inkludering av biblioteksdata på Wikidata. Under dagen fick vi många frågor. Vi besvarade de allra flesta, alla hoppas vi, i chatten och muntligt.

Funderingar om Wikidata

Har Wikidata en definierad målgrupp? Alltså vem skall använda Wikidata?

Wikidata beskriver sig självt som en kollaborativt skapad sekundärdatabas som tillhandahåller strukturerad data för Wikipedia och de andra Wikimediaplattformarna men även för alla människor i världen.

Wikipediagemenskapen har nytta av Wikidata eftersom det gör det möjligt att länka samman artiklar om samma ämne på olika språk. Vidare kan information från Wikidata visas på Wikipedia, vilket gör det lättare att hålla artiklar på olika språk uppdaterade; om en uppgift förändras på Wikidata uppdateras även alla de Wikipediaartiklarna där informationen visas.

Data på Wikidata är maskinläsbar och gratis att använda, vilken gör den attraktiv för utvecklare av digitala tjänster, appar m.m.

Vem skall använda SPARQL-sökningarna? Datorprogram eller bibliotekarier?

Ibland är det väldigt kraftfullt som användare att kunna söka genom stora mängder information, som man kan göra på Wikidata med hjälp av SPARQL. Men också komplext. Så ibland gör datorprogram det åt en för att göra det enklare.

Till exempel är Scholia, som vi tittade på under dagen, i princip bara i förväg definierade SPARQL-frågor med författare som enda parameter man som användare väljer.

Ett annan webbtjänst som använder Wikidata som datakälla är Histropedia. Där kan man skapa snygga enkelt delbara och interaktiva tidslinjer.

Många enskilda vanliga Internetanvändare kan tycka att Wikidata och Wikidata Query Service för tekniskt komplext och abstrakt. I de flesta fall är man då bättre betjänt av Wikipedia. Men om man vill kunna ställa mer komplexa frågor, av researchnatur, kunna visualisera resultaten, och exportera svaren som data för bearbetning offline är Wikidata mycket värdefull.

De flesta Internetanvändare är omedvetna användare av Wikidata: När man googlar efter t.ex. Selma Lagerlöf, får man en faktaruta bredvid sökresultaten. Den faktarutan är till stor del fylld med data från Wikidata.

Ser ni Wikidata som informationskälla eller aggregator för information?

I Wikidata samlas information från många olika källor, och alla uttalanden bör källbeläggas. Det är alltså ingen ny information som skapas på det sättet. Det är också så Wikipedia fungerar – som en sammanfattning av information från tillförlitliga källor.

Devil’s advocate: med så mycket data som hänger ihop. Vad är den långsiktiga planen för förvaltning? Kan någon köpa upp wikidata om kollektivet lessnar?

Wikidata, Wikipedia och de övriga Wikimediaprojekten drivs av stiftelsen Wikimedia Foundation. Deras arbete finansieras av donationer, både av enskilda användare och organisationer (t.ex. Alfred P. Sloan Foundation och flera andra stiftelser, Google). Tack vare detta har vi kunnat använda Wikipedia i nästan 20 år utan att behöva se reklamannonser el. dyl.

Målsättningen är att Wikimediaprojekten ska alltid vara helt gratis att använda. Inget tyder på att Wikimedia Foundation inte skulle kunna fortsätta sitt arbete i en lång tid framöver.

Wikidata i praktiken

Egenskaper för personer, hur ser diskussionen ut i relation till dataskydd?

Wikidatas riktlinjer finns här. I korthet: när man redigerar data om levande personer måste man vara särskilt noga med att källbelägga informationen med tillförlitliga källor och tänka på huruvida redigeringen skulle kunna orsaka skada för personen. Information som inte anses vara i allmänt intresse kan tas bort av administratörer.

Eftersom Wikidatas servrar ligger i USA är det amerikansk lag som gäller vid eventuella tvister.

Hur ser du att en Wikipediaartikel är eller inte är kopplad till ett Wikidataobjekt?

Om en artikel är kopplad till ett Wikidataobjekt så syns länken Wikidata-objekt under rubriken Verktyg i vänsterkolumnen.

Mer information om Wikidata just från ett Wikipedia-perspektiv finns på denna hjälpsida på svenskspråkiga Wikipedia.

Om jag vill ha info om Tove Jansson, vad avgör vilken jag skall välja – Wikidata eller Wikipedia?

För en vanlig läsare som vill lära sig om något ämne är Wikipedia det bästa valet. Wikidata lämpar sig bättre om man vill t.ex. komma åt stora mängder faktauppgifter för att bearbeta dem maskinellt, som att skapa en tidslinje över prisbelönade finländska författare på en webbplats.

Hur förhåller sig upphovsrätten här? Både Wikidata och vi på bibliotek gillar öppen data, men producenter gör det inte nödvändigtvis – oavsett om det är kommersiella eller offentliga resurser (läs kulturinstitutioner)

Data på Wikidata omfattas av licensen CC0. Den är alltså gratis att använda för både privata och kommersiella ändamål utan krav på att man ska hänvisa till upphovsperson eller källa.

En baksida av denna mycket generösa licens är att data som importeras till Wikidata från externa källor också måste omfattas av CC0. Licenser som CC-BY eller liknande som ibland används i "öppna" datamängder är inte kompatibla med Wikidata.

Hur uppdateras Wikidata när de olika källorna ändrar information?

Det finns inget automatiskt uppdateringssystem. Det är alltid upp till användaren som lagt till informationen att uppdatera den.

När det gäller storskaliga uppladdningar från externa källor så är det ofta så att datan laddas upp vid ett tillfälle, utan att någon systematisk uppföljning/avstämning är inplanerad.

Går det att komma åt referenser eller andra "egenskaper" av påståenden med SPARQL?

Absolut, det finns sätt att komma åt det mesta som vi inte gått igenom. En bra referensresurs finns t.ex. på Wikibooks – här är kapitlet om referenser och bestämningsord.

Finns det något område där ni jämfört er täckning med andra källors täckning?

Ett exempel på ett projekt som Wikimedia Sverige genomfört som fokuserat på just detta var FindingGLAMs. Projektet syftade till att kartlägga och förbättra täckningen av kulturarvsinstitutioner – GLAMs (Galleries, Libraries, Archives, Museums) på Wikidata. Projektet gjorde det tydligt att det finns väldigt mycket kvar att göra, i synnerhet i områden utanför västvärlden / anglosfären. Just nu finns det till exempel endast 2 bibliotek i (vardera) Turkmenistan, Tadzjikistan eller Myanmar. Denna underrepresentation av det Globala Syd gäller inom många kunskapsområden på Wikidata.

Ett sätt att jämföra Wikidatas täckning med andra resurser är att titta på externa identifierare som används som egenskaper. Till exempel länkar 36 tusen Wikidataobjekt till Nationalencyklopedins onlineutgåva och 58 tusen till Vatteninformationssystem Sverige.

Finns det någon lista över vilka egenskaper som kan läggas till?

Alla egenskaper finns listade på denna sida på Wikidata.

Det finns även verktyg där man kan bläddra bland egenskaperna på ett mer visuellt tilltalande sätt, som Prop explorer och Propbrowse

Jag är oklar över skillnaden med att ladda upp grejer och länka till

Att länka till innebär att man lägger till en extern identifierare i någon annan resurs, till exempel Libris auktoritetsnumret 191503 för Tove Jansson. Användare kan genom att klicka på numret på vidare till motsvarande post i Libris.

Att ladda upp innebär att man lägger till faktiskt innehåll till objektet, alltså uttalanden som “födelsedatum”, “födelseplats” osv.

Måste all data importeras? Kan det inte räcka med länkar till andra källor, som också använder sig av länkad data?

Wikidatas styrka ligger i att data från många olika källor finns samlad på samma plats och på det sättet berikar varandra. När man tittar på ett Wikidataobjekt kan man ta del av all information mycket enklare än genom att besöka de länkade resurserna.

Om man som bibliotekarie och efter det här känner att man vill börja göra något i Wikidata, var ska man engageras sig, var börjar man? Kan inte SPARQL som är lite svårt.

Att lägga till etiketter och beskrivningar på svenska och andra språk man kan är ett enkelt första steg. Många objekt har enbart engelska etiketter och beskrivningar.

När man läser en Wikipediaartikel kan man gå vidare till dess Wikidataobjekt och tänka på huruvida det finns något som saknas. Har objektet minst ett “instans av” (P31) uttalande? Är uttalandena källbelagda? Det finns många objekt som är helt eller nästintill tomma, och därför enkla att förbättra.

Slå upp ditt favoritmuseum, -bibliotek eller -författare på Wikidata. Vad finns där, och hur kan det förbättras? Har museet geografiska koordinater? Är författarens födelsedatum källbelagt? Är bibliotekets officiella webbplats länkad från Wikidataobjektet

Wikidata inom forskning, bibliotek och vetenskaplig publicering

Hur använder forskare Wikidata?

Som ett kollaborativt skapad, flerspråkig och länkad databas är Wikidata särskilt intressant för forskare inom data- och informationsvetenskap. Se följande artikel för en systematisk översikt av forskning om Wikidata:

Mariam Farda-Sarbas, and Claudia Müller-Birn. (2019). Wikidata from a Research Perspective – A Systematic Mapping Study of Wikidata.

I det jag arbetar med är PIDs (Persistent Identifiers) en stor fråga, är det så även för Wikidata?

Detta är väldigt viktigt för Wikidata. Det finns över ett tusen egenskaper av typen “extern identifierare”, alltså länkar till andra resurser. Bland de viktigaste finns ISNI, VIAF och ORCID. Att de inte ruttnar bort är nyckeln till Wikidatas roll som ett nav för länkade data på webben.

Även Wikidatas egna identifierare (QID) ska vara beständiga. Om ett objekt tas bort så kan inte dess QID återanvändas, och om två objekt slås ihop (t.ex. på grund av dubbletter) så blir den ena identifieraren en omdirigering till den andra.

De 30 miljonerna vetenskapliga artiklarna verkar sammanfalla med de i PubMed. Används även MeSH linked data för ämnesbeksrivningarna i Wikidata?

Flera MeSH-egenskaper finns i Wikidata:

MeSH descriptor ID (P486) – 37 000 objekt som använder
MeSH tree code (P672) – 26 000 objekt som använder
MeSH term ID (P6680) – 59 objekt som använder
MeSH concept ID (P6694) – 720 objekt som använder

Det finns ett medicinskt wikiprojekt som bland annat koordinerar arbetet med MeSH.

Är det relevant att t ex söka efter vetenskapliga artiklar utgivna i Sverige och sortera på lärosäten eller publikationer?

Just när det gäller vetenskaplig publicering är Sverige och Norden ett eftersatt område på Wikidata. De storskaliga uppladdningar av data om vetenskapliga artiklar som pågått inkluderar inga svenska databaser. Anledningen är att det saknas öppet licensierade datakällor. Varken Swepub eller Diva tillhandahåller CC0-licensierade metadata.

En översikt av CC-0/CC-BY-data om vetenskaplig publicering kan ses i tjänsten Open Aire.

Vad är det som är inläst nu från KB? Auktorietsdatabas? Något mer?

Vi har bland annat importerat:

60 000 identifierare från Libris auktoritetsdatabas

500 bokposter för de böcker som är mest använda som källor på svenskspråkiga Wikipedia

6 000 poster för Statens Offentliga Utredningar

33 000 poster för tidningar och tidskrifter

På denna rapportsidan kan man ta del av aktiviteter under projektens första del (2018–2019). Det nuvarande projektet (2019–2020) avslutas i december 2020.