Verksamhetsberättelse 2019/Story: Att hitta världens GLAM-dataset och ladda upp dem till Wikidata
I den här Storyn beskriver vi hur vi påbörjade ett globalt index över kulturarvsinstitutioners dataset med målet att bearbeta och ladda upp dem till Wikidata. Genom att kartlägga vilka listor och datamängder som finns runt om i världen, samt uppskatta deras nytta för Wikimediaprojekten, belyste vi de data som finns tillgängliga för wikimedianer att arbeta med. Vi belyste även kunskapsluckor och problem som behöver lösas innan datat kan flyttas till Wikidata.
Projektet FindingGLAMs hade ett ambitiöst mål: att samla in data om världens samtliga GLAM-institutioner. Det vore ytterst tidskrävande och dessutom onödigt att lägga in all denna information på Wikidata för hand: det existerar ju redan en mängd olika databaser, register och listor över kulturarvsinstitutioner. Dessa har olika omfattning och format och de hanteras av olika organ, exempelvis ländernas kulturministerier eller paraplyorganisationer för museer. Att göra om detta arbete vore att slösa med volontärernas resurser. Därför bestämde vi oss tidigt under projektet för att sammanställa ett index över kulturarvsinstitutionsdataset.
Genom denna insats har både vårt projekt och Wikimediagemenskapen gynnats på flera sätt. Först och främst tydliggjorde det hur många sådana listor och dataset som redan finns. Vart och ett skapar nya möjligheter för Wikimediagemenskapen: de kan användas som källor i gemenskapens arbete med att förbättra hur GLAM-institutioner beskrivs på Wikidata och Wikipedia. Det är också värdefullt när vi inte upptäcker någon dataset: vi vet nu att det i områden som Afrika och Sydamerika återstår särskilt mycket att göra och det finns färre tillgängliga källor där än i Europa och Nordamerika. Därför kan vi fördela crowdsourcinginsatserna mer effektivt.
Till en början hoppades vi kunna importera ansenliga mängder data från dessa dataset till Wikidata. Vi bearbetade några dataset på detta sätt och berikade Wikidata med data om bland annat 4 000 bibliotek i Japan, 2 400 bibliotek i Sverige, 660 bibliotek i flera afrikanska länder och 21 000 bibliotek och bibliotekssystem i USA. Vad dessa dataset hade gemensamt var att de hade en uttryckligen Wikidatakompatibel licens, såsom CC0 eller Public Domain.
Det blev emellertid snabbt uppenbart att de flesta dataseten inte hade sådana licenser I en del fall fanns det ingen licensinformation överhuvudtaget; i andra var datat upphovsrättsligt skyddat eller släppt under en delvis fri licens, t.ex. Creative Commons Attribution (CC BY), som inte är tillräckligt öppen för Wikidata. Genom att samla in information om dataseten på ett ställe synliggjorde vi problemet och skapade en utgångspunkt för att kontakta upphovsrättsinnehavare och diskutera licenser med dem. Vi kontaktade exempelvis Archives Portal Europe (APE) om deras katalog över europeiska arkivinstitutioner, vilken var upphovsrättsskyddad. Efter en givande diskussion om Wikidatas och öppna licensers roll i det moderna ekosystemet för kunskap övertygade APE sina partners i flera länder att släppa data om deras institutioner under licensen CC0. Tack vare detta kunde vi importera data om 6 869 arkiv till Wikidata; de flesta fanns inte med tidigare. Samarbetet fyllde alltså en verklig lucka i täckningen av arkiv på Wikidata.
Projektet lämnar indexet över dataset efter sig. Vi har aktivt uppmuntrat wikimedianer runt om i världen att redigera och förbättra det, och ett antal volontärer har bidragit med sina lokalkunskaper och språkfärdigheter. Vi hoppas att indexet fortsätter att vara givande både för wikimedianer som redigerar artiklar om GLAM-institutioner och för Wikimediaorganisationer som kan använda det till att hitta dataägare i sina områden för att inleda dialog och samarbete.
Wikimediaorganisationer kan använda kunskapen från dessa data till att kontakta möjliga samarbetspartners. Detta hade varit betydligt svårare om informationen inte fanns sammanställd på en plats och lätt att genomsöka.