Projekt:GLAM 2021/Wikimedia Commons guide/Wikidata

Från Wikimedia
Hoppa till navigering Hoppa till sök
1. Introduktion 2. Wikimedia Commons 3. Datamodellering 4. Wikidata 5.1. Manuell uppladdning 5.2. Storskalig uppladdning 6. Efterarbete 7. Statistik
I detta kapitlet tittar på Wikidata, och hur det hänger ihop med Wikimedia Commons.

Vad är Wikidata?

Wikidata är en databas av länkade öppna data.

Wikidata är ett av Wikipedias systerprojekt. Det innebär att man kan skapa kopplingar mellan innehållet på Wikidata och, till exempel, artiklar på Wikipedia eller bilder på Wikimedia Commons.

Precis som Wikipedia kan Wikidata redigeras av alla.

Licens

Innehållet på Wikidata omfattas av licensen CC0 – den mest fria av alla Creative Commons-licenser. Det innebär att innehållet på Wikidata kan återanvändas utan att källan behöver anges. Allt för att göra det så enkelt som möjligt att sprida och använda datat – på andra webbplatser, i forskning, i visualiseringar, i appar och tjänster. Å andra sidan innebär det att endast datamängder med kompatibel licens – exempelvis CC0 eller Public Domain – får importeras till Wikidata. På sidan Wikidata:Licensing kan du läsa mer om Wikidatas licens.

Vad finns på Wikidata?

Wikidata innehåller just nu, sommaren 2021, över 94 miljoner objekt. Ett objekt representerar en entitet, så som en person, en ort, ett konstverk, ett museum… Men förutom dessa konkreta ting är även många mer abstrakta begrepp representerade på Wikidata – som allmänna val, efternamn, konstinriktningar och språk.

Wikidata har, precis som Wikipedia, relevanskriterier. Men de är betydligt generösare än Wikipedias. Det räcker att något är en klart identifierbar begreppsmässig eller materiell entitet som kan beskrivas med hjälp av seriösa och offentligt tillgängliga källor. Det är därför man kan skapa tusentals objekt för alla konstverk i ett museums samling, om varje konstverk har ett inventarienummer i museets katalog.

Wikidatas struktur

Varje objekt har en unik identifierare som består av bokstaven Q och en siffra. Till exempel är Sveriges Wikidataobjekt Q34. Varje objekt kan ha etiketter (t.ex. Sverige) och beskrivningar (land i Nordeuropa) på många olika språk.

Även om engelska är de facto arbetsspråket på Wikidata så är plattformen flerspråkig. Engelskan är inte viktigare än något annat språk när man skapar och redigerar objekten. Många nya användares första redigering är att lägga till etiketter och beskrivningar på svenska eller andra språk de kan. Det är viktigt!

Objekten beskrivs med hjälp av egenskaper. Till exempel har objektet Sverige egenskapen kontinent med värdet Europa. Dessa strukturer kallas för tripletter och utgör stommen i hur all data på Wikidata är strukturerad.

Det finns över 9 000 egenskaper på Wikidata; en förteckning återfinns på sidan Wikidata:List of properties. Egenskaper skapas inte på samma sätt som objekt. Varje användare kan fritt skapa nya objekt, men egenskaper skapas av administratörer efter en diskussion i gemenskapen. Det är egenskaperna som är klistret i hur datat struktureras, så man vill att de skapas på ett genomtänkt sätt.

Man behöver inte ha koll på alla nio tusen egenskaper. Om man brukar redigera inom något eller några ämnen lär man sig snabbt vilka få egenskaper som är mest relevanta.

Uttalanden och externa identifierare

Det finns två huvudsakliga typer av egenskaper. Den första används för att skapa uttalanden – uttrycka fakta om objektet, berätta något om det. Till exempel P569, födelsedatum och P106, sysselsättning som är vanliga i personobjekt. Eller P131, inom administrativt område och P625, geografiska koordinater, som används i platsobjekt, som orter, sjöar, museer och begravningsplatser.

Den andra typen är externa identifierare. De identifierar objektets ämne i andra databaser, tjänster och uppslagsverk. Titta till exempel på objektet Q2177416, som har många sådana. Personen finns med bland annat i bibliotekens gemensamma auktoritetsdatabas VIAF (P214), i Biografiskt Lexikon för Finland (P3595), i Nationalencyklopedin (P3222) och i Nationalmuseums konstnärsdatabas (P2538).

I broschyren Wikidata i korthet ges en överblick över Wikidata på en sida.

Wikidata och Wikipedia

Wikidata är ett centralt nav där man skapar interwikilänkar mellan artiklar på Wikimedias olika projekt. Till exempel är artiklarna Göteborgs konstmuseum på svenska, Gothenburg Museum of Art på engelska och Гётеборгский художественный музей på ryska alla kopplade till Wikidataobjektet Q1992004. På Wikipedias hjälpsida Wikipedia:Interwikilänkar kan du läsa om hur man hanterar språklänkar via Wikidata.

Varje Wikipediaartikel bör vara ansluten till ett Wikidataobjekt, även om den bara finns på ett språk.

Man kan visa data direkt från Wikidata i en Wikipediaartikel. Ofta görs det i en så kallad infobox. Se till exempel artikeln Carl Milles, där biografisk information i infoboxen till höger hämtas från Wikidata.

Konstsamlingar på Wikidata

Wikidata innehåller mycket information om konstnärer och deras verk. En del, särskilt när det gäller konstverken, har importerats från museers och andra institutioners databaser. Bland nordiska kulturarvsinstitutioner vars öppna data har importerats i större mängder kan nämnas Finlands Nationalgalleri och Nationalmuseum i Stockholm.

Vi kan titta på hur ett objekt för en tavla, Porträtt av fabrikören August Keirkner, är strukturerat. De egenskaper som används här vanligt återkommande i liknande objekt.

Man kan alltså uttrycka rätt mycket information om tavlan, inklusive i vilken samling den ingår. Egenskapen P18, bild, används för att länka till relevant bild på Wikimedia Commons.

Man kan även länka från bilden på Commons till Wikidataobjektet. Så här kan det se ut med parametern wikidata i mallen Artwork ifylld:

{{Artwork
 |wikidata      = Q20792208
 |artist       = {{Creator:Wilho Sjöström}}
 |institution    = {{Institution:Finnish National Gallery}}
 |title       = {{en|1=The industrialist August Keirkner}}
…
}}

En fördel med att göra detta är att viss information från Wikidata kan visas på filsidan på Commons, om den saknas i själva filbeskrivningen. Till exempel om tavlans objekt på Wikidata innehåller dess inventarienummer, men filsidan på Commons inte gör det – inventarienumret visas ändå på Commons, eftersom det hämtas från Wikidata.

SPARQL

SPARQL är ett språk för att extrahera data från Wikidata enligt utvalda kriterier. Det är inte något specialutvecklat för Wikidata, utan används med flera andra databaser som är uppbyggda på liknande sätt. På query.wikidata.org kan du använda språket för att göra sökningar i Wikidata. Man kan även anropa querytjänsten från appar och tjänster man själv utvecklar.

Projekt och verktyg

Wikidatas gemenskap är mycket aktiv när det kommer till att leta reda på, ladda upp och organisera data om kulturarvsinstitutioner och deras samlingar. Samarbetsprojektet Sum of all paintings är ett exempel på detta. Deras mål är att skapa objekt för varje tavla som är skapad av en Wikidata-relevant konstnär eller som finns i en Wikidata-relevant institutions samlingar. På projektsidan kan man hitta bland statistik (konstnärer med flest verk på Wikidata, samlingar med flest verk på Wikidata) och översiktslistor, som denna över alla samlingar vars verk finns på Wikidata.

Eftersom datat på Wikidata kan hämtas och bearbetas maskinellt har gemenskapen utvecklat flera verktyg och tjänster som presenterar innehållet på intressanta sätt. Ett av dem är Crotos, där man kan bläddra bland konstverken på Wikidata och filtrera dem på typ, institution, m.m. Se till exempel verk i Göteborgs konstmuseums samlingar!

Varför satsa på Wikidata?

Även om Wikidata kan te sig lite komplext från början så är det ett fantastiskt verktyg för kulturarvsinstitutioner som vill sprida kunskap om sitt arbete och sina samlingar. Att ladda upp data om sina samlingar till Wikidata har flera fördelar.

Wikidata har plats för betydligt mer information än Wikimedia Commons. Som bekant kan bara fria bilder laddas upp till Wikimedia Commons. Till Wikidata kan ett museum ladda upp data om alla verk i sina samlingar, inte bara de som har digitaliserats eller får laddas upp till Wikimedia Commons.

Eftersom Wikidata är en strukturerad, länkad och maskinläsbar databas kan datat analyseras och återanvändas av alla, inte bara wikimedianer. Forskare, datajournalister och utvecklare kan enkelt komma åt informationen och inkludera den i andra dataset, i tjänster och applikationer. Möjligheterna att göra komplexa sökningar är till synes oändliga – se till exempel denna sökning som hittar alla institutioner som har verk av Bruno Liljefors i sina samlingar. Resultatet är på intet sätt komplett, då vi inte vet om alla konstnärens verk har Wikidataobjekt med information om vilka samlingar de tillhör, men det visar att varje enskilt objekt som skapas och länkas till andra är en liten byggkloss som förbättrar det stora nätverk av öppna data som varje dag byggs ut och förbättras av Wikidatas användare.

Vidare läsning