Projekt:Strategisk inkludering av biblioteksdata på Wikidata 2018/Rapportering/Projekt Runeberg

Strategisk inkludering av biblioteksdata på Wikidata 2018

Att utnyttja potentialen i Projekt Runeberg, ett digitalt bibliotek som är välbekant bland Wikipedianer

Projekt Runeberg är en webbplats, startad 1992, där äldre nordisk litteratur (som inte längre omfattas av upphovsrätten) finns inskannad. Verken är OCR-ade, det vill säga omvandlade till text maskinellt, och webbplatsen erbjuder även verktyg för volontärer att korrekturläsa och förbättra transkriptionerna. På detta sätt görs litteraturen ännu mer tillänglig.

Projekt Runeberg har inga kopplingar till Wikimediaprojekten, men det används flitigt av svenskspråkiga Wikipedianer. Det innehåller nämligen mycket referenslitteratur. Vår undersökning av källorna på svenskspråkiga Wikipedia har visat att i synnerhet Nordisk Familjebok, Svenskt Biografiskt Handlexikon och Vem är det åtnjuter stor popularitet. En källmall {{Runeberg.org}} på svenskspråkiga Wikipedia gör det lättare för skribenterna att hänvisa till verken och har använts många tusen gånger.

Projekt Runeberg är alltså mycket nära kopplat till den svenskspråkige Wikipediaskribentens verklighet och omöjligt att negligera i diskussionen om källor och källhänvisningar i den svenskspråkiga gemenskapen. De digitaliserade verken står bakom många av artiklarna om historiska svenskar och det samhälle i vilket de utförde sin gärning – vilket betyder att de indirekt format vår uppfattning av vår historia. Wikipedia är ju en given kunskapskälla för mången internetanvändare.

Med sina över 5000 verk kan Projekt Runeberg med fördel betraktas som en bibliotekskatalog, eller en bibliografi. Vi valde därför att inkludera det i projektet Strategisk inkludering av biblioteksdata på Wikidata, och importera posterna till Wikidata.

Wikidata innehöll sedan tidigare properties för bok respektive författare på Projekt Runeberg, vilka användes av en handfull items. En massuppladdning skulle alltså kunna göra stor nytta för Wikidata.

Hur arbetet genomfördes

Vi utgick från den verkförteckning som återfinns på adressen http://runeberg.org/katalog.html. Förteckningen innehåller följande information om varje verk:

typ (bok, tidning, musik…)
titel
författare
utgivningsår
språk
identifierare i bibliotekskataloger – Libris för svenska verk

Denna förteckning scrapades med hjälp av ett dataskript och ett försök gjordes att identifiera dels befintliga Wikidataitems för verken och dels Wikidataitems för de författare som nämns i förteckningen. En svårighet där var att inte alla författare i Projekt Runebergs digra auktoritetskatalog har matchats med Wikidata, men minst 16 000 har gjort det. För att identifiera befintliga Wikidataitems för verk användes både Runeberg ID och Libris ID. Detta steg var viktigt för att undvika att skapa dublettitems. Risken var dock ej stor, då de allra flesta av verken fanns inte med på Wikidata.

Detta innebar att vi fick skapa över 5 000 nya items för verken i Projekt Runeberg. Vi valde att endast bearbeta verk av typen bok, alltså ej tidningar, musik el.dyl. Följande information extraherades ur förteckningen:

titel
språk
utgivningsår
författare
Libris ID

Resultat

Wikidata innehåller just nu över 5000 items som är kopplade till Projekt Runeberg. Ett exempel är Tidsbilder från Göteborg på 1820-talet. Innan vi påbörjade satsningen var siffran ca. 200. Tack vare Wikidata kan de analyseras på intressanta sätt, till exempel kan man se hur de är distribuerade över tid. Här kan man se att perioden mellan 1880 och 1920 är särskilt väl representerad på Projekt Runeberg. En annan intressant fråga man kan ställa är: hur många av de svenskspråkiga bokutgåvorna (Q3331189 med språk Q9027) på Wikidata innehåller en Runeberg ID? Svaret är 84%.

Vad denna siffra visar är att det fortfarande finns mycket att göra på Wikidata när det gäller svenskspråkiga bibliografiska data. Med en enkel satsning laddade vi upp information om många välkända och välanvända källor. Genom att arbeta med data som Wikigemenskapen faktiskt känner till och bryr sig om ökar vi sannolikheten att datan kommer att ses, förbättras och återanvändas.