Projekt:Strategisk inkludering av biblioteksdata på Wikidata 2018/Biblioteksdata på Wikidata

Från Wikimedia
Hoppa till navigering Hoppa till sök

Modellering av biblioteksdata på Wikidata

Verk

Bibframe-modellen med sina tre abstraktionsnivåer. På Wikidata är vi intresserade av works och instances (editions).

Det finns ett projekt som syftar till att utveckla en standard för modellering av bokdata på Wikidata, vilket heter WikiProject Books. Den framtagna modellen bygger på Functional Requirements for Bibliographic Records (FRBR), en standard för bibliografiska data utarbetad av IFLA. Det finns paralleller mellan FRBR och Bibframe som gör att de två formaten till viss del kan mappas mot varandra. Dessutom är Wikidatamodellen en förenkling av FRBR eftersom Wikidata inte har samma behov av granularitet som bibliotekskataloger gör.

Grundstenen i modellen är att den skiljer på work och edition. Work är ett konceptuellt begrepp: det abstrakta verket, medan edition är en enskild utgåva/upplaga. Ett verk kan ha många utgåvor, inte sällan på olika språk. Ett verk finns inte i verkligheten. Om det finns en Wikipediaartikel som beskriver en bok, t.ex. Den vita staden, så skall det anslutna Wikidataitemet vara ett verk, eftersom artikeln beskriver romanen som ett konceptuellt begrepp och inte någon av dess utgåvor.

Wikidatamodellen är tillräckligt detaljerad för att överföra en stor mängd information om verken i Libris. Att den bygger på en biblioteksstandard har dock också en del negativa konsekvenser. Den kan nämligen te sig svåröverskådlig och ointuitiv, vilket innebär att den är svårimplementerad i praktiken i ett projekt som drivs av en stor skara volontärer. De flesta användare som skapar items för verk känner inte till modellen och gör därför fel. Det råder framför allt stor okunskap om skillnaden mellan work och edition; de blandas i allmänhet ihop. Till exempel sätts ofta propertyn ISBN på ett verk[1], vilket är felaktigt, ty det är utgåvor som har ISBN-nummer.

Det finns en property för Libris ID som endast används i drygt 200 items.[2] På grund av den ovannämnda okunskapen om korrekt modellering är de flesta användningar felaktiga, då LIBRIS ID skall tillämpas på utgåvor.

Auktoriteter

Det finns en property för LIBRIS auktoriteter som används i drygt 61 000 items. I skrivande stund är dess framtid dock oklar, då länkarna slutade fungera för ett par veckor sedan, troligtvis i samband med arbeten kring Libris XL. Vidare är det svårt att förutspå hur de kommer att fungera efter övergången till Libris-URI.[3]

Nyligen skapades det en ny property på Wikidata, Libris-URI, just för Libris XL.[4] Den har endast lagts till manuellt i ett fåtal items. I och med att denna property finns är det möjligt att börja planera auktoritetsimportarbetet i mer detalj. Härmed följer lite tankar kring detta.

Kunskap skall inhämtas om den gamla identifierarens framtid i samband med övergången till nya Libris. Den gamla identifieraren används bland annat i Virtual International Identity File (VIAF).[5] Wikidataanvändare använder sig av VIAF för att hämta auktoritetsdata från ett antal kataloger och det finns automatiska verktyg för detta. Det betyder att om de gamla identifierarna behålls i VIAF kommer det att påverka Wikidata-användarnas arbetsflöde.

En grundläggande fråga är således huruvida vi skall importera både de nya och de gamla identifierarna eller endast de nya. Ifall KB vill fasa ut de gamla identifierarna behöver dessa inte laddas upp. På lång sikt kan man tänka sig att de tas bort från Wikidata, åtminstone från de items som har den nya identifieraren.

Oavsett vilken väg vi väljer så är det de nya identifierarna som är prioriterade, medan de gamla identifierarna som redan finns på Wikidata kan med fördel användas till att underlätta matchnigsarbetet. Det handlar alltså om ca. 60 000 items. Eftersom poster i nya Libris innehåller hänvisningar till "gamla" auktoritetsidentifierare[6] är det möjligt att automatiskt matcha 60 000 nya identifierare. Inte sällan innehåller de även hänvisningar till VIAF (som även det har en property), så det är möjligt att även matcha den vägen. Ifall matchningen sker mellan gammalt Libris-id — nytt Libris-id blir det även möjligt att lägga till sådana VIAF-länkar, ifall de finns med i nya Libris-posten men saknas i Wikidata-itemen. Som tidigare nämnt är VIAF en viktig property på Wikidata, faktiskt den viktigaste inom auktoritetsarbete.

Den första etappen i arbetet är att lägga till identifierare, dvs. inga andra data läggs till i detta steg:

  1. Ta en dump av Libris-auktoritetsdata.
  2. Utifrån dumpen, generera en lista över gammalt id—nytt id par.
  3. På Wikidata, lägg till nya id-nummer i alla items som har gamla id-nummer.

I ett senare steg kan man lägga till de detaljdata som finns med i (en del) nya Libris-poster, såsom nationalitet, för- och efternamn samt födelse- respektive dödstid.

Uppdatering 2018-09-10

Enligt information från KB kommer VIAF i fortsättningen att innehålla såväl SELIBR som URI-identifierare; någon närmare tidsplan för när det skall ske finns inte. Internt kommer dock SELIBR att fasas ut, och rekommendationen är att göra detsamma inom Wikimediaprojekten.

Selibr-länkar i Libris fungerar nu igen, se t.ex. https://libris.kb.se/auth/314463. Länken går nu till en söksida med författarens alla verk, vilket är en betydlig förbättring mot det tidigare läget då endast författarens namn och ID-nummer visades. Slutanvändaren får nu relevant information om hur författaren är representerad i samlingarna. Det finns dock fortfarande ingen tydlig koppling mellan denna sida och författarens presentation i Libris XL.

Bibliotek

Bibliotek omfattas av WikiProject Heritage Institutions. Det finns ett förslag på properties som är bra att ha med. I början av september skapades även WikiProject Libraries vars utveckling ska bli intressant av bevaka.

Av stort intresse är även en rapport om hur schweiziska kulturarvsinstitutioner, inklusive bibliotek, har laddats upp till Wikidata, vilken exemplifierar de problem man kan stöta på när man modellerar GLAM-institutioner.

Det finns blott 90 svenska bibliotek på Wikidata[7] så kompletteringsbehovet är stort, likaså den potentiella nyttan som LIBRIS Biblioteksdatabas kan tillföra. Med hjälp av informationen från KB kan vi både avsevärt höja antalet svenska bibliotek på Wikidata och lägga grunden till att de så småningom blir beskrivna på Wikipedia.

Det finn en property för ISIL[8], den internationella id-koden för bibliotek, det är dock oklart huruvida och till vilken grad denna används i Sverige, då ingen information om detta finns att tillgå.

Referenser

  1. Se t.ex. denna sökning.
  2. https://www.wikidata.org/wiki/Property:P1182
  3. http://www.kb.se/libris/Libris-URI/
  4. https://www.wikidata.org/wiki/Property:P5587
  5. Se t.ex. https://viaf.org/viaf/66513617/
  6. Se t.ex. https://libris.kb.se/katalogisering/xv8bb94g23ng552
  7. Sökning
  8. https://www.wikidata.org/wiki/Property:P791