Projekt:Wikidata 2014/Testcase
Utseende
Förarbete - oavsett arbetsflöde
- Identifiera ett passande dataset. Dvs. ett där:
- Licensen för metadata är CC0;
- Vart objekt har ett unikt id.
- Om det inte finns sedan tidigare, skapa/föreslå en egenskap för id-numret
- Om det inte finns sedan tidigare, skapa ett objekt för datasetet (samt möjligen för databas, data ägare osv.)
- Identifiera vilka Wikidata-egenskaper som kan fyllas i från datasetet. Dvs.
- egenskaper i datasetet
- indirekta egenskaper som gäller för alla objekt i datasetet
- identifiera även värdetyp för var av dessa
- skapa/föreslå eventuella egenskaper som saknas
- skapa vanligt förekommande värden (dvs nya objekt) som saknas
- Definiera en källhänvisning
- Starta en botförfrågan
Arbetsflöde - Data för existerande objekt
- Notera att samma princip kan användas för att uppdatera information (t.ex. ny årgång av valdata) genom att även specificera ett bestämningsord som används (och jämförs mot) för var av egenskaperna
- Identifiera vilka objekt som finns i både datasetet och Wikidata
- Antingen manuellt eller genom existerande matchningar
- Identifiera vilka värden som motsvaras av Wikidata-objekt
- Starta matchning och uppdatering genom att för vart objekt:
- Hämta innehåll via API och för var egenskap:
- om samma egenskap redan finns, med samma värde och samma källa (tillåt att t.ex. datum för källa skiljer sig åt)
- Hoppa över
- om samma egenskap finns, med samma värde
- Lägg till källa
- om samma egenskap finns, med annat värde
- Lägg till nytt värde med källa
- om samma egenskap saknas
- Lägg till ny egenskap med värde och källa
- om samma egenskap redan finns, med samma värde och samma källa (tillåt att t.ex. datum för källa skiljer sig åt)
- Hämta innehåll via API och för var egenskap:
Arbetsflöde - Nya objekt
- Identifiera vilka objekt som sedan tidigare finns i Wikidata
- Detta kan även innebära att existerande objekt måste fixas till
- Identifiera vilka värden som motsvaras av Wikidata-objekt
- Starta matchning och uppdatering. För vart objekt:
- Kontrollera om objektet redan finns:
- Om finns, registrera Q-nummer
- Om nytt, skapa ett nytt objekt med etikett och beskrivning, registrera Q-nummer för detta objektet
- Notera att etikett+beskrivnings kombinationen måste vara unik (för vart språk)
- För var egenskap (eller var egenskap som inte redan är angiven)
- Lägg till egenskap med identifierat värde
- Lägg till bestämningsord (vid behov)
- Lägg till källa
- Kontrollera om objektet redan finns:
Om inga av objekten finns sedan tidigare, eller alla som finns sedan tidigare hoppas över går det att kombinera alla stegen i punkt 3 med skapandet av det nya objektet. Fördelen med detta är att det enbart krävs en redigering, och att processen därmed även går snabbare. Nackdelen är att detta inte kan kombineras
Exempel 1: KulturNav – Utökad data och källor för existerande påståenden
I datasetet finns information om arkitekter. Flertalet av dessa har sedan tidigare matchats mot Wikipediaartiklar, och därefter Wikidata.
Förarbete
- Arkitekter verksamma i Sverige (Arkitektur- och designcentrum)
- KulturNav-id
- Arkitekter verksamma i Sverige (KulturNav, KulturIT)
-
- Alla är personer: P31:Q5
- Alla är arkitekter: P106:Q42973
- dcterms:identifier = P1248 (string)
- foaf:name = alias/P513 (string)
- dbpprop:birthDate = P569 (date)
- dbpedia-owl:birthPlace = P19 (object)
- dbpprop:deathDate = P570 (date)
- dbpedia-owl:deathPlace = P20 (object)
- foaf:gender = P21 (object)
- sameAs (med libris innehåll) = P906 (string)
- foaf:firstName = P735 (object)
- foaf:lastName = P734 (object)
- Källan är formulerad som: anges i datasetet med publiceringsdatum när registerposten senast uppdaterades
Huvuddel
- Tidigare matchade av ArkDes
- För var och en av egenskaperna kontrolleras om påståendet finns, har samma värde och har samma källa
- När källan jämförs ignoreras publiceringsdatum (då vi inte vill lägga till en ny källa som bara skiljer sig på datum)
Exempel 2: Nationalmuseum – Lägg till nya objekt eller lägg till nya påståenden för existerande objekt
Denna baserar sig på målningarna i Nationalmuseums samlingar vilka finns publicerade på Europeana. Flertalet av dessa fanns inte sedan tidigare på Wikidata men ett fåtal fanns och behövde därmed hanteras innan körningen. Körningen ingår i WikiProject sum of all paintings
Förarbete
- Målningar i Nationalmuseum via Europeana
- Inventarienummer med bestämningsord Samling:Nationalmuseum
- Samling:Nationalmuseum (samt bestämningsord för de ingående samlingarna ...)
-
- Alla är i samlingen: P195:Q842858
- Alla är målningar: P31:Q3305213
- proxies/dcIdentifier = Inventarienummer (string) med bestämningsord P195:Q842858
- about = Europeana ID (string)
- inventarienummerprefix = Placering (object)
- proxies/dcCreator = konstnär (se nedan)
- proxies/dcTitle = titel (se nedan)
- Källan är formulerad som: anges i URL med hämtningsdatum
- P854: URL, där
- http://emp-web-22.zetcom.ch/eMuseumPlus?service=ExternalInterface&module=collection&objectId=<INVENTARIENUMMER>&viewType=detailView användes för P217
- http://europeana.eu/portal/record/<EUROPEANA_ID>.html användes för resten
- P813:dagens datum
- P854: URL, där
Huvuddel
- WDQ
- objekt i rätt samling utan inventarienummer: Denna sökning ger alla objekt som måste fixas för hand (dvs. lägga till inventarienummer) innan körningen kan starta
- Konstnär motsvaras av ett wikidata objekt. Denna matchning kräver en sökning i etikett+alias följt av en kontroll av att:
-
- WDQ (ovan) kan användas för att identifiera Q-nummer för existerande objekt.
- Dock måste man vara uppmärksam på det potentiella lagg som denna har, speciellt om man kör verktyget flera gånger och objekt från första körningen annars missas och blir dubbletter.
- Notera att vi använder Q-numret för att sedan göra en sökning i Wikidata, dvs. vi använder inte de värden som WDQ ger då dessa ej är live
- OM objektet inte finns skapas ett nytt där:
- titel används so etikett (på de språk där detta anges)
- "Målning av konstnär" används som beskrivning (och motsvarande på andra språk). Med konstnär=Okänd och liknande hanterat separat
- WDQ (ovan) kan användas för att identifiera Q-nummer för existerande objekt.
- För vart objekt kontrollera vi om var egenskap redan finns:
- Om den finns, hoppar vi över den egenskapen (oavsett värde)
- Om den saknas anger vi värdet samt källa