Projekt:Wikidata 2014/Testcase
Hoppa till navigering
Hoppa till sök
Förarbete - oavsett arbetsflöde
- Identifiera ett passande dataset. Dvs. ett där:
- Licensen för metadata är CC0;
- Vart objekt har ett unikt id.
- Om det inte finns sedan tidigare, skapa/föreslå en egenskap för id-numret
- Om det inte finns sedan tidigare, skapa ett objekt för datasetet (samt möjligen för databas, data ägare osv.)
- Identifiera vilka Wikidata-egenskaper som kan fyllas i från datasetet. Dvs.
- egenskaper i datasetet
- indirekta egenskaper som gäller för alla objekt i datasetet
- identifiera även värdetyp för var av dessa
- skapa/föreslå eventuella egenskaper som saknas
- skapa vanligt förekommande värden (dvs nya objekt) som saknas
- Definiera en källhänvisning
- Starta en botförfrågan
Arbetsflöde - Data för existerande objekt
- Notera att samma princip kan användas för att uppdatera information (t.ex. ny årgång av valdata) genom att även specificera ett bestämningsord som används (och jämförs mot) för var av egenskaperna
- Identifiera vilka objekt som finns i både datasetet och Wikidata
- Antingen manuellt eller genom existerande matchningar
- Identifiera vilka värden som motsvaras av Wikidata-objekt
- Starta matchning och uppdatering genom att för vart objekt:
- Hämta innehåll via API och för var egenskap:
- om samma egenskap redan finns, med samma värde och samma källa (tillåt att t.ex. datum för källa skiljer sig åt)
- Hoppa över
- om samma egenskap finns, med samma värde
- Lägg till källa
- om samma egenskap finns, med annat värde
- Lägg till nytt värde med källa
- om samma egenskap saknas
- Lägg till ny egenskap med värde och källa
- om samma egenskap redan finns, med samma värde och samma källa (tillåt att t.ex. datum för källa skiljer sig åt)
- Hämta innehåll via API och för var egenskap:
Arbetsflöde - Nya objekt
- Identifiera vilka objekt som sedan tidigare finns i Wikidata
- Detta kan även innebära att existerande objekt måste fixas till
- Identifiera vilka värden som motsvaras av Wikidata-objekt
- Starta matchning och uppdatering. För vart objekt:
- Kontrollera om objektet redan finns:
- Om finns, registrera Q-nummer
- Om nytt, skapa ett nytt objekt med etikett och beskrivning, registrera Q-nummer för detta objektet
- Notera att etikett+beskrivnings kombinationen måste vara unik (för vart språk)
- För var egenskap (eller var egenskap som inte redan är angiven)
- Lägg till egenskap med identifierat värde
- Lägg till bestämningsord (vid behov)
- Lägg till källa
- Kontrollera om objektet redan finns:
Om inga av objekten finns sedan tidigare, eller alla som finns sedan tidigare hoppas över går det att kombinera alla stegen i punkt 3 med skapandet av det nya objektet. Fördelen med detta är att det enbart krävs en redigering, och att processen därmed även går snabbare. Nackdelen är att detta inte kan kombineras
I datasetet finns information om arkitekter. Flertalet av dessa har sedan tidigare matchats mot Wikipediaartiklar, och därefter Wikidata.
Förarbete
- Arkitekter verksamma i Sverige (Arkitektur- och designcentrum)
- KulturNav-id
- Arkitekter verksamma i Sverige (KulturNav, KulturIT)
-
- Alla är personer: P31:Q5
- Alla är arkitekter: P106:Q42973
- dcterms:identifier = P1248 (string)
- foaf:name = alias/P513 (string)
- dbpprop:birthDate = P569 (date)
- dbpedia-owl:birthPlace = P19 (object)
- dbpprop:deathDate = P570 (date)
- dbpedia-owl:deathPlace = P20 (object)
- foaf:gender = P21 (object)
- sameAs (med libris innehåll) = P906 (string)
- foaf:firstName = P735 (object)
- foaf:lastName = P734 (object)
- Källan är formulerad som: anges i datasetet med publiceringsdatum när registerposten senast uppdaterades
Huvuddel
- Tidigare matchade av ArkDes
- För var och en av egenskaperna kontrolleras om påståendet finns, har samma värde och har samma källa
- När källan jämförs ignoreras publiceringsdatum (då vi inte vill lägga till en ny källa som bara skiljer sig på datum)
Exempel 2: Nationalmuseum – Lägg till nya objekt eller lägg till nya påståenden för existerande objekt
Denna baserar sig på målningarna i Nationalmuseums samlingar vilka finns publicerade på Europeana. Flertalet av dessa fanns inte sedan tidigare på Wikidata men ett fåtal fanns och behövde därmed hanteras innan körningen. Körningen ingår i WikiProject sum of all paintings
Förarbete
- Målningar i Nationalmuseum via Europeana
- Inventarienummer med bestämningsord Samling:Nationalmuseum
- Samling:Nationalmuseum (samt bestämningsord för de ingående samlingarna ...)
-
- Alla är i samlingen: P195:Q842858
- Alla är målningar: P31:Q3305213
- proxies/dcIdentifier = Inventarienummer (string) med bestämningsord P195:Q842858
- about = Europeana ID (string)
- inventarienummerprefix = Placering (object)
- proxies/dcCreator = konstnär (se nedan)
- proxies/dcTitle = titel (se nedan)
- Källan är formulerad som: anges i URL med hämtningsdatum
- P854: URL, där
- http://emp-web-22.zetcom.ch/eMuseumPlus?service=ExternalInterface&module=collection&objectId=<INVENTARIENUMMER>&viewType=detailView användes för P217
- http://europeana.eu/portal/record/<EUROPEANA_ID>.html användes för resten
- P813:dagens datum
- P854: URL, där
Huvuddel
- WDQ
- objekt i rätt samling utan inventarienummer: Denna sökning ger alla objekt som måste fixas för hand (dvs. lägga till inventarienummer) innan körningen kan starta
- Konstnär motsvaras av ett wikidata objekt. Denna matchning kräver en sökning i etikett+alias följt av en kontroll av att:
-
- WDQ (ovan) kan användas för att identifiera Q-nummer för existerande objekt.
- Dock måste man vara uppmärksam på det potentiella lagg som denna har, speciellt om man kör verktyget flera gånger och objekt från första körningen annars missas och blir dubbletter.
- Notera att vi använder Q-numret för att sedan göra en sökning i Wikidata, dvs. vi använder inte de värden som WDQ ger då dessa ej är live
- OM objektet inte finns skapas ett nytt där:
- titel används so etikett (på de språk där detta anges)
- "Målning av konstnär" används som beskrivning (och motsvarande på andra språk). Med konstnär=Okänd och liknande hanterat separat
- WDQ (ovan) kan användas för att identifiera Q-nummer för existerande objekt.
- För vart objekt kontrollera vi om var egenskap redan finns:
- Om den finns, hoppar vi över den egenskapen (oavsett värde)
- Om den saknas anger vi värdet samt källa