Projekt:Kunskap i krissituationer 2021/SCB/sv

Från Wikimedia
Hoppa till navigering Hoppa till sök
Det här är en översatt version av sidan Projekt:Kunskap i krissituationer 2021/SCB. Översättningen är till 97 % färdig och uppdaterad.
Föråldrade översättningar markeras på det här sättet.

Bakgrund

Statistiska Centralbyrån (SCB) släppte sina öppna data under licensen CC0 i juli 2021. CC0 är den mest tillåtande Creative Commons-licensen, då den tillåter alla att sprida och återanvända datan utan krav på att källan skall attribueras. Och vad som är viktigast för oss, det betyder att SCB:s data blir kompatibel med Wikidata. Själva omfattas av licensed CC0, vilket innebär att endast data under en kompatibel licens kan importeras där.

Wikimedia Sverige har arbetat med SCB:s arbetsgrupp för Agenda 2030 och de globala målen för att undersöka vilka data om globala mål-indikatorer som skulle kunna laddas upp till Wikidata.

För att undersöka den tillgängliga datan och testa ett arbetsflöde för att ladda upp den till Wikimediaplattformarna valde vi att fokusera på datasetet Befolkningen 15-74 år (AKU) efter kön, ålder och arbetskraftstillhörighet. År 1970 - 2020. Detta är ett av de globala målen för hållbar utveckling: 8. Verka för varaktig, inkluderande och hållbar ekonomisk tillväxt, full och produktiv sysselsättning med anständiga arbetsvillkor för alla.

Genomförande

Wikimediaplattformarna erbjuder två lösningar för att förvara data:

Vi testade bägge två för att undersöka och jämföra deras för- och nackdelar.

Vi laddade ner Sveriges arbetslöshetssiffror från perioden 1970–2020. Datan var tillgänglig i flera format, av vilka CSV användes.

Upplägget av källdatan var problematiskt, eftersom årtal användes som kolumnhuvud, vilket ej var intuitivt. Vi transponerade datan i Google Sheets så att kolumnerna och raderna bytte plats med varandra, såsom exemplifierat nedan:

2020 2019 2018…
kvinnor xx xx xx
män xx xx xx
totalt xx xx xx


kvinnor män totalt
2020 xx xx xx
2019 xx xx xx
2018… xx xx xx

Wikidata

Wikidata har flera egenskaper med koppling till statistik och demografi, inklusive P1198 arbetslöshet. Vi använde den för att ladda upp data om hur många procent av befolkningen som var arbetslösa (under perioden 1970–2020) till objektet Sverige, Q34. Varje uttalande hade bestämmelsen P585 tidpunkt.

Tabulara data på Wikimedia Commons

Trots att Wikimedia Commons mest används för att förvara mediafiler, som bilder och videoklipp (det omfattar i dag över 70 miljoner filer), har det även en separat namnrymnd för tabulara data. Tabulara data gör det möjligt för att användare att ladda upp CSV-liknande datatabeller och använda dem på andra wikis för att automatiskt skapa tabeller, listor och grafer.

Namnrymnden för tabulara data används inte så mycket. Just nu är många av dataseten kopplade till Covid-pandemin, men den har också används för befolkningsdata samt diverse data som resultat av opinionsundersökningar inför val och antal besökare till nationalparker.

Vi laddade upp datan om arbetslösheten i Sverige med könsuppdelning som tabulara data på Wikimedia Commons – det vill säga ett större dataset än på Wikidata, som endast berikades med siffrorna för hela befolkningen, utan könsuppdelning.

För att ladda upp tabulara data till Wikimedia Commons, måste den konverteras från tabellformat till en JSON-fil som har fält som licens, källa och definitioner av alla kolumner. Vi konverterade källdatan från CSV (som hade transponerat enligt ovan) till JSON i en textredigerare genom att ersätta några av tecknen i varje rad med JSON syntaxtecken, vilket exemplifieras nedan:

2020,8.6,8.4,8.5 ["2020",8.4,8.5,8.4],
2019,7.6,7.4,7.5 ["2019",7.6,7.4,7.5]

Resultat

De två uppladdningarna resulterade i följande dataset:

  • Påståenden om arbetslösheten i hela befolkningen från 1970 till 2020 lades till i Sveriges objekt på Wikidata, Q34. De kan hämtas med Wikidata Query Service.
  • Filen Data:Unemployment in Sweden.tab skapades i Wikimedia Commons' namnrymnd för tabulara data. Den innehåller siffrorna både för hela befolkningen och uppdelat efter kön.

Diskussion

Anledningen till varför vi arbetade med både Wikidata och Wikimedia Commons var att undersöka vilket av dem var bättre lämpat för denna sorten statistiska data med många (årliga) datapunkter

En av Wikidatas styrkor är att den kombinerar mycket information på en plattform. Poängen med Länkade Öppna Data är att helheten är större än summan av delarna. Genom att använda Wikidata Query Service kan man plocka ut data enligt olika kriterier, till exempel för att göra ett diagram över arbetslösheten mot andra ekonomiska indikatorer, eller för att göra jämförelser mellan olika länder.

Å ena sidan skulle man kunna diskutera huruvida att 50 nya uttalanden tillagda i ett objekt – en för varje år 1970–2020 – är det mest optimala sättet att arbeta. Q34, Sveriges objekt, är redan ganska gediget, likaså andra länders objekt. Om vi också hade lagt till datan med könsuppdelning, hade det resulterat i 150 uttalanden om arbetslösheten (för hela befolkningen, för kvinnor och för män). Och när man tänker på andra indikatorer som gäller för hela landet, såsom hemlöshet, dödlighet med mera, var och en med 50 datapunkter, blir orimligheten i att överbelasta landets objekt tydlig.

En annan aspekt av Wikidata är att det inte alltid är lätt att uttrycka det vi vill med uttalanden. I vårt fall fanns redan egenskapen P1198 arbetslöshet. Men om en egenskap som uppfyller ens behov till 100% inte finns, om man anser att den borde skapas, det är en process där gemenskapen diskuterar det och tillsammans beslutar huruvida den ger värde till plattformen.

Å andra sidan är Wikimedia Commons mer flexibelt i detta avseende. Man behöver inte begränsa sin uppladdning till de egenskaper som finns till hands i en begränsad mängd. Den tabulara namnrymnden är dessutom bokstavligen skapad för att lagra stora datalistor som vår. Från användarsynpunkt, en tabell som COVID-19 Sweden daily cases hospitalisations deaths är betydligt lättare att läsa och analysera än data på Wikidata.

Det bör också tas i beaktande att bägge möjligheter – Wikidata och tabulara data – är kompatibla med mallen Graph:Lines som kan användas för att infoga ett diagram med datan på Wikipedia. Se till exempel denna grafen av arbetslösheten i Sverige, uppdelat efter kön, som skapas utifrån datan på Wikimedia Commons.

Sammanfattningsvis, namnrymnden för tabulara data på Wikimedia Commons är ett ypperligt alternativ till Wikidata när man arbetar med data med många datapunkter, så som data över tid. Den har inte de modelleringsbegränsningar som Wikidata med sitt begränsade antal egenskaper har. Samtidigt är det också värdefullt att ladda upp en del av datan till Wikidata. I varje individuellt fall måste man bedöma vilken del av datan som kan ge mest värde till Wikidatas användare, så som i vårt fall, där vi endast laddade upp arbetslöshetssiffror för hela befolkningen till Wikidata och med uppdelning på kön till Wikimedia Commons.