Projekt:Wikispeech – Talresursinsamlaren 2019

Från Wikimedia
Hoppa till navigering Hoppa till sök
Det här kan du som frivillig hjälpa oss med!
Om du är nyfiken och vill ha mer information om specifika uppgifter, ta kontakt med andre.costa(at)wikimedia.se


Kort projektbeskrivning

Det huvudsakliga målet med Wikispeech – Talresursinsamlaren 2019 är att vidareutveckla MediaWiki-tillägget Wikispeech så att det går att samla in fritt licensierad taldata genom crowdsourcing. Det kan användas för att förbättra kvaliteten på text-till-tal-programvaran och att utvidga detta till fler språk i framtiden. Därtill blir det en resurs och service för hela FOSS-mjukvaruvärlden. Projektet fortsätter till 2021.

2019: Inledande arkitektur för verktyget kommer att färdigställas med hjälp av Wikimedia Deutschland som också kommer att vara inblandad i kodgranskning och teknisk återkoppling under hela projektet. Under 2019 förväntar vi oss att den ursprungliga utvecklingen av talresursinsamlaren sker i parallell med kontinuerliga förbättringar av den text-till-tal-lösning som utvecklats i det ursprungliga Wikispeech-projektet så att det kan lanseras som Beta på svenska, engelska och arabiska.

För mer bakgrund se förstudien, för mer detaljer om projektgenomförandet se ansökan.

Tidplan

Datum Aktivitet Kommentar Phabricator

WMSE-Wikispeech-Speech-Data-Collector-2019

Mars Presentation på Mobile Learning Week 2020. Presentation om talinsamling för AI.
Etapp 1 (2019-09–2020-02) Etapp 2 (2020-02–06) Etapp 3 (2020-06–11) Etapp 4 (2020-11–2021-03) Etapp 5 (2021-03–05)
Inspelare
Lagring
Manusskapare
Annoterare
Exporterare
Automatisk validerare
Granskare
Användartester
Metodik inspelningsevenemang
Integrering med spelare

Samarbetspartners

Se även

Projektdata

Projekt nr. 194205 Ansvarig André
Projektstart 2019-09-01 Projektslut 2021-03-31
Finansiär Budget
FDC 494 648

(2019: 0 kr, 2020: 282 608 754 kr, 2021: 212 040 kr) 

Post- och telestyrelsen 1 713 692

(2019: 127 897 kr, 2020: 1 072 045 kr, 2021: 513 750 kr)

Interna mål   Externa mål
 • T.2.2a - Deltagande på/anordnande av minst 3/10 nya evenemang.
 • T.2.2b - 1/10 nya direktkontakter med innehållsägare och org.
 • A.2.2b - Utveckling av funktioner/verktyg för att lägga till nya språk.  
 • Ett system för att genom crowdsourcing samla inspelningar av tal på olika språk.
 • Komponenter som kan användas för att annotera det inspelade talet.
 • Genomförande av evenemang för att finna metoder för att engagera allmänheten att bidra med inspelat tal och annoteringar samt ta fram ett färdigt kit för att andra enkelt skall kunna ordna egna talinsamlings/-annoteringsevenemang.
 • System och strategier för att insamlat tal samt annoteringar skall komma Wikipedia och andra Wikimedia-plattformarna till godo samt kunna samlas in via dessa plattformar.
 • Säkerställa att insamlat tal och annoteringar kan lagras på plattformar som möjliggör brett tillgängliggöra 
Lägesrapport: 
Uppdaterad senast 2020-11-18 STATUS Button Icon Orange.svg (se problem nedan)
Utförda aktiviteter Måluppfyllnad
 • Etapprapport 3 godkänd (i denna ingick en reviderad projektplan)
 • Ytterligare diskussioner med WMF om säkerhetsgranskning/lansering
 • Påbörjat arbetet med API och frontend för taldatainsamlaren
 • Tagit fram ett utkast för en Performance review
Viktigt nästa månad Öppna huvudsakliga problem
 • Säkerhetsgranskning

Vissa identifierade problem med uppspelningsverktyget har tagit mer tid i åtagande att åtgärda. Som ett resultat har vi kommit igång med Taldatainsamlaren senare än önskat. Det finns en risk att vi därmed inte hinner färdigställa all planerad funktionalitet i Taldatainsamlaren.

Aktuell kostnad Dragna erfarenheter
För aktuella kostnader se Ekonomiska rapporter 2020.
Kommentar från verksamhetschefen