Projekt:Wikispeech – Talresursinsamlaren 2019

Från Wikimedia
Hoppa till navigering Hoppa till sök

Kort projektbeskrivning

Det huvudsakliga målet med Wikispeech – Talresursinsamlaren 2019 är att vidareutveckla MediaWiki-tillägget Wikispeech så att det går att samla in fritt licensierad taldata genom crowdsourcing. Det kan användas för att förbättra kvaliteten på text-till-tal-programvaran och att utvidga detta till fler språk i framtiden. Därtill blir det en resurs och service för hela FOSS-mjukvaruvärlden. Projektet fortsätter till 2021.

2019: Inledande arkitektur för verktyget kommer att färdigställas med hjälp av Wikimedia Deutschland som också kommer att vara inblandad i kodgranskning och teknisk återkoppling under hela projektet. Under 2019 förväntar vi oss att den ursprungliga utvecklingen av talresursinsamlaren sker i parallell med kontinuerliga förbättringar av den text-till-tal-lösning som utvecklats i det ursprungliga Wikispeech-projektet så att det kan lanseras som Beta på svenska, engelska och arabiska.

För mer bakgrund se förstudien, för mer detaljer om projektgenomförandet se ansökan.

Tidplan

Datum Aktivitet Tidsåtgång (dagar) Ansvarig Kommentar Phabricator

WMSE-Wikispeech-Speech-Data-Collector-2019

Januari-mars Färdigställande av Wikispeech för beta lansering 50 André, Sebastian, Kalle Stöd för att Redigera i lexikon, kod för att få upp beta feature, gå igenom reviews, deployment på servrar
Januari-maj Kommunikation och engagemangsbyggande 15 Eric, med stöd av André, Sebastian, Kalle Bygger engagemang inför betalsansering, bygga engagemang för fler språk, preppa socialt inför betalanseringen
Februari-april Utvärdering av mjukvaran tillsammans med Dyslexiförbundet 5 André, med stöd av Sebastian, Kalle (Eric och Josefine beroende på formatet) Outcome beror på vad Dyslexiförbundet kan erbjuda
Mars-maj Uppföljning av Wikispeech betalansering:

Teknisk

12 André, Sebastian, Kalle Hantering av direkta buggrapport
Mars-maj Uppföljning av Wikispeech betalansering: Gemenskapshantering 8 Axel, med stöd av André, Sebastian, Kalle och Eric Allmän vallning av diskussionerna kring Wikispeech hos gemenskapen.

Den reaktiva aspekten av den mer strategiska Kommunikation och engagemangsbyggande

T273186
Februari-maj Färdigställande av prototyp för  Taldatainsamlaren 70 André, Sebastian, Kalle Mjukvaruutveckling
April Metodikutveckling för inspelningsevent 7 Tore…, med stöd av André, Sebastian, Kalle (även Josefine och Eric beroende på formatet) Förberedelse och idéutveckling för flera olika typer av evenemang beroende på målgrupper m.m.

Inkluderar involvering av Dyslexiförbundet.

Stäm av med WMFR om hur de genomfört event.

Synka med KTH:s löfte om att spela in studenter.

April Slutrapportering 5,5 André med stöd av Sebastian, Kalle (och John) André preppar så mycket som möjligt innan föräldraledighet.
April-maj Resultatspridnign 1,5 Eric med stöd av André, Sebastian och Kalle
Etapp 1 (2019-09–2020-02) Etapp 2 (2020-02–06) Etapp 3 (2020-06–11) Etapp 4 (2020-11–2021-03) Etapp 5 (2021-03–05)
Inspelare
Lagring
Manusskapare
Annoterare
Exporterare
Automatisk validerare
Granskare
Användartester
Metodik inspelningsevenemang
Integrering med spelare

Samarbetspartners

Se även

Projektdata

Projekt nr. 194205 Ansvarig André
Projektstart 2019-09-01 Projektslut 2021-04-30
Finansiär Budget
FDC 494 648

(2019: 0 kr, 2020: 282 608 754 kr, 2021: 212 040 kr) 

Post- och telestyrelsen 1 713 692

(2019: 127 897 kr, 2020: 1 072 045 kr, 2021: 513 750 kr)

Interna mål   Externa mål
  • T.2.2a - Deltagande på/anordnande av minst 3/10 nya evenemang.
  • T.2.2b - 1/10 nya direktkontakter med innehållsägare och org.
  • A.2.2b - Utveckling av funktioner/verktyg för att lägga till nya språk.  
  • Ett system för att genom crowdsourcing samla inspelningar av tal på olika språk.
  • Komponenter som kan användas för att annotera det inspelade talet.
  • Genomförande av evenemang för att finna metoder för att engagera allmänheten att bidra med inspelat tal och annoteringar samt ta fram ett färdigt kit för att andra enkelt skall kunna ordna egna talinsamlings/-annoteringsevenemang.
  • System och strategier för att insamlat tal samt annoteringar skall komma Wikipedia och andra Wikimedia-plattformarna till godo samt kunna samlas in via dessa plattformar.
  • Säkerställa att insamlat tal och annoteringar kan lagras på plattformar som möjliggör brett tillgängliggöra 
Lägesrapport: 
Uppdaterad senast 2021-03-02 STATUS Button Icon Orange.svg (se problem nedan)
Utförda aktiviteter Måluppfyllnad
  • Inledande kod på plats för API och frontend för taldatainsamlaren
  • Ytterligare diskussioner med WMF inklusive en föreslagen väg för implementering.
  • Som ett resultat av ovanstående diskussion prioriterades implementationen av Lexikonredigering över taldatainsamlingen
    • Arkitektur för Lexikon-redigering framtagen
    • Inledande kod för lexikon-redigering producerad
  • Förtydligande planer för projektets avslutande framtagen
Viktigt nästa månad Öppna huvudsakliga problem
  • Säkerhetsgranskning
  • Etapprapport 4
  • Påbörjar slutrapporten
  • Planering för Dyslexiförbundets insats

Vissa identifierade problem med uppspelningsverktyget har tagit mer tid i åtagande att åtgärda. Som ett resultat har vi kommit igång med Taldatainsamlaren senare än önskat. Det finns en risk att vi därmed inte hinner färdigställa all planerad funktionalitet i Taldatainsamlaren.

Aktuell kostnad Dragna erfarenheter
För aktuella kostnader se Ekonomiska rapporter 2020.
Kommentar från verksamhetschefen