Projekt:Wikispeech – Talresursinsamlaren 2019

Från Wikimedia
Hoppa till navigering Hoppa till sök
Det här kan du som frivillig hjälpa oss med!
Om du är nyfiken och vill ha mer information om specifika uppgifter, ta kontakt med andre.costa(at)wikimedia.se


Kort projektbeskrivning

Det huvudsakliga målet med Wikispeech – Talresursinsamlaren 2019 är att vidareutveckla MediaWiki-tillägget Wikispeech så att det går att samla in fritt licensierad taldata genom crowdsourcing. Det kan användas för att förbättra kvaliteten på text-till-tal-programvaran och att utvidga detta till fler språk i framtiden. Därtill blir det en resurs och service för hela FOSS-mjukvaruvärlden. Projektet fortsätter till 2021.

2019: Inledande arkitektur för verktyget kommer att färdigställas med hjälp av Wikimedia Deutschland som också kommer att vara inblandad i kodgranskning och teknisk återkoppling under hela projektet. Under 2019 förväntar vi oss att den ursprungliga utvecklingen av talresursinsamlaren sker i parallell med kontinuerliga förbättringar av den text-till-tal-lösning som utvecklats i det ursprungliga Wikispeech-projektet så att det kan lanseras som Beta på svenska, engelska och arabiska.

För mer bakgrund se förstudien, för mer detaljer om projektgenomförandet se ansökan.

Tidplan

Datum Aktivitet Kommentar Phabricator

WMSE-Wikispeech-Speech-Data-Collector-2019

Mars Presentation på Mobile Learning Week 2020. Presentation om talinsamling för AI.
Etapp 1 (2019-09–2020-02) Etapp 2 (2020-02–06) Etapp 3 (2020-06–10) Etapp 4 (2020-10–2021-02) Etapp 5 (2021-02–04)
Inspelare
Lagring
Manusskapare
Annoterare
Exporterare
Automatisk validerare
Granskare
Användartester
Metodik inspelningsevenemang
Integrering med spelare

Samarbetspartners

Se även

Projektdata

Projekt nr. 194205 Ansvarig André
Projektstart 2019-09-01 Projektslut 2021-03-31
Finansiär Budget
FDC 494 648

(2019: 0 kr, 2020: 282 608 754 kr, 2021: 212 040 kr) 

Post- och telestyrelsen 1 713 692

(2019: 127 897 kr, 2020: 1 072 045 kr, 2021: 513 750 kr)

Interna mål   Externa mål
  • T.2.2a - Deltagande på/anordnande av minst 3/10 nya evenemang.
  • T.2.2b - 1/10 nya direktkontakter med innehållsägare och org.
  • A.2.2b - Utveckling av funktioner/verktyg för att lägga till nya språk.  
  • Ett system för att genom crowdsourcing samla inspelningar av tal på olika språk.
  • Komponenter som kan användas för att annotera det inspelade talet.
  • Genomförande av evenemang för att finna metoder för att engagera allmänheten att bidra med inspelat tal och annoteringar samt ta fram ett färdigt kit för att andra enkelt skall kunna ordna egna talinsamlings/-annoteringsevenemang.
  • System och strategier för att insamlat tal samt annoteringar skall komma Wikipedia och andra Wikimedia-plattformarna till godo samt kunna samlas in via dessa plattformar.
  • Säkerställa att insamlat tal och annoteringar kan lagras på plattformar som möjliggör brett tillgängliggöra 
Lägesrapport: 
Uppdaterad senast 2020-07-02 STATUS Button Icon GreenForest.svg
Utförda aktiviteter Måluppfyllnad
  • Ny etapprapport inskickad
  • En budgetjustering och projektförlängning p.g.a. Covid-19 har godkänts
  • En Projektlogg har satts upp för att göra det enklare för intressenter att följa utveclingen
  • Omstrukturering av kodbas för lagring till största delen genomförd
  • Omstrukturering av kodbas för lexikon i praktiken genomförd
  • Omförpackning av Speechoid (TTS-servern) genomförd
  • Ny kontakt tagen med LinguaLibre
  • Filmad intervju publicerad
  • Ett flertal blockers som identifierats under WMDE besöket har åtgärdats.
Viktigt nästa månad Öppna huvudsakliga problem

Projektet har på grund av andra åtaganden kommit igång lite sent men vi räknar inte med att detta har någon långtgående påverkan.

Aktuell kostnad Dragna erfarenheter
För aktuella kostnader se Ekonomiska rapporter 2019.
Kommentar från verksamhetschefen