Hoppa till innehållet

Projekt:Wikispeech för AI 2020

Från Wikimedia
Det här kan du som frivillig hjälpa oss med!
Buggrapportera Testa Wikispeech och rapportera konstigheter och buggar. Stöter du på problem eller har förslag på saker som kan förbättras kan du skriva på tilläggets diskussionssida. Där går det bra att skriva på svenska. Denna sida når du även via knappen med megafonikonen i spelaren.

Obs: om det gäller specifikt ord som uttalas fel så finns det en särskild sida för att rapportera dessa.

Om du är nyfiken och vill ha mer information om specifika uppgifter, ta kontakt med andre.costa(at)wikimedia.se



Kort projektbeskrivning

Syftet med Wikispeech för AI 2020 är att fungera som en referens och pilot för ett större projekt som vill använda AI för att skapa en fri text-till-tal-röst som passar för att läsa längre texter.

2020: Vi kommer att titta på hur taldata som samlats in genom Wikispeech – Talresursinsamlaren 2019 kan användas för att träna AI att skapa en bättre röst och testa om en sådan röst förbättrar användarupplevelsen för Wikispeech. Under året kommer Wikimedia Sverige stödja projektet genom att dela insikter om innehållet som samlats in i Wikispeech – Talresursinsamlaren 2019 samt ge stöd i hur Wikipedias texter bäst kan användas för att träna AI på att läsa längre texter.

2021: Vi kommer att titta på hur taldata som samlats in genom Wikispeech – Talresursinsamlaren 2019 kan användas för att träna AI att skapa en bättre röst och testa om en sådan röst förbättrar användarupplevelsen för Wikispeech. Under året kommer Wikimedia Sverige stödja projektet genom att dela insikter om innehållet som samlats in i Wikispeech – Talresursinsamlaren 2019.

2022: Vi kommer att ge stöd till KTH i samband med att de avrundar projektet samt titta på hur projektets resultat kan användas i Wikispeech.

Tidplan

2020–2021

Datum Aktivitet Tidsåtgång (dagar) Ansvarig Kommentar Phabricator

WMSE-Wikispeech-for-AI-2020

Februari–december(?) Projektmöten och stöd till övriga projektpartners 5 André med stöd av Sebastian, Kalle
Maj–augusti Vidarutveckling av Taldatainsamlaren 15 Sebastian, Kalle Bygg färdigt eventuell funktionalitet som saknas när PTS projektet avslutas
Juni Arctic Knot 2 Kalle, med stöd av Sebastian Delta och presentera på Arctic Knot
Juni–december(?) Taldatainsamlaren för att skapa nya röster eller variationer av existerande röster 15 Sebastian Undersök dels hur Taldatainsamlaren kan användas för att skapa en ny röst utifrån en redan tränad röstmodell.

Dels hur den kan användas för att skapa en ny röst när ingen underliggande röstmodell ännu finns att tillgå.

Augusti–december(?) Experimentera med nya maskininlärda röster i Wikispeech 18 Sebastian KTH tar fram en fri svensk röst speciellt anpassad för längre texter.

Den nya typen av röst skapar uttal på ett annat sätt och kräver annan maskinvara. Undersök hur mycket bättre Wikispeech-resultatet blir och vilken den ökade kostnaden är

Augusti–december(?) Stöd med korpus av Wikipedia till KTH 5 Sebastian KTH behöver korpus för att se hur språk naturligt utvecklas och exempelvis Wikipediadumpar av versionshistorik kan bidra med detta
December(?) Rapport för Wikimediarörelsen 5 Sebastian, med stöd av Eric Ta fram en rapport riktad mot Wikimediarörelsen som beskriver vad som krävs för att skapa röster (av den nya typen) på andra språk

2022–2023

Datum Aktivitet Tidsåtgång (dagar) Ansvarig Kommentar Phabricator

WMSE-Wikispeech-for-AI-2020

Januari–December Ge stöd till KTH i samband med att de avrundar och rapporterar projektet. 5 André med stöd av Sebastian, Kalle Denna aktivitet agerar responsivt på KTHs förfrågningar. T244012
December Utvärdera hur projektresultatet kan användas för att stärka Wikispeech. 1,5 André med stöd av Sebastian, Kalle T318556


Samarbetspartners

  • KTH
  • STTS
  • MTM
  • Bonnier

Se även

Projektdata

Projekt nr. 194206 Ansvarig André
Projektstart 2019-10-01 Projektslut 2022-09-30
Finansiär Budget
Vinnova 129 000 kr (2020) samt 130 000 kr (2021) 
Wikimedia Foundation 33 000 kr (2020) samt 32 000 kr (2021)
Interna mål
  • T.2.1 - 5/50 organisationer tar del av information om fria licenser.
  • T.2.2a - Deltagande på/anordnande av minst 1/10 nya evenemang.
  • T.2.2b - 3/10 nya direktkontakter med innehållsägare och org.
Slutrapport/utvärdering Projekt:Wikispeech för AI 2020/Slutrapport 
Lägesrapport: 
Uppdaterad senast 2021-08-09 STATUS
Utförda aktiviteter Måluppfyllnad

Se Wikispeech – Talresursinsamlaren 2019 för ytterligare aktiviteter.

  • Diskussioner med KTH hur/om vi kan bidra med kurerade Wikipedia-nedladdningar av olika slag för olika forskningsprojekt, t.ex. hur översättningar ändrats eller hur artiklar som vid något tillfälle haft en Språkvårds-mall har utvecklats till dess att den togs bort.
  • Vidareutveckling av talsyntesen Wikispeech för att möjliggöra aktivering har skett.
  • T.2.2a - Deltagande på/anordnande av har skett för 1 nytt evenemang.
  • T.2.2b - 2 nya direktkontakter med innehållsägare och org. har skett.
Viktigt nästa månad Öppna huvudsakliga problem
Aktuell kostnad Dragna erfarenheter
För aktuella kostnader se Ekonomiska rapporter 2020.
Kommentar från verksamhetschefen