Hoppa till innehållet

Projekt:Talsyntes 2015/Ansökan till PTS

Från Wikimedia
Ansökan
Organisation: PTS
Sista ansökningsdatum:
Max bidrag:
Bedömd chans: Mycket hög
Väntevärde:
Värde för WMSE (1-5): Mycket hög
Beslutsdatum:
Uppföljning inför inskick:

Projekttitel

Wikispeech – en användargenererad talsyntes på Wikipedia

Projektsammanfattning (max 1500 tecken)

Wikipedia är en av världens mest använda webbplatser med ca 500 miljoner besökare varje månad och ca 20 miljarder sidvisningar. Wikipedia är en s.k. wiki och använder mjukvaran MediaWiki i bakgrunden. MediaWiki används av många tusen andra webbplatser och detta projekt syftar till att skapa den programvara som behövs för att talsyntes skall kunna användas på alla dessa och optimerad på Wikipedia. Wikipedia innehåller många specialiserade texter vilket gör att talsyntesens uttalslexikon måste vara mycket omfattande. Därtill finns Wikipedia på 288 olika språk, och plattformen skall vara skalbar till alla de språken samt alla framtida. Flexibilitet är därför centralt. Svenska, engelska samt ett höger-till-vänster-språk (ex. arabiska) kommer att inkluderas i piloten. Ett sätt att nå en flexibel plattform är att tillgodogöra sig den språkliga expertis som finns hos de tiotusentals volontärer som är involverade i Wikimedias olika projekt. Genom att användargenerera talsyntesen med inspelningar av de specialiserade texterna kan vi nå en förfinad och högkvalitativ talsyntes även i obskyra ämnen på språk som tidigare helt saknat en fungerande talsyntes.

Utgångspunkten för arbetet blir en rapport med en detaljerad kravspecifikation och tidsplan. Många existerande lösningar kommer helt eller delvis att användas vilket säkerställs genom experterna i projektgruppen.

Allt producerat material, oavsett typ, kommer att vara fritt licensierat och därmed vara möjligt att gratis återanvändas av vem som helst.

Sökt finansieringsbelopp (SEK)

350 000 kr

Medfinansiering i kronor (SEK)

45 000 kr

Resultatmål

1 september-15 november. Skapande av en rapport. Målet är en rapport som ligger som grund för en kravspecifikation och tidsplan till vår utökade ansökning. 300 000 kr fördelat på de tre parterna samt 30 000 kr i egenfinansiering.

15 oktober-30 november. Förankring av arbetet. Rapporten kommer även vara en del av arbetet för att förankra projektet hos Wikimedia Foundation i USA (som har ansvaret för att kvalitetskontrollera all kod som kommer att skrivas inom ramen för det framtida projektet) samt med volontärgemenskapen. Ett väl förankrat projekt kommer att säkerställa att de ger kontrollen av vår kod prioritet och att vi har ett nära samarbete från dag 1. 50 000 kr för Wikimedia Sverige som även stoppar in 15 000 kr i egen finansiering.

Effektmål

Det övergripande effektmålet för projektet är att göra Wikipedia, världens sjunde största webbplats, mer tillgängligt för alla de personer som av olika svårigheter har problem med att tillgodogöra sig texterna. Det handlar framförallt om personer med synnedsättningar, men även om personer som är dyslektiker eller analfabeter. I detta första projekt runt detta kommer vi att fokusera på att skapa en flexibel plattform för talsyntes.

1. Behovsanalys

1.1. Vilket/vilka behov kommer att tillgodoses om projektet genomförs?

Wikipedia är världens sjunde mest använda webbplats och har 288 olika språkversioner. Det är den mest använda webbplatsen som inte drivs av kommersiella företag och världens, genom tiderna, största uppslagsverk. Wikipedia använder mjukvaran MediaWiki vilket även används av tusentals andra webbplatser. Att göra alla de sajter som använder MediaWiki mer tillgängliga för de som av olika orsaker har svårt att ta till sig skriven text är därför oerhört viktigt. Det kan handla om de som har synnedsättningar, som har dyslexi eller är analfabeter. Det är helt enkelt en enorm mängd resurser som stora delar av världens befolkning stängs ute ifrån. Detta projekt handlar om att skapa en flexibel plattform för talsyntes för MediaWiki och skapa fungerande exempel på minst tre språk (svenska, engelska och ett höger-till-vänster-språk, såsom arabiska).

1.2. Vilken/vilka är målgrupperna för projektet?

Fokus ligger på alla de som av olika orsaker har svårt att läsa, p.g.a. synnedsättningar, dyslexi eller analfabetism. Även de ca. 25% som lär sig bäst av uppläst text ska kunna nyttja funktionen samt de som vill lära sig samtidigt som de gör något annat (ex. kör bil). 25% av Wikipedias läsare innebär att för närvarande skulle runt 115-125 miljoner människor kunna få nytta av projektets arbete på sikt.

1.3. Ge en kortfattad redovisning av genomförd behovsanalys?

Projektgruppen har genomfört ett inledande möte där vi skissade på vad som skulle behöva inkluderas för en Minimum viable product. Därtill förde vi en bredare diskussion om vilken funktionalitet vi skulle vilja se i nästa steg för att undvika att bygga in oss och sätta onödiga begränsningar på vår plattform.

Vi har redan påbörjat arbetet med att identifiera existerande verktyg som kan vara möjliga att inkludera samt andra pågående projekt som projektet kan gagnas av.

1.4. Finns användningsområden för fler grupper utanför de tilltänkta målgrupperna, vilka?

Alla andra plattformar som använder MediaWiki kommer att kunna dra nytta av det hela. Det rör sig om tusentals webbplatser som snabbt och enkelt kommer att kunna aktivera talsyntes.

Projektet kommer att gynna både forskare och företag då materialet som genereras av volontärer för att förbättra talsyntes kommer att vara fritt att återanvända – även för kommersiellt bruk.

Metoderna runt användargenererad talsyntes kommer att vara möjliga att använda även för andra typer av texter då även dessa fritt kommer att delas.

1.5. Vilka intressenter har förslaget förankrats hos (exempel kan vara blivande kunder & företrädare för målgruppen – ange namn, organisation, telefonnummer)?

Relevanta organisationer såsom exempelvis Synskadades Riksförbund, Svenska Dyslexiföreningen, Dyslexiförbundet FMLS, Myndigheten för delaktighet och Myndigheten för tillgängliga medier kommer att kontaktas under förstudien då det finns en konkret tidsplan som de kan ta ställning till.

2. Beskrivning av produkt/tjänst

2.1. Hur benämns produkten/tjänsten?

Wikispeech

2.2. Beskriv hur projektet är förenligt med Design för alla (klicka på denna länk för mer information).

Projektet kommer att bredda tillgängligheten för en av de viktigaste webbplatserna. Med hjälp av navigering och uppläsning med syntetiskt tal, kan personer som bättre tillgodogör sig tal än skrift få likvärdig tillgång till informationen. I förlängningen gör projektets öppna natur det möjligt att utveckla nya sätt att presentera den talade informationen, exempelvis i en spelare avsedd för mobiltelefoner. Projektet gör det också lättare att utveckla talsyntes för språk som ännu saknar tekniken, vilket är intressant då det kan finnas åtskilliga talare i Sverige, men inte tillräckligt många för att göra det kommersiellt attraktivt/prioriterat.

2.3. Beskriv hur och när produkten/tjänsten ska användas? (beskriv gärna användargränssnitt och ett scenario)

En person som har svårt att ta till sig skriven text är intresserad av att lära sig mer om demokrati och besöker Wikipedia för att lära sig mer om parlamentarism. På webbplatsen finns en knapp för att få artikeln uppläst via talsyntes.

Detta är en serverbaserad lösning vilket gör att användaren inte behöver ladda hem ett program utan det är bara att trycka på knappen, oavsett om användaren använder sig av en dator, mobil eller surfplatta med alla möjliga olika operativsystem och webbläsare. Placeringen av knappen är densamma på alla de 70 olika språk som artikeln (för närvarande) finns på. Användaren går idag till den svenskspråkiga artikeln då den är väl utbyggd, men hade i annat fall kanske tittat på den engelskspråkiga artikeln. Där klickar hen på knappen och texten börjar läsas upp.

Flera existerande uttalslexikon har inkluderats, men artikel innehåller dock många fackuttryck vilket kräver ett specialiserat uttalslexikon för att talsyntesen skall bli korrekt (ex. ord som "misstroendevotum" och "folksuveränitetsprincipen"). I den svenska texten nämns även Gustav III vilket kräver att det finns en förståelse hur detta skall uttalas ("Gustav den tredje"). För en vecka sedan hade detta ställt till problem, men som tur är har engagerade volontärer just läst in liknande texter och talsyntesen inom detta ämnesområde är nu mycket välutvecklad på svenska.

Efter att ha gått igenom en del av artikeln tar hen en paus och stannar talsyntesen. Ett par timmar senare kommer hen tillbaka och fortsätter uppläsningen på rätt plats. Då hen blir störd vid ett par tillfällen behöver användaren gå tillbaka och läsa om vilket smidigt sker genom att antingen använda tangentbord, mus eller talstyrning.

Att alla personer med synnedsättningar, dyslexi eller analfabetism kan ta till sig den här typen av central kunskap är mycket viktigt och talsyntesen skulle göra detta möjligt.

Exemplet ovan är möjligt först efter en längre utvecklingsperiod. Inom ramen för detta första utvecklingssteg räknar vi med att lägga en god grund och skapa en flexibel lösning som är skalbar till alla de möjliga språk, tekniska plattformar, operativsystem och webbläsare som finns. I vår inledande undersökning kommer en prioritering att göras.

2.4. Ge en teknisk beskrivning av lösningen (hårdvara, mjukvara, mm – samt hur de olika komponenterna samverkar). Om den baseras på befintliga produkter beskriv hur de ska utvecklas/anpassas.

Det är detta som vi kommer att undersöka i detalj som en del av pilotprojektet. Flera delar av mjukvara och lexikon kan gå att återanvända från andra projekt. All mjukvara kommer att utvecklas som fri programvara.

Vi räknar även med att då talsyntesen kan genereras och förfinas av användarna (med inspelningar av de specialiserade texterna) kan vi nå en högkvalitativ talsyntes även för ovanliga facktermer, för homografiska ord samt på språk som tidigare helt saknat en fungerande talsyntes. Globalt bidrar ca. 80 000 frivilliga regelbundet till Wikipedias 288 språkversioner och vi hoppas att med tiden locka några personer per språkversion till att hjälpa till med talsyntesen.

2.5. Krävs specifik mjukvara, hårdvara, eller någon typ av abonnemang för att använda produkten/tjänsten dvs. för slutanvändaren och eventuella mellanled? Om ja vilket?

Vår grundtanke som vi kommer att arbeta baserat på är en serverlösning där alla därigenom skall ha tillgång till talsyntesen utan att behöva ladda hem någonting. All mjukvara kommer att vara fritt tillgänglig och vi kommer inte att samla in data om användarna för kommersiellt bruk eller av andra anledningar.

2.6. Vad är status för er utveckling av produkten/tjänsten i dag?

Mjukvaran MediaWiki har en kontinuerlig utveckling av ca. 100 anställda utvecklare i USA, ett 30-tal i Tyskland och ett tiotal utsprida i andra länder, däribland Sverige, samt flera tusen volontärer.

Det finns flera fritt licensierade lösningar för talsyntes som vi kommer att arbeta med som grund. Ex. kan eSpeak och CMU Flite komma att användas som grund för utveckling av spelare. Kompetens finns i projektgruppen för de olika delarna men det praktiska arbetet med talsyntes för MediaWiki har ännu inte påbörjats och Sverige kan här ta en ledarroll.

3. Genomförande

3.1. Beskriv etapper och leverabler som sker under genomförandet.

Projektparterna kommer att ha ansvar att utreda följande olika delar:

Wikimedia Sverige ansvarar för projekthantering, kommunikation gällande projektet, integrering med Wikipedia/Wiktionary/Wikidata, kontakter med Wikimedia Foundation för att säkerställa att det finns förankrat där.

KTH fokuserar på arbetet runt att göra talsyntes på inspelningar av texter från Wikipedia och annat självinspelat material, automatisk alignering, träning och anpassning av röster.

STTS arbetar med lexikon, ljudspelare med uppmärkning av text.

3.2. Ange vilka standarder inom tillgänglighet och användbarhet som kommer att följas

För uppspelning och redigering kommer standartekniker för webben att användas (HTML5, JavaScript, CSS, etc). I förstudien som denna ansökan gäller, kommer det att ingå en översyn av vilka tillgänglighetsstandarder som kan vara aktuella.

3.3. Underleverantörer

Utöver Wikimedia Sverige kommer det att finnas två projektparter i förstudien:

  • KTH – Tal musik och hörsel
  • STTS – Södermalms talteknologiservice AB

Ett projektavtal kommer att skrivas med dem innan projektstart. I den inledande förstudien kommer KTH och STTS motta 100 000 kronor vardera. Utbetalning till KTH kommer att ske direkt från PTS till dem medan Wikimedia Sverige administrerar de övriga projektmedlen.

3.4. Vilka är projektets leverabler? (dokumentation, mjukvara, hårdvara etc.)

I pilotprojektet är leverabeln en rapport med en detaljerad kravspecifikation och tidsplan.

I det efterföljande huvudprojektet är leverabeln en fungerande plattform för talsyntes på en MediaWiki-installation (med tre språkversioner av Wikipedia som fallstudie).

4. Finansiering

4.1. Ange sökt finansiering för projektet i kronor.

350 000 kr. I dagsläget okänd summa för huvudprojektet.

4.2. Hur stor är er medfinansiering i projektet i kronor?

45 000 kr i pilotprojektet. I dagsläget okänd summa för huvudprojektet.

4.3. Hur avser ni medfinansiera projektet?

Vardera projektpart skjuter till 15 000 kr i egenfinansiering i arbetstid.

Wikimedia Foundation kommer att stå för serverkostnaderna i huvudprojektet. Det uppskattade värdet av detta kommer att beräknas under pilotprojektet.

4.4. Redogör kortfattat budgeten för projektet

Kostnader Stöd från PTS (kronor) Annan finansiering (kronor)
Mantimmar admin (projekt-, testledning, styrgruppsarbete etc.) (specificera timmar * timkostnad) 350 000 kr. WMSE (150 000 kr) = 303 arbetstimmar á 330 kr/h. STTS (100 000 kr) = 100 arbetstimmar á 1 000 kr. KTH (100 000 kr) = 133 arbetstimmar á 750 kr 45 000 kr. WMSE (15 000 kr) = 45,5 arbetstimmar á 330 kr/h. STTS (15 000 kr) = 15 arbetstimmar á 1 000 kr. KTH (15 000 kr = 20 arbetstimmar á 750 kr
Mantimmar utveckling (specificera timmar * timkostnad)
Mantimmar test (teknisk test) (specificera timmar * timkostnad)
Mantimmar användartest (specificera timmar * timkostnad)
Hårdvara
Mjukvara (licenser mm)
Resekostnader
Övrigt
Totalt 350 000 45 000

5. Övrigt

5.1. Juridiska frågeställningar

Allt producerat material, oavsett typ, kommer att vara fritt licensierat och därmed vara möjligt att gratis återanvändas av vem som helst. Mer specifikt kommer den utvecklade mjukvaran att ligga under en licens som är godkänd av Open Source Initiative (OSI), och all text, ljudinspelningar och data under CC BY-SA eller friare.