Wikispeech –Talresursinsamlaren 2022/Ansökan

Gör din röst hörd! – Taldatainsamlaren: För ett fungerande AI för alla

Kort beskrivning

Taldatainsamlaren är ett initiativ av Wikimedia Sverige (WMSE), Kungliga tekniska högskolans avdelning för tal, musik och hörsel och den nationella forskningsinfrastrukturen Språkbanken Tal (KTH) och Södermalms talteknologiservice AB (STTS) för att bygga mjukvara och utveckla metoder för att skapa en värdefull resurs för talteknologi (för förbättrad maskininlärning/AI) på svenska och för att göra Internet, och Wikipedia i synnerhet, mer tillgängligt.

Syftet är att med hjälp av bl.a. Wikipedias volontärer samla in stora mängder fritt licensierade inspelningar av tal på svenska samt tillhörande annoteringar kombinerade med lexikala resurser då dessa fyller ett tomrum runt svenska taldata och kompletterar existerande initiativ.

Ett specifikt fokus läggs på att samla in taldata från olika grupper/rösttyper som är underrepresenterade i de resurser som finns samt att samla in dialekter då dessa har ett extra stort värde för forskningen och för att olika tjänster med exempelvis taligenkänning ska fungera lika bra för alla, oavsett bakgrund.

Syfte och mål

Det krävs stora mängder taldata av olika typer för att talsyntes och taligenkänning ska fungera för alla. Ju mer generiskt materialet är, desto sämre fungerar maskininlärningen och färre personer kommer att ha nytta av det. Ju mer material som finns, desto bättre bli kvaliteten. I dagsläget får en vit man från Stockholm ett bättre resultat i många tjänster än vad andra personer i samhället får. Detta är orimligt. Problemet beror på att det i dagsläget finns mer tillgänglig språkdata av hög kvalitet att använda för vissa kategorier av talare.

Syftet med detta projekt är att förändra detta. Genom att bygga specialiserad mjukvara och utveckla processer och metodik kan vi knyta insamling av taldata till Wikipedia. Detta gör att vi kommer att kunna skapa ett intresse av att bidra från allmänheten genom crowdsourcing, något som är väldigt svårt för många andra aktörer i samhället. Enligt den årliga rapporten Svenskarna och internet används Wikipedia av mer än 86% av alla svenskar som är online. Vi har därmed en plattform där vi kan nå personer oavsett kön, ålder, dialekt eller brytning. Vi kallar den tjänst vi ser framför oss för Taldatainsamlaren.

Under det senaste århundradet har ett antal tekniker återkommande gett löften som inte infriats förens långt senare. Maskinöversättning har gett ouppnåeliga löften om ett kommande genombrott sedan första hälften av förra seklet. Artificiell intelligens (AI) har varit "precis runt hörnet" ungefär lika länge, och talteknologi har lovat ett genombrott "inom de närmaste fem åren" sedan 1980-talet. Vi har vant oss vid att alltid vänta på att dessa löften ska uppfyllas. Det är dock först nyligen som de alla börjat realiseras. Nu befinner vi oss plötsligt på en annan plats. Ur ett talteknologiskt perspektiv har vi uppfyllt kraven: taligenkänning (ASR) och talsyntes (TTS) är funktionella och talade människa-dator-gränssnitt blir vanliga.

Men om du talar ett mindre språk, kommer du att ha tillgång till en bråkdel av alla talstyrda system. När det gäller att dra nytta av denna nya era är ex. engelskan gynnad.

Enkel ASR och TTS finns för många språk, men deras användning är fylld med problem: (1) De har betydligt sämre kvalitet än sina engelska motsvarigheter; (2) Deras utveckling sker baserat på infall av globala branschjättar, vilka inte bryr sig om välfungerande talteknologi för mindre språk där talarna är mindre kapitalstarka; (3) Den användningsdata som genereras ägs av andra – och är inte tillgängliga för den lokala talteknologiindustrin eller för lokala talare att bygga vidare på.

En fritt tillgänglig ASR och TTS som kommer med metoder för att dela användningsdata på ett lagligt, integritetsmedvetet och GDPR-kompatibelt sätt är ett viktigt steg för utvecklingen av talteknologi för fler språk, både i branschen, inom serviceområden och i den offentliga sektorn. Det är en skydd mot att de mindre språken hålls gisslan, i teknisk bemärkelse, av multinationella jättar.

Talteknologi spelar en allt viktigare roll i områden så varierade som tillgänglighet (t.ex. TTS som ett komplement till läsning av text, ASR för handsfree-kontroll); hållbarhet (t.ex. videokonferenser, telepresence); hälsa (t.ex. diagnostiska verktyg och behandling); tillverkning (t.ex. samverkande robotik); människa-dator-kommunikation (t.ex. konversationsgränssnitt); och underhållning (t.ex. spel, film). För en informationstung webbplats som Wikipedia öppnar talteknologin upp för publiken att ta till sig materialet på ett nytt sätt, och den breddar publiken till att inkludera alla som av olika orsaker inte kan läsa.

Wikimedia Sverige, KTH och STS har tillsammans arbetat på en talsyntes för Wikipedia kallat Wikispeech och har påbörjat utvecklingen av mjukvaran för Taldatainsamlaren. Genom projektet vill vi ta den tidiga prototypen till nästa nivå och utveckla det hela till att bli en fungerande tjänst. Att ha en fungerande mjukvara är dock bara första steget. Den måste kontinuerligt utvecklas baserat på återkopplingen från olika målgrupper och intressenter och ett aktivt arbete för att kickstarta crowdsourcinginsatsen krävs.

Det crowdsourcade materialet är helt baserade på open source och kommer att gå att återanvända av alla, inklusive företag, och därigenom maximeras samhällsnyttan.

Genom att vi kommer från olika sektorer med olika kompetenser och bakgrunder kan vi nå längre än vi annars skulle och lösa problem som vore omöjliga på egen hand. Genom projektet kommer våra respektive organisationer att skapa många möjligheter tillsammans som inte hade varit möjliga enskilt. Konstellationen är kompletterande vad gäller kunskap, kapacitet, nätverk och förmågor. Vi ser våra tre organisationer som en kärntrupp, men ett aktivt arbete kommer att ske för att knyta an fler målgrupper kontinuerligt under hela processen.

Projektet har följande konkreta mål:

Framtagande av en tjänst för att genom crowdsourcing samla inspelningar av tal på olika språk för olika behov.
Framtagande av komponenter som kan användas för att annotera det inspelade talet.
Inkluderande av taldata för att skapa nya möjligheter.
Genomförande av flera evenemang för att finna metoder för att engagera allmänheten att bidra med inspelat tal och annoteringar och påbörja uppbyggnaden av en värdefull resurs av taldata.
Utveckla system och strategier för att insamlat tal samt annoteringar skall komma Wikipedia och de andra Wikimediaplattformarna till godo samt kunna samlas in via dessa plattformar.
Säkerställa att insamlat tal och annoteringar kan lagras på plattformar som möjliggör brett tillgängliggörande.
Nyttjande av taldata för att göra talsyntesen Wikispeech, som utvecklats för Wikipedia, bättre.

Måluppfyllelse: Agenda 2030

Globalt mål 4: God utbildning för alla – Fria kunskapsresurser har en viktig roll att spela för likvärdig, jämlik och inkluderande tillgång till utbildning och livslångt lärande. Detta projekt bidrar aktivt till att mer resurser tillgängliggörs globalt på ett effektivt sätt och inte minst att den kunskap som redan finns tillgänglig kan användas av alla.

Globalt mål 5: Jämställdhet – Ett specifikt fokus kommer att läggas på att samla in taldata från underrepresenterade grupper för att de tjänster som använder AI ska fungera för alla och därigenom öka jämställdheten. Genom att allt material är skapat med fria licenser och tillgängliggörs globalt bidrar projektet till att öka användningen av gynnsam teknik, i synnerhet informations- och kommunikationsteknik, för att främja underrepresenterade gruppers egenmakt.

Globalt mål 8: Anständiga arbetsvillkor och ekonomisk tillväxt – Genom de fria licenserna av allt material möjliggörs företagande och kreativitet och innovation. Det kommer även att förbättra den globala resurseffektiviteten då material inte behöver skapas på nytt utan det går att bygga vidare på det som finns.

Globalt mål 9: Hållbar industri, innovationer och infrastruktur – På längre sikt kommer den data som projektet genererar att väsentligt öka tillgången till informations- och kommunikationsteknik genom att kommunikation förenklas och att material kan konsumeras på fler sätt. Taldata är centralt för maskininlärning som skapar talteknologi som kan användas inom en rad områden (se föregående kapitel).

Globalt mål 10: Minskad ojämlikhet – Genom att tillgängliggöra fri kunskap minskar ojämlikheten då inköpskostnaden tas bort ur ekvationen och materialet görs tillgängligt till alla utan att bedömningar görs för vem som skall få tillgång till det.

Globalt mål 16: Fredliga och inkluderande samhällen – Genom talsyntes och taligenkänning kan myndigheter bättre säkerställa allmän tillgång till information för de som i dagsläget har svårast att tillskansa sig den.

Globalt mål 17: Genomförande och globalt partnerskap – Partnerskap mellan organisationer är centralt i projektet. De uppmuntras att tillsammans bidra och sprida värdefullt material via Wikimediaplattformarna.

Effekter som förväntas uppnås

Vision: Ett internet som fungerar för alla och där information är tillgänglig och tjänster kan användas oavsett funktionsvariationer eller språkliga skillnader.

Målgrupp	Aktiviteter inom projektet	Kortsiktiga resultatmål	Aktiviteter på längre sikt efter projektet	Långsiktiga resultatmål efter projektet	Effektmål
Wikimediaanvändarna.	Mjukvaruutveckling av Taldatainsamlaren. Juridisk undersökning genomförs av hur GDPR påverkar insamlingen av taldata.	Utveckla en fungerande mjukvara för att samla in inspelningar av tal och koppla lösningen mot Wikipedia. Undersökningen publiceras och presenteras för organisationernas styrelser för implementering i verksamheterna.	Vidareutveckling av mjukvaran baserad på återkoppling. Översättning av mjukvaran till fler språk.	Lansering av mjukvaran på de övriga 300 språkversionerna av Wikipedia.	Insamling av fritt licensierad taldata som kan användas av alla, ex. forskare, myndigheter och företag, för att göra internet mer tillgängligt. Bygga upp kapacitet och funktioner för att göra svenskspråkiga Wikipedia mer tillgängligt för de som inte kan eller föredrar att inte läsa. För det behövs mer material så att talsyntesen fungerar bättre så att användaren orkar lyssna på den och att inte fel som kan leda till missförstånd smyger sig in.
Forskare. Språkbevarare. Återanvändare av verktyget. Talteknologiutvecklare.	Utveckling av annoteringsverktyg. Framtagande av vetenskaplig artikel relaterad till projektet. Deltagande på event.	Utveckla tekniska lösningar för att annotera insamlat taldata och ta fram instruktionsmaterial för språkvetare. En vetenskaplig artikel färdigställs och publiceras. Deltagande på minst 3 konferenser där initiativet framhålls.	Projektgruppen ansluter sig till olika relevanta projekt för att vidareutveckla annoteringsverktygen eller genomföra riktade annoteringsinsatser för att möjliggöra olika forskningsinsatser och kommersiella initiativ. Forskningssamhället och mjukvaruutvecklare får kännedom om resurserna.	De annoteringar som finns är så kvalitativa och kvantitativa att Wikimedias taldata: Är omnämnda som resurs i hundratals vetenskapliga publikationer varje år. Återanvänds i dussintals olika mjukvarulösningar.	De specialutvecklade verktygen för annotering av språkdata kommer att fylla ett gap i verktygslådan. Då fokuset är på svenska kommer dessa verktyg att ha extra stor betydelse för de som vill arbeta vidare med svenska taldata.
Forskare. Skapare av tillgänglighetstjänster. Talteknologiutvecklare. Utvecklare med behov av tal (men ej talteknologer).	Utveckling av exportverktyg och initierande av samarbeten med andra initiativ som nyttjar taldata. Evenemang för studenter.	Upprätta processer för att aktivt dela taldata med minst ett angränsande projekt, för att maximera värdet av insatsen. Minst 20 universitetsstudenter kommer att engageras för inledande experiment och tester för att annotera materialet.	Vi har formaliserade samarbeten och processer för att dela det material som tagits fram till olika intressenter. Ett flertal samarbeten, eventuellt i form av en styrgrupp med experter, som hjälper oss att prioritera, för att crowdsourca det material som är av störst värde för samhället.	Tusentals engagerade språkexperter från alla delar av världen bidrar med att annotera taldata. Wikimediaföreningar från hela världen genomför olika aktiviteter för att engagera fler personer i crowdsourcingen.	Genom att välstrukturerad och annoterad svenskt taldata samlas in i stor mängd och tillgängliggörs utan begränsningar möjliggörs ökad forskning inom området då data behövs i stor mängd. Inspelningar och annoteringar som samlas in skall bidra till andra angränsande projekt däribland Språkbanken Tal och Mozilla Foundations initiativ Common Voice.
Myndigheter.	Etablerade samarbeten med myndigheter. Massuppladdning av ny lexikal data till Wikimediaplattformarna. Evenemang för myndigheter.	Identifiera och tillgängliggöra lexikala resurser på Wikimedias plattformar från olika myndigheter och andra aktörer, såsom ordlistor. Minst 2 lexikala resurser kommer att inkluderas och fallstudier och guider för fortsatt arbete tas fram. Minst 10 myndigheter har fått information om initiativet och vilka möjligheter som öppnas för dem genom dedikerade evenemang.	Processer för hur samarbeten med myndigheter och andra innehållsägare av olika typer av språkdata finns väldokumenterade. Ett stort antal samarbeten har framgångsrikt genomförts och kommunicerats vilket skapat intresse för fler myndigheter att engagera sig.	Myndigheter i Sverige och andra länder ser det som självklart att kontinuerligt dela specialordlistor och andra resurser för att de ska kunna inkluderas och utvecklas ytterligare genom crowdsourcing.	Möjliggöra att svenska myndigheter kan nyttja Taldatainsamlaren som resurs för att samla in data om specifika områden de har behov av (d.v.s. inkludering av specifika termer som kan crowdsourcas). T.ex. hantering av en begäran från Folkhälsomyndigheten om riktade insatser för insamling av språkdata kopplat till medicinska termer i samband med en pandemi (såsom covid-19), för att öka förståelsen och tillgängligheten på deras information.
Wikimediaanvändarna. Språkstudenter.	Event för inspelningar av olika ord.	Minst 1 000 ord har fått ett uttal inspelat genom projektet och processen har dokumenterats för att senare kunna skalas upp.	Listor med alla specialord, låneord, platsnamn m.m. på Wikipedia har genererats och arbetas med systematiskt för att kompletteras med mer språkdata.	Hundratusentals ord och exempelmeningar har information om uttal. Resurserna återanvänds i språkundervisning över hela världen.	Förbättra Wikimediaplattformarna med mer inspelade ord m.m. Materialet gör att det går att lära sig korrekt uttal av exempelvis namn eller att lära sig nya språk då det finns information om uttalet av ord och meningar samt inspelningar att lyssna på.

Behovsanalys och nyttiggörande

Projektet har intressenter både då det handlar om att skapa inspelningar av svenskt tal och annoteringar men även ett stort antal intressenter som vill nyttja och ta del av inspelningarna och annoteringarna.

De huvudsakliga intressenterna på skapandesidan är Wikimedias volontärer. För att Taldatainsamlaren skall få engagerade volontärer som bidrar med taldata krävs det att vi säljer in det internt till Wikimediagemenskapen och till andra FOSS-gemenskaper. Volontärerna behövs därtill för att utveckla Taldatainsamlaren genom att ge feedback. Genom transparens, omfattande och snabb kommunikation, implementering av förslag samt åtgärder av identifierade buggar och problem räknar vi att detta skall accepteras. Här har WMSE en unik position och förmåga att nå fram. Då vi kommer att kunna använda all taldata som samlas in för att vidareutveckla kvaliteten på Wikispeech, den talsyntes för Wikipedia som konstellationen utvecklat tillsammans tidigare, finns det ett starkt incitament att bidra för volontärerna.

Det är även viktigt att projektgruppen tillsammans med funktionshinderorganisationerna kommunicerar om nyttan och behovet av Taldatainsamlaren så att volontärerna upplever att det är värt att lägga tid på detta. Vi kommer att arbeta aktivt med extern kommunikation om projektet (pressmeddelanden, sociala medier, nyhetsbrev, etc). Genom tidigare initiativ inom området har WMSE upparbetade kontakter med dessa intresseorganisationer både i Sverige och internationellt. Även KTH och STTS har goda kontakter, och den nationella forskningsinfrastrukturen Språkbanken Tal på KTH samarbetar aktivt med bl.a. Post- och telestyrelsen, Myndigheten för tillgängliga media, Myndigheten för delaktighet, SVT och Sveriges radio kring tillgänglighetsfrågor.

En välfungerande tjänst kommer även möjliggöra att vi i framtida samarbetsprojekt kan crowdsourca inläsning av specifika ordlistor etc. som gagnar både oss och andra organisationer med specifika behov. Dessa organisationer blir då med och bidrar i skapandet av materialet. Exempel på detta är myndigheter som behöver förbättrad talsyntes för fackterminologi. WMSE har redan påbörjat en inventering av svenska myndigheters behov och intresse inom området.

Därutöver kommer vi att marknadsföra Taldatainsamlaren till forskare, språkbevarare, myndigheter, tillgänglighetstjänster, talteknologiutveckling, utvecklare med behov av tal (men som inte är talteknologer) som en resurs/service för dem att nyttja. De olika målgrupper som nyttjar resurserna har olika behov och det är viktigt att vi i vår kommunikation är tydliga med att berätta om vilka resurser som är intressanta för just dem. Här har framförallt KTH och STTS väldigt starka nätverk och goda möjligheter att nå ut med materialet. Inte minst då KTH leder arbetet med Språkbanken Tal.

Omvärldsanalys

Det finns ett fåtal initiativ som arbetar med att samla in taldata från allmänheten. Common Voice, Forvo.com, Lingua Libre är de största. Den viktigaste skillnaderna med dessa tjänster är att:

De andra tjänsterna prioriterar inte svenska vilket vi kommer att göra genom detta projekt. De prioriterar inte heller behov av svenska aktörer som behöver specifik taldata.
De har, oss veterligt, inte ett aktivt arbete för att genom riktade insatser samla in data från grupper som ännu är underrepresenterade bland existerande taldata, för att på sikt jämna ut spelplanen.
De fokuserar inte på att samla in olika dialekter och strategisk vald metadata om de taldata som sammanställs vilket kraftigt begränsar vilka analyser som kan göras och hur kvalitativa tjänsterna som utvecklas kan bli.
De inte har byggt sina plattformar så att de naturligt kan dra nytta av Wikimediarörelsens stora grupp av volontärer. De behöver istället attrahera nya personer till sin plattform och engagera dem över tid vilket är svårt och kostnadskrävande.
Materialet vårt projekt skapar används direkt på flera oerhört populära och välanvända tjänster, såsom Wikipedia, Wikidata, Wikimedia Commons och Wiktionary (synligheten av volontärinsatsen blir mycket större).
De andra tjänsterna kopplar inte sitt material till länkade öppna data (LOD), vilket begränsar sökbarhet och värdet av arbetet. Detta löser vi genom att knyta an våra inspelningar och annoteringar till Wikidata.

Vi har dock inga egentliga konkurrenter då de alla kommer att kunna kopiera allt vi gör då vi nyttjar fria licenser. Istället kommer vi kontinuerligt under projektets gång att diskutera med andra projekt för att utbyta erfarenheter m.m.

Potential

Att utveckla en tjänst som Taldatainsamlaren är komplicerat och samverkan är nödvändig för att få in den expertis som behövs. Genom att stora mängder av taldata samlas in, bearbetas och knyts samman kan vi bli en viktig pusselbit för att göra Internet mer tillgängligt, inte minst för personer med funktionsvariationer. Insatsen kommer även att bidra till att användargrupper som i dagsläget får sämre service för att språkresurser kopplade till dem saknas, t.ex. personer med breda dialekter eller brytning, kvinnor eller äldre, får en bättre upplevelse när de använder olika tjänster. Detta inkluderar Wikimedias olika projekt, ex. Wikipedia, men är inte begränsat till det.

Genom att materialet är fritt licensierat jämnar vi ut spelplanen lite och möjliggör för andra aktörer än de amerikanska internetjättarna att skapa exempelvis talstyrda tjänster. Det finns alltså en anti-monopolistisk dimension av det hela.

Wikimediarörelsen är global, med organisationer i ett hundratal länder, och med över en kvarts miljon volontärer som bidrar varje månad, och miljoner som gör punktinsatser. De strukturer och verktyg vi tar fram kommer att aktivt spridas för att plockas upp av Wikimediaföreningar över hela världen. Det skapar potential att knyta samman ännu större datamängder och inleda andra typer av viktiga och intressanta samarbeten.

Partnerkonstellationen i projektet har väldigt omfattande nätverk och projektet kommer att möjliggöra att vi når ut till alla delar av samhället för att skapa engagemang, intresse och senare återanvändning av materialet som projektet genererar.

Aktörer

WMSE: Projektledare, utbildning- och eventkoordinator, två utvecklare (1 kvinna/3 män/1 icke-binär). WMSE är experter på Wikipedia och Wikimediaplattformarna, MediaWiki-utveckling, på crowdsourcing samt de organisationer och volontärgemenskaper som är aktiva där. WMSE har erfarenhet av att leda den här typen av projekt samt volontärtengagemang. Föreningen sköter kommunikation och marknadsföring mot Wikimediagemenskapen samt externt (med stöd från övriga parter). WMSE har ett omfattande kontaktnät bland organisationer som arbetar med fri kunskap samt FOSS-mjukvara (som är viktiga mottagare av taldata som genereras).

STTS: Fyra språkteknologer (1 kvinna/1 man). STTS är specialister på lexikala resurser, talteknologi, och hantering av språkdata, samt Wikispeech underliggande funktionalitet. STTS bygger centrala delar av mjukvaran. STTS har expertis av att utveckla verktyg för att samla in taldata och annotera dessa.

KTH: En forskningsledare, flera forskare och språkteknologer (1 man; för de resterande har Språkbanken Tal för närvarande en könsfördelning inom 40/60-marginalen och strävar efter att upprätthålla denna). KTH forskar på vilka typer av taldata som är mest värdefulla att samla in, utvärdering av vilka insamlingsmetoder, stöd vid användartester och har ett stort nätverk inom talteknologisektorn där de bidrar med att kommunicera om projektet. KTH är värd för den nationella infrastrukturen Språkbanken Tal och koordinerar mellan projekten. Språkbanken Tal kommer att vara en viktig mottagare av materialet som detta projekt genererar, och bidrar samtidigt med att ta fram en del test- och valideringsverktyg, utreda det juridiska om hur taldata kan lagras, presentera samarbetet på olika konferenser och vetenskapliga artiklar och rapporter. Det föreslagna projektet kommer att direkt dra nytta av detta utan att de kostnaderna behöver bäras av projektet.

Funktionshinderorganisationerna kommer att bjudas in till en referensgrupp och ombedjas att engagera personer för tester och runt kommunikation. Vi tar aktivt kontakt med myndigheter, med forskare, med företag och andra som kan tänkas vara intresserade av att dra nytta av de taldata vi samlar in. Vi organiserar och deltar på event där projektet presenteras samt tar direktkontakter med centrala personer.

Genomförbarhet, aktiviteter, budget och tidplan

Projektet pågår i 24 månader med en totalbudget på 3 miljoner SEK där 2,5 söks från Vinnova. Fördelat på 1,9 miljoner till WMSE, 0,7 miljoner till STTS och 0,3 miljoner till KTH samt 0,1 miljoner till resor.

Aktivitet #1: Projektledning och rapportering

Tidsperiod: 2021-11-15 till 2023-11-15

Beskrivning: WMSE är projektägare och kontaktpart gentemot Vinnova. Medel från Vinnova för WMSE:s och STTS:s arbete betalas ut till WMSE. Både KTH och STTS rapporterar till WMSE som därefter rapporterar vidare till Vinnova. WMSE planerar projektet, koordinerar med projektpartners, ansvarar för rapportering m.m. WMSE anlitar en juristbyrå för stöd runt GDPR-hantering av taldata.

Kostnad: Arbetstid 200 000 kr samt 100 000 kr för juristbyrå för WMSE. Arbetstid 50 000 kr för STTS. Arbetstid 50 000 kr för KTH. Totalt 400 000 kr.

Ansvarig (person och organisation): André Costa, WMSE

Deltagare (personer, organisationer och beräknad tid per deltagare): André Costa (480 h) från WMSE. Jens Edlund (70 h) från KTH. Hanna Lindgren (50 h) från STTS.

Resultat: Kontraktsförberedelser mellan projektpartners. Utveckling av detaljerad projektplan. Säkerställande att samtliga villkor för projektbidraget uppfylls, inklusive deltagande på seminarier eller programkonferenser som Vinnova anordnar. Rapportering till den globala Wikimediarörelsen och inom projektorganisationerna.

Aktivitet #2: Förstudie samt utveckling av Taldatainsamlaren

Tidsperiod: 2021-11-15 till 2022-11-15

Beskrivning: Utredning genomförs om hur man skall specificera dialekter, både i maskinläsbar form och på ett sätt som är lätt för människor att använda sig av, detta gör att materialet är bättre för ex. maskininlärning. Taldatainsamlaren utvecklas från prototyp till fungerande verktyg.

Kostnad: Arbetstid 650 000 kr (WMSE). Arbetstid 250 000 kr (STTS). Arbetstid 100 000 kr (KTH). Totalt 1 000 000 kr.

Ansvarig (person och organisation): Sebastian Berlin, WMSE

Deltagare (personer, organisationer och beräknad tid per deltagare): Sebastian Berlin (1320 timmar), André Costa (240 h), Alicia Fagerving (240 h) från WMSE. Nikolaj Lindberg (100 h), Hanna Lindgren (160 h) från STTS. Jens Edlund (140 h) från KTH.

Resultat: Utredningen om dialekter m.m. färdigställd. Taldatainsamlaren lanseras som beta-version, så att allmänheten kan börja testa den. Inspelning av tal via gränssnitt möjligt, för att sänka trösklarna. Inspelningsprompter hämtas från förgenererade manus, så att vi med mindre inspelat tal kan skapa produkter än om det bara vore slumpmässiga meningar. Crowdsourcad bedömning av andras inspelningar via gränssnitt, för att säkerställa kvalitet på det crowdsourcade materialet. Exportfunktioner av taldata fungerar, för att fler ska kunna använda insamlad data. Tillägg av fler språk till Wikispeech har förberetts, för att vi ska kunna engagera fler volontärer på andra språk.

Aktivitet #3: Vidareutveckling av Taldatainsamlaren

Tidsperiod: 2022-11-15 till 2023-11-15

Beskrivning: Baserat på den feedback vi får in vidareutvecklas verktyget. Viktiga insikter kommer från den serie med event som genomförs (se Aktivitet #6).

Kostnad: Arbetstid 350 000 kr (WMSE). Arbetstid 150 000 kr (STTS). Totalt 500 000.

Ansvarig (person och organisation): Sebastian Berlin, WMSE

Deltagare (personer, organisationer och beräknad tid per deltagare): Sebastian Berlin (760 h), André Costa (200 h) från WMSE. Nikolaj Lindberg (60 h), Hanna Lindgren (100 h) från STTS.

Resultat: Processer för att aktivt dela taldata har upprättats, så att arbetet får maximalt värde för samhället. Mjukvaran är redo att översättas till andra språk, för att få ytterligare spridning. Verktyg för att ladda ner delmängder av taldata finns uppsatta, för att förenkla återanvändningen. Samverkan med Wikimediagemenskaperna, för att organisera exempelvis hackathons för att vidareutveckla mjukvaran. Underhåll och förbättringar av server och annan infrastruktur, för att öka driftsäkerheten. Tillägg av fler språk på Wikispeech. Inledande undersökning av kravspec för språkbevarande.

Aktivitet #4: Utveckling av uppmärkning

Tidsperiod: 2021-11-15 till 2023-11-15

Beskrivning: Utveckling av uppmärkningsverktygen.

Kostnad: Arbetstid 50 000 kr (WMSE). Arbetstid 200 000 kr (STTS). Totalt 250 000 kr.

Ansvarig (person och organisation): Hanna Lindgren, STTS

Deltagare (personer, organisationer och beräknad tid per deltagare): Sebastian Berlin (140 h) från WMSE, Nikolaj Lindberg (60 h), Hanna Lindgren (135 h) från STTS.

Resultat: Användargränsnitt för uppmärkningsverktygen förenklar för volontärer och får goda resultat i våra användartester. Automatiska annoteringar sparar tid för dem.

Aktivitet #5: Uppladdning av språkresurser från myndigheter m.fl.

Tidsperiod: 2022-06-01 till 2023-06-01

Beskrivning: Kontakter med myndigheter och evenemang för myndigheterna, för att förklara värdet. Utveckling av avtal med dem, för kontinuerlig utveckling av tjänsten. Uppladdning av deras material till Wikimediaplattformarna, t.ex. ordlistor eller annat material som kan ligga som grund för crowdsourcingen.

Kostnad: Arbetstid 250 000 kr (WMSE). Totalt 250 000 kr.

Ansvarig (person och organisation): Alicia Fagerving, WMSE

Deltagare (personer, organisationer och beräknad tid per deltagare): Alicia Fagerving (700 h) från WMSE

Resultat: 10 myndigheter har fått information om initiativet, för att samarbeta senare. 2 lexikala resurser har inkluderats från myndigheter eller andra aktörer.

Aktivitet #6: Crowdsourcing-aktiviteter

Tidsperiod: 2022-08-01 till 2023-11-15

Beskrivning: Anordnande av evenemang, organisering av tävlingar, framtagande av intresseskapande kommunikation, framtagande av instruktionsmaterial

Kostnad: Arbetstid 125 000 kr samt event 75 000 kr (WMSE). Arbetstid 50 000 kr (KTH). Totalt 250 000 kr.

Ansvarig (person och organisation): Alicia Fagerving, WMSE

Deltagare (personer, organisationer och beräknad tid per deltagare): Alicia Fagerving (350 h) från WMSE. Jens Edlund (70 h) från KTH.

Resultat: Studenter testar verktyget och delger feedback. Event av olika slag ordnas sedan. 1 000 ord får inspelningar kopplade till sig och visar på möjligheterna.

Aktivitet #7: Spridande av resultatet

Tidsperiod: 2021-11-15 till 2023-11-15

Beskrivning: Deltagande på konferenser, vetenskaplig artikel, extern kommunikation

Kostnad: Arbetstid 100 000 kr (WMSE). Arbetstid 100 000 kr (KTH). Arbetstid 50 000 kr (STTS). 100 000 kr för resor. Totalt 350 000 kr

Ansvarig (person och organisation): Jens Edlund, KTH

Deltagare (personer, organisationer och beräknad tid per deltagare): Alicia Fagerving (280 h) från WMSE. Jens Edlund (140 h) från KTH. Hanna Lindgren (50 h) från STTS.

Resultat: FOSS-projekt som drar nytta av taldata inventeras och kontaktas systematiskt. Info om vår taldata kommuniceras ut genom kanaler för att nå minst 10 000 personer för att möjliggöra oväntade användningsområden.

Om möjligt betalas KTH:s projektmedel direkt till dem från Vinnova. KTH kommer att leverera i enlighet med denna ansökan, vilket beskrivs i det avtal de skriver separat med Vinnova. STTS agerar som underleverantör till WMSE. WMSE och STTS kommer att skriva ett avtal mellan varandra i enlighet med denna ansökan.

Jämställdhet

Teamet består av 1 kvinna, 4 män och 1 icke-binär. Av de 7 aktiviteterna leds 1 aktivitet av en kvinna, 4 av män och 2 av en icke-binär. I projektet arbetar totalt 1,82 FTE under hela 24-månadersperioden. Per deltagare jobbar männen något mindre i projektet per person, med motsvarande 29% FTE jämfört med 32% FTE hos kvinnor och icke-binära. I absoluta tal jobbar det dock mer män i projektet då det är fler deltagande män.

För att säkerställa att de utvecklingsval vi gör är välfungerande för personer med funktionsvariationer kommer vi att söka fortsatt samarbete med intresseorganisationer för personer med funktionsnedsättning. Vi kommer att etablera en referensgrupp från vilken vi kommer att få stöd för att identifiera aspekter av verktygen som begränsar tillgängligheten för dessa grupper.

Risker och riskhantering

Sannolikhet, hur stor är sannolikheten att denna risk kommer att slå in, 1 är låg sannolikhet och 3 är hög sannolikhet. Effekt, hur stor blir effekten om den identifierade risken blir aktuell, 1 är liten effekt och 3 är stor effekt. Risker med riskfaktor 9 bör elimineras och risker med riskfaktor ≥ 4 ska, elimineras, minimeras eller hanteras. Övriga risker ska bevakas.

Nr	Risk	Sannolikhet (1-3)	Effekt (1-3)	*Riskfaktor (Sannolikhet Effekt)**
1	GDPR och annan lagstiftning omöjliggör helt fri delning av inspelat tal	2	3	6
2	Skyddet för användares integritet hos Wikimedia orsakar brister i den demografiska metadata vilket försämrar taldatats användbarhet	2	1	2
3	Det visar sig svårare att få folk engagerade i att donera sin röst än vad vi trott.	1	3	3
4	Det visar sig svårare att nå ut till de underrepresenterade grupperna för att få dem att engagerade i att donera sin röst än vad vi trott.	1	3	3
5	Oförutsägbara tekniska komplikationer vid utveckling.	2	2	4

Nr	Förebyggande åtgärd
1	Vid projektstart råder ännu osäkerhet kring tolkningen av den nya lagen GDPR, så vi måste planera in en viss flexibilitet. En del av projektgenomförandet handlar därför om att med hjälp av jurister utreda om anonymisering av röst och användardata behöver ske. Om lagstiftningen förhindrar lagring och delning av ren röstdata ökar vi fokus på anonymisering och tillför resurser. Inledningsvis kommer fokus därför att ligga på att bygga verktygslådan för taldatainsamling (inklusive anonymisering) för att omgående kunna påbörja insamling när lagen förtydligas eller där en juridisk utredning klargör risker och möjligheter. Därtill kan verktyg som fokuserar på insamlande av annoteringar etc. nyttjas utan problem då de inte samlar in uppgifter som kan identifiera en person.
2	Riskfaktor under 4. Verktyg och metoder tas fram så att de ger stöd för användandet av demografiska metadata, men fungerar även utan. Även med begränsad mängd demografisk data har det insamlade datat ett mycket stort värde för många områden.
3	Riskfaktor under 4. Crowdsourcing är inte lätt att organisera, på samma sätt som volontärengagemang ofta är en utmaning för civilsamhällesorganisationer. Det krävs investeringar i bra utbildningsmaterial, regelbundna kurser, samarbeten för att nå ut till intresserade personer, aktiva kommunikationsinsatser och ett aktivt utvecklingsarbete för att åtgärda de problem som deltagarna stöter på för att undvika att de ledsnar.
4	Riskfaktor under 4. Detta är en flytande skala då vissa grupper kanske visar sig vara svårare än andra. Inom ramen för det här projektet kommer vi inte att kunna lösa alla problem, så vi kan vara agila och justera om någon underrepresenterad grupp visar större intresse att delta än någon annan för närvarande. Över tid kommer vi att successivt bredda till fler och fler grupper.
5	Riskfaktor 4. Risken minskas av att det finns färdiga prototyper och moduler som vi fortsätter arbeta på.

Övrigt