Hlavní navigace

Mozilla zveřejnila sbírku 400 000 hlasových nahrávek

Sdílet

Petr Krčmář 30. 11. 2017

Mozilla v rámci svého projektu Common Voice vytváří svobodný software pro rozpoznávání hlasu. Požádala širokou veřejnost o darování krátkých nahrávek, ze kterých by se mohl její software učit. Organizace nyní celou sbírku zveřejnila, jedná se o 400 000 nahrávek od 20 000 lidí z celého světa. Jedná se o druhou největší zveřejněnou sbírku podobných hlasových vzorků. Zatím jsou pouze v angličtině, ale příští rok by se měla databáze rozšířit také na jiné jazyky.

Společně s nahrávkami Mozilla zveřejnila také algoritmus rozpoznávání zvaný DeepSpeech, který je odvozen od práce čínské společnosti Baidu. Jeho průměrná chybovost je 6,5 %, což je prý na úrovni lidského posluchače. Mírně lepších výsledků dosáhl Microsoft, který ale tvrdí, že jeho technologie má problémy s různými akcenty a zarušenými nahrávkami. Lépe je na tom pravděpodobně Google, který dosahuje chybovosti 4,9 %.

Našli jste v článku chybu?
  • Aktualita je stará, nové názory již nelze přidávat.
  • 30. 11. 2017 14:51

    y. (neregistrovaný) 205.215.246.---

    Jenom pro presnost:
    Microsoft reportuje 5.1 %, ale na uplne jinem datasetu (sade nahravek). Ten dataset se jmenuje Switchboard, je to telefonni rec a na trenovani MS pouziva cca 2000 hodin (telefonni) reci (Fisher+Switchbo­ard). Ta vysledna WER je ziskana kombinaci nekolika systemu a ma hodne daleko do neceho, co by bylo realne pouzitelne jinak, nez na marketing (muj soukromy nazor).
    LibriSpeech ma nahravky v mnohem vyssi kvalite, byl ziskan v zasade tak, ze se vzaly nahravky z LibriVox a dana knizka v textove reprezentaci a vytvoril se z toho trenovaci korpus. Jelikoz jsou to typicky kvalitnejsi nahravky a cteny text, tak ten korpus je relativne lehci.
    Rozhodne nejde srovnavat 5.1 % v hovorove reci vs 6.5 % na ctene reci.

  • 30. 11. 2017 16:21

    NA (neregistrovaný) ---.net.upcbroadband.cz

    "Jelikoz jsou to typicky kvalitnejsi nahravky a cteny text, tak ten korpus je relativne lehci."
    To bych viděl spíš jako výhodu. Nějak mi nedává smysl, učit se rozpoznávat řeč na "nesrozumitelném " vzorku. Později bude moci v zarušených vzorcích hádat/filtrovat.

  • 30. 11. 2017 16:40

    y. (neregistrovaný) ---.clsp.jhu.edu

    Nerozumim uplne tvemu komentari, ale zkusim upresnit:
    Obecne receno, pokud chces top-performance, tak musis trenovat na datech, ktere jsou dostatecne podobne datum, na kterych potom budes rozpoznavac provozovat.
    Cili kdyz chces system pro analyzu komunikace na tel. ustrednach a call centrech, tak musis trenovat na telefonnich nahravkach.
    Pokud chces rozpoznavat cteny text, tak musis trenovat na ctenem textu.
    Pokud nasadis telefonni ASR na ctenem textu, tak budes vetsinou "odmenen" _vyrazne_ horsi kvalitou (presnosti) rozpoznavani. Obracene to plati samozrejme taky. A to mluvime o zhorseni o desitky procent, ne o jednotky procent.
    Obecne receno, ASR systemy trenovane na horsich datech jsou ale robustnejsi nez ty trenovane na cistych datech. Cili degradace pri nasazeni telefonniho ASR na cteny text bude mensi nez degradace ASR pro cteny text nasazeneho na telefonnich nahravkach. A samozrejme, dokazu udelat experiment, kde to bude presne obracene, ale obecne plati to, co rikam. Ale oba systemy budou pouzitelne jen ztezi.