Mozilla zveřejnila sbírku 400 000 hlasových nahrávek

30. 11. 2017

Mozilla v rámci svého projektu Common Voice vytváří svobodný software pro rozpoznávání hlasu. Požádala širokou veřejnost o darování krátkých nahrávek, ze kterých by se mohl její software učit. Organizace nyní celou sbírku zveřejnila, jedná se o 400 000 nahrávek od 20 000 lidí z celého světa. Jedná se o druhou největší zveřejněnou sbírku podobných hlasových vzorků. Zatím jsou pouze v angličtině, ale příští rok by se měla databáze rozšířit také na jiné jazyky.

Společně s nahrávkami Mozilla zveřejnila také algoritmus rozpoznávání zvaný DeepSpeech, který je odvozen od práce čínské společnosti Baidu. Jeho průměrná chybovost je 6,5 %, což je prý na úrovni lidského posluchače. Mírně lepších výsledků dosáhl Microsoft, který ale tvrdí, že jeho technologie má problémy s různými akcenty a zarušenými nahrávkami. Lépe je na tom pravděpodobně Google, který dosahuje chybovosti 4,9 %.

Našli jste v článku chybu?

Zasílat nově přidané názory e-mailem

Aktualita je stará, nové názory již nelze přidávat.

30. 11. 2017 14:51

y. (neregistrovaný)

Jenom pro presnost:
Microsoft reportuje 5.1 %, ale na uplne jinem datasetu (sade nahravek). Ten dataset se jmenuje Switchboard, je to telefonni rec a na trenovani MS pouziva cca 2000 hodin (telefonni) reci (Fisher+Switchboard). Ta vysledna WER je ziskana kombinaci nekolika systemu a ma hodne daleko do neceho, co by bylo realne pouzitelne jinak, nez na marketing (muj soukromy nazor).
LibriSpeech ma nahravky v mnohem vyssi kvalite, byl ziskan v zasade tak, ze se vzaly nahravky z LibriVox a dana knizka v textove reprezentaci a vytvoril se z toho trenovaci korpus. Jelikoz jsou to typicky kvalitnejsi nahravky a cteny text, tak ten korpus je relativne lehci.
Rozhodne nejde srovnavat 5.1 % v hovorove reci vs 6.5 % na ctene reci.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
30. 11. 2017 16:21

NA (neregistrovaný)

"Jelikoz jsou to typicky kvalitnejsi nahravky a cteny text, tak ten korpus je relativne lehci."
To bych viděl spíš jako výhodu. Nějak mi nedává smysl, učit se rozpoznávat řeč na "nesrozumitelném " vzorku. Později bude moci v zarušených vzorcích hádat/filtrovat.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
30. 11. 2017 16:40

y. (neregistrovaný)

Nerozumim uplne tvemu komentari, ale zkusim upresnit:
Obecne receno, pokud chces top-performance, tak musis trenovat na datech, ktere jsou dostatecne podobne datum, na kterych potom budes rozpoznavac provozovat.
Cili kdyz chces system pro analyzu komunikace na tel. ustrednach a call centrech, tak musis trenovat na telefonnich nahravkach.
Pokud chces rozpoznavat cteny text, tak musis trenovat na ctenem textu.
Pokud nasadis telefonni ASR na ctenem textu, tak budes vetsinou "odmenen" _vyrazne_ horsi kvalitou (presnosti) rozpoznavani. Obracene to plati samozrejme taky. A to mluvime o zhorseni o desitky procent, ne o jednotky procent.
Obecne receno, ASR systemy trenovane na horsich datech jsou ale robustnejsi nez ty trenovane na cistych datech. Cili degradace pri nasazeni telefonniho ASR na cteny text bude mensi nez degradace ASR pro cteny text nasazeneho na telefonnich nahravkach. A samozrejme, dokazu udelat experiment, kde to bude presne obracene, ale obecne plati to, co rikam. Ale oba systemy budou pouzitelne jen ztezi.
- Zobrazit celé vlákno

Zasílat nově přidané názory e-mailem

Líbí

Nelíbí

Petr Krčmář

Petr Krčmář pracuje jako šéfredaktor serveru Root.cz. Studoval počítače a média, takže je rozpolcen mezi dva obory. Snaží se dělat obojí, jak nejlépe umí.

Témata:

Mozilla

Sdílet

Byl pro vás článek přínosný?

Autor zprávičky

Petr Krčmář

Témata:

Mozilla zveřejnila sbírku 400 000 hlasových nahrávek

Sdílet

Byl pro vás článek přínosný?

Autor zprávičky

Petr Krčmář

Témata:

Dále u nás najdete

Vypněte si sledování v novém Firefoxu

Výrobce koupelnového vybavení Laufen čeká oživení poptávky

Motání hlavy může být způsobeno problémy s krčními tepnami

Vesna a další, kdo přežili volný pád z několika kilometrů

Češi spoluvyvíjí technologii, která může změnit mobilní sítě

Příčina obřího IT výpadku? Chyba aktualizace

Průjmů z masa je letos víc než jindy, nakazit se lze i z melounů

Proč vystavujeme zápočtový list a proč ho vyžadujeme?

Trdlokafe otevřelo první pobočku v USA

Musk: Humanoidní roboty začne Tesla používat už příští rok

Test Wi-Fi 7 vs. Wi-Fi 6: Další zvýšení rychlostí

Kolik a čeho mají vypít při sportu v horkém létě

Rozjíždí se nový typ podvodů – lajkovací brigády

Propagační leták v Canvě zvládnete za pár minut

S haluxy můžete mít boty na pojišťovnu

Praktické tipy pro fyzické osoby, jak ušetřit na daních

Více než polovina žen v porodnici dostává klystýr

Jejich čaje mají poctivé složení i originální názvy

Revmatická horečka už nepatří mezi běžná onemocnění

Google už nechce rušit cookies třetích stran v Chromu