Názory k článku
Mozilla zveřejnila sbírku 400 000 hlasových nahrávek

Zasílat nově přidané názory e-mailem

Článek je starý, nové názory již nelze přidávat.

30. 11. 2017 14:51

y. (neregistrovaný)

Jenom pro presnost:
Microsoft reportuje 5.1 %, ale na uplne jinem datasetu (sade nahravek). Ten dataset se jmenuje Switchboard, je to telefonni rec a na trenovani MS pouziva cca 2000 hodin (telefonni) reci (Fisher+Switchboard). Ta vysledna WER je ziskana kombinaci nekolika systemu a ma hodne daleko do neceho, co by bylo realne pouzitelne jinak, nez na marketing (muj soukromy nazor).
LibriSpeech ma nahravky v mnohem vyssi kvalite, byl ziskan v zasade tak, ze se vzaly nahravky z LibriVox a dana knizka v textove reprezentaci a vytvoril se z toho trenovaci korpus. Jelikoz jsou to typicky kvalitnejsi nahravky a cteny text, tak ten korpus je relativne lehci.
Rozhodne nejde srovnavat 5.1 % v hovorove reci vs 6.5 % na ctene reci.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
30. 11. 2017 16:21

NA (neregistrovaný)

"Jelikoz jsou to typicky kvalitnejsi nahravky a cteny text, tak ten korpus je relativne lehci."
To bych viděl spíš jako výhodu. Nějak mi nedává smysl, učit se rozpoznávat řeč na "nesrozumitelném " vzorku. Později bude moci v zarušených vzorcích hádat/filtrovat.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
30. 11. 2017 16:40

y. (neregistrovaný)

Nerozumim uplne tvemu komentari, ale zkusim upresnit:
Obecne receno, pokud chces top-performance, tak musis trenovat na datech, ktere jsou dostatecne podobne datum, na kterych potom budes rozpoznavac provozovat.
Cili kdyz chces system pro analyzu komunikace na tel. ustrednach a call centrech, tak musis trenovat na telefonnich nahravkach.
Pokud chces rozpoznavat cteny text, tak musis trenovat na ctenem textu.
Pokud nasadis telefonni ASR na ctenem textu, tak budes vetsinou "odmenen" _vyrazne_ horsi kvalitou (presnosti) rozpoznavani. Obracene to plati samozrejme taky. A to mluvime o zhorseni o desitky procent, ne o jednotky procent.
Obecne receno, ASR systemy trenovane na horsich datech jsou ale robustnejsi nez ty trenovane na cistych datech. Cili degradace pri nasazeni telefonniho ASR na cteny text bude mensi nez degradace ASR pro cteny text nasazeneho na telefonnich nahravkach. A samozrejme, dokazu udelat experiment, kde to bude presne obracene, ale obecne plati to, co rikam. Ale oba systemy budou pouzitelne jen ztezi.
- Zobrazit celé vlákno

Zasílat nově přidané názory e-mailem

Názory k článku Mozilla zveřejnila sbírku 400 000 hlasových nahrávek

Dále u nás najdete

Weby v ČR mají být přístupné pro lidi s omezením

Kyberbezpečnost českých nemocnic je dál špatná

Investice do zbrojení: Tři experti radí tipy, co by se mohly vyplatit

Ceny pamětí se mezičtvrtletně zdvojnásobily, čeká se další růst

Počet nových pracovních míst prudce klesá

Bitcoin snadno koupíte i bez záznamu. Poradíme jak

Hrdinství systém nenahradí. Proč se startupy stěhují z ČR?

Google Pixel 10a má plochý design a vylepšenou odolnost

JMHZ a změny v daních z příjmů v roce 2026 a 2027

Prima v tichosti zpřísnila podmínky přetáčení reklam

Sophos kupuje Arco Cyber, zpřístupní CISO organizacím

Windows budou důkladněji chráněny před AI agenty

Notepad++ opravil chybu zneužívanou k šíření malware

Špionáž v Googlu a phishing na Signalu

Nejen daňové přiznání, OSVČ musí podat elektronicky přehledy

Hackeři útočí přes e-mail, prahnou po přihlašovacích údajích

České firmy pod náletem kyberútoků. Počet vzrostl o pětinu

Hledala dokonalý šálek, našla životní vášeň a učí pít kakao

OSVČ musí podat daňové přiznání elektronicky, nemusí přes datovku

Plánované změny v penzích: Zjistili jsme další podrobnosti

Názory k článku
Mozilla zveřejnila sbírku 400 000 hlasových nahrávek