Jenom pro presnost:
Microsoft reportuje 5.1 %, ale na uplne jinem datasetu (sade nahravek). Ten dataset se jmenuje Switchboard, je to telefonni rec a na trenovani MS pouziva cca 2000 hodin (telefonni) reci (Fisher+Switchboard). Ta vysledna WER je ziskana kombinaci nekolika systemu a ma hodne daleko do neceho, co by bylo realne pouzitelne jinak, nez na marketing (muj soukromy nazor).
LibriSpeech ma nahravky v mnohem vyssi kvalite, byl ziskan v zasade tak, ze se vzaly nahravky z LibriVox a dana knizka v textove reprezentaci a vytvoril se z toho trenovaci korpus. Jelikoz jsou to typicky kvalitnejsi nahravky a cteny text, tak ten korpus je relativne lehci.
Rozhodne nejde srovnavat 5.1 % v hovorove reci vs 6.5 % na ctene reci.
Nerozumim uplne tvemu komentari, ale zkusim upresnit:
Obecne receno, pokud chces top-performance, tak musis trenovat na datech, ktere jsou dostatecne podobne datum, na kterych potom budes rozpoznavac provozovat.
Cili kdyz chces system pro analyzu komunikace na tel. ustrednach a call centrech, tak musis trenovat na telefonnich nahravkach.
Pokud chces rozpoznavat cteny text, tak musis trenovat na ctenem textu.
Pokud nasadis telefonni ASR na ctenem textu, tak budes vetsinou "odmenen" _vyrazne_ horsi kvalitou (presnosti) rozpoznavani. Obracene to plati samozrejme taky. A to mluvime o zhorseni o desitky procent, ne o jednotky procent.
Obecne receno, ASR systemy trenovane na horsich datech jsou ale robustnejsi nez ty trenovane na cistych datech. Cili degradace pri nasazeni telefonniho ASR na cteny text bude mensi nez degradace ASR pro cteny text nasazeneho na telefonnich nahravkach. A samozrejme, dokazu udelat experiment, kde to bude presne obracene, ale obecne plati to, co rikam. Ale oba systemy budou pouzitelne jen ztezi.