OpenAI vydalo minulý týden Whisper pro rozpoznání řeči v mnoha jazycích jako open source pod licencí MIT. Umělá inteligence je natrénovaná na 680 tisících hodinách mluveného slova v různých jazycích a umí převést slovo na text, případně ho i zároveň přeložit do angličtiny.
Natrénovaný model je dostupný v pěti velikostech, liší se hlavně nároky na paměť. Tiny model vyžaduje asi 1 GB, kdežto large asi 10 GB. Pro cizí jazyky se doporučuje large model. Ten má v češtině Word Error Rate (WER) asi kolem 17 %. WER ale velmi závisí na konkrétní transkripci včetně přesné polohy mezer a ostatních znaků, které se nevyslovují. Zdrojové kódy jsou na GitHubu a více informací naleznete v článku.
(zdroj: slashdot)
