Nebylo by možné nějak více rozvést, o co vlastně celému projektu jde? Jako chápu, že teď se sbírají věty - ale na co? Nějak mi to není o moc jasnější ani po návštěvě toho webu voice.mozilla.cz. Bude to pak dobré pro řečovou syntézu, nebo naopak pro rozpoznávání řeči?
Zkusím také ještě trochu Googlit, ale na té hlavní české stránce je to formulované velmi široce - "od překladačů v reálném čase po hlasové asistenty" - takže to by mohlo být i obojí, jak syntéza, tak rozpoznávání...
Primárně je cílem vytvořit otevřený dataset, na kterém bude možné vytrénovat cokoli. Mozilla sama ale publikuje natrénovaný STT postavený na https://github.com/mozilla/DeepSpeech. Není ale těžké si ho natrénovat sám, klidně pro jiný jazyk, stačí předhodit dataset a poskytnout dostatek výkonu.
taky jsem si pripadal uplne stejne.
Prijde mi promarnena sance, ze ted sbiraji jen vety (psany text), to neni tak tezke si opatrit. I kdyz moderni cestina, a ne Capkova, by byla urcite vhodna pro nejaky mobilni) assistent.
TL;DR: cekal jsem, ze chteji hlasove nahravky. Chtej zatim jen texty
TL;DR bez vět by nebylo co namlouvat a Čapek má celkem moderní češtinu
IMHO nemá moc cenu spouštět sběr nahrávek bez pořádné zásoby vět. Chceme se dostat na několik tisíc a pokud v tu chvíli nebude pro další jazyky ready oficiální Common Voice, začneme sbírat nahrávky sami. Upřímně je celkem vopruz vymyslet několik tisíc vět sám. :D Navíc je čeština bohatá a Pražák sesmolí úplně jinou větu než Moravák. Co se toho Čapka týče, dá se z něj vyseparovat dost vět, které by člověk řekl i dneska. Už jsme cherrypickingem sami prohnali asi tři jeho knížky a výstup je celkem použitelný.
"Navíc je čeština bohatá a Pražák sesmolí úplně jinou větu než Moravák."
Především, pražané vesměs neumějí česky, spíše místo češtiny "používaj pražskej slang", často mají problém s rozlišováním i/y a i když vynechám slang, tak stejně používají hovorovější češtinu na úkor češtiny spisovné (například české hovorovější "děkuju, hraju, nakupuju ..." versus moravské spisovnější "děkuji, hraji, nakupuji ...").
O to bych strach neměl, spíše se obávám, aby to rozpoznávalo spisovnou češtinu. Aby třeba vyřčené "pracuji" automatická korekce nevyhodnotila jako psané "pracuju". Můžete si poslechnout české zpravodajské pořady nebo nadabované filmy, číst titulky nedabovaných filmů, či projít internetové zpravodajské portály, blogy atd. Jelikož většina médií působí v Čechách, vyskytuje se v nich hovorová čeština pravidelně a je spíše problém narazit na češtinu spisovnou. A nejde jen o média, ale třeba také služby nebo uživatelskou podporu služeb apod. Například tady na rootu se zobrazuje reklama na kurzy seduo a tam je problém najít spisovně mluvícího lektora. Mám osobní zkušenost s uživatelskou podporou t-mobile, kde jejich expertka (ano, chápu, že "second line of support" obvykle nepřichází do přímého kontaktu se zákazníkem jako "first line of support" a jsou na ně kladeny jiné požadavky pro jejich pozice) se jinak než slangem vyjádřit neuměla. Já předpokládám, že i v Praze se na základních školách vyučuje spisovná čeština, tak mi připadá podivné, že po absolvování povinné školní docházky se to nějak zvrtne a nadpoloviční většina už poté v životě spisovnou češtinu nepoužije. Třeba takové sledování "underground comedy" na streamu je téměř hororový zážitek.
Nevzdělanci z Brna či Opavy je rozumět stejně špatně jako nevzdělanci z Prahy. Stejně tak to platí pro chudinu a narkomany, případně pro nepřizpůsobivé vrstvy. Naštěstí se již v metropoli situace zlepšila a hovorový jazyk zůstává doménou vyloučených lokalit v okrajových oblastech země.
To není otázka vzdělání. Znám člověka s titulem, který pracuje na "matfyzu" a používá "pražskej slang". Lektoři na seduo také mají tituly a přitom v lekcích mluví hovorově. "Zábavné pořady" z Prahy jsou to samé v bledě modrém, takže vaše hypotéza o "vyloučených lokalitách v okrajových oblastech" je rovněž nesprávná. (Podívejte se na underground comedy na streamu.)