Nebylo by možné nějak více rozvést, o co vlastně celému projektu jde? Jako chápu, že teď se sbírají věty - ale na co? Nějak mi to není o moc jasnější ani po návštěvě toho webu voice.mozilla.cz. Bude to pak dobré pro řečovou syntézu, nebo naopak pro rozpoznávání řeči?
Zkusím také ještě trochu Googlit, ale na té hlavní české stránce je to formulované velmi široce - "od překladačů v reálném čase po hlasové asistenty" - takže to by mohlo být i obojí, jak syntéza, tak rozpoznávání...
Primárně je cílem vytvořit otevřený dataset, na kterém bude možné vytrénovat cokoli. Mozilla sama ale publikuje natrénovaný STT postavený na https://github.com/mozilla/DeepSpeech. Není ale těžké si ho natrénovat sám, klidně pro jiný jazyk, stačí předhodit dataset a poskytnout dostatek výkonu.
taky jsem si pripadal uplne stejne.
Prijde mi promarnena sance, ze ted sbiraji jen vety (psany text), to neni tak tezke si opatrit. I kdyz moderni cestina, a ne Capkova, by byla urcite vhodna pro nejaky mobilni) assistent.
TL;DR: cekal jsem, ze chteji hlasove nahravky. Chtej zatim jen texty
TL;DR bez vět by nebylo co namlouvat a Čapek má celkem moderní češtinu
IMHO nemá moc cenu spouštět sběr nahrávek bez pořádné zásoby vět. Chceme se dostat na několik tisíc a pokud v tu chvíli nebude pro další jazyky ready oficiální Common Voice, začneme sbírat nahrávky sami. Upřímně je celkem vopruz vymyslet několik tisíc vět sám. :D Navíc je čeština bohatá a Pražák sesmolí úplně jinou větu než Moravák. Co se toho Čapka týče, dá se z něj vyseparovat dost vět, které by člověk řekl i dneska. Už jsme cherrypickingem sami prohnali asi tři jeho knížky a výstup je celkem použitelný.
"Navíc je čeština bohatá a Pražák sesmolí úplně jinou větu než Moravák."
Především, pražané vesměs neumějí česky, spíše místo češtiny "používaj pražskej slang", často mají problém s rozlišováním i/y a i když vynechám slang, tak stejně používají hovorovější češtinu na úkor češtiny spisovné (například české hovorovější "děkuju, hraju, nakupuju ..." versus moravské spisovnější "děkuji, hraji, nakupuji ...").
O to bych strach neměl, spíše se obávám, aby to rozpoznávalo spisovnou češtinu. Aby třeba vyřčené "pracuji" automatická korekce nevyhodnotila jako psané "pracuju". Můžete si poslechnout české zpravodajské pořady nebo nadabované filmy, číst titulky nedabovaných filmů, či projít internetové zpravodajské portály, blogy atd. Jelikož většina médií působí v Čechách, vyskytuje se v nich hovorová čeština pravidelně a je spíše problém narazit na češtinu spisovnou. A nejde jen o média, ale třeba také služby nebo uživatelskou podporu služeb apod. Například tady na rootu se zobrazuje reklama na kurzy seduo a tam je problém najít spisovně mluvícího lektora. Mám osobní zkušenost s uživatelskou podporou t-mobile, kde jejich expertka (ano, chápu, že "second line of support" obvykle nepřichází do přímého kontaktu se zákazníkem jako "first line of support" a jsou na ně kladeny jiné požadavky pro jejich pozice) se jinak než slangem vyjádřit neuměla. Já předpokládám, že i v Praze se na základních školách vyučuje spisovná čeština, tak mi připadá podivné, že po absolvování povinné školní docházky se to nějak zvrtne a nadpoloviční většina už poté v životě spisovnou češtinu nepoužije. Třeba takové sledování "underground comedy" na streamu je téměř hororový zážitek.
Nevzdělanci z Brna či Opavy je rozumět stejně špatně jako nevzdělanci z Prahy. Stejně tak to platí pro chudinu a narkomany, případně pro nepřizpůsobivé vrstvy. Naštěstí se již v metropoli situace zlepšila a hovorový jazyk zůstává doménou vyloučených lokalit v okrajových oblastech země.
To není otázka vzdělání. Znám člověka s titulem, který pracuje na "matfyzu" a používá "pražskej slang". Lektoři na seduo také mají tituly a přitom v lekcích mluví hovorově. "Zábavné pořady" z Prahy jsou to samé v bledě modrém, takže vaše hypotéza o "vyloučených lokalitách v okrajových oblastech" je rovněž nesprávná. (Podívejte se na underground comedy na streamu.)
V prvni rade vzdavam hold vasemu usili. Nicmene se bojim, ze budete plytvat usilim na necem, co nebude tak uzitecne, jak si predstavujete. Nikde jsem naprikal nenasel zmineno, jak podle vas vypadaji vhodne vety. Vhodnost s ohledem na ASR muze mit uplne jina meritka.
Druha vec pak je samozrejme samotny fakt, ze shromazdujete ctenou rec. Uznavam, ze pro cestinu neexistuje zadny volne dostupny recovy korpus a tedy zda se, ze cokoliv je lepsi nez nic. Ja o tom nejsem uplne presvedcen, ale v soucasne dobe vam nedokazu nabidnout vhodnejsi variantu. Vhodnejsi by byly nahravky z nejakeho voice-chatu a podobne. Ale nechci byt negativni, i se ctenym korpusem jde udelat radu zajimavych veci a pripadne se odrazit potom ke komplikovanejsim vecem.
Kdyz uz tedy vybirate vety na cteny korpus, tak se jich snazte mit co nejvic aby to nedopadlo jako v anglicky verzi, kdy cetli nejakych 7000 vet dokola, takze kazda veta byla ctena nekolikrat, navic ty vety pak nacpali do dev a eval sady. Chce to co nejvetsi variabilitu a to, jestli se vam lidsky ty vety libi uz neni zase az tak dulezite. Samozrejme ze ta veta nesmi vypadat jak klingonsky vyhlaseni valky nebo byt na celou stranku. Dulezita je potom normalizace textu pro trenovani. Radu veci jsem psal i Michaelovi Henretty, ale nevim, jestli to padlo na urodnou pudu.
V prvé řadě je nutno říct, že všechny věty sice schvalujeme (resp. schvaluju, zatím nikdo jiný přístup nemá), ale kromě nějakých drobných korekcí (mezera navíc, přebývající znaky kvůli chybě cherry pickingu, ...) je nijak neupravuju.
Výsledkem bude čtený korpus, protože kvůli licenci, pod kterou půjde ven (CC0) je prakticky nemožné získat třeba právě nahrávky z voice-chatů. Určitě ne v nutném množství.
Věty budeme sbírat jak to jen půjde, ale je zase potřeba udržet rozumný počet vět, resp. je zbytečné nasbírat 50000 vět, když je nebude mít kdo číst (čeština má mnohem méně mluvčích než AJ). Zatím máme necelé dva tisíce a rozhodně nehodláme přestávat, já sám mám ještě pár připravených materiálů, které projdu a pošlu. Hodlám ale spustit sběr hlasu během několika týdnů, protože než se z těch pár tisíc vět namluví každá aspoň jednou, budeme mít nejspíš dalších pár tisíc.