Hlavní navigace

Začal sběr českých vět pro projekt Common Voice

Sdílet

Michal Vašíček 26. 2. 2018
Mozilla Pocket

Česká komunita Mozilly začala sbírat české věty pro projekt Common Voice, který by měl v několika měsících získat podporu pro více jazyků a čeština by měla být jedním z prvních.Pokud se chcete podělit o knížku, kterou jste napsali v mládí, historii firemního Slacku nebo jiné texty psané moderní češtinou, stačí navštívit voice.mozilla.cz.

V případě, že máte delší souvislý text, použijte nástroj pro cherry picking, který z něj vybere věty vhodné pro Common Voice, vy je pak jen zkontrolujete a odešlete. U všech textů je pouze nutné, aby jejich autor souhlasil se zveřejněním pod licencí CC-0 nebo byly dostupné jako volné dílo (např. díla autorů, kteří zemřeli před více než 70 lety).

Tato zprávička byla zaslána čtenářem serveru Root.cz pomocí formuláře Přidat zprávičku. Děkujeme!

Našli jste v článku chybu?
  • Aktualita je stará, nové názory již nelze přidávat.
  • 26. 2. 2018 16:43

    MaT

    Nebylo by možné nějak více rozvést, o co vlastně celému projektu jde? Jako chápu, že teď se sbírají věty - ale na co? Nějak mi to není o moc jasnější ani po návštěvě toho webu voice.mozilla.cz. Bude to pak dobré pro řečovou syntézu, nebo naopak pro rozpoznávání řeči?

    Zkusím také ještě trochu Googlit, ale na té hlavní české stránce je to formulované velmi široce - "od překladačů v reálném čase po hlasové asistenty" - takže to by mohlo být i obojí, jak syntéza, tak rozpoznávání...

  • 26. 2. 2018 16:47

    Michal Vašíček (neregistrovaný) 193.86.64.---

    Primárně je cílem vytvořit otevřený dataset, na kterém bude možné vytrénovat cokoli. Mozilla sama ale publikuje natrénovaný STT postavený na https://github.com/mozilla/DeepSpeech. Není ale těžké si ho natrénovat sám, klidně pro jiný jazyk, stačí předhodit dataset a poskytnout dostatek výkonu.

  • 26. 2. 2018 19:09

    vojs (neregistrovaný) ---.ipv4.broadband.iol.cz

    taky jsem si pripadal uplne stejne.
    Prijde mi promarnena sance, ze ted sbiraji jen vety (psany text), to neni tak tezke si opatrit. I kdyz moderni cestina, a ne Capkova, by byla urcite vhodna pro nejaky mobilni) assistent.

    TL;DR: cekal jsem, ze chteji hlasove nahravky. Chtej zatim jen texty

  • 26. 2. 2018 19:14

    Michal Vašíček (neregistrovaný) 193.86.64.---

    TL;DR bez vět by nebylo co namlouvat a Čapek má celkem moderní češtinu

    IMHO nemá moc cenu spouštět sběr nahrávek bez pořádné zásoby vět. Chceme se dostat na několik tisíc a pokud v tu chvíli nebude pro další jazyky ready oficiální Common Voice, začneme sbírat nahrávky sami. Upřímně je celkem vopruz vymyslet několik tisíc vět sám. :D Navíc je čeština bohatá a Pražák sesmolí úplně jinou větu než Moravák. Co se toho Čapka týče, dá se z něj vyseparovat dost vět, které by člověk řekl i dneska. Už jsme cherrypickingem sami prohnali asi tři jeho knížky a výstup je celkem použitelný.

  • 27. 2. 2018 2:32

    Niemand (neregistrovaný) ---.113.245.218.static.b2b.upcbusiness.cz

    "Navíc je čeština bohatá a Pražák sesmolí úplně jinou větu než Moravák."

    Především, pražané vesměs neumějí česky, spíše místo češtiny "používaj pražskej slang", často mají problém s rozlišováním i/y a i když vynechám slang, tak stejně používají hovorovější češtinu na úkor češtiny spisovné (například české hovorovější "děkuju, hraju, nakupuju ..." versus moravské spisovnější "děkuji, hraji, nakupuji ...").

  • 27. 2. 2018 7:22

    Michal Stanke

    Ale i s těmito rozdíly si musí rozpoznávání hlasu alespoň do jisté míry poradit. Stejně jako třeba s anglickou/americkou angličtinou.

  • 27. 2. 2018 8:30

    Niemand (neregistrovaný) ---.113.245.218.static.b2b.upcbusiness.cz

    O to bych strach neměl, spíše se obávám, aby to rozpoznávalo spisovnou češtinu. Aby třeba vyřčené "pracuji" automatická korekce nevyhodnotila jako psané "pracuju". Můžete si poslechnout české zpravodajské pořady nebo nadabované filmy, číst titulky nedabovaných filmů, či projít internetové zpravodajské portály, blogy atd. Jelikož většina médií působí v Čechách, vyskytuje se v nich hovorová čeština pravidelně a je spíše problém narazit na češtinu spisovnou. A nejde jen o média, ale třeba také služby nebo uživatelskou podporu služeb apod. Například tady na rootu se zobrazuje reklama na kurzy seduo a tam je problém najít spisovně mluvícího lektora. Mám osobní zkušenost s uživatelskou podporou t-mobile, kde jejich expertka (ano, chápu, že "second line of support" obvykle nepřichází do přímého kontaktu se zákazníkem jako "first line of support" a jsou na ně kladeny jiné požadavky pro jejich pozice) se jinak než slangem vyjádřit neuměla. Já předpokládám, že i v Praze se na základních školách vyučuje spisovná čeština, tak mi připadá podivné, že po absolvování povinné školní docházky se to nějak zvrtne a nadpoloviční většina už poté v životě spisovnou češtinu nepoužije. Třeba takové sledování "underground comedy" na streamu je téměř hororový zážitek.

  • 27. 2. 2018 8:36

    Michal Vašíček (neregistrovaný) ---.102.17.233.static.b2b.upcbusiness.cz

    Když tak namátkově procházím zatím nasbírané věty, velká část je spisovná čeština. Já osobně jsem do toho nasypal hodně filtrovaného Čapka, aby ta skladba slov odpovídala dnešku, a to je celkem spisovné.

  • 27. 2. 2018 7:54

    Učitel národů (neregistrovaný) ---.47.220.55.jmnet.cz

    Nevzdělanci z Brna či Opavy je rozumět stejně špatně jako nevzdělanci z Prahy. Stejně tak to platí pro chudinu a narkomany, případně pro nepřizpůsobivé vrstvy. Naštěstí se již v metropoli situace zlepšila a hovorový jazyk zůstává doménou vyloučených lokalit v okrajových oblastech země.

  • 27. 2. 2018 8:43

    Niemand (neregistrovaný) ---.113.245.218.static.b2b.upcbusiness.cz

    To není otázka vzdělání. Znám člověka s titulem, který pracuje na "matfyzu" a používá "pražskej slang". Lektoři na seduo také mají tituly a přitom v lekcích mluví hovorově. "Zábavné pořady" z Prahy jsou to samé v bledě modrém, takže vaše hypotéza o "vyloučených lokalitách v okrajových oblastech" je rovněž nesprávná. (Podívejte se na underground comedy na streamu.)

  • 27. 2. 2018 8:17

    Michal Vašíček (neregistrovaný) ---.102.17.233.static.b2b.upcbusiness.cz

    Já jsem z Moravy a nikdy jsem nepoužíval „hraji, nakupuji“, vždycky jen „hraju, nakupuju“. Když se k tomu přidá „Tož rožni a vem šufánek,“ myslím, že tam zas tak velké rozdíly nejsou.

  • 27. 2. 2018 14:31

    y, (neregistrovaný) 205.215.242.---

    V prvni rade vzdavam hold vasemu usili. Nicmene se bojim, ze budete plytvat usilim na necem, co nebude tak uzitecne, jak si predstavujete. Nikde jsem naprikal nenasel zmineno, jak podle vas vypadaji vhodne vety. Vhodnost s ohledem na ASR muze mit uplne jina meritka.
    Druha vec pak je samozrejme samotny fakt, ze shromazdujete ctenou rec. Uznavam, ze pro cestinu neexistuje zadny volne dostupny recovy korpus a tedy zda se, ze cokoliv je lepsi nez nic. Ja o tom nejsem uplne presvedcen, ale v soucasne dobe vam nedokazu nabidnout vhodnejsi variantu. Vhodnejsi by byly nahravky z nejakeho voice-chatu a podobne. Ale nechci byt negativni, i se ctenym korpusem jde udelat radu zajimavych veci a pripadne se odrazit potom ke komplikovanejsim vecem.
    Kdyz uz tedy vybirate vety na cteny korpus, tak se jich snazte mit co nejvic aby to nedopadlo jako v anglicky verzi, kdy cetli nejakych 7000 vet dokola, takze kazda veta byla ctena nekolikrat, navic ty vety pak nacpali do dev a eval sady. Chce to co nejvetsi variabilitu a to, jestli se vam lidsky ty vety libi uz neni zase az tak dulezite. Samozrejme ze ta veta nesmi vypadat jak klingonsky vyhlaseni valky nebo byt na celou stranku. Dulezita je potom normalizace textu pro trenovani. Radu veci jsem psal i Michaelovi Henretty, ale nevim, jestli to padlo na urodnou pudu.

  • 27. 2. 2018 15:41

    Michal Vašíček (neregistrovaný) 193.86.64.---

    V prvé řadě je nutno říct, že všechny věty sice schvalujeme (resp. schvaluju, zatím nikdo jiný přístup nemá), ale kromě nějakých drobných korekcí (mezera navíc, přebývající znaky kvůli chybě cherry pickingu, ...) je nijak neupravuju.

    Výsledkem bude čtený korpus, protože kvůli licenci, pod kterou půjde ven (CC0) je prakticky nemožné získat třeba právě nahrávky z voice-chatů. Určitě ne v nutném množství.

    Věty budeme sbírat jak to jen půjde, ale je zase potřeba udržet rozumný počet vět, resp. je zbytečné nasbírat 50000 vět, když je nebude mít kdo číst (čeština má mnohem méně mluvčích než AJ). Zatím máme necelé dva tisíce a rozhodně nehodláme přestávat, já sám mám ještě pár připravených materiálů, které projdu a pošlu. Hodlám ale spustit sběr hlasu během několika týdnů, protože než se z těch pár tisíc vět namluví každá aspoň jednou, budeme mít nejspíš dalších pár tisíc.