Názory k článku
Začal sběr českých vět pro projekt Common Voice

Zasílat nově přidané názory e-mailem

Článek je starý, nové názory již nelze přidávat.

26. 2. 2018 16:43

MaT

Nebylo by možné nějak více rozvést, o co vlastně celému projektu jde? Jako chápu, že teď se sbírají věty - ale na co? Nějak mi to není o moc jasnější ani po návštěvě toho webu voice.mozilla.cz. Bude to pak dobré pro řečovou syntézu, nebo naopak pro rozpoznávání řeči?

Zkusím také ještě trochu Googlit, ale na té hlavní české stránce je to formulované velmi široce - "od překladačů v reálném čase po hlasové asistenty" - takže to by mohlo být i obojí, jak syntéza, tak rozpoznávání...
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 2. 2018 16:47

Michal Vašíček (neregistrovaný)

Primárně je cílem vytvořit otevřený dataset, na kterém bude možné vytrénovat cokoli. Mozilla sama ale publikuje natrénovaný STT postavený na https://github.com/mozilla/DeepSpeech. Není ale těžké si ho natrénovat sám, klidně pro jiný jazyk, stačí předhodit dataset a poskytnout dostatek výkonu.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 2. 2018 19:09

vojs (neregistrovaný)

taky jsem si pripadal uplne stejne.
Prijde mi promarnena sance, ze ted sbiraji jen vety (psany text), to neni tak tezke si opatrit. I kdyz moderni cestina, a ne Capkova, by byla urcite vhodna pro nejaky mobilni) assistent.

TL;DR: cekal jsem, ze chteji hlasove nahravky. Chtej zatim jen texty
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
26. 2. 2018 19:14

Michal Vašíček (neregistrovaný)

TL;DR bez vět by nebylo co namlouvat a Čapek má celkem moderní češtinu

IMHO nemá moc cenu spouštět sběr nahrávek bez pořádné zásoby vět. Chceme se dostat na několik tisíc a pokud v tu chvíli nebude pro další jazyky ready oficiální Common Voice, začneme sbírat nahrávky sami. Upřímně je celkem vopruz vymyslet několik tisíc vět sám. :D Navíc je čeština bohatá a Pražák sesmolí úplně jinou větu než Moravák. Co se toho Čapka týče, dá se z něj vyseparovat dost vět, které by člověk řekl i dneska. Už jsme cherrypickingem sami prohnali asi tři jeho knížky a výstup je celkem použitelný.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 2. 2018 2:32

Niemand (neregistrovaný)

"Navíc je čeština bohatá a Pražák sesmolí úplně jinou větu než Moravák."

Především, pražané vesměs neumějí česky, spíše místo češtiny "používaj pražskej slang", často mají problém s rozlišováním i/y a i když vynechám slang, tak stejně používají hovorovější češtinu na úkor češtiny spisovné (například české hovorovější "děkuju, hraju, nakupuju ..." versus moravské spisovnější "děkuji, hraji, nakupuji ...").
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 2. 2018 7:22

Michal Stanke

Ale i s těmito rozdíly si musí rozpoznávání hlasu alespoň do jisté míry poradit. Stejně jako třeba s anglickou/americkou angličtinou.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 2. 2018 8:30

Niemand (neregistrovaný)

O to bych strach neměl, spíše se obávám, aby to rozpoznávalo spisovnou češtinu. Aby třeba vyřčené "pracuji" automatická korekce nevyhodnotila jako psané "pracuju". Můžete si poslechnout české zpravodajské pořady nebo nadabované filmy, číst titulky nedabovaných filmů, či projít internetové zpravodajské portály, blogy atd. Jelikož většina médií působí v Čechách, vyskytuje se v nich hovorová čeština pravidelně a je spíše problém narazit na češtinu spisovnou. A nejde jen o média, ale třeba také služby nebo uživatelskou podporu služeb apod. Například tady na rootu se zobrazuje reklama na kurzy seduo a tam je problém najít spisovně mluvícího lektora. Mám osobní zkušenost s uživatelskou podporou t-mobile, kde jejich expertka (ano, chápu, že "second line of support" obvykle nepřichází do přímého kontaktu se zákazníkem jako "first line of support" a jsou na ně kladeny jiné požadavky pro jejich pozice) se jinak než slangem vyjádřit neuměla. Já předpokládám, že i v Praze se na základních školách vyučuje spisovná čeština, tak mi připadá podivné, že po absolvování povinné školní docházky se to nějak zvrtne a nadpoloviční většina už poté v životě spisovnou češtinu nepoužije. Třeba takové sledování "underground comedy" na streamu je téměř hororový zážitek.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 2. 2018 8:36

Michal Vašíček (neregistrovaný)

Když tak namátkově procházím zatím nasbírané věty, velká část je spisovná čeština. Já osobně jsem do toho nasypal hodně filtrovaného Čapka, aby ta skladba slov odpovídala dnešku, a to je celkem spisovné.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 2. 2018 7:54

Učitel národů (neregistrovaný)

Nevzdělanci z Brna či Opavy je rozumět stejně špatně jako nevzdělanci z Prahy. Stejně tak to platí pro chudinu a narkomany, případně pro nepřizpůsobivé vrstvy. Naštěstí se již v metropoli situace zlepšila a hovorový jazyk zůstává doménou vyloučených lokalit v okrajových oblastech země.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 2. 2018 8:43

Niemand (neregistrovaný)

To není otázka vzdělání. Znám člověka s titulem, který pracuje na "matfyzu" a používá "pražskej slang". Lektoři na seduo také mají tituly a přitom v lekcích mluví hovorově. "Zábavné pořady" z Prahy jsou to samé v bledě modrém, takže vaše hypotéza o "vyloučených lokalitách v okrajových oblastech" je rovněž nesprávná. (Podívejte se na underground comedy na streamu.)
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 2. 2018 8:17

Michal Vašíček (neregistrovaný)

Já jsem z Moravy a nikdy jsem nepoužíval „hraji, nakupuji“, vždycky jen „hraju, nakupuju“. Když se k tomu přidá „Tož rožni a vem šufánek,“ myslím, že tam zas tak velké rozdíly nejsou.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 2. 2018 8:59

Niemand (neregistrovaný)

Ani na základní škole ve slohové práci?
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 2. 2018 14:31

y, (neregistrovaný)

V prvni rade vzdavam hold vasemu usili. Nicmene se bojim, ze budete plytvat usilim na necem, co nebude tak uzitecne, jak si predstavujete. Nikde jsem naprikal nenasel zmineno, jak podle vas vypadaji vhodne vety. Vhodnost s ohledem na ASR muze mit uplne jina meritka.
Druha vec pak je samozrejme samotny fakt, ze shromazdujete ctenou rec. Uznavam, ze pro cestinu neexistuje zadny volne dostupny recovy korpus a tedy zda se, ze cokoliv je lepsi nez nic. Ja o tom nejsem uplne presvedcen, ale v soucasne dobe vam nedokazu nabidnout vhodnejsi variantu. Vhodnejsi by byly nahravky z nejakeho voice-chatu a podobne. Ale nechci byt negativni, i se ctenym korpusem jde udelat radu zajimavych veci a pripadne se odrazit potom ke komplikovanejsim vecem.
Kdyz uz tedy vybirate vety na cteny korpus, tak se jich snazte mit co nejvic aby to nedopadlo jako v anglicky verzi, kdy cetli nejakych 7000 vet dokola, takze kazda veta byla ctena nekolikrat, navic ty vety pak nacpali do dev a eval sady. Chce to co nejvetsi variabilitu a to, jestli se vam lidsky ty vety libi uz neni zase az tak dulezite. Samozrejme ze ta veta nesmi vypadat jak klingonsky vyhlaseni valky nebo byt na celou stranku. Dulezita je potom normalizace textu pro trenovani. Radu veci jsem psal i Michaelovi Henretty, ale nevim, jestli to padlo na urodnou pudu.
- Zobrazit celé vlákno
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
27. 2. 2018 15:41

Michal Vašíček (neregistrovaný)

V prvé řadě je nutno říct, že všechny věty sice schvalujeme (resp. schvaluju, zatím nikdo jiný přístup nemá), ale kromě nějakých drobných korekcí (mezera navíc, přebývající znaky kvůli chybě cherry pickingu, ...) je nijak neupravuju.

Výsledkem bude čtený korpus, protože kvůli licenci, pod kterou půjde ven (CC0) je prakticky nemožné získat třeba právě nahrávky z voice-chatů. Určitě ne v nutném množství.

Věty budeme sbírat jak to jen půjde, ale je zase potřeba udržet rozumný počet vět, resp. je zbytečné nasbírat 50000 vět, když je nebude mít kdo číst (čeština má mnohem méně mluvčích než AJ). Zatím máme necelé dva tisíce a rozhodně nehodláme přestávat, já sám mám ještě pár připravených materiálů, které projdu a pošlu. Hodlám ale spustit sběr hlasu během několika týdnů, protože než se z těch pár tisíc vět namluví každá aspoň jednou, budeme mít nejspíš dalších pár tisíc.
- Zobrazit celé vlákno

Zasílat nově přidané názory e-mailem

Názory k článku Začal sběr českých vět pro projekt Common Voice

Názory k článku
Začal sběr českých vět pro projekt Common Voice