Pomozte rozšířit výchozí dataset pro Mozilla Common Voice

11. 6. 2020

Projekt Common Voice je iniciativa Mozilly, která pomáhá strojům učit se, jak mluví skuteční lidé. Vytváří databázi hlasových nahrávek zveřejňovanou pod tou nejsvobodnější licencí, to jest jako volné dílo. Tyto nahrávky sbírá od všech možných dobrovolníků, a dává je k dispozici komukoliv na jakékoliv použití, typicky například různé projekty strojového učení.

Dodnes bylo v databázi Common Voice přibližně 6 tisíc českých vět, přičemž bylo pořízeno již přes 27 hodin zvukových záznamů. To znamená, že každá věta byla zaznamenána přibližně třikrát, což ovšem z hlediska kvality výsledné databáze pro trénování systémů rozpoznávání hlasu není ideální.

Do české lokalizace projektu Common Voice byly nedávno v krátké době zahrnuty věty ze dvou různých významných otevřených zdrojů – napřed věty vybrané ze zápisů zasedání Evropského parlamentu, a posléze věty vybrané z české Wikipedie. Dohromady tyto zdroje zvětšily rozsah databáze vět ke čtení přibližně devadesátkrát. Toto by mělo ve výsledku přinést výraznější pestrost nahrávek sesbíraných v rámci projektu.

Koncem června je plánováno nejbližší vydání datasetu Common Voice, které bude poprvé zahrnovat češtinu. Pokud chcete ještě na poslední chvíli pomoci s dalším rozšiřováním, máte čas až do 22. června. K 30. červnu by již dataset měl být volně ke stažení.

(Zdroj: Mozilla.cz)

Vstoupit do diskuse

Zasílat nově přidané názory e-mailem

Našli jste v článku chybu?

Petr Krčmář

Petr Krčmář pracuje jako šéfredaktor serveru Root.cz. Studoval počítače a média, takže je rozpolcen mezi dva obory. Snaží se dělat obojí, jak nejlépe umí.

Témata:

Mozilla

Sdílet

Autor zprávičky

Petr Krčmář

Témata: