Hlavní navigace

Pomozte rozšířit výchozí dataset pro Mozilla Common Voice

Sdílet

Petr Krčmář 11. 6. 2020
Mozilla Common Voice Autor: Mozilla

Projekt Common Voice je iniciativa Mozilly, která pomáhá strojům učit se, jak mluví skuteční lidé. Vytváří databázi hlasových nahrávek zveřejňovanou pod tou nejsvobodnější licencí, to jest jako volné dílo. Tyto nahrávky sbírá od všech možných dobrovolníků, a dává je k dispozici komukoliv na jakékoliv použití, typicky například různé projekty strojového učení.

Dodnes bylo v databázi Common Voice přibližně 6 tisíc českých vět, přičemž bylo pořízeno již přes 27 hodin zvukových záznamů. To znamená, že každá věta byla zaznamenána přibližně třikrát, což ovšem z hlediska kvality výsledné databáze pro trénování systémů rozpoznávání hlasu není ideální.

Do české lokalizace projektu Common Voice byly nedávno v krátké době zahrnuty věty ze dvou různých významných otevřených zdrojů – napřed věty vybrané ze zápisů zasedání Evropského parlamentu, a posléze věty vybranéčeské Wikipedie. Dohromady tyto zdroje zvětšily rozsah databáze vět ke čtení přibližně devadesátkrát. Toto by mělo ve výsledku přinést výraznější pestrost nahrávek sesbíraných v rámci projektu.

Koncem června je plánováno nejbližší vydání datasetu Common Voice, které bude poprvé zahrnovat češtinu. Pokud chcete ještě na poslední chvíli pomoci s dalším rozšiřováním, máte čas až do 22. června. K 30. červnu by již dataset měl být volně ke stažení.

(Zdroj: Mozilla.cz)

Našli jste v článku chybu?
  • Aktualita je stará, nové názory již nelze přidávat.