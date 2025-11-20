Root.cz  »  Nástroje a utility  »  Magika je utilita od Googlu pro detekci typů souborů založená na strojovém učení

Magika je utilita od Googlu pro detekci typů souborů založená na strojovém učení

Petr Krčmář
Včera
Magika Autor: Google

Detekce typu souboru podle jeho obsahu je dlouhodobým a komplikovaným problémem. Obvyklé nástroje, jako je klasická utilita file, se při určování formátů spoléhají na ručně vytvořené heuristiky. Ty ale vyžadují neustálou údržbu pravidel a jsou křehké vzhledem k průběžně se vyvíjejícím formátům.

Vývojáři společnosti Google přišli s jiným přístupem a jejich nástroj Magika využívá vlastní kompaktní model strojového učení o velikosti pouhých několika megabajtů, který byl vycvičen na milionech souborů. Je navržen tak, aby fungoval efektivně i na jediném procesorovém jádře.

Magika je napsaná v jazyce Rust a v současnosti rozpozná zhruba dvě stovky různých formátů. Trénink probíhal na více než sto milionech souborů o celkovém objemu 3 TB. Celé je to překvapivě výkonné a jakmile je model načten do paměti, je schopen rozpoznat stovky souborů za sekundu na jednom procesorovém jádře. Jedno rozpoznání obsahu trvá okolo pěti milisekund a není závislé na velikosti souboru, protože Magika si vybírá jen některé zajímavé části z něj.

Magika se už v produkci používá ve velkém měřítku k zajištění bezpečnosti uživatelů Google tím, že směruje soubory Gmailu, Disku a Bezpečného prohlížení do příslušných skenerů zabezpečení a obsahu a každý týden zpracovává stovky miliard vzorků. Google tvrdí, že utilita při určování souborů dosahuje 99% přesnosti.

Další informace naleznete v dokumentaci nebo na GitHubu, kde je kód dostupný pod licencí Apache 2.0. K dispozici je i webové demo.

Petr Krčmář

Petr Krčmář

Petr Krčmář pracuje jako šéfredaktor serveru Root.cz. Studoval počítače a média, takže je rozpolcen mezi dva obory. Snaží se dělat obojí, jak nejlépe umí.

