Magika je utilita od Googlu pro detekci typů souborů založená na strojovém učení

20. 11. 2025

Sdílet

Magika Autor: Google

Detekce typu souboru podle jeho obsahu je dlouhodobým a komplikovaným problémem. Obvyklé nástroje, jako je klasická utilita file, se při určování formátů spoléhají na ručně vytvořené heuristiky. Ty ale vyžadují neustálou údržbu pravidel a jsou křehké vzhledem k průběžně se vyvíjejícím formátům.

Vývojáři společnosti Google přišli s jiným přístupem a jejich nástroj Magika využívá vlastní kompaktní model strojového učení o velikosti pouhých několika megabajtů, který byl vycvičen na milionech souborů. Je navržen tak, aby fungoval efektivně i na jediném procesorovém jádře.

Magika je napsaná v jazyce Rust a v současnosti rozpozná zhruba dvě stovky různých formátů. Trénink probíhal na více než sto milionech souborů o celkovém objemu 3 TB. Celé je to překvapivě výkonné a jakmile je model načten do paměti, je schopen rozpoznat stovky souborů za sekundu na jednom procesorovém jádře. Jedno rozpoznání obsahu trvá okolo pěti milisekund a není závislé na velikosti souboru, protože Magika si vybírá jen některé zajímavé části z něj.

Magika se už v produkci používá ve velkém měřítku k zajištění bezpečnosti uživatelů Google tím, že směruje soubory Gmailu, Disku a Bezpečného prohlížení do příslušných skenerů zabezpečení a obsahu a každý týden zpracovává stovky miliard vzorků. Google tvrdí, že utilita při určování souborů dosahuje 99% přesnosti.

Další informace naleznete v dokumentaci nebo na GitHubu, kde je kód dostupný pod licencí Apache 2.0. K dispozici je i webové demo.

Našli jste v článku chybu?

Autor zprávičky

Petr Krčmář pracuje jako šéfredaktor serveru Root.cz. Studoval počítače a média, takže je rozpolcen mezi dva obory. Snaží se dělat obojí, jak nejlépe umí.