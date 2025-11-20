Root.cz  »  Nástroje a utility  »  Magika je utilita od Googlu pro detekci typů souborů založená na strojovém učení

Detekce typu souboru podle jeho obsahu je dlouhodobým a komplikovaným problémem. Obvyklé nástroje, jako je klasická utilita file, se při určování formátů spoléhají na ručně vytvořené heuristiky. Ty ale vyžadují neustálou údržbu pravidel a jsou křehké vzhledem k průběžně se vyvíjejícím formátům.

Vývojáři společnosti Google přišli s jiným přístupem a jejich nástroj Magika využívá vlastní kompaktní model strojového učení o velikosti pouhých několika megabajtů, který byl vycvičen na milionech souborů. Je navržen tak, aby fungoval efektivně i na jediném procesorovém jádře.

Magika je napsaná v jazyce Rust a v současnosti rozpozná zhruba dvě stovky různých formátů. Trénink probíhal na více než sto milionech souborů o celkovém objemu 3 TB. Celé je to překvapivě výkonné a jakmile je model načten do paměti, je schopen rozpoznat stovky souborů za sekundu na jednom procesorovém jádře. Jedno rozpoznání obsahu trvá okolo pěti milisekund a není závislé na velikosti souboru, protože Magika si vybírá jen některé zajímavé části z něj.

Magika se už v produkci používá ve velkém měřítku k zajištění bezpečnosti uživatelů Google tím, že směruje soubory Gmailu, Disku a Bezpečného prohlížení do příslušných skenerů zabezpečení a obsahu a každý týden zpracovává stovky miliard vzorků. Google tvrdí, že utilita při určování souborů dosahuje 99% přesnosti.

Další informace naleznete v dokumentaci nebo na GitHubu, kde je kód dostupný pod licencí Apache 2.0. K dispozici je i webové demo.

