Google выпускает Magika 1.0: инструмент для определения типа файлов на основе ИИ

Компания Google объявила о выпуске Magika 1.0 — первой стабильной версии системы определения типа файлов с открытым исходным кодом на основе искусственного интеллекта. Magika уже широко используется в сервисах Google. Теперь она представляет собой полностью переработанный движок на основе Rust, с значительно расширенной поддержкой форматов и молниеносной скоростью обработки данных.
Как вы, вероятно, знаете, определение типа файла — давняя проблема в сфере компьютерных технологий. Существующие инструменты, такие как классическая утилита file, используют эвристику, разработанную вручную, для определения форматов. Этот процесс требует постоянного обновления правил и остаётся уязвимым перед лицом меняющихся файловых структур и вредоносного контента.
Принимая это во внимание, magika подходит к проблеме иначе: в основе лежит компактная пользовательская модель глубокого обучения (размером всего несколько мегабайт), обученная на миллионах файлов и рассчитанная на эффективную работу даже на одном процессоре.
Согласно внутренним тестам Google, система смогла идентифицировать файлы за миллисекунды и достигла средней точности ~99 % для сотен типов файлов. В только что выпущенной новой версии Magika 1.0 появилось несколько важных улучшений, главное из которых:
- Поддержка более 200 типов контента (по сравнению с ~100 в предыдущих версиях).
- Новый базовый движок, написанный на Rust, обеспечивает высокую производительность и безопасность памяти.
- Собственный клиент командной строки на Rust, а также модули на Python и TypeScript для упрощения интеграции.
- Повышенная точность при работе со сложными текстовыми форматами и форматами, ориентированными на программистов (например, различение JSON и JSONL, C и C++).
- Практически постоянное время вывода, не зависящее от размера файла: после загрузки модели она может обрабатывать тысячи файлов с минимальной задержкой.

Инструмент для идентификации файлов Magika.
Для справки: в Google Magika используется в таких сервисах, как Gmail, Диск и Безопасный просмотр, где она еженедельно перенаправляет сотни миллиардов файлов в соответствующие системы контроля и безопасности. Хорошая новость заключается в том, что благодаря открытому исходному коду инструмента разработчики и организации за пределами Google теперь могут использовать тот же механизм обнаружения.
Чтобы установить и начать использовать Magika, пользователи могут выполнить простую команду в оболочке Linux/macOS:
curl -LsSf https://securityresearch.google/magika/install.sh | sh
Для Windows предусмотрен установочный скрипт PowerShell. Пакет magika Python также включает в себя собственный клиентский интерфейс командной строки на Rust. Для разработчиков Magika предлагает привязки на Python, JavaScript/TypeScript (через пакет npm), Rust и разрабатываемую библиотеку Go.
Обо всех изменениях в новой версии Magika 1.0 читайте в блоге Google Open Source: https://opensource.googleblog.com/2025/11/announcing-magika-10-now-faster-smarter.html. Дополнительную информацию о самих инструментах можно найти по этой ссылке: https://securityresearch.google/magika/introduction/overview.
Редактор: AndreyEx
Важно: Данная статья носит информационный характер. Автор не несёт ответственности за возможные сбои или ошибки, возникшие при использовании описанного программного обеспечения.