Googleは、自動でファイルタイプを認識するAIシステム「Magika」をオープンソース化し公開したことを発表した。これを用いることで、そのファイルの中身が一体何なのか、バイナリやテキストベースのファイルタイプを素早く正確に識別できる。
ファイル形式の構造は多様であり、その識別を正確に行うのは困難な問題となっている。従来の認識ツール(例えばlibmagicなど)は、手作業のヒューリスティックとユーザー定義のルールに依存しており、時間がかかり、エラーが発生しやすい。
Magika は、AI ベースのモデルと大規模なトレーニングデータセットにより、これらの問題に対処する。従来の方法に比べて「Magikaは、より信頼性の高い方法でファイルタイプを大規模に識別することができる」と、Googleは述べている。このツールは、Kerasを用いて特別に最適化された、わずか1MBのカスタムディープラーニングモデルを使用しており、ミリ秒単位でファイルを識別できるとのことだ。
100万ファイルのベンチマークでは、Magikaは既存のツールを20%上回り、テキストファイルではさらに優れたパフォーマンスを示した。
Googleによれば、Gmail、ドライブ、セーフブラウジングのファイルを適切なセキュリティ・ポリシー・スキャナーにルーティングするためにMagikaを社内で使用しているという。
Magikaのオープンソースアプローチは、他のソフトウェアがファイル検出の精度を向上させるのを助け、大規模な検出のための信頼できるツールを研究者に提供することを目的としている。今後予定されているVirusTotalとの統合は、悪意のあるコードを検出するプラットフォームの効率と精度を向上させることが期待されている。
また、Webデモも公開されており、実際の動作を試すことができ、またPythonライブラリやスタンドアロンコマンドラインツールとしてインストールすることもできる。
MagikaはApache2ライセンスのもとGithubで公開されており、pypiパッケージマネージャを使って “pip install magika”コマンドでスタンドアロンツールとしてもPythonライブラリとしてもインストールできる。
Sources
- Magika
- GitHub: google/magika
- Google Open Source: Magika: AI powered fast and efficient file type identification
コメントを残す