Google、ファイルの種類を高速に判別するAI「Magika」をオープンソースで公開

masapoco
投稿日
2024年2月19日 16:52

Googleは、自動でファイルタイプを認識するAIシステム「Magika」をオープンソース化し公開したことを発表した。これを用いることで、そのファイルの中身が一体何なのか、バイナリやテキストベースのファイルタイプを素早く正確に識別できる。

ファイル形式の構造は多様であり、その識別を正確に行うのは困難な問題となっている。従来の認識ツール(例えばlibmagicなど)は、手作業のヒューリスティックとユーザー定義のルールに依存しており、時間がかかり、エラーが発生しやすい。

Magika は、AI ベースのモデルと大規模なトレーニングデータセットにより、これらの問題に対処する。従来の方法に比べて「Magikaは、より信頼性の高い方法でファイルタイプを大規模に識別することができる」と、Googleは述べている。このツールは、Kerasを用いて特別に最適化された、わずか1MBのカスタムディープラーニングモデルを使用しており、ミリ秒単位でファイルを識別できるとのことだ。

100万ファイルのベンチマークでは、Magikaは既存のツールを20%上回り、テキストファイルではさらに優れたパフォーマンスを示した。

Googleによれば、Gmail、ドライブ、セーフブラウジングのファイルを適切なセキュリティ・ポリシー・スキャナーにルーティングするためにMagikaを社内で使用しているという。

Magikaのオープンソースアプローチは、他のソフトウェアがファイル検出の精度を向上させるのを助け、大規模な検出のための信頼できるツールを研究者に提供することを目的としている。今後予定されているVirusTotalとの統合は、悪意のあるコードを検出するプラットフォームの効率と精度を向上させることが期待されている。

また、Webデモも公開されており、実際の動作を試すことができ、またPythonライブラリやスタンドアロンコマンドラインツールとしてインストールすることもできる。

MagikaはApache2ライセンスのもとGithubで公開されており、pypiパッケージマネージャを使って “pip install magika”コマンドでスタンドアロンツールとしてもPythonライブラリとしてもインストールできる。


Sources



この記事が面白かったら是非シェアをお願いします!


  • 次の記事

    AIが自動で電話をかけて人間のオペレーターが出てくるまでを代行してくれる機能をGoogleがテスト中

    2024年2月19日 18:24
  • 前の記事

    米国で世界最大の太陽電池・蓄電池プロジェクトが始動

    2024年2月19日 14:49
この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事