AIは通常、オブジェクトを検出するために既存の材料で訓練する必要があるが、Metaは、画像や映像の中の個々の物体を、訓練中に遭遇しなかったものまで識別できるAIモデル「Segment Anything Model(SAM)」を発表した。
Metaのブログによると、SAMは画像セグメンテーション(分割)モデルであり、テキストプロンプトやユーザーのクリックに反応して、画像内の特定のオブジェクトを分離することができるとのことだ。画像分割は、コンピュータビジョンにおけるプロセスで、画像を複数のセグメントまたは領域に分割し、それぞれが特定のオブジェクトまたは関心領域を表すことを意味する。
画像分割の目的は、画像の解析や加工を容易にすることだ。Metaはまた、この技術がWebページのコンテンツ理解、拡張現実アプリケーション、画像編集、ビデオ上で追跡する動物や物体を自動的に特定することによる科学研究の補助に役立つと見ている。
通常、正確なセグメンテーションモデルを作成するには、「AIトレーニングインフラと慎重にアノテーションされた大量のドメイン内データを利用できる技術専門家による高度な専門作業が必要」だとMetaは述べている。MetaはSAMを作成することで、専門的なトレーニングや専門知識の必要性を減らすことでこのプロセスを「民主化」し、コンピュータビジョンの研究がさらに促進されることを期待している。
Metaは、SAMに加え、「大手写真会社」からライセンスを受けた1100万枚の画像と、セグメンテーションモデルで作成した11億枚のセグメンテーションマスクからなるデータセット「SA-1B」を構築した。Metaは、SAMとそのデータセットをApache 2.0ライセンスで研究目的に利用できるようにする予定だ。
現在、GitHubでコード(ウェイトなし)が公開されており、Metaはセグメンテーション技術の無料インタラクティブデモを作成した。デモでは、写真をアップロードし、「Hover & Click」(マウスでオブジェクトを選択)、「Box」(選択ボックス内でオブジェクトを選択)、「Everything」(画像内のすべてのオブジェクトを自動的に識別しようとする)を使用することが出来る。
画像分割技術は新しいものではないが、SAMはトレーニングデータセットに存在しないオブジェクトを識別する能力と、部分的にオープンなアプローチで注目される。また、SA-1Bモデルのリリースは、Metaの言語モデルLLaMAがすでに分派プロジェクトを刺激しているのと同様に、新世代のコンピュータビジョンアプリケーションの火付け役となる可能性がある。
Reutersによると、MetaのCEOであるMark Zuckerberg氏は、今年、同社のアプリにジェネレーティブAIを取り入れることの重要性を強調した。Metaはまだこの種のAIを使った商用製品をリリースしていないが、以前、SAMに似た技術をFacebookと社内で活用し、写真のタグ付け、コンテンツのモデレーション、FacebookやInstagramでのおすすめ投稿の決定などに活用している。
Metaの発表は、AI空間の支配を目指すビッグテック企業間の熾烈な競争の中で行われた。Microsoftが支援するOpenAIのChatGPT言語モデルは2022年秋に広く注目を集め、ソーシャルメディアやスマートフォンを超えるテクノロジーにおける次の大きなビジネストレンドを定義するかもしれない投資の波を引き起こした。
Source
- Meta: Segment Anything
- via Reuters: Meta releases AI model that can identify items within images
コメントを残す