Microsoftは、2年前に発表していた、現代のコンピュータビジョンモデルを「完全に見直す」ことを目的としていた「Project Florence」の成果として、「ユニファイド」かつ「マルチモーダル」な最新ビジョンAIモデル「Florence」のパブリックプレビューを開始した事を発表した。
FlorenceはAzure Cognitive ServicesのVision APIsの更新の一部としてリリースされ、Florenceを搭載したMicrosoft Vision Servicesは、自動キャプション付け、背景除去、動画の要約から画像検索までの機能を備え、Azureの既存顧客向けに本日からプレビュー版の提供が開始される。
AI研究コミュニティは、マルチモーダルモデルがより高性能なAIシステムへの最良の道であるという考えを強固にしている。当然ながら、マルチモーダルモデル(言語と画像、動画と音声など、複数のモダリティを理解するモデル)は、ユニモーダルモデルでは不可能なタスク(動画のキャプション付けなど)を一発で実行することができるようになる。
画像だけを理解するモデルと言語だけを理解するモデルのように、同じ目的を達成するために複数の「ユニモーダル」モデルを連結させるのはどうだろうか。理由はいくつかありますが、第一に、マルチモーダルモデルは、追加モダリティからの文脈情報のおかげで、同じタスクにおいて、ユニモーダルモデルよりも優れたパフォーマンスを発揮する場合がある。例えば、画像、価格データ、購買履歴を理解するAIアシスタントは、価格データのみを理解するAIアシスタントよりも、よりパーソナライズされた商品提案を行うことができる可能性がある。
もうひとつは、マルチモーダルモデルは計算効率が高いので、処理の高速化やバックエンドのコストダウンにつながる。Microsoftは営利企業であるので、これは同社にとって間違いなくプラスだ。
そこで、Florenceの登場だ。画像、映像、言語、そしてそれらのモダリティ間の関係を理解するので、画像とテキストの類似性を測定したり、写真の中のオブジェクトをセグメント化して別の背景に貼り付けたりすることが可能になる。
Redditは新しいFlorence-powered APIを使用して、プラットフォーム上の画像にキャプションを生成し、視覚に障害のあるユーザーがスレッドをよりよく追えるように「alt text」を作成する予定とのことだ。
Reddit のコンシューマー製品担当プロダクト マネージャーである Tiffany Ong 氏は、次のように述べています。
「Microsoft の Vision テクノロジにより、ユーザーがコンテンツを簡単に見つけて理解できるようにしています。新たに作成された画像キャプションにより、誰でも Reddit にアクセスしやすくなり、reddit ユーザーが私たちの画像を探索し、会話に参加し、最終的につながりとコミュニティの感覚を構築する機会が増えます。」
Microsoft
Microsoftは、自社のプラットフォーム、製品、サービスの多くでFlorenceを使用している。
LinkedInでは、Redditと同様に、Florenceを搭載したサービスが編集するキャプションを生成し、altテキスト画像の記述をサポートする。
LinkedInは画像解析のための自動altテキスト記述を提供するVision Servicesの活用のメリットについて共有する予定です。プレビューとして、LinkedInのアクセシビリティ・エンジニアリング・エバンジェリズムの責任者であるJennison Asuncion氏は、次のように述べています。
「LinkedInのフィード投稿の40%以上には、少なくとも1つの画像が含まれています。私たちは、すべてのメンバーが平等に機会にアクセスできることを望んでおり、目の見えないメンバーや弱視のメンバーがオンラインの会話に参加できるように、画像にアクセスできるようにすることを約束します。Azure Cognitive Service for Visionを使えば、自動キャプションを提供して編集し、alt.テキスト記述をサポートすることができます。同僚が参加したイベントの写真を共有したことがわかるだけでなく、私のCEOであるRyan Roslanskyも写っていることがわかるので、この新しい体験に興奮しています」
Microsoft
またMicrosoft Teamsでは、Florenceが動画のセグメンテーション機能を推進している。PowerPoint、Outlook、Wordでは、Florenceの画像キャプション機能を活用し、altテキストを自動生成している。また、DesignerとOneDriveは、Florenceの提供により、画像タグ付け、画像検索、背景生成の機能が向上しているとのことだ。
また、Vision Studioでは、既に以下の新たな機能が追加されているとのことだ。
- 高密度キャプション:豊富なキャプション、デザインの提案、アクセス可能な代替テキスト、SEO 最適化、インテリジェントな写真キュレーションを自動的に配信して、デジタル コンテンツをサポート。
- 画像検索:画像とテキストの類似性をシームレスに測定する自然言語クエリを使用して、検索の推奨事項と広告を改善。
- 背景の削除:元の背景から人物やオブジェクトを簡単にセグメント化し、好みの背景シーンに置き換えることで、画像のルック アンド フィールを変換する。
- モデルのカスタマイズ:コストと時間を削減して、独自のビジネス ニーズに一致するカスタム モデルを高精度で、ほんの一握りの画像で提供する。
- ビデオの要約 (Video TL;DR):考えたり書いたりするのと同じ直感的な方法で、ビデオ コンテンツを検索して操作する。追加のメタデータを必要とせずに、関連するコンテンツを見つける。
Source
コメントを残す