Microsoft、自動キャプション、背景除去、動画の要約等を可能にする「Florence」のパブリックプレビューを発表 | TEXAL

Microsoft、自動キャプション、背景除去、動画の要約等を可能にする「Florence」のパブリックプレビューを発表

masapoco

投稿日

2023年3月8日 6:10

テクノロジー

RWZ8nW

本記事は広告およびアフィリエイトプログラムによる収益を得ています。

Microsoftは、2年前に発表していた、現代のコンピュータビジョンモデルを「完全に見直す」ことを目的としていた「Project Florence」の成果として、「ユニファイド」かつ「マルチモーダル」な最新ビジョンAIモデル「Florence」のパブリックプレビューを開始した事を発表した。

FlorenceはAzure Cognitive ServicesのVision APIsの更新の一部としてリリースされ、Florenceを搭載したMicrosoft Vision Servicesは、自動キャプション付け、背景除去、動画の要約から画像検索までの機能を備え、Azureの既存顧客向けに本日からプレビュー版の提供が開始される。

AI研究コミュニティは、マルチモーダルモデルがより高性能なAIシステムへの最良の道であるという考えを強固にしている。当然ながら、マルチモーダルモデル（言語と画像、動画と音声など、複数のモダリティを理解するモデル）は、ユニモーダルモデルでは不可能なタスク（動画のキャプション付けなど）を一発で実行することができるようになる。

画像だけを理解するモデルと言語だけを理解するモデルのように、同じ目的を達成するために複数の「ユニモーダル」モデルを連結させるのはどうだろうか。理由はいくつかありますが、第一に、マルチモーダルモデルは、追加モダリティからの文脈情報のおかげで、同じタスクにおいて、ユニモーダルモデルよりも優れたパフォーマンスを発揮する場合がある。例えば、画像、価格データ、購買履歴を理解するAIアシスタントは、価格データのみを理解するAIアシスタントよりも、よりパーソナライズされた商品提案を行うことができる可能性がある。

もうひとつは、マルチモーダルモデルは計算効率が高いので、処理の高速化やバックエンドのコストダウンにつながる。Microsoftは営利企業であるので、これは同社にとって間違いなくプラスだ。

そこで、Florenceの登場だ。画像、映像、言語、そしてそれらのモダリティ間の関係を理解するので、画像とテキストの類似性を測定したり、写真の中のオブジェクトをセグメント化して別の背景に貼り付けたりすることが可能になる。

Redditは新しいFlorence-powered APIを使用して、プラットフォーム上の画像にキャプションを生成し、視覚に障害のあるユーザーがスレッドをよりよく追えるように「alt text」を作成する予定とのことだ。

Reddit のコンシューマー製品担当プロダクトマネージャーである Tiffany Ong 氏は、次のように述べています。
「Microsoft の Vision テクノロジにより、ユーザーがコンテンツを簡単に見つけて理解できるようにしています。新たに作成された画像キャプションにより、誰でも Reddit にアクセスしやすくなり、reddit ユーザーが私たちの画像を探索し、会話に参加し、最終的につながりとコミュニティの感覚を構築する機会が増えます。」
Microsoft

Microsoftは、自社のプラットフォーム、製品、サービスの多くでFlorenceを使用している。

LinkedInでは、Redditと同様に、Florenceを搭載したサービスが編集するキャプションを生成し、altテキスト画像の記述をサポートする。

LinkedInは画像解析のための自動altテキスト記述を提供するVision Servicesの活用のメリットについて共有する予定です。プレビューとして、LinkedInのアクセシビリティ・エンジニアリング・エバンジェリズムの責任者であるJennison Asuncion氏は、次のように述べています。
「LinkedInのフィード投稿の40％以上には、少なくとも1つの画像が含まれています。私たちは、すべてのメンバーが平等に機会にアクセスできることを望んでおり、目の見えないメンバーや弱視のメンバーがオンラインの会話に参加できるように、画像にアクセスできるようにすることを約束します。Azure Cognitive Service for Visionを使えば、自動キャプションを提供して編集し、alt.テキスト記述をサポートすることができます。同僚が参加したイベントの写真を共有したことがわかるだけでなく、私のCEOであるRyan Roslanskyも写っていることがわかるので、この新しい体験に興奮しています」
Microsoft

またMicrosoft Teamsでは、Florenceが動画のセグメンテーション機能を推進している。PowerPoint、Outlook、Wordでは、Florenceの画像キャプション機能を活用し、altテキストを自動生成している。また、DesignerとOneDriveは、Florenceの提供により、画像タグ付け、画像検索、背景生成の機能が向上しているとのことだ。

また、Vision Studioでは、既に以下の新たな機能が追加されているとのことだ。

高密度キャプション:豊富なキャプション、デザインの提案、アクセス可能な代替テキスト、SEO 最適化、インテリジェントな写真キュレーションを自動的に配信して、デジタルコンテンツをサポート。
画像検索:画像とテキストの類似性をシームレスに測定する自然言語クエリを使用して、検索の推奨事項と広告を改善。
背景の削除:元の背景から人物やオブジェクトを簡単にセグメント化し、好みの背景シーンに置き換えることで、画像のルックアンドフィールを変換する。
モデルのカスタマイズ:コストと時間を削減して、独自のビジネスニーズに一致するカスタムモデルを高精度で、ほんの一握りの画像で提供する。
ビデオの要約 (Video TL;DR):考えたり書いたりするのと同じ直感的な方法で、ビデオコンテンツを検索して操作する。追加のメタデータを必要とせずに、関連するコンテンツを見つける。

Source

Microsoft: Announcing a renaissance in computer vision AI with Microsoft’s Florence foundation model

この記事が面白かったら是非シェアをお願いします！

次の記事
iPhone 14に新色「イエロー」が追加
2023年3月8日 6:44

前の記事
Atlassian、「リバランス」の名目で500人解雇
2023年3月8日 5:37

この記事を書いた人

masapoco

TEXAL管理人。中学生の時にWindows95を使っていたくらいの年齢。大学では物理を専攻していたこともあり、物理・宇宙関係の話題が得意だが、テクノロジー関係の話題も大好き。最近は半導体関連に特に興味あり。アニメ・ゲーム・文学も好き。最近の推しは、アニメ『サマータイムレンダ』

コメントを残すコメントをキャンセル

おすすめ記事

今読まれている記事