Google、意思決定やロボティクスにおけるジェネレーティブAIスタートアップAI「UniPi」を発表

OpenAIのGPT-4の登場で、マルチモーダルシステムが注目される中、Googleの研究者は、異なる環境で異なるタスクを行う方法を学習できる「UniPi」という新しいモデルを作成した。Googleは、ブログ投稿の中で、テキストガイドを使用して異なるタスクを実行するモデルの能力について説明している。

この普遍的なポリシー（UniPi）は、環境の多様性と報酬仕様の課題を解決する。これは、テキスト入力を用いて、異なる環境で異なるタスクを行うロボットを誘導するために重要となるだろう。

そのため、このポリシーでは、タスクを説明するテキストと、タスクを完了する方法を示すビデオを活用する。UniPiは特別なプログラムを使って、エージェントがタスクを完了するために取るべきステップを示すビデオを生成する。次に、UniPiは別のプログラムを使って、そのステップを実現するために必要なアクションを導き出す。そして、UniPiはそのアクションを使って、現実世界やシミュレーションの中でタスクを完了させることができるのだ。

研究者によると、UniPiは、見たことのある言語プロンプトと新しい言語プロンプトの組み合わせの両方で汎化することが出来るとのことだ。UniPiは、エージェントが実世界のさまざまな環境で、さまざまなタスクをこなす方法を学ぶのを助けることができるだろう。

研究者は、非ロボットデータで事前学習した後、UniPiによって生成されたビデオの品質を、Fréchet Inception Distance（FID）とFréchet Video Distance（FVD）メトリクスを用いて評価した。また、言語-画像のアライメントをContrastive Language-Image Pre-training scores (CLIPScores)を用いて測定しました。その結果、事前トレーニングを行ったUniPiは、事前トレーニングを行わないUniPiに比べて、FIDとFVDのスコアが有意に良く、CLIPScoreが高いことが分かった。これらの結果は、ロボット以外のデータに対する事前訓練が、ロボットの計画生成を支援することを示唆している。

Source

Google: UniPi: Learning universal policies via text-guided video generation

Google、意思決定やロボティクスにおけるジェネレーティブAIスタートアップAI「UniPi」を発表

月曜日の憂鬱を改善する科学的な裏付けのある確かな方法

Premiere Proでテキストベースの編集が可能になり、映像編集のスタイルが大きく変わる

コメントを残すコメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

Google、意思決定やロボティクスにおけるジェネレーティブAIスタートアップAI「UniPi」を発表

月曜日の憂鬱を改善する科学的な裏付けのある確かな方法

Premiere Proでテキストベースの編集が可能になり、映像編集のスタイルが大きく変わる

コメントを残す コメントをキャンセル

おすすめ記事

OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事

コメントを残すコメントをキャンセル