Google DeepMindがロボット研究における3つの大きな成果である、 AutoRT, SARA-RT and RT-Trajectoryを発表した。
これら3つの成果は、実世界におけるロボットのデータ収集、速度、汎化能力を向上させるために設計されている。目標は、複雑なタスクを理解し、実行できるロボットを、訓練やゼロからの構築なしに作成することにある。
AutoRT:大規模AIモデルによるロボット訓練
AutoRTは、大規模言語モデル(LLM)や視覚言語モデル(VLM)などの大規模AIモデルを、特殊なロボットモデルと組み合わせて使用することで、ロボット学習の規模を拡大し、実世界での応用に向けたロボットの訓練を行う。
AutoRTは、異なる環境で異なるタスクを実行する複数のロボットを同時に学習させることができる。VLMは環境と視界内のオブジェクトを理解するために使用され、LLMはロボットが実行する適切なタスクを提案・選択するために使用される。
7ヶ月の評価期間中、システムは最大20台のロボットを同時に安全に訓練し、合計52台のユニークなロボットを訓練した。その結果、6,650の個別タスクにおける77,000のロボット試行という豊富なデータセットが得られたという。
AutoRTは、ロボットのタスクを選択する際に、LLMベースの意思決定者に安全ガイダンスを提供するために、ロボット憲法を含む安全ルールを使用する。
このルールは、有名なIsaac Asimovの「ロボット工学の三法則」に基づいている。人間の安全が第一であり、ロボットは人間、動物、鋭利なもの、電気機器に関わるタスクを避けるべきである。
さらにAutoRTは、古典的なロボット工学で確立された安全対策を採用している。例えば、関節にかかる力が一定の限度を超えるとロボットは停止する。
SARA-RT:ロボティックトランスフォーマーの効率向上
SARA-RT(Self-Adaptive Robust Attention for Robotics Transformers)は、ロボティックトランスフォーマー(RT)をより効率的に学習させるために設計された新しいシステムだ。
Google DeepMindが「アップトレーニング」と呼ぶ、モデルを微調整するための新しい方法を使用することで、SARA-RTは「二次的な複雑さ」を「単なる線形的な複雑さ」に変換し、同じ品質を維持しながら元のモデルの計算量を減らし、速度を向上させる。
Google DeepMindは、「これは、品質を損なうことなく計算量を向上させる初めてのスケーラブルなアテンション・メカニズムだと考えています」と書いている。
SARA-RTは、ロボットの深度カメラからの空間データを処理する点群トランスフォーマーなど、さまざまなトランスフォーマーモデルに適用できる。Google DeepMind社によると、この方法は、ロボット用トランスフォーマー技術の応用を大幅に拡大する可能性があるという。
RT-Trajectory:ロボットの汎化の向上
RT-Trajectoryは、ロボットが汎化し、タスクを実行する方法をよりよく理解するのを助けるために、トレーニングビデオのロボットの動きの説明に視覚的な輪郭を追加するモデルだ。
RT-Trajectoryは、トレーニングビデオにロボットアームの2D軌跡スケッチを重ねることで、ロボットの制御戦略を学習する際に便利な低レベルの視覚的手がかりをモデルに提供する。
41の未知のタスクのテストにおいて、RT-Trajectoryによって制御されたアームは、既存のRTモデルの2倍以上の性能を示し、RT-2の29%に対して63%のタスク成功率を達成した。
Google DeepMindは、これらのモデルとシステムを統合して、RT-Trajectoryの運動汎化、SARA-RTの効率性、AutoRTのようなモデルの豊富なデータ収集を備えたロボットを作る未来を構想している。この研究の最終目標は、より効率的で有用なロボットを構築することである。
論文
参考文献
コメントを残す