GoogleのAI「Gemini」はリアルタイム情報分析によるテクノロジーの次なる飛躍をもたらす

Googleは、写真、テキスト、音声、音楽、コンピューターコードなど、ほとんどあらゆる種類のプロンプトを理解し、知的に話すことができる新しい人工知能（AI）システム、「Gemini」を発表した。

このタイプのAIシステムは、マルチモーダルモデルとして知られている。これは、これまでのようにテキストや画像を扱うことができるだけでなく、さらに一歩進んだものだ。そして、AIが次に進むかもしれない方向、つまり、外界からもたらされるリアルタイムの情報を分析し、それに対応できるようになることを強く示唆している。

Geminiの能力は、入念に編集されたテキストと静止画のプロンプトから編集されたバイラル・ビデオで見たほど高度ではないかもしれないが、AIシステムが急速に進歩していることは明らかだ。より複雑な入出力を処理する能力に向かっているのだ。

新しい能力を開発するために、AIシステムはアクセスできる「トレーニング」データの種類に大きく依存する。写真の中の顔を認識したり、エッセイを書いたりするような推論を行うことを含め、AIはこのようなデータにさらされることで、その能力を向上させることができるのだ。

現時点では、Google、OpenAI、Metaなどの企業がモデルを学習させるデータは、主にインターネット上のデジタル化された情報から採取されたものだ。しかし、AIが扱うことができるデータの範囲を抜本的に拡大しようとする取り組みもある。例えば、常時接続のカメラやマイク、その他のセンサーを使用することで、世界で何が起きているのかをAIに知らせることが可能になる。

リアルタイムデータ

Googleの新しいGeminiシステムは、ライブ映像や人間のスピーチなど、リアルタイムのコンテンツを理解できることを示している。新しいデータとセンサーにより、AIは現実世界で起こる出来事を観察し、議論し、行動することができるようになる。

その最も明白な例が自動運転車で、すでに道路を走行する際に膨大な量のデータを収集している。この情報はメーカーのサーバーに蓄積され、車両を操作する瞬間だけでなく、より良い交通の流れをサポートしたり、当局が不審な行動や犯罪行為を特定するのに役立つ、運転状況の長期的なコンピューター・ベースのモデルを構築するために使用される。

家庭内では、人感センサー、音声アシスタント、防犯カメラなどがすでに使われており、私たちの行動を検知し、習慣を把握している。その他の “スマート”電化製品も続々と市場に登場している。エネルギー消費を改善するために暖房を最適化するなど、初期の用途は身近なものだが、習慣の把握はさらに進んでいくだろう。

つまり、AIは家庭内の活動を推測し、将来何が起こるかを予測することさえできるのだ。このデータは、例えば、医師が糖尿病や認知症などの病気の発症を早期に発見したり、生活習慣の改善を推奨したり、フォローアップしたりするのに利用できる。

現実世界に関するAIの知識がさらに包括的になれば、生活のあらゆる場面でAIが伴走者として機能するようになるだろう。食料品店では、計画している食事に最適で最も経済的な食材を相談できる。仕事場では、AIが直接会って顧客の名前や関心を思い出させてくれる。外国を旅行しているときは、AIが現地の観光名所について会話を続けながら、私が遭遇するかもしれない危険な状況に目を光らせてくれるだろう。

プライバシーへの影響

このような新しいデータには、非常に大きなプラスになる可能性がある一方で、行き過ぎたプライバシー侵害のリスクもある。これまで見てきたように、ユーザーはソーシャルメディアや検索エンジンなどの無料製品を利用する見返りとして、驚くほど多くの個人情報を喜んで取引してきた。

AIが日常生活のあらゆる場面で私たちを知り、サポートするようになるにつれ、将来的なトレードオフはさらに大きくなり、より危険なものになる可能性がある。

チャンスがあれば、この業界はデータ収集を生活のあらゆる側面（オフラインのものまで）に拡大し続けるだろう。政策立案者は、この新しい状況を理解し、メリットとリスクのバランスを取る必要がある。新しいAIモデルのパワーと普及だけでなく、それらが収集するコンテンツも監視する必要があるだろう。

AIが次のフロンティア（現実世界）へとその能力を拡大するとき、その可能性を制限するのは我々の想像力だけである。

本記事は、Lars Erik Holmquist氏によって執筆され、The Conversationに掲載された記事「Google’s Gemini AI hints at the next great leap for the technology: analysing real-time information」について、Creative Commonsのライセンスおよび執筆者の翻訳許諾の下、翻訳・転載しています。