ChatGPT、画像と音声の入力に対応へ

OpenAIは、より直感的なインタラクションを実現するために、今後数週間のうちにChatGPTに多くの新機能を追加する予定だ。注目すべき機能として、以前発表された音声認識や画像認識機能も含まれており、これにより同社がかねてよりGPT-4で可能になると述べていた真に「マルチモーダル」なモデルへの道が拓けることとなる。

OpenAIは、iOSとAndroid用のアプリで、まずChatGPTの音声機能を拡張する。すでにOpenAIのオープンソースWhisperモデルに基づいて、入力の代わりに音声チャットを使用することができるが、それは入力のみという一方通行なものだった。今後ChatGPTは音声でも応答できるようになった。Whisperは英語以外の言語でも動作するが、OpenAIは他の言語、特にラテン文字のない言語での使用を推奨していない。

OpenAIは独自の音声合成モデルを開発

音声出力のために、OpenAIは独自の音声合成モデルを開発している。これは既にSpotifyでも採用されている。これにより、OpenAIはこの分野でもソリューションプロバイダーとなり、Elevenlabsのような合成音声に特化したスタートアップと競合することになる。

OpenAIのAI音声は、わずか数秒のサンプル音声で、テキストから元の音声のスタイルで人間に聞こえる合成音声を生成することができる。ChatGPTで利用可能となる5人の声については、OpenAIはプロの声優と協力し、再現しているとのことだ。

ChatGPTに加え、音声合成モデルは前述のSpotifyでも使われている。Spotifyは、ポッドキャストを他の言語に翻訳するために、ポッドキャストホストの声を学習し、音声モデルで翻訳し、ホスト自身の声で数カ国語の言語を話させる事を可能にしている。Spotifyはスペイン語の最初の例をリリースした。フランス語とドイツ語は、今後数日から数週間のうちに続く予定だ。

OpenAIは、他の企業や個人が新しい音声合成モデルにアクセスできるかどうかについてはまだ発表していない。しかし、発表では、音声クローンによる悪用の危険性があるため、当初は音声チャットやSpotifyのポッドキャストなど、特定の利用シナリオを対象に制御された展開が行われるとしている。

音声は、ChatGPTのもうひとつのイノベーションである、画像内のコンテンツを認識して会話する機能と組み合わせることができる。この機能はGPT-4の発表時に発表され、現在展開中だ。

マルチモーダルなプロンプトの実用的な例として、OpenAIはChatGPTにランドマークの写真を見せ、旅行中にそれについて話す機能を挙げている。別の例では、ChatGPTが写真を使って自転車のメンテナンスを支援する方法を示している。

GPT-3.5とGPT-4で動作する新しい画像認識は、ChatGPTを日常の質問にも使えるようにするはずだ。例えば、ブログ記事によれば、冷蔵庫やパントリーの写真を撮れば、ChatGPTがレシピのアイデアを提案してくれる。ChatGPTは全ての画像フォーマットに対応している。

スマートフォンでは、画像の中でChatGPTが注目すべきエリアをマークすることが可能だ。この機能がいつウェブインターフェースに搭載されるかは不明だ。特にChatGPT-Enterpriseは、主にビジネスユーザーが大画面で使用する可能性が高いため、理にかなっていると言えるだろう。OpenAIによると、新機能は徐々に導入される予定だ。

OpenAIはGPT-4Vを機密性の高いシナリオで使用しないよう警告

GPT-4V(ision)のシステムカードでは、OpenAIはこのモデルの画像認識を「信頼できない」と説明している。例えば、化学構造を分析する際、フェンタニル、カルフェンタニル、コカインなどの物質を誤認したが、毒キノコのような危険な成分を正しく認識することもあった。

このモデルは幻覚を見やすく、誤った事実を権威ある口調で示すこともあった。「このことは、このモデルが信頼性に欠けることを示しており、危険な化合物や食品の識別のようなリスクの高い作業には使うべきではない」と論文は述べている。

ここでOpenAIは、GPT-4Vを科学的・医学的な文脈で使用しないよう明確に警告している。同社はまた、バイアスの可能性に関するフィードバックを避けるために、モデルが回答を拒否する例も示している。

OpenAI、ChatGPTの画像解析を人間向けに制限

ChatGPTの新機能に関するOpenAIの発表の多くは、安全で有用なAIを開発するという約束を中心に展開されている。GPT-4とそれに関連する画像認識の発表以来の時間は、集中的なテストに使われてきたと同社は言う。とはいえ、幻覚を否定することはできなかった。

「また、ChatGPTは必ずしも正確ではなく、これらのシステムは個人のプライバシーを尊重すべきものであるため、ChatGPTが人々を分析し、直接的に発言する能力を大幅に制限する技術的な措置を講じた」とOpenAIは書いている。しかし、実世界での使用は、これらの保護を向上させるのに役立つと付け加えている。

以前、OpenAIはChatGPTの画像理解が顔認識システムとして悪用される可能性があり、制限されるべきであると懸念しているという報告があった。視覚障害者のための環境を説明するアプリ “Be My Eyes”は、数ヶ月前に顔認識を無効にした。GPT-4V(ision)のシステムカードの中で、OpenAIは、人を特定せずに顔を描写できる機能に取り組んでいると書いている。

これら、新たな機能は今後2週間かけて、ChatGPT PlusユーザーとEnterpriseユーザーに展開していく。音声は iOS と Android (設定でオプトイン) で利用可能になり、画像はすべてのプラットフォームで利用できるようになるとのことだ。

Sources

OpenAI:
- ChatGPT can now see, hear, and speak
- GPT-4V(ision)System (PDF)
Spotify: Spotify’s AI Voice Translation Pilot Means Your Favorite Podcasters Might Be Heard in Your Native Language