ストリートビューの写真から位置情報を取得できるAI「PIGEON」をスタンフォード大学が開発

masapoco
投稿日
2023年7月16日 6:23
0c0af67f71ec02259cb3e3bcf8d749c1

スタンフォード大学の研究者らは、Googleストリートビューの画像から位置情報を取得できるディープラーニングモデルを作成した。これは、AIが写真を分析するだけで、その写真が撮影された大まかな場所を特定できることを意味する。PIGEONと名付けられたこのモデルは、ストリートビューの写真から場所を推測する人気のオンラインゲーム、GeoGuessrのトッププレイヤーを凌ぐほどのパフォーマンスを見せた。

しかし、PIGEONは完璧ではない。写真が撮影された場所を正確に特定することはできないが、国を確実に特定することができ、実際の撮影場所から半径40km以内で場所を推測することが出来るという。(ただし、もちろん外れることもある)

このモデルは、StreetCLIPと呼ばれる独自の事前学習済みCLIPモデルから派生した画像ジオロケーションモデルである。技術的に言えば、このモデルは、セマンティック・ジオセル(郡や県に似た、道路標識、インフラの質、道路標識のような地域特有の詳細を考慮した境界のある土地の領域)のセットと、ProtoNets(わずかな例を使って分類する技術)で補強されている。

そして、このモデルは最近ディープマインドコンペティションに出場し、人間のプレイヤーを上回った。最近、YouTubeでRainboltとして知られているGeoGuessrのトップランカー、Trevor Rainboltと対戦し、勝利したのだ。

論文によれば、PIGEONは「GeoGuessrで一貫して人間のプレイヤーを打ち負かし、プレイヤーの上位0.01パーセントにランクインした初のAIモデル」だという。

研究者たちは、PIGEONの成功が、ほとんどすべての屋外画像の位置特定を容易にする道を開く可能性があると考えている。研究チームは、ストリートビューの画像を含まない画像データセットでこのシステムをテストしたが、素晴らしい結果を残した。チームはまた、彼らのジオロケーション技術に興味を持つオープンソースのインテリジェンス・プラットフォームからもアプローチを受けている。

また、研究グループの一員であるSilas Alberti氏は、PIGEONがうまく機能する重要な理由のひとつは、OpenAIのCLIPに依存していることだと、The Registerに語っている。これまでのジオロケーションモデルは、ゼロからトレーニングするか、ImageNetベースのモデルを使用していた。しかし、CLIPを基礎モデルとして使用することで、より多くの画像にさらされ、より微細なディテールを認識できるため、より効果的であることが証明されている。

Alberti氏はまた、セマンティック・ジオセルの最適化にも多くの時間を費やした。これがないと、CLIPを土台にした場合でも、モデルが海上を指し示すことがよくあったという。ジオセルは、特定の地域の人口密度に比例し、さまざまなレベルの行政境界を尊重するように調整された。

研究チームはまた、予測されたジオセルが実際のジオセルの近くにある場合に、予測ペナルティを最小化する損失関数を開発した。また、精度を向上させるために、与えられたジオセル内の位置予測を洗練させるメタ学習アルゴリズムを適用した。

RainboltのビデオでSkretaが述べたように、PIGEONは現在92%の国を正しく推測し、キロ誤差の中央値は44kmで、GeoGuessrのスコアに換算すると4,525である。研究論文によると、鳥をテーマにしたこのモデルは、推測の約40パーセントをターゲットから25キロ以内に置いているとのことだ。


論文

参考文献

研究の要旨

PIGEONを紹介する。PIGEONは、惑星規模の画像ジオローカライゼーションのためのマルチタスクのエンドツーエンドシステムであり、外部ベンチマークと人間による評価の両方で最先端の性能を達成している。PIGEONは、ラベルスムージングを用いたセマンティックジオセルの作成、地理情報を含む画像に対する視覚変換器の事前学習、ジオセルの候補セットにわたるProtoNetsを用いた位置予測の改良を行う。PIGEONの貢献は3つある。第一に、オープンソースデータに基づくセマンティックジオセル生成・分割アルゴリズムを設計し、あらゆる地理空間データセットに適応できる。第二に、ジオセル内精密化の有効性と、教師なしクラスタリングとProtNetsのタスクへの適用性を示す。最後に、気候変動対策や都市・農村の情景理解に応用できるよう、事前に訓練したCLIP変換モデルStreetCLIPを公開する。



この記事が面白かったら是非シェアをお願いします!


  • Low Res setup image 16
    次の記事

    MITの研究者チームが“量子ランダム性”を制御するというブレークスルーを達成、確率論的コンピューティングへの道を切り拓く

    2023年7月16日 6:54
  • 前の記事

    インドの新興企業が従業員の90%を解雇し、AIチャットボットに置き換えた

    2023年7月15日 14:33
    chatbot illustration
この記事を書いた人
masapoco

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です


おすすめ記事

  • openai

    OpenAI、15秒の音声サンプルから感情豊かで自然な音声を合成できる「Voice Engine」を発表

  • a04c35e8e555c1cc7ae1d6a5f3159856

    MicrosoftとOpenAI、1000億ドル以上をかけて超人的AI開発のためのスーパーコンピューター「Stargate」を開発する計画

  • Sam Altman TechCrunch SF 2019 Day 2 Oct 3 cropped cropped

    ベンチャーキャピタリスト、OpenAIのSam Altman氏を“誇大妄想的”と非難

  • google logo image

    Googleが非営利団体を対象に2000万ドルの資金を提供し生成AI活用を支援

  • Pixel 8 in Rose.max 936x936.format webp

    Google、方針を転換しPixel 8にもGemini NanoによるオンデバイスAI機能を搭載へ

今読まれている記事