ストリートビューの写真から位置情報を取得できるAI「PIGEON」をスタンフォード大学が開発

スタンフォード大学の研究者らは、Googleストリートビューの画像から位置情報を取得できるディープラーニングモデルを作成した。これは、AIが写真を分析するだけで、その写真が撮影された大まかな場所を特定できることを意味する。PIGEONと名付けられたこのモデルは、ストリートビューの写真から場所を推測する人気のオンラインゲーム、GeoGuessrのトッププレイヤーを凌ぐほどのパフォーマンスを見せた。

しかし、PIGEONは完璧ではない。写真が撮影された場所を正確に特定することはできないが、国を確実に特定することができ、実際の撮影場所から半径40km以内で場所を推測することが出来るという。（ただし、もちろん外れることもある）

このモデルは、StreetCLIPと呼ばれる独自の事前学習済みCLIPモデルから派生した画像ジオロケーションモデルである。技術的に言えば、このモデルは、セマンティック・ジオセル（郡や県に似た、道路標識、インフラの質、道路標識のような地域特有の詳細を考慮した境界のある土地の領域）のセットと、ProtoNets（わずかな例を使って分類する技術）で補強されている。

そして、このモデルは最近ディープマインドコンペティションに出場し、人間のプレイヤーを上回った。最近、YouTubeでRainboltとして知られているGeoGuessrのトップランカー、Trevor Rainboltと対戦し、勝利したのだ。

論文によれば、PIGEONは「GeoGuessrで一貫して人間のプレイヤーを打ち負かし、プレイヤーの上位0.01パーセントにランクインした初のAIモデル」だという。

研究者たちは、PIGEONの成功が、ほとんどすべての屋外画像の位置特定を容易にする道を開く可能性があると考えている。研究チームは、ストリートビューの画像を含まない画像データセットでこのシステムをテストしたが、素晴らしい結果を残した。チームはまた、彼らのジオロケーション技術に興味を持つオープンソースのインテリジェンス・プラットフォームからもアプローチを受けている。

また、研究グループの一員であるSilas Alberti氏は、PIGEONがうまく機能する重要な理由のひとつは、OpenAIのCLIPに依存していることだと、The Registerに語っている。これまでのジオロケーションモデルは、ゼロからトレーニングするか、ImageNetベースのモデルを使用していた。しかし、CLIPを基礎モデルとして使用することで、より多くの画像にさらされ、より微細なディテールを認識できるため、より効果的であることが証明されている。

Alberti氏はまた、セマンティック・ジオセルの最適化にも多くの時間を費やした。これがないと、CLIPを土台にした場合でも、モデルが海上を指し示すことがよくあったという。ジオセルは、特定の地域の人口密度に比例し、さまざまなレベルの行政境界を尊重するように調整された。

研究チームはまた、予測されたジオセルが実際のジオセルの近くにある場合に、予測ペナルティを最小化する損失関数を開発した。また、精度を向上させるために、与えられたジオセル内の位置予測を洗練させるメタ学習アルゴリズムを適用した。

RainboltのビデオでSkretaが述べたように、PIGEONは現在92％の国を正しく推測し、キロ誤差の中央値は44kmで、GeoGuessrのスコアに換算すると4,525である。研究論文によると、鳥をテーマにしたこのモデルは、推測の約40パーセントをターゲットから25キロ以内に置いているとのことだ。

論文

arXiv: PIGEON: Predicting Image Geolocations

参考文献

The Register: This AI is better than you at figuring out where a street pic was taken just by looking at it

研究の要旨

PIGEONを紹介する。PIGEONは、惑星規模の画像ジオローカライゼーションのためのマルチタスクのエンドツーエンドシステムであり、外部ベンチマークと人間による評価の両方で最先端の性能を達成している。PIGEONは、ラベルスムージングを用いたセマンティックジオセルの作成、地理情報を含む画像に対する視覚変換器の事前学習、ジオセルの候補セットにわたるProtoNetsを用いた位置予測の改良を行う。PIGEONの貢献は3つある。第一に、オープンソースデータに基づくセマンティックジオセル生成・分割アルゴリズムを設計し、あらゆる地理空間データセットに適応できる。第二に、ジオセル内精密化の有効性と、教師なしクラスタリングとProtNetsのタスクへの適用性を示す。最後に、気候変動対策や都市・農村の情景理解に応用できるよう、事前に訓練したCLIP変換モデルStreetCLIPを公開する。