自己教師付きビジョントランスフォーマーモデルであるDINOを導入してから2年、Meta AIは「DINOv2」のリリースを発表した。このモデルは、CLIPなどの他の類似モデルとは異なり、強力なパフォーマンスを発揮し、微調整を必要としない。
GitHubのリポジトリはこちら:DINOv2
Metaは、言語モデリングや単語ベクトルなど、スーパービジョンが不要な目的を用いて、大量の生テキストに対して事前学習を行うことでこれを実現した。このモデルはオープンソースで、1億4,200万枚の画像に対して、ラベルなしで自己教師付きで事前学習される。
「DINOv2は、シンプルな線形分類器の入力として直接使用できる高性能な機能を提供します。この柔軟性は、DINOv2が様々なコンピュータビジョンタスクの多目的バックボーンとして使用できることを意味します」とブログ記事で述べられている。
DINOv2は、深度推定、画像分類、セマンティックセグメンテーション、画像検索などのタスクに、高価なラベル付きデータを必要とせずに取り組むことができるため、開発者は時間とリソースを大幅に節約することが出来るだろう。
Source
コメントを残す