【参加レポート】3DV 2024に参加しました

トップ画像

はじめに

こんにちは。計測システム部、研究開発ブロックの皆川です。普段はコンピュータービジョンに関わる研究開発を担当しています。

2024年の3月に3次元コンピュータービジョンの国際学会である3DV 2024がスイスのダボスで開催され、幸運にも参加できたので、発表の内容や参加した感想をご紹介いたします。

目次

3DV 2024とは

先述の通り、3DVは3次元のコンピュータービジョンに関する国際学会です。3DVは、他のメジャーなコンピュータービジョンの学会であるICCVやCVPR、SIGGRAPH等の学会と比べて、かなり小規模な学会と言えます。実際、近年のそういった巨大学会の参加者は5000人程度のものから多いものだと1万人以上に上ります。一方で3DV 2024の参加者数は、著者が実際に関係者から聞いたところによると350人と、巨大学会と比べて10分の1以下のスケールでした。

なぜ参加したのか

近年、学問分野として大きな盛り上がりを見せているコンピュータービジョンやAIですが、その研究環境に関する特徴として以下のようなことが言えると思います。

  1. arxivというpeer reviewを必要としない高速かつオープンアクセスな論文プラットフォームがある。
  2. 実際の論文だけでなく、論文のアイデアを視覚的に説明する動画だったり、実際に自分で試せるコードを内包したプロジェクトページがある(その一例)。
  3. 特定の技術領域を整理して、理解を助けるようなサーベイ論文(その一例)やGitHubリポジトリ(その一例)がある。
  4. X(旧Twitter)で、スペシャリスト達が論文の間を埋めるようなアウトプットをしてくれている。

これはつまり研究者にとって自走しやすい環境が整っているということです。実際、今回発表された研究は、ほぼ例外なくarxivに既に掲載されており、プロジェクトページで動きを確認できるものが多かったです。さらに事前に該当するサーベイを読み込んでいたら、学会会場で得られる情報はあまり多くないと思います。それでは一体、飛行機で14時間もかかる物価の高い国に苦労して行くことの対価はどこにあるのでしょうか。それは以下にあると思います。

  1. 社外の研究者の持っている経験則や常識、ナラティブを吸収できる
  2. 参加者から刺激をもらえる

結果から言うと、どちらも大きな収穫がありました。具体的に言うと、カメラ位置の推定技術など、雑多な技術が混在していてなんとなく俯瞰できてないような分野をよりクリアな目で見ることができるようになりました。またNeural Implicit RepresentationやDiffusion Modelといった、流行の技術と人体計測の関係もよりクリアになりました。

また他社の研究者達との雑談からたくさん刺激を受けました。ドイツ語圏(スイス、ドイツオーストリア)の研究機関の多くは普段から英語で研究活動をやっていること。研究者同士の機関を超えたコラボレーションが多いこと。そしてGAFAMの研究開発のスケールの大きさなど、驚かされることが多かったです。

開催地のダボスと、会場のダボスコングレスセンターについて

開催地となったダボスは、スイスの玄関口チューリッヒ空港から電車で3時間くらいにある、人口1万人ほどの小さな観光地です。

Davos Dorf駅を中心とした居住エリアが、ダボスの90%以上を占める山岳エリアに囲まれており、居住エリアの端から端まで約1時間ほどで歩ける小さな都市です。

筆者が行ったのは3月の下旬でしたが、気温はおよそ摂氏0度で、雪がまだかなり残っており、スキー客の姿もちらほらと見られました。

Davos Dorf駅

現地の人の話では毎年クリスマスシーズンに行われるアイスホッケーのトーナメントの時期と、1月に開かれる世界経済フォーラム(通称ダボス会議)の時期は、町に溢れかえるほどの人が来るそうです。

学会会場のダボスコングレスセンターは、先述の世界経済フォーラムの会場として有名です。画像は正面の入口なのですが、地図を頼りに行くと裏口に辿り着いてしまい、日本だとよくみられるような立て看板などなかったため、参加者と思われる人達が迷っていました。2日目以降も裏口で迷う参加者がおり、他の参加者がこっちだよ、と道案内をしてあげるような場面も見かけました。

下記画像は宿泊先のホテルから見た景色です。正面に見える茶色の建物がダボスコングレスセンターの裏口に当たる部分です(画像に写っているのは建物全体の5分の1程度)。実際はこの裏口の脇の坂を下って、5分ほど歩き、この大きな建物の正面に回る必要がありました。

ホテルからの眺め

坂を下るとコングレスセンターの正面玄関に着きます。

ダボスコングレスセンター

学会のスケジュール

学会のスケジュールは以下のような構成でした。

  • 初日
    • チュートリアル
  • 2日目から4日目
    • オーラル発表
    • ポスター発表
    • キーノート

チュートリアルはカメラ幾何学と、3D Gaussian Splattingに関するものでした。執筆時点(2024/05/11)では、チュートリアルとキーノートは一般公開されています。

ポスター発表は全発表者に義務付けられていました(チュートリアルとキーノートを除く)。ポスター発表とオーラル発表は交互にあるので、オーラル発表で気になったことは後のポスター発表で直接発表者に質問できる仕組みでした。オーラル発表はすべてメイン会場(下記の画像参照)で行われるので、学会に特有の「どの発表を見るかの下調べにとても時間がかかる」という現象から完全に自由でした。

メイン会場

また、参加者同士のネットワークがすでにある程度出来上がっており、学会全体を通してかなりアットホームな雰囲気があったように感じます。逆にいうと、ポスターセッションや自由時間(下記の画像参照)のときに、自分のような新規参加者は少し居心地の悪さを感じるかも、と思いました。

atmosphere with mosaic

印象に残った発表

全体的な感想

全体としては、カメラの位置推定や3D再構成に関する基礎研究が多かったという印象でした(合わせて体感で4割くらい)。対照的にVedaldi氏のキーノートやNeRFの主著者であるMildenhall氏のキーノートでは、3Dのパラメトリックモデルや生成モデルの応用など、新規性の高いトピックが触れられていました。

また同じトピックでも、理論的な発表と実践的な発表のバランスが取れているように感じました。例えばカメラの位置推定で言うと、初日に理論的なチュートリアル、2日目以降には実際にドローンや自動運転の会社の創業者でもあるプレゼンターのキーノート(ドローン自動運転)がありました。

発表の内容としては、著者と同一の課題(画像を元にした身体計測)に取り組んでいる発表がなかったのは残念でした(過去の3DVにはありました)。ただし既存のパイプラインに組み込めそうな技術はいくつか見つかったので、収穫はあったと言えます。

3D Computer Vision for Dynamic Scene Understanding by Daniel Cremers

このキーノートは、Cremers氏の研究グループの約20年間の自動運転に関する研究を総括するような発表でした。

www.youtube.com

ドライバーアシスト

約20年前のドライバーアシストの研究成果について(動画の7:53頃)。Cremers氏の研究グループは、画像から深度と物体の動きを色付きで可視化するような仕組みについて研究をしていたそうです。現在は自動運転の研究が盛んですが、当時はドライバーをアシストするような方向の研究分野も盛んだったとのこと(現在もこの分野はあるそうです)。

ドローンを使った研究

ドローンを使った研究も長年続けてきた分野とのこと(Engel et al., IROS 2012。動画の10:28頃)。PTAMという方法でSLAMを行い、一応の自律飛行はできるようになったが、求めていた精度までは達しなかったそうです。例えば屋外に出てから屋内に戻るといったような飛行は実現できなかったとのことでした。ただし2017年に提唱したLSD SLAMという方式ではそれが実現できたとのこと(Von Stumberg et al., ECMR 2017)。

バンドル調整

オーストリアの数学者Kruppaが1913年にした証明が今日バンドル調整(Bundle Adjustment)と呼ばれる技術の先駆けになったとのことでした。バンドル調整とは複数のカメラ画像から対象の物体の再構成とカメラ位置の推定精度を上げるような技法のことで、とても歴史が長いことから解かれた問題と理解している人が多いそうですが、実際は違うとのことです。実際、最近の研究(Demmel et al., CVPR 2021, Weber et al., CVPR 2023)では演算スピードやメモリ効率の大幅な向上が達成されているとのこと。

初期のSLAM

上記のようにリアルタイムでない、3D再構成の精度を最重要視したバンドル調整についての研究のほか、SLAM(Simultaneous location and mapping)の研究も多いとのこと。また、SLAMが初めてリアルタイムで実現できたのは2002年頃(動画の20:50頃)だそうです。ただし当時のSLAMの方式はKruppaの流れを汲むもので、画像から特徴点を抽出、マッチングする方法でした。

「3DV 2024 Keynote - Daniel Cremers - 20.03.2024」の20:37よりスライド部分を強調して引用

直接的なSLAM

その方法的な限界を突破するため、直接的な方法であるLSD SLAM(Engel et al., ECCV 2014)を提唱したのが2014年だそうです。特徴点の抽出に頼らず、画像1から画像2へ再投影した際の色の差が最小になるようなカメラの移動と3Dモデルを見つける、という問題設定です。当時世界初の大規模SLAMシステムであるにもかかわらず、単眼カメラと市販のラップトップのCPUでリアルタイム処理ができるとのこと(動画の22:48頃)。後継のDirect Sparse Odometry(Engel et al., PAMI 2018)やDMVIO(Stumberg et al., ICRA 2022)で性能は更に上がったとの事です。

ニューラルネットワークとSLAM

ニューラルネットワークがSLAMの分野で応用され出したのは意外に遅く、2017年頃だそう(Zhou et al., CVPR 2017等)。ただし、当時それらはまだSOTA(state-of-the-art、特定タスクで最高スコアの方法のこと)ではなかったとのことです。D3VO(Yang et al., CVPR 2020)では、連続する2画像を用いカメラ位置や深度などをニューラルネットワークに学習させることで複眼のVIOと同等の精度を達成できたとのこと。つまりこの方法は深度センサーや感性センサーを代替する方法として有効であることが示唆されるそうです。

以上はいずれも静的なシーンの理解に分類されるタスクとのことです。例えば、連続する二画像間で動いているものは、普通フィルタリングやマスキングで推論や演算に影響のないような処理がされるとのこと。その他にもダイナミックなシーンの理解というテーマで最近の研究結果が紹介されていましたが、時間の都合上割愛いたします。Cremers氏は発表全体を通して、厳密さとわかりやすさ、そしてユーモアに注力されているのが感じられました。また自動運転やSLAMの技術にあまり詳しくない著者でも、発表を何度も見返すことで分野への理解がどんどん深まるように感じました。

さいごに

コンピュータービジョンの小規模な国際学会である3DV 2024に参加した感想や内容の一片をお伝えしました。生身の人間が集まる学会に物理的に参加することの利点として、そこでしか得られない情報を得られたり、他の研究者達から刺激を貰えることがあると感じました。また小規模学会の良さとして、聞く発表を選ぶ必要がない良さは感じましたが、分野に明るい人は見る発表の選択肢が少ないと感じるかもしれないとも思いました。

また個人的な感想ですが、毎日朝から晩まで屋内にこもってひたすら新しい技術を勉強し、夜はホテルに帰ってひたすら寝るという生活は、受験生の夏休みのような少し懐かしい感じもしました。今回こういう特殊な経験ができたことに対して、とても感謝しています。

おまけ

会場ではBoston DynamicsのSpotが歩き回ったり、タンスの中のものを探したりするデモが見られました。スイスのETH ZurichではこのSpotを使って研究ができる学部生向けの授業があるそうです。

次の指示を待っているSpotの様子

以上になります。

ZOZOでは、一緒にサービスを作り上げてくれる方を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください。

corp.zozo.com

最後までご覧いただきありがとうございました!

カテゴリー