
はじめに
こんにちは。計測システム部研究開発ブロックの皆川です。普段はWebAssemblyを用いた身体計測Webアプリの開発や、AIを用いた身体計測アルゴリズムの改善に携わっています。
2025年の6月11日から15日にかけて行われたCVPR 2025に参加しました。この記事では、現地の様子と筆者が選んだ面白かったセッションについてご紹介します。例年通りだと、ほとんどの発表がカンファレンス後まもなくして公式サイトで動画公開されます。
CVPRとは
CVPRは1万人以上が参加する世界最大級の「AIと画像処理のカンファレンス」です。今年はアメリカのナッシュビルで5日間にわたって開催され、約120のワークショップや、約3000の研究発表をはじめとして、さまざまなセッションが行われました。
日本からナッシュビルまで
CVPR 2025の開催地であるテネシー州ナッシュビルは、アメリカ中部に位置します。今回、筆者は羽田空港から、シカゴ・オヘア空港で乗り継ぎ、ナッシュビル国際空港へ向かいました(羽田からシカゴまでは12時間、シカゴからナッシュビルまでは2時間)。
空港からホテルまではバスを乗り継けば約1時間ですが、慣れない土地で、時差ぼけもあったのでUberを使いました。ホテルまでの所要時間は15分くらいでした。車内ではドライバーが大音量でアップテンポな音楽を流しながら高速道路を走行しており、そんな様子を見てアメリカに来たという実感が改めて湧いてきました。
会場の様子
会場であるミュージック・シティ・センターは、ナッシュビルの市街地にあります。1万人規模のカンファレンスにも余裕で耐えられるくらい大きい会場でした。

物理参加者は9,300人ほどだったそうです。初日には参加証をもらうのに長蛇の列ができていました。


参加者特典としてオリジナルTシャツが配布されました。サイズも選択でき、筆者はLを受け取りました。

ランチはご覧のとおり大盛況で、世界各国から集まった画像処理の専門家が英語で盛んに意見交換を行なっていました。偶然、同席したフロリダ州で工学を教えているというシニア世代の教授からは「私の年代はオンラインでは服は買わないが、どうすれば購入を促せると思うか」という挑戦的でありながら示唆に富む質問も寄せられました。

ランチは、参加登録時に選んだものを当日受け取る形式でした。

ポスター発表会場の様子です。


オーラル会場の様子。採択された研究の中で3%ほどがオーラル発表に選ばれます。

キーノート発表が行われたメイン会場の様子。

今年は以下の3つがキーノートでした。
- Exploring the Low Altitude Airspace: From Natural Resource to Economic Engine
- The Llama Herd of Models: System 1, 2, 3 Go!
- Gemini Robotics, Bringing AI to the Physical World
登壇者は直前まで非公開だったため、筆者は密かにYann Lecun氏やAndrej Karpathy氏の登壇を期待していましたが、残念ながら実現しませんでした。
企業ブースの様子です。出展企業の数は、他のカンファレンスに比べて想定していたより少なめでした。
個人的には、Metaのブースが特に印象的でした。カンファレンス全体を通して、Meta由来のモデルが研究プロジェクトで活用されているのをたくさん目にしました。ブースではそれらに実際に触れるインタラクティブなデモがあり、MetaがAI分野において果たしている貢献の大きさを改めて感じる機会になりました。


Metaのブースに長蛇の列ができているコーナーがあり、確認するとテキストプロンプトから生成した画像を、その場でステッカーにプリントできる体験ブースでした。

セッションレポート
ここからはCVPR 2025で気になった発表を紹介します。
Googleのファッション分野での取り組み
Googleの最近のファッション関係の取り組みについて、Ira Kemelmacher-Shlizerman氏がバーチャル試着に関するワークショップの中で発表していました。
Googleは本稿の執筆時点で、アメリカ地域のみですが、バーチャル試着のデモを展開中です。このデモは、自分の全身写真を用いて、Google Shoppingにある衣服をすべて試着でき、2025年5月のGoogle I/Oで大きな反響を呼びました。

技術概要
Ira氏の発表によると、仕組みとしては昨年のCVPRでIra氏のチームの発表したM&M VTOを使っているそうです。M&M VTOの仕組みとしての特徴は以下です。
- UNet Diffusion Transformerというモデルアーキテクチャーを採用することで、テキストプロンプトと入力画像の埋め込みベクトルを条件付き入力(conditioning)として取り込めるようにした。
- 衣服の外観情報を忠実に保持するため、拡散過程にはSingle-Stage Diffusionを採用した。
- 同一データセットを、低解像度→高解像度の順に学習する二段階学習を導入した。
- アイデンティティ保持機能を高めるため、合成データセットを新たに構築し、モデルに専用学習ブランチを設けた。

バーチャル試着のベンチマーク(DressCodeのFID)では、M&M VTOを上回る手法も複数存在します。しかし、筆者が実際にそれらの手法を触ってみた感覚としては、生成画像の品質や衣服の外観の保持の点で、M&M VTOが際立って優れていると感じました。
なお、バーチャル試着のベンチマークについては、イリノイ大学のDavid Forsyth教授が同ワークショップで指摘していました。「現行の評価手法には大きな課題があり、これを改善すれば研究の進展が加速する」とのことでした。
技術課題
Googleバーチャル試着は他の手法に比べて実際の使用感が優れていると感じましたが、論文でも指摘されている通り、以下のような課題もあります。
- 体型や顔などが変わってしまう場合がある。
- 服の細かい特徴が失われてしまう場合がある。
- 服のサイズ感を考慮していないため、服のサイズが合っているか保証されない。
バーチャル試着の現行手法のボトルネックとしては、先述のForsyth教授が「データの欠如よりはアーキテクチャーに問題があるかもしれない」と述べていたのが印象的でした。
多くの手法で採用されているDiffusionモデルは比較的新しく、その制御方法はホットなトピックです。CVPR 2025でも同トピックに関する発表は依然として多かった印象です(例1:PS-Diffusion。例2:Paint by Inpaint)
また、Diffusion以外の生成手法を検討するワークショップ(「Visual Generative Modeling:What's After Diffusion?」)もありました。コミュニティ全体としてDiffusion技術に関する課題感の高さを感じました。
2Dバーチャル試着以外の取り組み
Ira氏の発表ではこれらに加え、Total Selfie(Chen et al., CVPR 2024)や、Super Zoom(未発表)などの取り組みも紹介されました。総じてGoogleのファッション領域への積極的な技術投資が伺える内容でした。


感想
Googleのバーチャル試着は、衣服と身体のサイズ情報を取り入れていないとのことでした。発表者のIra氏もアパレル分野ではサイズのミスマッチを減らすことに大きな関心があることは認知している上で、現状でサイズの問題に取り組む予定はないとのことでした。計測技術に携わっている筆者としては、今後この2Dのバーチャル試着という分野に取り組む場合は、衣服と身体のサイズ情報を保持したsize-awareなバーチャル試着を目指したいと思います。
AIpparel
AIpparelは画像やテキストを入力として衣服の2D型紙を生成するマルチモーダルな基盤モデルです。従来はCAD操作や裁断の専門知識が必要だったアパレルデザインを、自然言語の指示だけで誰でも行えるようにすることを目指しています。

技術概要
手法の概要は以下の通りです。
- GarmentCodeというドメイン固有言語(DSL)から衣服の型紙(patterns)をルールベースで生成する手法を基盤にしている。
- GarmentCodeと互換性のあるGarmentCode DSL(以下、GCDSL)を学習し、出力する。
- マルチモーダルなモデルのため、画像・テキスト・GCDSLのいずれも入力可能。
主な機能は、以下です。
- 画像やテキストからの型紙生成
- 既存の型紙のテキストによる編集
モデル学習の概要は以下の通りです。
- オープンソースVLMであるLLaVa-1.5をファインチューニングし、テキストおよび/または画像入力からGCDSLを出力するモデルを構築。
- 学習データにはGarmentCodeDataにVLM(BLIP-2)でキャプションを付与したものを使用。
モデルのファインチューニング時には以下の3パターンで教師あり学習を実行(※実際はトークナイザかデトークナイザが介在するため、GCDSLは厳密にはモデルの直接の入出力ではない)。
a)入力:テキスト→出力:GCDSL
- b)入力:画像→出力:GCDSL
- c)入力:GCDSL→出力:GCDSL

本手法は、以下のタスクで最高性能を達成しています。
- テキストからの型紙生成
- 画像からの型紙復元
- 型紙の局所編集


応用
本手法の基盤であるGarmentCodeは、既出のバーチャル試着のワークショップで、多数の登壇者が言及しており、注目度の高い手法です。実際、GarmentCodeを利用したバーチャル試着や体型推定向け合成データセットの構築も行われているようでした。
本手法は、現時点ではデモが公開されていないものの、バーチャル試着やマスカスタマイゼーションの分野で応用できる研究です。例えば、以下のようなシナリオが考えられます。
- ECサイト上に掲載された膨大な量の衣服を、サイズ情報を維持したまま、自身のアバターで試着する。
- 試着した衣服をAIと対話しながら「もっと肩幅を広くして」「もっとミニマルに」など自然 言語でデザインやサイズを修正する。
技術課題
一方で、ファッション分野では衣服データ(2D・3D)不足が課題であることも、既出のワークショップでも議論されていました。今後、データ拡充によって基盤モデルがより機能的になることで、ファッション関連のソフトウェア技術はさらに進歩していくことが期待されます。
感想
身体の3D化技術はSMPL(2015)の発明以降、段々と成熟してきている印象がありますが、衣服の3D化技術も、GarmentCode(2023)以降、盛り上がりを感じます。この技術が進んでいけば、size-awareでスケーラブルなバーチャル試着は技術的には実現可能だと言えます。
実際、デモレベルであればsize-awareなバーチャル試着は存在しています。例えば、GarmentCodeのデモでは、WebのUIからオリジナルの衣服がデザインでき、それを自分の体型データを再現したアバターに着せることができます。
ただしこうしたデモを日常の購買体験に繋げるには、衣服の3D化技術だけでなく、センスの良いビューアや、簡単かつ正確に測れる身体計測機能など複数のコンポーネントが必要になります。筆者は今後も身体計測機能の進化に尽力していきたいと思います。
PromptHMR
PromptHMRは画像中の人体推定に、テキストやバウンディングボックスといった付加情報を付与できるようにした手法です。従来では難しかった画像でも正確な体型・姿勢推定を実現しています。

技術概要
PromptHMRは、手法として以下のような背景や特徴があります。
- 体型・姿勢推定タスクでは、従来のモデルではクロップした画像を前提としているため場所の情報がうまく使えない。
- 過去にはVLMを応用した例もあるが、精度の点ではいまいちだった。
- トランスフォーマーをベースにした手法では、上記の2つの例にあるような、位置的な情報と意味的な情報を付与できるようなモデル設計が可能。
- プロンプトとして、テキストやバウンディングボックス、セグメンテーションマスクなどが入力可能。
- EMBDや3DPWなどの、実環境(in-the-wild)画像における姿勢推定のベンチマークで最高値を更新。

感想
著者の一人であるMichael Black氏はデジタルヒューマン分野における世界的な第一人者です。今後も本研究のようにAI技術の最先端を取り入れ、技術的限界を押し広げる先進的な研究が期待されます。
過去には同じ著者達による研究で、自然言語による体型推定にフォーカスした手法であるSHAPYがあり、本研究よりファッションとの関連性がより高い内容となっています。
本研究は従来、画像だけでは解くのが難しかったタスクで、トランスフォーマー構造に付加情報を組み込むことでロバストさや精度が向上する例です。今後、この研究を応用することで、スーツやマットなどの物理参照物がなくても、安定して精度よく測れるようなアルゴリズムを開発していこうと思っています。
VGGT: Visual Geometry Grounded Transformer
VGGTは従来数十秒から数分かかっていた3D再構成を1秒以内で実行し、複数の3D再構成に関連するベンチマークで最高性能を達成した汎用3D画像モデルです。本研究はカンファレンスのBest Paper Awardも受賞しています。
技術概要
本手法の概要は以下の通りです。
- 大規模トランスフォーマーを採用。画像入力のみで深度、カメラ、点群を推定。
- 3D再構成タスクで頻出の反復的最適化を用いていないため、従来手法と比べて高速。
- 15を超えるデータセット(実写、合成含む)を使って学習。
- 入力にカメラ変数を必要としない。入力は一枚から数百枚まで可変的に処理可能。
- カメラ変数推定や深度推定、点群推定などの3D再構成関連タスクで最高性能を獲得。


感想
実際に公開されているデモを触ってみた結果、実行速度の早さに驚きました。また従来の方法と比べて、非剛体変形(例:ポーズ変化)に対するロバストさが高いとも感じました。論文では「小規模の非剛体変形には対応できるが、大きなものだと失敗する」と述べられています。同時に「アーキテクチャーを大きく変更しなくても、データセットさえあればタスク特化ができる」と明言されています。例えば人体計測用途でのロバスト性強化も最小限の改変で実現できる可能性があります。
著者であるJianyuan Wang氏は、3Dは2Dに比べて大幅にデータが少ないことを3Dの画像処理の大きな課題であると指摘しています。そして2D画像から3Dデータを生成する本手法の重要性を強調しています。本手法は今後、3Dの画像処理分野を加速させるツールになり得ると感じました。
現状の画像を用いた身体計測は、SMPL等のテンプレートメッシュを使った方法が主流です。しかし、本研究のようにリアルタイムかつ非剛体にもロバストな方法が出てくると、計測精度の点で有利な3D再構成を用いた身体計測を選択肢として考える場面も将来的には出てくる可能性もある、と思いました。
さいごに
CVPR 2025の参加レポートをお届けしました。カンファレンスを通して技術的に感じたのは、マルチモーダルな大規模トランスフォーマーの持つポテンシャルと、その学習に必要な3Dデータの希少性でした。ファッションに関するソフトウェア技術としては、身体計測研究の進化や、それと関連のあるバーチャル試着研究の進化を目の当たりにでき、知見を貯められたことに参加意義があったと思います。またAIや画像処理の分野における世界のトップランナー達の話を生で聴けたのもとても刺激になりました。今回得た知見を活かし、今後も計測技術の研究開発に取り組んでいきたいと思っております。
ZOZOでは、各種エンジニアを採用中です。ご興味のある方は以下のリンクからご応募ください。