
はじめに
こんにちは。データサイエンス部検索グロースブロックの伊澤です。私は、2025年7月13日から17日までイタリア・パドヴァで開催されたSIGIR 2025(Special Interest Group on Information Retrieval)に現地参加してきました。本記事では、基調講演やワークショップ、各セッションにおいて特に興味深かったトピックをいくつか取り上げてご紹介します。

- はじめに
- SIGIR 2025とは
- 主な研究動向
- 開催地と会場
- 基調講演
- セッションレポート
- Progressive Refinement of E-commerce Search Ranking Based on Short-Term Activities of the Buyer
- Towards Improving Image Quality in Second-Hand Marketplaces with LLMs
- From Keywords to Concepts: A Late Interaction Approach to Semantic Product Search on IKEA.com
- Optimizing Compound Retrieval Systems
- Practical Secondary Stack Optimization on Search Pages: A Lightweight Contextual Bandit Approach
- まとめ
SIGIR 2025とは
SIGIR(Special Interest Group on Information Retrieval)はACM(米国計算機学会)の情報検索特別研究グループが主催する、情報検索分野において最も権威ある国際会議です。1963年の開始以来、検索およびその他の情報アクセス技術の分野における研究、開発、教育の発展を牽引してきました。
第48回となる今回は2025年7月13日〜17日の5日間、イタリアのパドヴァで開催されました。パドヴァはヴェネチア・マルコポーロ国際空港からバスで約1時間の距離にあり、会議の前後や合間でヴェネチアまで足を運んだ参加者もいたそうです。
本会議は、論文発表、ポスターセッション、チュートリアル、ワークショップなど多様なプログラムで構成され、世界中から1000人を超える研究者や開発者が参加しました。
主な研究動向
今回は239件のFull Papers、107件のShort Papersをはじめ、Industrial PapersやDemo Papersなど多数の研究成果が発表されました。
特に注目されたのは、生成AIと情報検索技術の融合領域です。RAG(Retrieval-Augmented Generation)、Generative Retrieval、Conversational Search、LLMを用いた評価といったトピックに関心が集中しており、関連するチュートリアルやワークショップが多数開催されました。これは、情報検索分野における生成技術の本格的な活用が進んでいることを示す重要な動向といえます。
論文発表セッションの構成としては、Search & Reranking、LLM Evaluation、Conversational Searchから企業での応用事例まで、理論研究から実用化まで幅広いテーマが扱われました。参加者は各時間帯で並行して行われるセッションから関心のある内容を自由に選んで聴講できる形式でした。
開催地と会場

パドヴァについて
開催地のパドヴァは、中世・ルネサンス美術が豊富に残る歴史ある街です。古い建物が多く立ち並ぶ街並みの中で、随所に壁画アートを見ることができました。また、ガリレオ・ガリレイが教鞭を執ったことでも知られるパドバ大学の所在地でもあります。市街地には、世界遺産に登録されているスクロヴェーニ礼拝堂があり、その壁画で特に有名です。
本会議のウェルカム・レセプションは中心街のPiazza della Fruttaで開催され、それに先立って隣接するラジョーネ宮殿でのガイドツアーも実施されました。

会場施設
会場は2022年4月に開館したPadova Congress Centerで、中心地から徒歩で20分ほどの距離にあります。
参加者は各時間帯で関心のあるセッションを選択し、会場内の各ホールや会議室で聴講する形式となっていました。チュートリアル、ポスターセッション、ワークショップも併行して開催され、ランチタイムを含めて活発な議論と知識交換が行われていました。
また、ウェルカム・レセプション、学生向けイベント、ソーシャル・ディナーなど多彩なネットワーキングイベントが開催され、参加者間の積極的な交流が促進されていました。


基調講演
基調講演は、メインカンファレンス期間中の7月14日から16日まで各日の冒頭で実施されました。
初日: BM25 and All That - A Look Back
BM25の開発者であるStephen Robertson氏が、55年にわたる情報検索分野の発展を自身の経験とともに振り返りました。1960年代後半の手計算や電卓を用いた研究スタイル、手紙でのやりとりといった黎明期のエピソードからは、当時の研究環境の厳しさと研究者の情熱が伝わってきました。BM25誕生に至る道のりや、現在でも機械学習において強力な特徴量として活用されている事実など、AI時代の現在にも通じる普遍的価値を再認識させる貴重な講演でした。
2日目: Digital Health
Georgetown大学のOphir Frieder氏による講演が行われました。世界的に深刻化する医療人材不足に対して、AIを活用することで医療従事者を補完し、より効率的かつ精度の高い医療判断が可能になるという展望が語られました。EHR(電子健康記録)を活用した癌スクリーニングや、メンタルヘルスの早期検知など、実用的なAI医療応用の例が数多く紹介されました。同時に、AIの限界や倫理的な課題にも言及があり、「AIは医療従事者の代替ではなく、あくまで補完的存在である」というメッセージが印象に残りました。
3日目: Please meet AI, our dear new colleague
3日目は、Darmstadt工科大学のIryna Gurevych教授が、科学研究とAIの協働可能性をテーマに講演しました。AIによる論文執筆や実験自動化といった事例が紹介される一方で、実装上の課題や倫理的懸念も強調され、人間とAIが補完し合う協働の重要性が語られました。特に、AIを単なるツールとしてではなく、「協働者」として捉える視点で、今後の科学研究のあり方に深い示唆を与える内容でした。
セッションレポート
論文発表セッションやワークショップで聴講したトピックをいくつかピックアップします。
Progressive Refinement of E-commerce Search Ranking Based on Short-Term Activities of the Buyer
eBayによる発表で、Eコマースの検索結果をユーザーの直近行動に合わせて段階的に最適化する手法を提案しています。従来のパーソナライズ手法は、長期的なユーザープロファイルに依存する傾向があり、大量の履歴データを必要とする上に、セッション内で購買意図が変化する場合には対応が困難でした。本研究では、最近の1〜5件のクリックといった短期的なユーザー行動に着目し、それを特徴量として取り入れることで、軽量かつ柔軟なランキング改善を実現しています。
提案手法では、3段階のコンテキスト化アプローチにより構成されています。1段階目のHeuristic Autoregressive Contextualizationでは、検索結果の商品とユーザーが過去にクリックした商品の類似度を、テキストベースまたはeBertモデルによる埋め込みベースの指標として算出します。
以下の表に各指標の概要をまとめています。
| 手法 | 概要 |
|---|---|
| Last Click(テキスト) | 最後のクリック商品タイトルと現在の検索結果の商品タイトル間のNormalized Compression Distance (NCD)を計算 |
| Last Click(埋め込み) | eBay独自開発のeBertモデルによる埋め込みを利用し、最後のクリック商品と現在の検索結果の埋め込みベクトル間のコサイン類似度を計算 |
| Last 5 Clicks(テキスト) | 過去5回のクリック商品タイトルを連結したものと現在の検索結果の商品タイトル間のNCDを計算 |
| Last 5 Clicks(埋め込み) | 過去5回のクリック商品タイトルと現在の検索結果の商品タイトルの埋め込み類似度の平均を計算 |
2段階目のIntent-Aware Contextualizationでは、検索クエリと過去のクリック履歴の関連性を評価し、最も検索意図に近いクリック商品を選定した上で、その商品と検索結果の商品との類似度を特徴量として追加します。これにより、検索意図と無関係な過去の行動がノイズになる問題を緩和します。
3段階目のSequential Attention Contextualizationでは、クリック履歴を時系列的に捉え、TransformerやPerceiverを用いたシーケンスモデルから得られた埋め込み表現と検索結果とのコサイン類似度を特徴量とします。これにより、ユーザー行動の変化や文脈をより精緻に捉えることが可能になります。
実験では、各手法を段階的に追加した際のMean Reciprocal Rank(MRR)を確認しています。オフライン評価において、Heuristic Autoregressive Contextualizationのうち「Last Click(埋め込み)」特徴量により1.84%の改善、Intent-Aware Contextualizationの特徴量の追加でさらに1.08%。Sequential Attention Contextualizationの特徴量の追加でさらに1.01%の改善が見られました。eBayにおけるA/Bテストでは「Last Click(テキスト)」の特徴量によって1.30%改善、テキストベースのIntent-Aware Contextualizationの特徴量の追加でさらに0.96%の改善を示しました。
感想
本研究で特に印象的だったのは、長期履歴に依存せず短期的コンテキストのみで高い検索精度向上を実現している点です。さらに、テキストよりも埋め込みベースの特徴量が一貫して高い性能を示しており、意味的類似性の捉え方の重要性が再認識されました。
シンプルなヒューリスティック手法から始めて段階的に高度な手法へ拡張するアプローチは、実運用を見据えた実用的な設計であると感じました。A/Bテストの結果ではテキストベースの手法でも一定の性能向上が確認されていることから、埋め込みを扱っていないEコマースシステムも導入しやすいものであると思いました。
Towards Improving Image Quality in Second-Hand Marketplaces with LLMs
本研究では、二次流通マーケットプレイスにおける商品広告画像の品質を自動で評価する手法として、Multimodal Large Language Models(MLLMs)の活用が提案されました。
高品質な商品画像は、ユーザーの信頼形成や購買意欲に大きな影響を与えることが知られています。特にZ世代では画像品質の低さが離脱要因になり得ることが、18名の社内ユーザーを対象とした調査から明らかになっています。従来の画像評価手法、たとえばCNNベースのアプローチは、解釈性に乏しく、教師データの収集にも多大なコストがかかるという課題がありました。
本研究では、MLLMsに対してZero-shotプロンプトを用い、商品画像の品質を1〜5のスケールでスコアリングさせるというシンプルかつ効果的な方法を検証しています。評価には、オンラインユーザー調査により929名からスコアが付与された581枚の画像データが使用されました。
モデルの評価指標としては、ユーザー評価との整合性を測るために、Percent Agreement(PA)、Weighted Kappa(WK)、およびピアソンの相関係数が用いられました。プロンプトの影響を評価した結果、スコア基準を明示的に指示するGuided Promptの方が、汎用的な指示のみを与えるGeneric Promptよりも、ユーザー評価との一致度が高いことが示されました。
さらに注目すべきは、ファインチューニングを施した軽量モデル「Nova Lite」が、大規模なモデル(Claude 3.5 SonnetやNova Pro)を上回る性能を発揮した点です。これは、モデルのサイズよりも適切なタスク適応が性能向上に寄与することを示唆しており、コスト効率の高いアプローチとして実用性の高さがうかがえます。
感想
弊社でも、ZOZOTOWNの検索結果画面においてサムネイル画像の違いがユーザーエンゲージメントに与える影響について研究を進めています。本研究で提案されたMLLMによる画像クオリティ評価やヒーロー画像の自動選定といったユースケースには強い関心を抱きました。
特に、ファインチューニングされたNova Liteが大規模なモデルの性能を上回った結果は印象的であり、小規模なモデルであっても適切なタスク設計と調整により、大規模モデルに匹敵する性能が実現可能であることを示しています。推論コストを抑えながら実用性を確保できる点も、プロダクション導入を見据えた際に大きな利点だと感じました。
From Keywords to Concepts: A Late Interaction Approach to Semantic Product Search on IKEA.com
この発表は、IKEA Retailによるセマンティック検索システム導入の事例紹介です。従来のキーワードベースの検索では、「modern desk with cable management」や「sofa with storage for small apartments」といった複雑な自然言語クエリに対して十分に対応ができないという課題があります。この課題に対し、IKEAはLate Interactionベースの検索アーキテクチャを導入し、検索精度の改善を実現しました。
本研究ではColBERTに見られるようなLate Interactionモデルを採用し、RetrievalとRerankingをEnd-to-Endで統合してリアルタイムでのトークンレベルのスコアリングを実現しています。
検索エンジンにはPLAID(Performance-optimized Late Interaction Driver)を活用しており、IKEAの3万点以上ある商品に対して30ms以下のレイテンシでの検索を可能にしています。
学習データには、約3万点のIKEA商品に対し、LLMを用いて多様な視点から自動生成した約100万件の検索クエリが使用されています。ネガティブサンプルの生成の際にはBGEモデルを活用し、意味的には類似しているが異なるカテゴリの商品を抽出します。具体的には、コサイン類似度に基づいてランキングを行い、k位以降でカテゴリが異なる商品を選択することで、意味的に近いが誤解を招くようなペア(p−)を設定します。そして、コントラスト学習によって、p+よりp−の関連性スコアが低くなるようにモデルを学習させています。
また、セマンティック検索における課題として「関連性スコアの境界が曖昧で、クエリごとに最適な閾値が異なる」点が挙げられます。検索クエリによっても関連性スコアの分布は異なり、従来の固定的な閾値では検索クエリごとに結果数がバラバラになってしまいます。この課題に対し、本研究では確率的かつ適応的に閾値を設定する手法を導入しています。具体的には、商品ランキングの前後の商品間のスコアの差分の平均と分散からZスコアを計算し、急激なスコア変化点(Zスコアが閾値を下回る地点)をカットオフとみなすアプローチです。候補が複数ある場合には、相対的なスコア変化率が一定以上となる位置をカットオフとします。
本システムの評価については、アメリカのIKEA.comにてlong tailクエリを対象にオンラインA/Bテストを行いました。従来のテキストベースの検索(Boolean検索)と比較して商品クリック率が3.1%増加、コンバージョン率が1.96%増加、カート追加数が2.18%増加する結果となりました。
感想
本研究は、複雑な自然言語クエリへの対応やLLMを活用したクエリ生成、さらにはクエリごとに動的に最適な閾値を設定する仕組みなど、実用的なセマンティック検索システムの好例として非常に参考になります。弊社でもベクトル検索の導入を検討しており、特に「固定閾値に依存しない動的カットオフ」の考え方は非常に有用だと感じました。
一方でZOZOTOWNのように商品点数が桁違いに多い場合は、計算コストやインデックスサイズ、カテゴリごとの閾値調整といったスケーラビリティ上の課題が想定されます。今後さらなるスケーラビリティ対応に関する技術的な知見が共有されることにも期待しています。
Optimizing Compound Retrieval Systems
Google DeepMindとRadboud大学による研究で、従来の検索システム設計の主流であったカスケード型検索システムに代わる新しいフレームワーク「Compound Retrieval System」を提案しています。
従来のカスケード型検索では、まずBM25のような軽量なモデルで初期ランキングを生成し、上位K件に対して高性能だが計算コストの高いモデル(例:LLM)を段階的に適用することで、コストと性能のバランスを図る設計が一般的です。一方、この構造では、予測対象と予測利用の制約が以下のように固定的であり、予測モデルのコスト効率性や有用性を柔軟に活用する機会を制限しているという課題があります。
- 予測対象の制約: モデルの予測は「前段階モデルの上位K件の文書に対してのみ」行う
- 予測利用の制約: 予測されたスコアは「同じ上位K件の再ランキングにのみ」使用する
本研究では、こうした制約を取り払い、モデルの精度やコスト特性に応じて「どの文書(または文書ペア)にどのモデルを適用し、どのようにスコアを統合するか」を最適に設計できるフレームワーク「Compound Retrieval System」を提案しています。このフレームワークにより、軽量なモデルによる最初のランキングに対して、LLMなどのポイントワイズモデルやペアワイズモデル(PRP)をどのドキュメントに適用し、それらの予測をどのように統合するかを最適化します。
具体的には以下のような仕組みです。
- 軽量モデル$M_0$(e.g. BM25)での初期ランキング$R_0$を作成
- $R_0$に対し、どのドキュメントまたはドキュメントのペアに何の予測モデルを使うかを決める選択ポリシー$π$を学習
- 選択ポリシー$π$により選ばれた予測対象とするかどうかのフラグ$s1$、$s2$に対して、それぞれポイントワイズモデル$M_1$、ペアワイズモデル$M_2$を実行
- スコア統合関数$f$により、$M_1$、$M_2$の予測結果を統合して最終的なランキングスコアを算出
- $f$で算出されたスコアに基づきドキュメントをソートして最終的なランキング$R*$を作成

選択ポリシー$π$とスコア統合関数$f$は、モデルのランキング性能とコスト(e.g. LLMの呼び出し回数)の線形結合の損失関数の最適化によって獲得します。
$$ \mathcal{L}{\mathrm{comp}}(f, \pi) = \alpha \mathcal{L}_{\mathrm{ranking}}(\pi, f) + (1 - \alpha) \mathcal{L}{\mathrm{cost}}(\pi). $$
- $L_{\text{ranking}}$:ランキング精度(例:nDCG)に関する損失
- $L_{\text{cost}}$:LLM予測の取得コスト(予測回数)に関する損失
- $\alpha$:モデルのランキング性能とコストの重み(トレードオフ)
本研究内では、選択ポリシー$π$とスコア統合関数$f$は、上記の損失関数を最適化するポイントワイズ用とPRP用の2つのニューラルネットワークの学習を通じて獲得しています。勾配を選択ポリシー$π$やスコア統合関数$f$に伝搬させることで最適化しています。最適化手法にはAdamaxを採用しています。
推論時は、得られたπを使ったベルヌーイサンプリングでsのパターンを複数生成し、検証データに対して最小のロスを実現する確定的なポリシーを用います。
TREC-DLデータセットを使用した実験では、BM25で取得した上位1000件の文書を再ランキングするタスクでnDCG@Kを評価しています。
実験の結果、従来のカスケード型検索でのLLMを用いたPRPのモデルと比べて、提案手法が同等あるいはそれ以上のランキング精度を、10分の1のLLM呼び出し回数に抑えた上で達成しました。
感想・考察
スタンダードとされてきたカスケード型検索に代わり、柔軟な検索システム構築の可能性を提示した非常に興味深い研究です。特に印象的だったのは、効率性を重視した設計でありながら、最大性能においても従来手法を上回る精度を実現している点です。
Rerankingにおけるモデルの組み合わせや、どの予測を取得するかといった選択を動的に最適化することで、単一モデルの限界を超える性能を引き出せることが示されており、非常に示唆に富んでいます。
LLMの検索応用において注目される「効率と効果のトレードオフ」という課題に対して、本研究はそのバランスをより良く実現する手法として、大きなインパクトを与える可能性があると感じました。
Practical Secondary Stack Optimization on Search Pages: A Lightweight Contextual Bandit Approach
本研究は、SIGIR2025のワークショップのセッションであるWorkshop on eCommerce (ECOM25)において、Walmart Global Techによって発表されたものです。Eコマースの検索ページにおいて検索結果と併せて表示されるレコメンドモジュール(Secondary Stack)の選択をContextual Multi-Armed Banditにより最適化する手法を提案しています。
Secondary Stackとは、検索結果の下部などに表示される、ユーザーの購買履歴に基づいたパーソナライズされた商品や、カスタマーレビューで高評価を得た商品群などを示すレコメンドモジュールを指します。従来、Walmartではビジネスルールに基づいてスタックの種類を決定しており、検索クエリやユーザー属性などのコンテキストは考慮されていないことや、ユーザーのエンゲージメントパターンも時間とともに変化する可能性のあることが課題とされていました。
本研究では、この問題をContextual Multi-Armed Bandit(文脈付き多腕バンディット)として定式化しています。コンテキストとしては、検索クエリや利用プラットフォーム、絞り込み条件、会員ステータスなど複数の要素を階層的に管理する「Context Tree」を構築します。
図のようにContext Treeの各ノードには、スタックごとのクリック数や非クリック数といったエンゲージメント統計情報が記録され、上位ノードは下位ノードの情報を包含します。このContext Treeは、葉ノードから親ノードへと再帰的に情報を集約するボトムアップ手法で構築されます。

実運用を踏まえ、Context Treeは日次バッチ処理により更新されます。前日までの統計情報と当日のユーザー行動を、それぞれ割引係数λを用いて重み付けし、統合することで新たなContext Treeを生成します。
コンテキストが増えるとコンテキストごとのデータ数が少なくなり過学習のリスクが高まります。この課題に対しては、初期段階で全スタックをランダムに表示してユーザーエンゲージメント情報を収集し、どのコンテキストが予測精度を高めるかを評価することで、Secondary Stackの効果に影響する重要なコンテキストのみを事前に選択する方法を提案しています。
本手法のアーキテクチャは次の図のようになっています。

オフラインで構築されたContext Treeを基に、オンライン環境ではThompson Samplingを用いて「探索」と「活用」のバランスをとりながらスタックを選択します。各コンテキストに十分なデータが蓄積されるまでは、上位のコンテキストノードに基づいてスタックを選択する設計となっています。また、セッション内での一貫性を保つために、ハッシュベースのシードによるスタック固定も導入されています。
Walmart本番環境でのA/Bテストでは、検索経由での商品カート追加率が0.3%、Secondary Stack経由では11.1%の向上が確認されており、実運用における高い効果が示されました。
感想
本研究は、複雑な機械学習モデルに頼らず、Multi-Armed Banditを活用することで、低コストかつ低遅延な本番運用を実現している点が実践的で印象的でした。特に、導入初期のデータ収集フェーズと本格運用フェーズを分け、リスクを抑えながら効果を検証している設計は、実務での導入において非常に参考になります。
まとめ
今回のSIGIR 2025では、生成AIと情報検索の融合がいよいよ本格化し、検索技術の未来に向けた大きな転換点を感じることができました。理論から実用まで幅広いトピックが扱われ、日々の業務に直結する学びも多く得られました。今後も最新技術の動向を注視しながら、プロダクトへの応用に繋げていきたいと思います。

ZOZOでは、一緒にサービスを作り上げてくれる仲間を募集中です。ご興味のある方は、以下のリンクからぜひご応募ください!