こんにちは。ZOZO Researchの小倉です。2019年7月29日（月）から8月1日（木）にかけてグランキューブ大阪（大阪府立国際会議場）で開催されたMIRU2019に参加しました。今回はその様子をレポートします。

MIRU2019

MIRUとは、今回で第22回目の開催となる画像の認識・理解シンポジウム（Meeting on Image Recognition and Understanding）です。今回は事前登録者数900人強、当日参加者も含めると1,000名を超す方が参加されたそうです。このMIRU2019において、ZOZOテクノロジーズはプラチナスポンサーとして協賛させていただきました。

cvim.ipsj.or.jp

企業展示

企業展示ブースでは、ポスター形式でZOZO Researchにおける取り組みを紹介しました。1枚目ではZOZOグループが提供するサービスとそこから得られる豊富な情報資産について、2枚目では実際の研究事例とその成果について解説しました。大変うれしいことに、多くの方々が興味を持ち話を聞いてくださいました。ポスターまで足を運んでくださった皆さま、ありがとうございました。
展示していたポスターはこちらです。

ランチオンセミナー

f:id:vasilyjp:20190805170145j:plain

sites.google.com

3日目には、MIRU2019プラチナスポンサーとして企業企画イベントを開催しました。「ファッションを数値化する」をミッションに掲げるZOZO Researchの取り組みを、産学連携というキーワードから紐解くランチオンセミナーです。講演者として以下の方々をお呼びしました（敬称略）。

桂井麻里衣（同志社大学助教）
シモセラエドガー（早稲田大学専任講師）
古川徹生（九州工業大学教授）
山口光太（株式会社サイバーエージェント）

エドガー先生や山口先生はファッションのwebデータを使った先駆的な研究実績があり、現在はそれぞれ大学と企業でご活躍されています。桂井先生や古川先生はZOZOテクノロジーズと共同研究を行なっています。皆さまにはファッション研究の魅力、ZOZOテクノロジーズを始め企業に期待することなど、率直に話していただきました。
会場からは「ファッションやアートに代表される分野を本当に理解するためには、存在するデータを分析するアプローチだけではなく、人の認知や創造性をモデル化する必要があるだろう」といった意見もいただきました。こちらも多くの方々にご参加いただきました。会場まで足を運んでくださった皆さま、ありがとうございました。

インタラクティブセッション

3日目のインタラクティブセッションでは、ZOZO Researchインターンの長瀬が発表しました。

[PS2-21] 部分コーディネート識別不能問題を解決するためのGraph Neural Networksの検討
長瀬准平（芝浦工大/ZOZO）, 斎藤侑輝, 中村拓磨（ZOZO）

コーディネート生成モデルを評価する際、慣例的にコーディネートの穴埋め問題（Fill-in-the-blank, FITB）の正解率で評価します。本研究では、Graph Convolutional Network（GCN）ベースのFITBを数学的に定式化しました。さらに、GCNにスキップ接続を導入することで、GCNのグラフ情報とコーディネート情報を保つSet Transformerを提案しました。
発表に使用したポスターはこちらです。

気になった研究発表

私が個人的に興味を持った研究について紹介します。

招待講演

[IT2A-2] On the Structural Sensitivity of Deep Convolutional Networks to the Directions of Fourier Basis Functions
Yusuke Tsuzuku, Issei Sato（Univ. of Tokyo/RIKEN）

「パンダの画像にあるノイズを加えると、認識精度が高いはずのCNNモデルが99％テナガザルという誤判定を起こしてしまう」というのは以前からよく知られた現象です。このように画像認識モデルの性能を大きく乱すようなパターンをUniversal Adversarial Perturbation（UAP）と呼びます。
この研究では、UAPをフーリエ解析することで、パターン自体を見るだけでは分からない特徴を周波数領域に見出しました。この特徴はデータセットとモデルアーキテクチャの組み合わせごとに固有であり、特定の周波数に対して敏感に反応することがわかりました。その周波数に対応する2次元フーリエ基底関数から生成されるUAPを加えると、実際に画像認識モデルが誤判定を起こしてしまいます。UAPは人間が直接見ても区別しづらいですが、フーリエ変換して周波数領域に移すことでその違いが明瞭になります。例えばガウシアンノイズは周波数領域では一様となってしまうため、特定の周波数にのみ強く反応するようなモデルを乱すことはできません。
この研究がさらに進み、どのようなノイズにも頑強なアーキテクチャが提案されたらとても面白いと思います。

インタラクティブセッション

[PS1-16] Data Shakingを用いたBlack Box Networkの解析手法
菅原俊, 田口賢佑, 船津陽平（京セラ）

近年、Google Cloud AutoMLやAmazon Forecastなど、機械学習のフルマネージドサービスが登場しています。このようなサービスは手持ちのデータを使って簡単に機械学習を行いサービスに組み込むことが可能です。しかし、これらは内部でどのような処理が行われているか分からないブラックボックスモデルとなっており、出力として得られた値の信頼性がどの程度なのか分かりません。
この研究では、画像のセマンティックセグメンテーションを行うブラックボックスモデルを対象とし、入力画像に様々な摂動を加えた際の推論結果の分散を観察することで信頼性解析を行いました。期待されるように物体の境界付近における信頼性が低いという結果が得られたほか、摂動のパターンを様々に変えることで信頼性の分布も変化することを報告しています。
この結果だけでも十分に面白いですが、「入力データに摂動を加えることでブラックボックスモデルの振る舞いを解析できる」ということに理論的な裏付けがあるのかという点にも興味があります。

[PS1-54] 分光感度の異なる複数のカメラで撮影された多視点画像からの色と形状の復元
酒井修二, 高橋諄丞, 渡邉隆史（凸版印刷）

撮影画像の色は「物体に固有の分光反射率」に加えて「光源の分光分布」と「カメラの分光感度」に影響されるため、分光反射率を精度よく測定するためには手間やコストがかかります。この研究では、より簡単に、より安価なカメラを用いて分光反射率を求められるような手法を提案しました。色の情報が分光反射率として求まれば、光源を変えた時にその物体の色がどのように変化するかをシミュレーションできます。
この研究はZOZO Researchにおける取り組みのひとつである「衣服のリアルな質感を伝えるためのCG表現」と親和性が高いと感じました。アパレル商品の撮影時の環境光と、私たちが実際にその商品を着用して過ごす時の環境光は異なります。「どの環境光のもとでどのような色に見えるか」をWeb上で確認できれば、「イメージと違った」という理由での返品を減らしお客様により満足していただくことができると考えられます。

感想

私個人としては初めて参加する情報系の学会でした。
画像処理についての知識が浅く勉強不足を痛感しましたが、初日のチュートリアル講演で真っ先にGANや近傍探索アルゴリズムの概観を知ることができ、ありがたかったです。招待講演やオーラルセッションでは国内外の様々な研究成果を聞くことで現在の研究の最先端やトレンドが分かりました。ディープラーニングを解釈しやすくするAttention Mapや、ラベルデータの不完全性に対応するための半教師あり学習といったトピックが多かったように感じました。インタラクティブセッションでは弊社のサービスや研究に活かせるものという観点で見て回り、著者の方とのディスカッションを通じていくつかのヒントを得ることができました。