f:id:vasilyjp:20180927090637j:plain

こんにちは。データチームの後藤です。
弊社のデータサイエンティストは職務の1つとしてファッション×機械学習の研究・開発に取り組んでいます。このファッション×機械学習の分野は世界中の大学や研究機関で精力的に研究されているため、我々も最新の動向を日々追いかけて、技術検証やサービスへの実用化を進めています。
本記事では、ファッション×機械学習の最新の研究動向を理解するための比較的新しい研究論文を紹介します。この記事を読むとファッション×機械学習の応用例を把握することができると思います。特に注目している研究の紹介には論文中の図とコメントを残しましたので、追いかける際の参考にしてください。なお、本記事内に掲載されている論文の中にはarXivのみに投稿されているものもあります。「査読を通しておらず内容が保証されない」「今後バージョンアップされ内容が変更される」といった可能性があります。ご了承ください。

一言でファッション×機械学習といっても、その内容は多岐にわたります。今回はファッションに関する行動のうち、

流行を知る
商品を探す
アイテムの組み合わせを考える

というタスクを機械学習システムで補助するという状況で利用できそうな研究を紹介します。

流行を知る
商品を探す
- 推薦システム
- 画像検索システム
アイテムの組み合わせを考える
最後に
参考

流行を知る

「現在のファッショントレンドのうち、流行り続けるのはどれか」「かつて流行っていたスタイルは今後ふたたび流行するか？」といったファッショントレンドの未来予測は、ファッション業界のデザイナーや販売業者、製造業者にとって重要なタスクです。大抵の消費者は、今後廃れていくスタイルの服よりも、今後主流になっていく服を購入したいと考えるでしょう。

トップダウン式に流行が決まると言われているファッションにおいて、データドリブンなファッショントレンドの未来予測は可能なのでしょうか。過去の傾向をデータで定量化する研究はいくつかありますが、未来を予測する研究は意外にも少ないようです。

Fashion Forward: Forecasting Visual Style in Fashion (2017)

この研究¹では、複数の機械学習タスクをうまく組み合わせることによって、データドリブンなファッショントレンドの予測に成功しました。

この研究のポイントは、

属性予測タスクを学習させたConvolutional Neural Networks（以下、CNNと呼ぶ）による特徴量抽出
Non-Negative Matrix Factorizationによるスタイル情報の抽出&画像データのグルーピング
シンプルなExponential smoothing modelによる購買頻度の予測
ファッショントレンドの未来予測に効くのは、タグやテキストのメタ情報よりも画像情報

です。

f:id:vasilyjp:20170720145953p:plain
上図の青線は各スタイルの服がAmazonで購入される頻度の、年ごとの推移を表したものです。緑の線が論文で提案されている手法での予測結果、その他の線は比較用のモデルの予測結果を表します。ほとんどの場合において、論文で提案された手法が実際の結果に近い値を予測していることがわかります。

StreetStyle: Exploring world-wide clothing styles from millions of photos (2017)

上記の研究と同様に、この研究²でもファッショントレンドの定量化をCNNによる特徴量抽出と、クラスタリングによって行っています。この研究は、Instagramから地域別・時期別に人の画像が集められ、分析に用いられている点が特徴です。 f:id:vasilyjp:20170720150245p:plain 画像特徴量のクラスタリングにより、抽出されたファッションスタイルの時間変化やクラスター内の地域別の内訳を調べることができます。上図の左は、各クラスターに含まれる画像の例、真ん中がクラスター内の平均画像、右がクラスター内のデータの月別・地域別の分布を表します。
上図の３行目では、黄色と黒色のストライプ柄のユニフォームを着ているクラスターの人たちの投稿が、特定の時期・地域で増えていることがわかります。これはワールドカップが開催された影響だと考えられています。
この研究ではデータの前処理を丁寧に行っています。各画像から人物を検出し、顔の位置を特定して画像のスケールを合わせています。さらに、Amazon Mechanical Turkをつかい、各画像に12種類の属性を付与しています。研究で用いられたデータはSTREETSTYLE-27Kというデータセットとして公開され利用できるようになります。

Changing Fashion Cultures (2017)

この研究³では、世界のファッショントレンドを分析できるポテンシャルを秘めている巨大なデータセットを提供しています。 f:id:vasilyjp:20170720150418p:plain f:id:vasilyjp:20170720150437p:plain 上の表から、データ数の点で他を圧倒していることがわかります。DeepFashion⁴や上述のSTREETSTYLE-27のような細かな属性付与はないようなので、その点はうまく処理する必要がありそうです。しかし、データの量の点で困ることはしばらくないでしょう。

その他関連研究

Who are the Devils Wearing Prada in New York City? ⁵
- ニューヨークのファッションショーが消費者のファッションに与える影響について定量化
Fashion Conversation Data on Instagram ⁶
- InstagramのFashionに関わるImageとconversation dataを提供
- marketingに有効なInstagramの投稿の特徴量を評価

上述の研究から、画像データをトレンド分析で使える形に定量化する手法や、トレンド情報を含むデータセットが揃ってきたことがわかります。弊社では、タグやテキストベースのトレンドの可視化を行ってきましたが、より高度な分析をする際にこれらの手法が参考になると考えます。

商品を探す

ここでは、ECサイトで商品を探すという状況を想定しています。多くのECサイトでは、ユーザーがクエリを入力して主体的に商品を探す検索システムと、行動ログに基づいて商品の表示を変化させる推薦システムが活用されています。ファッションのドメインにおいてはテキスト情報やメタ情報よりも見た目の情報が重要になる場合が多く、画像特徴量を使う研究が盛んです。

画像検索システム

画像検索システムには単純に見た目が似ている画像を返すものの他に、

写り方や見た目が異なる同一商品を返す検索（Cross-domain Image Search）
画像の他に属性情報をクエリに加えて検索結果を柔軟に変化させる検索（Cross-modal Image Search）

もあります。特に前者の、ファッションモデルの着こなしの画像や個人が撮影した写真をクエリにECサイトの商品画像を検索するという需要は高いです。 f:id:vasilyjp:20170720151557p:plain

ここでは、実際にImage Searchを実装する上で使えそうな工夫を行っている論文を選びました。

Cross-domain Image Retrieval with a Dual Attribute-aware Ranking Network(2015)

Cross-domain Image Searchの研究は数多くありますが、この研究¹⁰は検索精度を上げるための重要な工夫をしています。 f:id:vasilyjp:20170720151634p:plain

ドメイン固有の表現を学習させるために，ショップ画像とストリート画像のネットワークは分けて学習させる
トリプレット損失関数によるランキング学習だけでなく、複数の属性の予測問題を木構造的に学習
背景の影響を小さくするために、R-CNNによる検出を活用

などです。

f:id:vasilyjp:20170721101058p:plain

上の表は、各ネットワークの検索精度の評価です。ANが属性予測タスクを学習したネットワーク、ARNがANに加えてランキングも学習したネットワークを表しています。著者らの提案したDARNはドメイン毎にサブネットワークを使い分け、ドメイン固有の表現を学習したネットワークです。この中ではDARNが最もよい性能を発揮しており、ドメイン毎にネットワークを分ける工夫が検索精度に効くことが示唆されています。

ただし、パラメータの多いCNNを２つも使っている点で学習のコストが上がるというデメリットもありそうです。

Deep Learning based Large Scale Visual Recommendation and Search for E-Commerce(2017)

インドのECサイトFlipkartの取り組み¹¹もとても参考になります。 f:id:vasilyjp:20170720151719p:plain

この研究のポイントは、

ディープなCNNと並列にShallow Layersを加え、low-levelな特徴量（色や模様など）を使っている点
区別の難しいin-clsss negativeをつかってトリプレットを構成し、微妙なニュアンスの違いを学習させている点（下図）

です。

f:id:vasilyjp:20170720151753p:plain

通常のトリプレットでは、クエリ画像に対して同じクラスに属するpositiveと、他のクラスに属するnegativeを組にして学習に用いますが、この研究では、同じクラスに属していながら見た目が微妙に異なるin-class negativeもnegativeとして学習させています。定量的な比較は述べられていませんが、著者等によると、細かな違いに対する感度が上がるようです。

Memory-Augmented Attribute Manipulation Networks for Interactive Fashion Search (2017)

「見た目はこんな雰囲気なんだけど、色は青でふわふわな襟のものが欲しい」というちょっとわがままなクエリに答えるシステムも研究¹²されています。この研究では、以下の図のように、服の色や形の属性を操作して画像検索の結果を変化させることができるシステムを構築しています。

f:id:vasilyjp:20170720151844p:plain 属性をインプットするモジュールでは、属性（色、丈、素材、形など）の特徴量ベクトルを、その属性を持つ実際の画像の特徴量の平均値で初期化し保持しておきます。画像と属性のインプットに対して、保持しておいた情報を画像に加え、属性変換後の画像特徴量としてトリプレット損失関数を計算します。 f:id:vasilyjp:20170720151924p:plain この研究とネットワークのアーキテクチャは大きく異なりますが、弊社でも同様のタスクを研究しIBIS2016で発表しました。VAEとGANの生成モデルを活用した属性変換による画像検索システムです。興味のある方は読んでみてください。 tech.vasily.jp

その他関連研究

Visual Discovery at Pinterest（2017）¹³
- 画像ブックマークサービスのPinterestにおける画像検索・推薦エンジンの紹介
Visual Search at eBay(2017) ¹⁴
- eBayでの画像検索の実装例

アイテムの組み合わせを考える

明日どんな服を着ようか、と考える際、様々な要素（ドレスコード、流行、季節、天気、色の調和、動きやすさなど）を考慮し手持ちの服を組み合わせます。そんな複雑な意思決定を機械学習システムで補助するのがOutfit Support Systemです。（装い一式のことを英語ではOutfitといい、日本でよく使われる「コーディネート」という表現はしないそうです。以下ではコーディネートのことをOutfitと表記します。）

通常、ファッションアイテムの組み合わせの提案は雑誌のコンテンツやショップの店員さんなど、おしゃれ上級者によってなされます。そして、組み合わせの良し悪しはとても繊細で、人によって評価が分かれるなど主観に左右されることもあります。このような複雑な判断を機械学習システムにやらせようとすると「組み合わせのモデリングの難しさ」と「ファッションのコンセプトの捉えにくさ」に直面します。

ここでは、評価の難しいOutfitを上手く定量化している研究を選びました。

Mining Fashion Outfit Composition Using An End-to-End Deep Learning Approach on Set Data (2017)

この研究¹⁵で提案されているシステムは、ユーザーがすでに組み合わせているアイテムに対して、マッチするアイテムを教えてくれます。このシステムでは以下の図のようにデータを扱い学習します。上段ではアイテムの組み合わせからOutfitの質を評価する手順を、下段では1つ1つのファッションアイテムを特徴量に変換する手順を示しています。

f:id:vasilyjp:20170720152020p:plain

この研究のポイントは、

組み合わされるアイテムの数が可変であることから、Outfitの入力をRecurrent Neural Networks(RNN)を使って評価
スタイルやブランドなどの文脈情報を考慮するために、画像、カテゴリ、タイトルのmulti-modalなデータを同時に利用
End-to-Endでの最適化

です。

この研究ではPolyvore.comのOutfitのデータを使っていますが、弊社の運用するIQONに投稿されたデータも同等の情報をもっているため、類似のシステムを構築することが可能だと考えています。

Trip Outfits Advisor: Location-Oriented Clothing Recommendation(2017)

旅行先を入力すると旅行先に合ったOutfitを推薦してくれるシステムの研究¹⁶です。 f:id:vasilyjp:20170720152102p:plain

この研究のポイントは、

観光地の文脈も考慮（中国のビーチでは保守的な人が多いため、ビキニよりもロンパースを提案する、お寺ではスカートを提案しない）
メジャーな観光地を背景とした際に映える色の組み合わせを提案

です。

アイテムの組み合わせの良し悪しやロケーションとの関係について研究が進みつつあります。実際の購買行動に結びつける場合はパーソナライズが必要であると考えます。観点としては、

好み
体型
手持ちの商品
予算

などが挙げられます。

その他関連研究

Intelligent fashion styling using genetic search and neural classification (2015) ¹⁷
- 標準的でない体型の女性に対するOutfitの提案システム
GetDressed: A Personalized and Contextually-Aware Clothing Advisor for the Home (2014) ¹⁸
- 手持ちのアイテムからOutfitを決めるシステム

上述の観点をすべて盛り込んだ専属スタイリストの役割をシステムで実現することは非常に難しい問題です。しかし、上述のOutfit自体の評価方法やロケーションとOutfitの関係の研究が揃ってきたので、それぞれの手法を統合したより柔軟なシステムの構築が可能だと考えます。

最後に

今回は、ファッションに関する行動のうち「流行を知る」「商品を探す」「アイテムの組み合わせを考える」というタスクを補助する機械学習システムの研究を紹介しました。ファッションに関するデータに機械学習を組み合わせることにより、人の判断を助ける様々なシステムが実現可能であることがわかっていただけたかと思います。

今回紹介できませんでしたが、ほかにも

Object Detection
Human Parsing
Attribute Prediction
Style Understanding

などファッション×機械学習の興味深い様々な分野があります。
今年の10月にはコンピュータビジョンの国際会議ICCV2017がイタリア開催されます。この会議では"Computer Vision for Fashion"なるファッションをテーマにしたワークショップが開かれる予定です。ファッション×機械学習の研究分野はさらなる盛り上がりを見せる勢いです。

VASILYでは、最新の研究にアンテナを張りながら、同時にユーザーの課題解決を積極的に行うメンバーを募集しています。興味のある方はこちらからご応募ください。

参考

Z. Al-Halah, R. Stiefelhagen, K. Grauman. Fashion Forward: Forecasting Visual Style in Fashion. arXiv, 2017. Retrieved from https://arxiv.org/pdf/1705.06394.pdf ↩
K. Matzen, K. Bala, N. Snavely. StreetStyle: Exploring world-wide clothing styles from millions of photos. arXiv, 2017. Retrieved from https://arxiv.org/pdf/1706.01869.pdf ↩
K. Abe, T. Suzuki, S. Ueta, A. Nakamura, Y. Satoh, H. Kataoka. Changing Fashion Cultures. arXiv, 2017. Retrieved from https://arxiv.org/pdf/1703.07920.pdf ↩
Z. Liu, P. Luo, S. Qiu, X. Wang, X. Tang. Deepfashion: Powering robust clothes recognition and retrieval with rich annotations. In Proc. CVPR, 2016. Retrieved from http://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Liu_DeepFashion_Powering_Robust_CVPR_2016_paper.pdf ↩
K. Chen, K. Chen, P. Cong, W. H. Hsu, J. Luo. 2015. Who are the devils wearing prada in new york city? In Proc. ICM, 2015. Retrieved from https://arxiv.org/pdf/1508.04785.pdf ↩
YI. Ha, S. Kwon, M. Cha, J. Joo. Fashion Conversation Data on Instagram. arXiv, 2017. Retrieved from https://arxiv.org/pdf/1704.04137.pdf ↩
R. He, J. McAuley. VBPR: Visual Bayesian Personalized Ranking from Implicit Feedback. In Proc. AAAI, 2016. Retrieved from https://arxiv.org/pdf/1510.01784.pdf ↩
R. He, C. Lin, J. Wang, J. McAuley. Sherlock: sparse hierarchical embeddings for visually-aware one-class collaborative filtering. arXiv, 2016. Retrieved from https://arxiv.org/pdf/1604.05813.pdf ↩
Z. Sun, J. Yang, J. Zhang, A. Bozzon. Exploiting both Vertical and Horizontal Dimensions of Feature Hierarchy for Effective Recommendation. In Proc. AAAI, 2017. Retrieved from https://aaai.org/ocs/index.php/AAAI/AAAI17/paper/view/14679 ↩
J. Huang, RS. Feris, Q. Chen, S. Yan. Cross-domain image retrieval with a dual attribute-aware ranking network. In Proc. ICCV, 2015. Retrieved from http://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Huang_Cross-Domain_Image_Retrieval_ICCV_2015_paper.pdf ↩
D. Shankar, S. Narumanchi, H. A. Ananya, P.Kompalli, K. Chaudhury. Deep Learning based Large Scale Visual Recommendation and Search for E-Commerce. arXiv, 2017. Retrieved from https://arxiv.org/pdf/1703.02344.pdf ↩
B. Zhao, J. Feng, X. Wu, S. Yan. Memory-Augmented Attribute Manipulation Networks for Interactive Fashion Search. In Proc. CVPR, 2017. Retrieved from http://www.zhaobo.me/papers/cvpr_atman.pdf ↩
A. Zhai, D. Kislyuk, Y. Jing, M. Feng, E. Tzeng, J. Donahue, Y. L. Du, T. Darrell. Visual discovery at pinterest. In Proc. IWWWC, 2017. Retrieved from https://arxiv.org/pdf/1702.04680.pdf ↩
F.Yang, A.Kale, Y.Bubnov, L.Stein, Q.Wang, H.Kiapour, R. Piramuthu. Visual Search at eBay. arXiv, 2017. Retrieved from https://arxiv.org/pdf/1706.03154.pdf ↩
Y. Li, L. Cao, J. Zhu, J. Luo. Mining Fashion Outfit Composition Using An End-to-End Deep Learning Approach on Set Data. IEEE Transactions on Multimedia, 2017. Retrieved from https://arxiv.org/pdf/1608.03016.pdf ↩
X. Zhang, J. Jia, K. Gao, Y. Zhang, D. Zhang, J. Li, Q. Tian. Trip Outfits Advisor: Location-Oriented Clothing Recommendation. IEEE Transactions on Multimedia, 2017. Retrieved from http://ieeexplore.ieee.org/abstract/document/7907314/↩
A. Vuruskan, T. Ince, E. Bulgun, C. Guzelis. Intelligent fashion styling using genetic search and neural classification. International Journal of Clothing Science and Technology, 2015. Retrieved from https://www.researchgate.net/profile/Cueneyt_Guezelis/publication/275257326_Intelligent_fashion_styling_using_genetic_search_and_neural_classification/links/56e45fb708ae68afa11061a5.pdf ↩
Z. Liu, J. Suarez, Y. Wu, F. Yu. GetDressed: A Personalized and Contextually-Aware Clothing Advisor for the Home. Retrieved July 21, 2017, https://static1.squarespace.com/static/5357036ee4b04cbb6439b475/t/54697fd6e4b0bb15f1889fda/1416200150924/GetDressed_FinalPaper.pdf ↩

ZOZO TECH BLOG

TECH BLOG

ファッション×機械学習の論文紹介

流行を知る

Fashion Forward: Forecasting Visual Style in Fashion (2017)

StreetStyle: Exploring world-wide clothing styles from millions of photos (2017)

Changing Fashion Cultures (2017)

その他関連研究

商品を探す

推薦システム

VBPR: Visual Bayesian Personalized Ranking from Implicit Feedback(2015)

Sherlock: Sparse Hierarchical Embeddings for Visually-aware One-class Collaborative Filtering(2016)

その他関連研究

画像検索システム

Cross-domain Image Retrieval with a Dual Attribute-aware Ranking Network(2015)

Deep Learning based Large Scale Visual Recommendation and Search for E-Commerce(2017)

Memory-Augmented Attribute Manipulation Networks for Interactive Fashion Search (2017)

その他関連研究

アイテムの組み合わせを考える

Mining Fashion Outfit Composition Using An End-to-End Deep Learning Approach on Set Data (2017)

Trip Outfits Advisor: Location-Oriented Clothing Recommendation(2017)

その他関連研究

最後に

参考