機械学習を用いた調査リリースで見えた優位性と課題

はじめに

こんにちは、ZOZO研究所の平川(@china_syuke)です。

ZOZO研究所では今年度から、ファッションコーディネートアプリ「WEAR(ウェア)」のデータを用いた調査リリースを執筆しています。一般的によく見るアンケート調査と違い、機械学習を用いてこれまで数値化されていない情報を調査しました。

この記事では、リリースした中でも面白いアプローチで調査した、第二弾「洋服の「丈」に関する流行の変化」に焦点を当てながら調査リリースの進め方・工夫したこと・課題に感じたことを紹介します。

press-tech.zozo.com

目次

機械学習を用いた調査リリースの執筆工程

最近では様々な企業が自社でのアンケートや蓄積されたデータを使用した調査リリースを出しています。サービスなどで蓄積されたデータを解析していくことは、消費者の動向や社会情勢を分析していく上でもとても意義のある調査です。また、自社サービスの宣伝や保有しているデータのアピールにも繋がります。

今回の記事では以下に注目して順を追って執筆の工程を説明していきます。

  • 保有しているデータから仮説を立てる
  • 統計処理のために数値化すべき項目を検討する
  • 数値化するための機械学習の手法を検討し、仮説を立証するための筋道を立てる
  • ターゲットの読者に伝わりやすい文章へ変換する

保有しているデータから仮説を立てる

通常の調査リリースでは、アンケートを調査対象として仮説を立てていくことが多いです。今回の調査リリースではアンケートは集計せずに、自社サービスであるWEARに投稿されたコーディネート画像を利用して仮説を立てていきます。

  1. WEARに投稿されたコーディネート画像から近年どのようにファッションが変化しているか仮説を立てる
  2. 少量のサンプリングした画像データで仮説立てした傾向を確認していく
  3. 何か面白い変化が出そうであればもっと深堀していく

もちろん立てた仮説が上手く立証できることは少なく、1と2の手順を繰り返し行いブラッシュアップしていきます。

今回の例で言うと、「最近はトップス短め/ボトムス長めの傾向がある」という仮説のもと小規模のデータでどのような傾向が出るか確認をしていきます。そして、何か面白いものが見えてきそうであれば、実際にデータの範囲を広げより細かな調査をしていきます。

統計処理のために数値化すべき項目を検討する

アンケート調査の場合はすでに数値として結果が出ているため、統計データとして扱って執筆が行えます。画像データの場合はそのままでは数値として扱うことができません。統計による集計をするためにまずは「画像データから何を数値化したら調査を行えるのか」を検討します。

今回は「コーディネート画像上でのトップスとボトムスの比率」を知ることができれば良いので、それを得るための解き方を考えていきます。

数値化するための機械学習の手法を検討し、仮説を立証するための筋道を立てる

画像データを数値化するための機械学習の手法を検討していきます。今回の例で言うと、以下のような仮説立証への筋道が考えられます。

  1. トップスとボトムスの画像上の比率を知る
    → 洋服の領域検出でトップスとボトムスの矩形を取得
  2. 画像上での被写体の身長を知る
    → 骨格検出で画像上の各部位の長さを定義
  3. 1,2より、画像上での身長に対するトップスとボトムスの比率を算出

ここで、「なぜ実際の商品サイズや検出された矩形の長さをそのまま扱うのではなく骨格検出などを用いて比率を出したのか?」という疑問が生じます。コーディネート画像から洋服のサイズを検出する際には以下のような状況が考えられます。

  • ポーズの影響を受ける
  • タックインなどで本来の丈の長さより短く着こなしている場合がある
  • 被写体の身長・撮影位置は一定ではないので検出された矩形だけでは比較できない

これらを解決するために骨格検出を採用しました。

このように、1つの調査に対して様々な手法を組み合わせて問題を解いていきます。

ターゲットの読者に伝わりやすい文章へ変換する

アンケート調査と違い機械学習を用いた調査は、調査工程が複雑になります。調査リリースの読者ターゲットは幅広く、弊社の場合はファッション関係のリリースのため技術系の読者でないことも想定されます。いかに前提知識のない読者に対して分かりやすく伝えるかが重要になってきます。

上図で示したように画像を用いて視覚的に分かりやすく説明するなど「可視化」を意識して記事を書くよう心がけました。

調査リリースの醍醐味

調査リリースの醍醐味は「目には見えないファッションの流行を数値化し、複雑な内容を分かりやすく読者に伝えられる」ことです。

今まで街角などで「こういうコーディネートや色が増えてきたなぁ」と感覚として感じていたものが実際に数値として出てファッションの動向も観測できました。機械学習をファッションと繋げてイメージしやすく伝えることで、難しく感じる機械学習という分野がより親しみやすくなり興味を持つきっかけになることを感じました。また、ファッションの動向は社会の動向にも密接に関係していると言われます。調査で出た数値が社会とどのような関係を持っているのかを読み解いていく過程も醍醐味の1つと言えます。

調査リリースの課題

これまでに調査リリースを3本出せましたが様々な課題が見つかりました。

短期間で調査するための道具の整備が必要

四半期に1回のリリースを目標としていたため、仮説立てからリリースまでのスケジュールが3か月程度でした。

調査リリースごとに仮説が異なるため、使用する機械学習の手法も異なります。多様な手法を取り入れることは、それぞれに対して調査が必要になるためスケジュールの遅延が発生しやすいです。そのため、様々な手法を短期間で扱えるよう機械学習のライブラリを準備しておく必要があります。また、画像の背景除去に使用するセマンティックセグメンテーションなどの前処理は非常に時間がかかります。そのような処理を高速化できる環境の整備をしていく必要があります。

思い通りの結果にならない

これはどの調査リリースにも言えるのですが、仮説が必ずしも正しいとは限りません。

今回で言うと「最近はトップス短め/ボトムス長めの傾向がある」という仮説に対し、「トップス短め/長めの二極化している」という結果が得られました。もし得られた結果からうまくストーリーが立てられないと調査期間を延ばす、もしくは仮説自体を変更するという選択をしないといけません。

このようなリスクを回避するために初めから仮説を複数用意しておくか、下記の「仮説の質を上げる」ことが必要になってきます。

仮説の質を上げる

結論を言うと、調査リリースのキモは仮説の質を上げるに尽きます。

今回の調査で得られた、年毎のトップス丈の割合推移の図を紹介します。

図. トップスが短め/長めの二極化した結果を表すグラフ

年毎にグラフの山が左へ移動しトップス丈が短くなることを予想しましたが、実際はその山が徐々に二極化していくという面白い様子が観測できます。

当初は「トップス短め/ボトムス長めの傾向」という仮説でした。調査の工程で単純な商品サイズのデータではなく、画像から読み取れるコーディネートの比率に焦点を当て、コーディネートの傾向も考慮するように仮説の質を高めていきました。このように当初の仮説の質を上げることはストーリーの肉付けに繋がり、より面白いストーリーを構築できます。機械学習を用いた調査リリースは、調査を細分化する傾向があるので仮説の質を上げやすいと感じました。

仮説を細分化して質を上げると、仮説を複数検討しながら調査できるので、結果的に仮説の立て直しの手戻りを減らすことが期待できます。

まとめ

通常のアンケートベースの調査リリースと違い、機械学習を用いて数値化されていないデータを調査することは調査の難易度が上がります。機械学習を使用することで調査スケジュールは不安定になり、アンケートベース以上の課題が生まれました。しかし、数値のみのデータでは観測できないより深い調査が行えるため、仮説自体も質が高くなり面白いストーリーに仕上げることができると感じました。

この取り組みを通して研究所が何を行っているかをよりライトに発信できる仕組み作りができました。運用フローの課題を改善しつつ、ファッションの動向を素早く感知できるようなプラットフォームを開発して、より読者に興味を持ってもらえる調査リリースを出していきたいです。

今回取り上げた記事の他にも調査リリースを出しているので読んでみてください。

press-tech.zozo.com

press-tech.zozo.com

さいごに

ファッションの動向は社会・経済・様々なことに密接に関係し変化していきます。ZOZO研究所には様々な観点からファッションに関する謎を解明する環境が整っております。

ZOZO研究所ではMLエンジニア、バックエンドエンジニアのメンバーを募集しております。今回紹介した調査リリースもまだまだ始まったばかりの取り組みで、一緒に調査していただけるメンバーを募集しております。ご興味のある方は、以下のリンクからぜひご応募ください! hrmos.co

hrmos.co

カテゴリー