はじめに
こんにちは、ZOZO研究所福岡の下所です。
検索チームでWEARの検索ログの解析を行なっているのですが、その中でファッション業界に限らず、多くの言語学者・データ解析者がインターネット上での文字解析、特に新語の理解に苦労していることを知りました。特に日本語のように表現が曖昧で流動的な言語を理解することに多くの労力を要しているように感じました。
例えば読者の皆さんは、「かわぱんつ」というキーワードを見て何を想起されますか?私は「革のパンツ」を思い描きました。しかし、昨今のファッション用語ではこれは「かわいいパンツ」としても通用するのです…!
この例のような困難なカテゴリ分類の問題が存在した時に、WEARのファッション用語に的を絞ることで、質の高い組織化を行えるよう研究を行いました。まだまだ課題は多いですが、近い将来、業界の大規模データの活用が簡素かつ高精度の状態で利用できるよう、この度の私の気づきを紹介します。
データ特徴
今回利用したデータの特徴は以下の通りです。
- 人気ブランド、アイテムの着こなしが探せるファッションコーディネートアプリで取得したデータ
- 検索ログはクリーニングが行われていない生データ
ロードマップ
上記で紹介したデータを、以下の流れで考察していきました。
- データフォーマットの理解とデータ抽出の自動化
- 現状把握と課題の確認
- 可能性の模索と問題点の確認
1. データフォーマットの理解とデータ抽出の自動化
データ抽出の自動化を行うために、データのパターンについて調査し、そのフォーマットの理解をします。
2. 現状把握と課題の確認
データはファッション業界におけるSNSにて最大級の規模を持つWEARの情報を用いました。自由検索とクリック検索の記録が混在するデータ形式で、データパターンとしてはクエリと情報contextの一致しないものが多い印象でした。加えて検索された単語の多くは、文法制限(表記パターン・表現)を受けず、さらに日本語の形態素解析を受け入れにくいものでした。
さらにインターネット、ファッション業界特有の造語・新語・略語も多数みられた印象です。誤字・新語・それとも短縮後なのか辞書を用いても判断がつかないものが多かったです。そのため、上記にもありますが、不鮮明な分類の影響から商品名やカテゴリ分類の由来や適応範囲を定義づけることは難しい印象です。
その結果、検索インデックスや常用語の言語コーパスを用いる既存の方法では、変化に富むファッション用語を正確に認識することに限界がありました。さらに商品説明から制作したファッション用語に特化したコーパスは、商品説明に特有の単語の用途の類似点から個々の差別化が困難だと分かりました。
残念ながら、ユーザーが一度の検索で使用する語彙数は少なく、文章の構造的な類似点を見つける手法も不向きでした。
3. 可能性の模索と問題点の確認
データ抽出の自動化を行う際に最も重要となるのが、入力単語の認識です。そのためには、正確な意味を把握することが必要になります。
実際、アパレル商品を定義する際に大きな問題となるのは、定義・分類できない言葉、由来や適応範囲が曖昧な用語の存在の多さです。デニム、ジーンズ、Gパンなどのように、表現は多種にわたり、時流の影響を受けます。
また、カーディガンとコートを組み合わせたコーディガンのような造語(out of vocaburary)も生まれやすい業界です。ガウチョ、スカーチョ、スカンツなど、キリがありません。
単語の部分一致によってカテゴリーを特定しようと試みると「スタイvs.スタイル」や「コートvs.ペチコート」のような問題も起こります。
結果として、字句解析やファジー解析では汲み取れない言葉の変化に対応する必要性を痛感しました。
他にも、短縮語の存在は形態素解析に大きな影響を与えました。
例えば「かわぱんつ」。形態素解析を用いると「かわ」と「ぱんつ」に分割され、それぞれの意味は解析によって「皮(革)」と「パンツ」という判定を受けてしまいます。正解の可能性に「可愛いパンツ」もあるらしいですが、現状では汲み取ることができません。
他にも「ワンピース」は衣類、アニメに加え、oneとpieceが可能性として出現します。
ではスペースはどうでしょうか?分けて考えるべきでしょうか?例えば「SHOO LA RUE」や「BEAUTY&YOUTH UNITED ARROWS」そして「アーバン リサーチ ドアーズ」の場合はどうでしょうか?
スペースだから、アルファベットだからと言って単語の分かちとは限りません。結局、ユーザーの検索モチベーションを判断し、単語を確定する上でログの情報量は圧倒的に不足していると感じました。
解析結果
ある程度の精度でデータ抽出、タグの再分配が完了したところで抽出単語の意味に執着せず文字構造の一致から条件付統計を取りました。その結果、データから年代別・性別・ブランド別・カテゴリー別・色別などの季節変動を読み取ることができました(Fig.1参照)。Fig.1は、2017年WEARで検索された季節性の見られるカテゴリクエリの出現頻度を表しています。振幅の大きいものほど季節変動が大きくなります。つまり平坦なグラフを持つカテゴリほど通年を通して検索されていることになります。
他にも、1年を通してよく検索される商品やブランドもあれば、繁忙期・閑散期を持つ商品(色・性別・身長・カテゴリー・イベント)を区別できます(Fig.2参照)。Fig.2は、Fig.1と同様2017年のトレンドを表しています。振幅の大きいものほど季節変動が大きい(閑散期・繁忙期)ブランドとなります。
さらに条件を加えながら多くの相関関係を可視化できます。これらの情報はデータに潜む関連性を定数化し、結果を考察する際に大変有効なものです。
次にお伝えするのは私の経験(単純な条件付の時系列解析)からの考察です。WEARのユーザーはショップ名・ブランド名に固有表現を、商品は「かわぱんつ」のようにdescriptive(ニュアンス)を含んだアイテムを検索する傾向があるようです。
このような多種にわたる表現が混在するデータを解析するにあたり、データ再構築(分類ごとにまとめ直す)作業が重要になります。一般的に大規模なカテゴリー分類のほとんどは階層的分類で、カテゴリー分類はルールベースの手法を取られます。そして昨今、機械学習モデルを使用することでその精度を上げる手法も提案されています。
今回は情報の量と質(意味・定義)を同時に保存、表記揺れ・誤字・新語・造語・短縮語の判定するためのhierarchy classifcationに特化したネットワーク構造を用意しました。ここで言うネットワークは、単語の意味から上位語・下位語を纏めたグラフ上の情報構造体のことを指します。
そのために、単語の「音・構造・意味(類義語)・上(下)位語・連想語・用途」に着目し完全自動化されたファッション用語の分類器のプロトタイプを設計しました。
その結果、商品名やカテゴリ分類の由来や適応範囲を定めるパラメータに対してhypothesisを提案できるようになました。今では多数存在するコート商品(アウター)を、定義に基づいてある程度のまとまりに分類できました。
しかもこの際には、ペチコートはアウターではないと区別されています。なお、今回の研究では、日本語や中国語を英語より優先的に考察しています。
その原因は言語特徴が似ていることに加え、ステミングやレンマの必要性が低い辞書表記となるため、形態素解析の精度に問題解決の焦点がある程度定められるためでした。
今後、素材や生地の情報を組み込むことで、さらに情報補填ができると考えています。
まとめ
WEARがファッション業界の中でも有数のユーザーが抱えるSNS媒体であることもあり、そのログデータは有用なものだと判断できます。しかしミクロ解析の精度を上げ、さらにデータの価値を高めるには、まだまだ数多くの課題があることも事実です。
人・社会が変化する中で、言葉・常識も変化します。その結果、情報のあり方も影響を受けます。
ファッションを数値化するために、ファッション用語を理解することは避けて通れません。複雑に絡み合う情報をデータなどから紐解き、分かることを増やしていく地道な作業の重要性を感じました。
さいごに
ZOZOテクノロジーズでは検索チーム、検索基盤チームのメンバーを募集しております。 hrmos.co