データ

dbt導入によるデータマート整備

はじめに こんにちは、ML・データ部推薦基盤ブロックの栁澤(@i_125)です。私はZOZOのデータ基盤におけるデータガバナンス強化を実現するために、Analytics Engineerとして複数の部門を跨ぐプロジェクトチームに参加しています。本記事ではZOZOにおけるデー…

GKE上にAirbyteを構築しSaaSデータ連携をリプレイスした話

SaaSデータ連携をAirbyte用いた方法にリプレイスしました。GKE上への構築方法や工夫した点を紹介します。

サービス無停止を実現するデータ移行戦略

モノリスな大規模サービスをマイクロサービス化するプロジェクトにおいて、ダウンタイムなしでデータ移行を行なった事例をご紹介します。

LookerStudioでDevOpsのレポーティングを自動化する

LookerStudioでDevOpsのレポーティングを自動化した事例を紹介します。

ZOZOTOWNホーム画面におけるログ設計と改善サイクルの紹介

はじめに こんにちは、ML・データ部推薦基盤ブロックの宮本(@tm73rst)です。普段は主にZOZOTOWNのホーム画面や商品ページにおいて、データ活用やレコメンド改善のプロダクトマネジメントを行っております。 近年ビックデータ社会と言われる中、データドリ…

データカタログを作成してZOZOTOWNデータベース定義をまとめた話

こんにちは。ZOZOTOWN開発本部 バックエンド1ブロックの山本です。普段はZOZOTOWNのバックエンドやマイクロサービスAPIなどの開発に携わっています。 ZOZOTOWNは膨大なデータを有しており、テーブルやカラムの数も膨大です。しかし、ER図やテーブル定義に関…

t検定におけるサンプルサイズが与える影響の考察

はじめまして、ZOZO研究所 福岡の家富です。画像検索システムのインフラ、機械学習まわりを担当しています。 今回は、t検定におけるサンプルサイズが与える影響を解説します。 目次 目次 t検定の使われ方 t検定 t検定の問題点 論文手法 実際の購入金額データ…

ユーザーログを活用したZOZOTOWNの検索サジェスト改善

こんにちは。ZOZO研究所の山﨑です。 ZOZO研究所では、検索クエリのサジェスト(以下、サジェスト)や検索後のアイテムの並び順といったZOZOTOWNでの検索改善にも取り組んでいます。 本記事では、ZOZOTOWNにおける実例を交えながら、サジェストの改善方針に…

Cloud Composerによるデータバリデーション ~常に正確なデータ集計を実現するために~

こんにちは。ECプラットフォーム部データエンジニアの遠藤です。現在、私は推薦基盤チームに所属して、データ集計基盤の運用やDMP・広告まわりのデータエンジニアリングなどに従事しています。 以前、私たちのチームではクエリ管理にLookerを導入することで…

バンディットアルゴリズムを用いた推薦システムの構成について

はじめに ZOZO研究所ディレクターの松谷です。 ZOZO研究所では、イェール大学の成田悠輔氏、東京工業大学の齋藤優太氏らとの共同プロジェクトとして機械学習に基づいて作られた意思決定の性能をオフライン評価するためのOff-Policy Evaluation(OPE)に関す…

10TB超えのBigQuery巨大データを高速にS3に同期する

こんにちは。SRE部MA基盤チームの川津です。 私たちのチームでは今年サービスを終了した「IQON」の10TBを超える大規模データをBigQueryからS3へ移行しました。本記事ではデータ移行を行った際に検討したこと、実際にどのようにデータ移行を行ったかを紹介し…

ZOZOTOWNのおすすめ順を支える検索パーソナライズ基盤

ZOZOTOWNのおすすめ順を支える検索パーソナライズ基盤について、設計上のポイントやElasticsearchの運用も含め紹介します。

Off-Policy Evaluationの基礎とZOZOTOWN大規模公開実データおよびパッケージ紹介

※AMP表示の場合、数式が正しく表示されません。数式を確認する場合は通常表示版をご覧ください ※2020年11月7日に、「Open Bandit Pipelineの使い方」の節に修正を加えました。修正では、パッケージの更新に伴って、実装例を新たなバージョンに対応させました…

【オンラインMeetup イベントレポート】マーケティング基盤とそれを支えるデータ基盤

こんにちは、ZOZOテクノロジーズ CTO室の池田(@ikenyal)です。 ZOZOテクノロジーズでは、8/27にZOZO Technologies Meetup~マーケティング基盤とそれを支えるデータ基盤~を開催しました。 zozotech-inc.connpass.com ZOZOテクノロジーズのマーケティング基…

Splunkで難航していた障害調査を解決した話

こんにちは。技術開発本部SRE部の渡邉です。 リモートワークによる運動不足を解消するために毎朝ロードバイクで走る事を始めたところ、今では印旛沼1のまわりを走るのが生きがいになりました。 そんな私ですが2019年に入社して以降、現在に至るまで、ZOZOTOW…

ZOZOTOWNのインハウス広告運用を支援するデータと仕組みの話

本記事では、ZOZOのマーケティング部門の広告運用のインハウス化に伴って、これまで取り組んできた広告データの収集と活用、その仕組みにフォーカスして事例をご紹介します。

データ集計基盤の改善でLooker導入に至ったワケ

こんにちは。開発部データエンジニアの遠藤です。現在、私はデータ×テクノロジーでZOZOグループのマーケティングを支援するデータチームに所属して、データ処理基盤の運用などに従事しています。 本記事では、Lookerを用いて運用中のデータ集計基盤をきれい…

ZOZOのビッグデータを分析するという仕事

初めまして。ZOZO Technologies 分析部部長の牧野(@makino_yohei)です。 今回はZOZOのビッグデータを収集・加工してビジネスに活用する私の部門、分析部について紹介させてください。 「分析部」のミッション ミッションは2つです。データを活用して・・・…

deep metric learningによるcross-domain画像検索

ZOZO研究所でインターンをしている松井です。本記事では、cross-domain画像検索とdeep metric learningの概要と、cross-domain画像検索で良い精度を達成するためのテクニックを取り上げます。

集合データを学習するモデルの紹介

(Icon Credit *1) こんにちは。スタートトゥデイ研究所の後藤です。 今回は、集合を入力として扱うネットワークモデルの紹介をしたいと思います。機械学習の多くのモデルは、固定長の入出力や順序のある可変長の入出力を扱うように設計されます。画像デー…

スタイルを基準としたコーディネートのクラスタリング

スタートトゥデイ研究所リサーチャーの中村です。 今回は、コーディネートからスタイルを自動抽出する技術に関するアイデアの紹介です。こちらは、企業研究所による研究発表カンファレンス (CCSE2018)でも同様の内容で発表させていただきました。 そのときに…

将来発生するトランザクション数を予測する方法

データサイエンティストの中村です。 webで発生するトランザクション(購買など)の中には、確率分布を仮定することで抽象化できる物があります。 今回は、トランザクションが発生する現象をモデリングする手法のひとつであるBG/NBDモデルと、この手法にもと…

PyMC3を使ったベイズ推論によるA/Bテスト

こんにちは。 データチームの後藤です。 A/Bテストはサービス改善のための施策の効果測定に欠かせないツールですが、最近のVASILYでは、運用するサービスが増えてきたことに伴いA/Bテストの内容も多様化してきました。今回はそのA/Bテストにベイズ推論を用い…

コーディネートの自動生成

この服装に合う靴を選んでコーディネートを完成させたいと思います。皆さんはどの靴を選びますか? データサイエンティストの中村です。今回、このようなタスクを解くためのシステムを開発しました。本記事ではシステムと裏側の要素技術について紹介したいと…

BigQueryによるデータ分析のための前処理Tips

こんにちは。 使うSQLが200行を超えるのが当たり前になってきたデータチームの後藤です。 本記事では、VASILYデータチームで利用しているBigQueryによるデータの前処理のTipsを紹介します。

IBIS2017参加報告

こんにちは、データチームの後藤です。 VASILYデータチームは2017年11月8日〜11日にかけて、東京大学の本郷キャンパスで行われた第20回情報論的学習理論ワークショップ(以下、IBIS2017)に参加しました。本記事では、発表の様子や参加した感想をお伝えした…

MIRU2017参加報告

こんにちは、データチームの後藤です。 VASILYデータチームは2017年8月7日〜10日にかけて、広島で行われた第20回画像の認識・理解シンポジウム(以下、MIRU2017)に参加しました。本記事では、発表の様子や参加した感想をお伝えしたいと思います。

ファッション×機械学習の論文紹介

こんにちは。データチームの後藤です。 弊社のデータサイエンティストは職務の1つとしてファッション×機械学習の研究・開発に取り組んでいます。このファッション×機械学習の分野は世界中の大学や研究機関で精力的に研究されているため、我々も最新の動向を…

自己回帰型モデルの深層学習

初めまして、データチームの上月です。 今回はVASILYテックブログ初の論文紹介、テーマは 自己回帰型モデル(Autoregressive, AR)です。 はじめに VASILYではIQONの類似画像検索にAutoencoderを適用しています。 具体的にはアイテム画像で学習したAutoencod…

レコメンドに画像の情報を活用する方法

データサイエンティストの中村です。 ファッションアイテムの画像から抽出した特徴量は検索以外にも利用することができます。 今回はレコメンドにおける画像特徴量の活用について、以下の3トピックを考えてみたいと思います。 画像特徴量を利用したコンテン…

カテゴリー