BigQuery

BigQueryのストレージ料金プランを変更して、年間数千万円を節約する

こんにちは、最近気になるニュースはサザエの学名が数年前に初めて命名されたこと1な、MLデータ部データ基盤ブロックの塩崎です。BigQueryのストレージに関する新料金プランが先日発表されたので、その検証をしました。我々の環境では年間で数千万円という費…

ZOZOTOWNホーム画面におけるログ設計と改善サイクルの紹介

はじめに こんにちは、ML・データ部推薦基盤ブロックの宮本(@tm73rst)です。普段は主にZOZOTOWNのホーム画面や商品ページにおいて、データ活用やレコメンド改善のプロダクトマネジメントを行っております。 近年ビックデータ社会と言われる中、データドリ…

全社共通データ基盤を廃止して新しいデータ基盤に引越した話

こんにちは、データ基盤の開発、運用をしていた谷口です。最近は配信基盤の開発と運用をしています。 ZOZOではオンプレやクラウドにあるデータをBigQueryへ連携し、分析やシステムで活用しています。BigQueryに連携されたテーブルは共通データ基盤として全社…

BigQueryでのデータ追記処理における冪等化の取り組み

こんにちは、MA基盤チームの田島です。私達のチームではMAIL、LINE、PUSH通知といったユーザへの配信をしています。その中でもマス・セグメント配信という一斉に行う配信では、配信対象者のセグメント抽出にBigQueryを利用しています。また、配信前に必要な…

オンプレDWHをBigQueryに移行した話

はじめに こんにちは。MA部MA施策・運用改善チームの辻岡です。MA部では、ZOZOTOWNのメルマガ・アプリPUSH通知などの配信・分析等の用途で約数十TBのデータを運用しています。今回は長年MAのデータ基盤として利用してきたオンプレDWHをBigQueryに移行したお…

BigQueryで時を遡って過去のテーブルを再構成する

はじめに こんにちは、データシステム部データ基盤ブロックSREの纐纈です。 本記事では、過去に遡ってBigQueryのデータを参照する方法(以下、タイムトラベルと呼びます)をご紹介します。また、この機能はBigQueryが提供している、変更または削除されたデー…

【オンラインMeetup イベントレポート】Data Engineering Meetup 【ZOZO × GMOペパボ】

こんにちは、ZOZO CTOブロックの@ikkouです。 ZOZOでは、4/20にData Engineering MeetupをGMOペパボさんと共催しました。 zozotech-inc.connpass.com 本イベントではto C向けサービスを提供する2社が、各社のData Engineering事情や直近の取り組みについて発…

BigQueryにおけるポリシータグを用いた秘密情報管理とデータ連携の仕組み

こんにちは、データ基盤の開発・運用をしている谷口です。 本記事では、BigQueryで秘密情報を守るためのリソースである、ポリシータグをご紹介します。ポリシータグの概要から採用理由、仕様を考慮したデータ連携の仕組みや運用における注意点まで幅広くお伝…

OSS「Coppe」の公開 〜 BigQuery基盤のデータ監視ツールによるデータ品質担保

はじめに こんにちは、データシステム部データ基盤ブロックの纐纈です。9月から22卒内定者として、チームにジョインしました。 本記事では、弊社のデータ基盤チームが抱えていた課題と、その解決のために公開したOSSツール「Coppe」を紹介します。Coppeは、…

INFORMATION_SCHEMAを用いたBigQueryのストレージ無駄遣い調査

本記事では組織内の全てのBigQueryに対してストレージを調査し意図せず高額の費用が発生していたテーブルを見つけ出す方法を紹介します。BigQueryのメタデータが格納されたビューであるINFORMATION_SCHEMAから情報を収集し、DataStudioで可視化するまでを紹…

コンピュートとストレージの分離から紐解くBigQueryの権限モデル

BigQuery入門者にとって理解しづらいBigQueryの権限モデルを内部アーキテクチャの観点から整理して解説しました。謎の権限エラーに苦しめられた方、必見の内容です。

急成長するLINE配信対象ユーザー数にGCPアーキテクチャの改善で立ち向かった話

はじめに こんにちは、EC基盤本部・MA部・MA基盤チームでマーケティングオートメーションのシステムを開発している長澤(@snagasawa_)です。この記事では、社内で運用しているLINEメッセージ配信基盤の課題を、アーキテクチャ改善によって解決した話をご紹…

Flex Slotsを用いたBigQueryのコストパフォーマンス改善と運用

こんにちは、SRE部の谷口です。私たちのチームではデータ基盤の開発や運用をしています。1年ほど前からBigQueryのコストパフォーマンス改善を目的にFlex Slotsを導入しています。 本記事ではFlex Slotsの導入効果や運用における注意点、ワークフロー設計につ…

BigQueryでの集計結果をノーコードでSlackに定期投稿してみた

BigQueryのクエリ結果を定期的にSlackに投稿する機能をGASを使わずにノーコードで実現した事例を紹介します。

Cloud Composerによるデータバリデーション ~常に正確なデータ集計を実現するために~

こんにちは。ECプラットフォーム部データエンジニアの遠藤です。現在、私は推薦基盤チームに所属して、データ集計基盤の運用やDMP・広告まわりのデータエンジニアリングなどに従事しています。 以前、私たちのチームではクエリ管理にLookerを導入することで…

BigQueryの監査ログをリアルタイムに監視して使いすぎを防止してみる

BigQueryは非常にパワフルなDWHであり、大容量のデータを一瞬で分析できます。しかし、意図せずに大量のデータをスキャンしてしまい大金を溶かしてしまうことを懸念する人もいます。本記事ではCloud Audit LogsとCloud Runを組み合わせることで大金を溶かす…

10TB超えのBigQuery巨大データを高速にS3に同期する

こんにちは。SRE部MA基盤チームの川津です。 私たちのチームでは今年サービスを終了した「IQON」の10TBを超える大規模データをBigQueryからS3へ移行しました。本記事ではデータ移行を行った際に検討したこと、実際にどのようにデータ移行を行ったかを紹介し…

ZOZOTOWNを支えるリアルタイムデータ連携基盤

こんにちは、SRE部MA基盤チームの谷口です。私達のチームでは、データ連携基盤の開発・運用を行っています。 データ基盤には大きく分けて2種類あり、日次でデータ連携してるものとリアルタイムにデータ連携しているものがあります。本記事ではリアルタイムデ…

BigQueryでユーザー定義関数(UDF)は武器になるという話

はじめに こんにちは。ZOZOTOWN部サービスグロースチームでアナリティクスをしている井ノ口です。 この記事ではBigQueryで使える、ユーザー定義関数(UDF)という便利な武器をご紹介します。「UDFって何?」「何のために使うの?」という方に向けた記事のた…

ZOZOTOWNのインハウス広告運用を支援するデータと仕組みの話

本記事では、ZOZOのマーケティング部門の広告運用のインハウス化に伴って、これまで取り組んできた広告データの収集と活用、その仕組みにフォーカスして事例をご紹介します。

データ集計基盤の改善でLooker導入に至ったワケ

こんにちは。開発部データエンジニアの遠藤です。現在、私はデータ×テクノロジーでZOZOグループのマーケティングを支援するデータチームに所属して、データ処理基盤の運用などに従事しています。 本記事では、Lookerを用いて運用中のデータ集計基盤をきれい…

BigQueryによるデータ分析のための前処理Tips

こんにちは。 使うSQLが200行を超えるのが当たり前になってきたデータチームの後藤です。 本記事では、VASILYデータチームで利用しているBigQueryによるデータの前処理のTipsを紹介します。

DigdagとEmbulkを利用してBigQueryにRDS(Aurora、MySQL)のマスタデータを同期する

Treasure Data製のOSSであるDigdagとEmbulkと組み合わせることで、効率的にRDS(Aurora、MySQL)のデータをBigQueryに同期するシステムの構築を実現しました。概要図だけでなく、具体的な設定ファイルもほぼ公開しています。

Embulkを利用したデータ転送基盤の構築

こんにちは。バックエンドエンジニアインターンの田島です。 VASILYでは分析にBigQueryを使用しており、MySQLのデータを毎日BigQueryに同期しています。この同期処理を行うシステムは、約2年前にRubyで書かれたもので、プロダクトの成長に伴うデータ量の増加…

VASILYにおけるBigQuery + Tableau活用例

こんにちは! なんでもディープラーニングでやりたがる癖が抜けず、3ヶ月のディープラーニング禁止令を言い渡されていた後藤です。 本記事ではVASILYで利用しているデータ分析の環境について紹介します。 VASILYではデータ分析が必要な場面で、BigQueryとTab…

機械学習とデータ分析を支えるAWSとGCPを利用したマルチクラウドアーキテクチャのお話

機械学習とデータ分析を支えるAWSとGCPを利用したマルチクラウドアーキテクチャについて紹介したいと思います。

horensoで作るモダンなcronスクリプト監視環境

こんにちは。 モルトとシガーで生きてます。インフラエンジニアの光野(@kotatsu360)です。 先日、crontabで管理しているバッチ処理の監視にhorensoというツールを導入したのですが、 監視の品質が向上 毎分届く大量の実行結果メールから開放されQoL向上 と…

自社管理のpostfixメールサーバーをSendGridに移行してみた

自社管理していたpostfixサーバーをSendGridに完全移行しました。移行の時に起こったゴタゴタなどを紹介します。

カテゴリー