データ基盤構築

Delta Lake とは何か

オープンソースのデータフォーマットであるDeltaは、Parquetファイルとトランザクションログ(Delta Log)から成り立っている。Delta形式のフォーマットを用いて構築されたテーブルは、Deltaテーブルと呼ばれ、Deltaテーブルのデータストアを、Delta Lake (デ…

Deep Dive: Delta Log について理解する

Delta Log (デルタ ログ) とは、ユーザーがテーブルに加えたすべての変更を順序付きで自動で記録したログであり、Single Source of Truthのソースとして機能する。Delta Log が存在することで、Delta LakeでのACID トランザクション、スケーラブルなメタデー…

データをマスキングする - Databricks

データマスキングとは、機密情報を保護するためにデータを匿名化する技術である。より具体的には、機密情報を体系的に元の構造に似た架空の値に変換するプロセスである。 セキュリティやコンプライアンス、データ・プライバシーに関する規制が強化される中、…

データメッシュの概念について理解する

データメッシュとは、従来の中央での一元的なデータ管理ではなく、各ドメインによる企業のデータ管理に対する分散化されたアプローチのことである。

データレイクの概念について理解する

データレイクとは、元のデータを何も加工せずにコピーして、多様な生データを一元的に集約して保存するためのストレージである。データ基盤は役割別に3構成に分けることができる。その中でも今回はデータレイクの概念についてまとめる。