データ基盤構築
オープンソースのデータフォーマットであるDeltaは、Parquetファイルとトランザクションログ(Delta Log)から成り立っている。Delta形式のフォーマットを用いて構築されたテーブルは、Deltaテーブルと呼ばれ、Deltaテーブルのデータストアを、Delta Lake (デ…
Delta Log (デルタ ログ) とは、ユーザーがテーブルに加えたすべての変更を順序付きで自動で記録したログであり、Single Source of Truthのソースとして機能する。Delta Log が存在することで、Delta LakeでのACID トランザクション、スケーラブルなメタデー…
データマスキングとは、機密情報を保護するためにデータを匿名化する技術である。より具体的には、機密情報を体系的に元の構造に似た架空の値に変換するプロセスである。 セキュリティやコンプライアンス、データ・プライバシーに関する規制が強化される中、…
データメッシュとは、従来の中央での一元的なデータ管理ではなく、各ドメインによる企業のデータ管理に対する分散化されたアプローチのことである。
データレイクとは、元のデータを何も加工せずにコピーして、多様な生データを一元的に集約して保存するためのストレージである。データ基盤は役割別に3構成に分けることができる。その中でも今回はデータレイクの概念についてまとめる。