connecting the dots

Delta Lake とは何か

Delta Lake Databricks データ基盤構築

オープンソースのデータフォーマットであるDeltaは、Parquetファイルとトランザクションログ(Delta Log)から成り立っている。Delta形式のフォーマットを用いて構築されたテーブルは、Deltaテーブルと呼ばれ、Deltaテーブルのデータストアを、Delta Lake (デ…

#データレイク #データレイクハウス #Delta Lake #デルタレイク #Databricks #データ分析

Cheatsheet: Delta Lake での操作

Delta Lake PySpark Databricks Spark

今回はDelta Lakeでの基本的な操作についてチートシートとしてまとめる。このドキュメントは、随時更新していく予定です。

#Delta Lake #チートシート #Pyspark #Python #Databricks

Deep Dive: Delta Log について理解する

Delta Lake Databricks データ基盤構築

Delta Log (デルタログ) とは、ユーザーがテーブルに加えたすべての変更を順序付きで自動で記録したログであり、Single Source of Truthのソースとして機能する。Delta Log が存在することで、Delta LakeでのACID トランザクション、スケーラブルなメタデー…

#Databricks #データ分析 #Delta Lake #データレイク #データレイクハウス

データをマスキングする - Databricks

Databricks データ基盤構築

データマスキングとは、機密情報を保護するためにデータを匿名化する技術である。より具体的には、機密情報を体系的に元の構造に似た架空の値に変換するプロセスである。セキュリティやコンプライアンス、データ・プライバシーに関する規制が強化される中、…

#Databricks #データマスキング #動的データマスキング #Unity Catalog

データメッシュの概念について理解する

データ基盤構築 Databricks

データメッシュとは、従来の中央での一元的なデータ管理ではなく、各ドメインによる企業のデータ管理に対する分散化されたアプローチのことである。

#データメッシュ #Data Mesh #データレイク #データ分析基盤 #データ利活用 #Databricks

MLflow: 4. Model Registry を使った実験管理

MLflow Databricks MLOps

MLflow Model Registryとは、MLflowモデルの全ライフサイクルをメンバー間で共同管理するための一元的なモデルストア、APIのセット、および UI のこと。モデルレジストリはチームでMLモデルを共有し、実験からオンラインテスト、本番まで共同で作業し、承認…

#Databricks #Python #機械学習 #mlflow #モデルレジストリ #モデル管理 #DevOps #MLOps

MLflow: 3. Models を使った実験管理

MLflow MLOps Databricks

MLflow Modelsとは、「フレーバー」という概念を用いてMLモデルをパッケージングするためのフォーマットである。MLflow Modelsの実態は、任意のファイルと、そのモデルが使用できるいくつかの「フレーバー」を記載したファイルを含むディレクトリとして保存…

#Databricks #機械学習 #Pyrhon #DevOps #MLflow #Python #MLOps

MLflow: 2. Projects を使った実験管理

MLflow Databricks MLOps

機械学習プロジェクトには様々なライブラリの依存関係があり、実行にはビルドされた環境が必要になる。MLflow Projectsを使うことで、他のデータサイエンティストとの共有や本番環境への移行のために、MLコードを再利用可能で再現性のある形でパッケージ化す…

#Databricks #MLflow #Projects #MLOps #機械学習 #Python #conda #DevOps

MLflow: 1. Tracking を使った実験管理

MLflow Databricks MLOps

多くの機械学習プロジェクトでは、精度の向上のためパラメータや特徴量を変えて試行錯誤しながら、何度も実験を繰り返す必要がある。そのため試行回数が増加するごとにモデルの管理が難しくなり、属人化するという課題がある。そこで今回はMLflow Trackingを…

#Databricks #MLflow #Tracking #MLOps #機械学習 #Python #XGBoost

Mac: ターミナルとプロンプトをカスタマイズする(zsh)

Mac

今回はmacOSにおけるターミナルとzshプロンプトのカスタマイズ方法についてまとめる。※本記事はすべて個人の好みです。

#macOS #zsh #Mac #Shell #prompt #terminal