Delta Lake とは何か

オープンソースのデータフォーマットであるDeltaは、Parquetファイルとトランザクションログ(Delta Log)から成り立っている。Delta形式のフォーマットを用いて構築されたテーブルは、Deltaテーブルと呼ばれ、Deltaテーブルのデータストアを、Delta Lake (デ…

Cheatsheet: Delta Lake での操作

今回はDelta Lakeでの基本的な操作についてチートシートとしてまとめる。このドキュメントは、随時更新していく予定です。

Deep Dive: Delta Log について理解する

Delta Log (デルタ ログ) とは、ユーザーがテーブルに加えたすべての変更を順序付きで自動で記録したログであり、Single Source of Truthのソースとして機能する。Delta Log が存在することで、Delta LakeでのACID トランザクション、スケーラブルなメタデー…

データをマスキングする - Databricks

データマスキングとは、機密情報を保護するためにデータを匿名化する技術である。より具体的には、機密情報を体系的に元の構造に似た架空の値に変換するプロセスである。 セキュリティやコンプライアンス、データ・プライバシーに関する規制が強化される中、…

データメッシュの概念について理解する

データメッシュとは、従来の中央での一元的なデータ管理ではなく、各ドメインによる企業のデータ管理に対する分散化されたアプローチのことである。

MLflow: 4. Model Registry を使った実験管理

MLflow Model Registryとは、MLflowモデルの全ライフサイクルをメンバー間で共同管理するための一元的なモデルストア、APIのセット 、および UI のこと。モデルレジストリはチームでMLモデルを共有し、実験からオンラインテスト、本番まで共同で作業し、承認…

MLflow: 3. Models を使った実験管理

MLflow Modelsとは、「フレーバー」という概念を用いてMLモデルをパッケージングするためのフォーマットである。MLflow Modelsの実態は、任意のファイルと、そのモデルが使用できるいくつかの「フレーバー」を記載したファイルを含むディレクトリとして保存…

MLflow: 2. Projects を使った実験管理

機械学習プロジェクトには様々なライブラリの依存関係があり、実行にはビルドされた環境が必要になる。MLflow Projectsを使うことで、他のデータサイエンティストとの共有や本番環境への移行のために、MLコードを再利用可能で再現性のある形でパッケージ化す…

MLflow: 1. Tracking を使った実験管理

多くの機械学習プロジェクトでは、精度の向上のためパラメータや特徴量を変えて試行錯誤しながら、何度も実験を繰り返す必要がある。そのため試行回数が増加するごとにモデルの管理が難しくなり、属人化するという課題がある。そこで今回はMLflow Trackingを…

Mac: ターミナルとプロンプトをカスタマイズする(zsh)

Mac

今回はmacOSにおけるターミナルとzshプロンプトのカスタマイズ方法についてまとめる。※本記事はすべて個人の好みです。

アノテーション: Labelbox と Databricks を使ってラベリングする

アノテーションとは、トレーニングデータとして利用するために、様々な形式のデータにメタデータを付与して解釈可能な意味づけをすることである。 機械学習、特にディープラーニングの普及とともに、アノテーションはますます重要な工程になっている。 そこ…

自作ライブラリをインストールする - Databricks

ローカルで構築した自作パッケージ(またはライブラリ)をDatabricksで使用する方法についてまとめる。

ReposとGithub Actionsを使ったCI/CD - Databricks

機械学習モデルがビジネス価値としてスケールするには、システムに組み込み運用化していく必要があることはこ前回の記事でも紹介した。 そこで今回はDatabricksにおけるCI/CDをGithub Actionsによって実現する方法についてまとめる。

MLOps: CI/CD, CT, CMの役割について考える

機械学習モデル単体でユーザにビジネス価値を与えることは難しく、機械学習システム(プロダクト)に組み込み、運用することで初めてビジネス価値が生まれるケースが多い。そのため機械学習システムのライフサイクル全体を継続的な自動化と監視によって効率化…

データレイクの概念について理解する

データレイクとは、元のデータを何も加工せずにコピーして、多様な生データを一元的に集約して保存するためのストレージである。データ基盤は役割別に3構成に分けることができる。その中でも今回はデータレイクの概念についてまとめる。

PySpark: シングルファイルとしてCSVを保存する

PySparkを使ってCSVファイルをシングルファイルで保存する方法についてまとめる。

IPアクセス制限を有効化する - Databricks

Databricksはワークスペース毎にIPで接続制限をかけることができる。 デフォルトでは無効になっており、有効化する手順をまとめる。

Databricks Community Edition の始め方

Databricksのフリートライアルには2種類ある。 Full Databricks platform Trialの場合は14 日間のフルトライアル、Community Editionの場合はDatabricks がホストする環境での簡易トライアルが可能。