MLflow: 2. Projects を使った実験管理

MLflow Databricks MLOps

機械学習プロジェクトには様々なライブラリの依存関係があり、実行にはビルドされた環境が必要になる。MLflow Projectsを使うことで、他のデータサイエンティストとの共有や本番環境への移行のために、MLコードを再利用可能で再現性のある形でパッケージ化す…

#Databricks #MLflow #Projects #MLOps #機械学習 #Python #conda #DevOps

2022-02-26

MLflow: 1. Tracking を使った実験管理

MLflow Databricks MLOps

多くの機械学習プロジェクトでは、精度の向上のためパラメータや特徴量を変えて試行錯誤しながら、何度も実験を繰り返す必要がある。そのため試行回数が増加するごとにモデルの管理が難しくなり、属人化するという課題がある。そこで今回はMLflow Trackingを…

#Databricks #MLflow #Tracking #MLOps #機械学習 #Python #XGBoost

2022-02-19

Mac: ターミナルとプロンプトをカスタマイズする(zsh)

Mac

今回はmacOSにおけるターミナルとzshプロンプトのカスタマイズ方法についてまとめる。※本記事はすべて個人の好みです。

#macOS #zsh #Mac #Shell #prompt #terminal

2022-02-13

アノテーション: Labelbox と Databricks を使ってラベリングする

Databricks アノテーション

アノテーションとは、トレーニングデータとして利用するために、様々な形式のデータにメタデータを付与して解釈可能な意味づけをすることである。機械学習、特にディープラーニングの普及とともに、アノテーションはますます重要な工程になっている。そこ…

#Databricks #Labelbox #ラベリング #アノテーション #annotation #ラベルボックス #DeepLearning #ディープラーニング

2022-02-12

自作ライブラリをインストールする - Databricks

Databricks

ローカルで構築した自作パッケージ(またはライブラリ)をDatabricksで使用する方法についてまとめる。

#Databricks #モジュール #pip #ライブラリ #wheel

2022-02-12

ReposとGithub Actionsを使ったCI/CD - Databricks

MLOps Databricks

機械学習モデルがビジネス価値としてスケールするには、システムに組み込み運用化していく必要があることはこ前回の記事でも紹介した。そこで今回はDatabricksにおけるCI/CDをGithub Actionsによって実現する方法についてまとめる。

#Git #Github #GitHub Actions #Databricks #Repos #Git連携 #CI/CD #CICD

2022-02-06

MLOps: CI/CD, CT, CMの役割について考える

MLOps

機械学習モデル単体でユーザにビジネス価値を与えることは難しく、機械学習システム(プロダクト)に組み込み、運用することで初めてビジネス価値が生まれるケースが多い。そのため機械学習システムのライフサイクル全体を継続的な自動化と監視によって効率化…

#ML #MLOps #DevOps #機械学習システム #AI #機械学習 #CI/CD

2022-02-05

データレイクの概念について理解する

データ基盤構築

データレイクとは、元のデータを何も加工せずにコピーして、多様な生データを一元的に集約して保存するためのストレージである。データ基盤は役割別に3構成に分けることができる。その中でも今回はデータレイクの概念についてまとめる。

#データレイク #データ基盤 #データ分析基盤 #S3 #データ分析

2022-02-02

PySpark: シングルファイルとしてCSVを保存する

PySpark Spark

PySparkを使ってCSVファイルをシングルファイルで保存する方法についてまとめる。

#Python #Pyspark #Databricks #CSV

connecting the dots

2022-02-01から1ヶ月間の記事一覧