Python: MLflow Models を使ってみる

MLflow は MLOps に関連した OSS のひとつ。いくつかのコンポーネントに分かれていて、それぞれを必要に応じて独立して使うことができる。その中でも、今回扱う MLflow Models は主に学習済みモデルやパイプラインの取り回しに関するコンポーネント。 MLfl…

2020-08-22

Python: LightGBM の cv() 関数から得られるモデルの特徴量の重要度を可視化してみる

LightGBM 機械学習 Mac OS X scikit-learn seaborn

今回は LightGBM の cv() 関数から得られる複数の学習済み Booster から特徴量の重要度を取り出して可視化してみる。それぞれの Booster 毎のバラつきなどから各特徴量の傾向などが確認できるかもしれない。使った環境は次のとおり。 $ sw_vers ProductNam…

2020-08-22

Python: CatBoost を GPU で学習させる

機械学習 CatBoost Linux Ubuntu20.04LTS GPGPU

勾配ブースティング決定木を扱うフレームワークの CatBoost は、GPU を使った学習ができる。 GPU を使うと、CatBoost の特徴的な決定木の作り方 (Symmetric Tree) も相まって、学習速度の向上が見込める場合があるようだ。今回は、それを試してみる。使っ…

2020-08-13

Python: SHAP (SHapley Additive exPlanations) を LightGBM と使ってみる

Python 機械学習 JupyterLab LightGBM Mac OS X matplotlib scikit-learn

SHAP は協力ゲーム理論にもとづいて機械学習モデルを解釈する手法と、その実装を指している。今回は、あまり理論の部分には踏み込むことなく、使い方を中心として書いていく。使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 1…

2020-08-11

Python: LightGBM の cv() 関数の実装について

Python LightGBM 機械学習

今回は LightGBM の cv() 関数について書いてみる。 LightGBM の cv() 関数は、一般的にはモデルの性能を評価する交差検証に使われる。一方で、この関数から取り出した学習済みモデルを推論にまで使うユーザもいる。今回は、その理由やメリットとデメリッ…

2020-08-05

Python: Null Importance を使った特徴量選択について

Python scikit-learn LightGBM 機械学習 Mac OS X matplotlib

今回は特徴量選択 (Feature Selection) の手法のひとつとして使われることのある Null Importance を試してみる。 Null Importance というのは、目的変数をシャッフルして意味がなくなった状態で学習させたモデルから得られる特徴量の重要度を指す。では、…

2020-06-13

Python: UMAP を使ってみる

Python scikit-learn 機械学習 Mac OS X

UMAP (Uniform Manifold Approximation and Projection) は次元削減手法のひとつ。似た手法としては t-SNE (t-distributed Stochastic Neighbor Embedding) があるけど、それよりも高速らしい。公式のベンチマークが以下で紹介されていて、t-SNE に比べる…

2020-06-11

Python: XGBoost の cv() 関数から学習済みモデルを取り出す

Python XGBoost 機械学習 scikit-learn Mac OS X

今回は、以下のエントリを XGBoost で焼き直したもの。つまり、XGBoost でも cv() 関数から学習済みモデルを取り出して Fold Averaging してみようという話。 blog.amedama.jp 使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 1…

2020-06-05

Python: mlflow.start_run(nested=True) は使い方に注意しよう

Python MLflow 機械学習

今回は MLflow Tracking のすごーく細かい話。ソースコードを読んでいて、ハマる人もいるかもなと思ったので書いておく。結論から先に書くと、MLflow Tracking には次のような注意点がある。 MLflow Tracking で標準的に使う API はマルチスレッドで Run …

2020-06-04

Python: MLflow Tracking を使ってみる

Python MLflow scikit-learn SQLAlchemy LightGBM 機械学習 Mac OS X

MLflow は MLOps に関連した OSS のひとつ。いくつかのコンポーネントに分かれていて、それぞれを必要に応じて独立して使うことができる。今回は、その中でも実験の管理と可視化を司る MLflow Tracking を試してみることにした。機械学習のプロジェクトで…

2020-06-01

Python: Optuna の LightGBMTunerCV から学習済みモデルを取り出す

LightGBM Optuna Python scikit-learn 機械学習 Mac OS X

Optuna v1.5.0 では、LightGBM インテグレーションの一環として LightGBMTunerCV という API が追加された。これは LightGBM の cv() 関数を Step-wise algorithm で最適化するラッパーになっている。つまり、重要ないくつかのパラメータを Step-wise で調…

2020-05-21

Python: Keras でカスタムメトリックを扱う

Keras TensorFlow 機械学習 Python

今回は Keras に組み込みで用意されていない独自の評価指標 (カスタムメトリック) を扱う方法について書いてみる。なお、Keras でカスタムメトリックを定義する方法については、以下の公式ドキュメントに記載がある。 keras.io 使った環境は次のとおり。 Ke…

2020-05-16

Python: gensim の FAST_VERSION 定数の意味について

NLP gensim Python 機械学習 Mac OS X

Python の gensim には自然言語処理 (NLP) に関する様々な実装がある。そして、その中のいくつかのモジュールには FAST_VERSION という定数が定義されている。この定数は環境によって異なる値を取って、値によってパフォーマンスが大きく異なる場合がある…

2020-05-11

Python: gensim を使った Word Embedding の内省的評価について

NLP gensim 機械学習 Python

以下の書籍では、Word Embedding の評価方法として内省的評価 (intrinsic evaluation) と外省的評価 (extrinsic evaluation) という 2 つのやり方が紹介されている。内省的評価では、人間が判断した単語間の類似度や、単語の持つ意味を使ったアナロジーを、…

2020-05-07

Python: 学習済み機械学習モデルの特性を PDP で把握する

Python scikit-learn matplotlib 機械学習

機械学習を用いるタスクで、モデルの解釈可能性 (Interpretability) が重要となる場面がある。今回は、モデルの解釈可能性を得る手法のひとつとして PDP (Partial Dependence Plot: 部分従属プロット) を扱ってみる。 PDP を使うと、モデルにおいて説明変数…

2020-05-01

Word2Vec 形式のファイルフォーマットについて

Python NLP 機械学習 gensim Mac OS X

Word2Vec では、Skip-gram や CBOW といったタスクを学習させたニューラルネットワークの隠れ層の重みを使って単語を特徴ベクトルにエンコードする。つまり、Word2Vec で成果物として得られるのは、コーパスの各単語に対応する特徴ベクトルになる。今回は…

2020-04-16

Python: Keras で Convolutional AutoEncoder を書いてみる

Python Keras TensorFlow matplotlib 機械学習 NeuralNetwork

以前に Keras で AutoEncoder を実装するエントリを書いた。このときは AutoEncoder を構成する Neural Network のアーキテクチャとして単純な全結合層から成る MLP (Multi Layer Perceptron) を使っている。 blog.amedama.jp 一方で、データとして画像を扱…

2020-04-09

Python: gensim で学習済み単語ベクトル表現を扱ってみる

NLP Python NeuralNetwork 機械学習 gensim

Python で自然言語処理を扱うためのパッケージのひとつに gensim がある。今回は、gensim で学習済み単語ベクトル表現 (Pre-trained Word Vectors) を使った Word Embedding を試してみた。 Word Embedding というのは単語 (Word) をベクトル表現の特徴量に…

2020-03-27

Python: 時系列データの交差検証と TimeSeriesSplit の改良について

Python scikit-learn pandas seaborn matplotlib Mac OS X 機械学習統計

一般的に、時系列データを扱うタスクでは過去のデータを使って未来のデータを予測することになる。そのため、交差検証するときも過去のデータを使ってモデルを学習させた上で未来のデータを使って検証しなければいけない。もし、未来のデータがモデルの学…

2020-03-01

Python: Optuna を使って QWK の閾値を最適化してみる

Python Optuna LightGBM 機械学習統計 Mac OS X

最近、Twitter のタイムラインで QWK (Quadratic Weighted Kappa: 二次の重み付きカッパ係数) の最適化が話題になっていたので個人的に調べていた。 QWK は順序つきの多値分類問題を評価するための指標で、予測を大きく外すほど大きなペナルティが与えられる…

2019-12-02

Python: Optuna で決められた時間内で最適化する

Python Optuna scikit-learn 機械学習 Mac OS X

今回は Optuna の便利な使い方について。現行の Optuna (v0.19.0) には決められた時間内で可能な限り最適化したい、というニーズを満たす API が実装されている。使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVe…

2019-11-30

Python: featuretools ではじめる総当り特徴量エンジニアリング

Python 機械学習 pandas featuretools Mac OS X

今回は featuretools というパッケージを用いた総当り特徴量エンジニアリング (brute force feature engineering) について書いてみる。総当り特徴量エンジニアリングは、実際に効くか効かないかに関係なく、考えられるさまざまな処理を片っ端から説明変数…

2019-11-09

Python: Optuna の LightGBMTuner で Stepwise Tuning を試す

LightGBM 機械学習 scikit-learn pandas Mac OS X

先日の PyData.tokyo で発表されていた Optuna の LightGBMTuner だけど v0.18.0 でリリースされたらしい。まだ Experimental (実験的) リリースでドキュメントも整備されていないけど、動くみたいなのでコードを眺めながら試してみた。 github.com LightGB…

2019-11-07

Python: 広義の Target Encoding と Stacking は同じもの (と解釈できる)

Python 機械学習 scikit-learn pandas Mac OS X

おそらく、既に分かっている人には「知らなかったの？」とびっくりされる系の話なんだろうけど、今さら理解したので備忘録として残しておく。結論から書くと、目的変数を用いた特徴量生成を広義の Target Encoding と定義した場合、Target Encoding と Stac…

2019-10-31

Python: Target Encoding のやり方について

Python 機械学習統計 pandas NumPy

データ分析コンペでは Target Encoding という特徴量抽出の手法が用いられることがある。 Target Encoding では、一般的に説明変数に含まれるカテゴリ変数と目的変数を元にして特徴量を作り出す。データによっては強力な反面、目的変数をエンコードに用いる…

2019-10-31

Python: sklearn-pandas で scikit-learn と pandas の食べ合わせを改善する

Python 機械学習 scikit-learn pandas NumPy Mac OS X

Python を使った機械学習でよく用いられるパッケージの scikit-learn は API の入出力に numpy の配列を仮定している。そのため、データフレームの実装である pandas と一緒に使おうとすると、色々な場面で食べ合わせの悪さを感じることになる。今回は、そ…

2019-09-22

NVIDIA Container Toolkit を使って Docker コンテナで GPU を使う

Docker Docker Compose GPU 機械学習

今回は NVIDIA Container Toolkit を使って Docker コンテナから Docker ホストの GPU を使う方法について書く。これまで Docker コンテナで GPU を使う方法は、nvidia-docker と nvidia-docker2 という二つの世代を経てきた。それも、ここに来てやっと一…