Python: scikit-learn の set_output API で pandas との食べ合わせが改善された

これまで scikit-learn が提供する TransformerMixin の実装 1 は、出力に NumPy 配列を仮定していた。そのため、pandas の DataFrame を入力しても出力は NumPy 配列になってしまい、使い勝手が良くないという問題があった。この問題は、特に Pipeline や…

2023-04-20

Python: scikit-learn の LabelEncoder を説明変数の変換に使うのは誤り

scikit-learn Python 機械学習

scikit-learn の LabelEncoder を説明変数の変換に使っている例はたくさん見つかる。しかし、実は本来 LabelEncoder は目的変数の変換に使うことが想定されていることは、あまり知られていない。これは公式のドキュメントで確認できる。 scikit-learn.org …

2022-12-27

Python: TabNet を使ってみる

NeuralNetwork PyTorch LightGBM 機械学習 scikit-learn seaborn Ubuntu20.04LTS Linux

一般に、テーブルデータの教師あり学習では、勾配ブースティング決定木の性能の良さについて語られることが多い。これは、汎化性能の高さや前処理の容易さ、学習・推論の速さ、解釈可能性の高さなどが理由として挙げられる。一方で、ニューラルネットワー…

2022-05-24

Python: 集約特徴量を作るための scikit-learn Transformer 互換クラスの実装例について

scikit-learn pandas 機械学習統計 Python Mac OS X

ふと、集約特徴量を作るための scikit-learn Transformer 互換な実装を巷であまり見かけないなと思った。そこで、自作しているものを公開してみる。使った環境は次のとおり。 $ sw_vers ProductName: macOS ProductVersion: 12.4 BuildVersion: 21F79 $ py…

2022-02-20

Python: xfeat を使った特徴量エンジニアリング

scikit-learn 機械学習 Mac OS X LightGBM

今回は PFN が公開している OSS の xfeat を使った特徴量エンジニアリングについて見ていく。 xfeat には次のような特徴がある。多くの機能が scikit-learn の Transformer 互換の API で提供されている多くの機能が CuPy / CuDF に対応しているため CUDA …

2021-11-27

Apple Silicon 版の Mac で Miniforge を使ってサードパーティ製のパッケージをインストールする

Apple Silicon Mac OS X Python scikit-learn LightGBM

これを書いている現在 (2021-11)、Apple Silicon 版の Mac を使って Python の開発環境を整えようとすると、なかなかしんどい。しんどさの主な要因は、サードパーティ製のパッケージが Apple Silicon をまだサポートしていない場合が多い点にある。たとえ…

2021-04-03

Python: LightGBM の学習に使うデータ量と最適なイテレーション数の関係性について

LightGBM 機械学習 seaborn scikit-learn Python Mac OS X

XGBoost は同じデータセットとパラメータを用いた場合、学習に使うデータの量 (行数) と最適なイテレーション数が線形な関係にあることが経験的に知られている 1。今回は、それが同じ GBDT (Gradient Boosting Decision Tree) の一手法である LightGBM にも…

2021-02-01

Python: 正の相互情報量 (PPMI) と特異値分解 (SVD) を使った単語の分散表現

Python NLP scikit-learn NumPy 機械学習統計 Mac OS X

(2021-02-02 追記): 共起行列の計算を NumPy の Integer array indexing を使った実装にしたオライリーの「ゼロから作るDeep Learning ❷ ――自然言語処理編」を読んでいる。この中に、カウントベースで計算する初歩的な単語の分散表現が紹介されていて、な…

2020-12-07

Python: 主成分分析を重み付き和への分解と解釈した場合の可視化

scikit-learn matplotlib 機械学習 Mac OS X

読んでいる本の中に、主成分分析 (Principal Component Analysis; PCA) はデータを重み付き和に分解していると解釈することもできる、という記述があった。なるほどーと思ったので、今回はそれについて試してみた。使った環境は次のとおり。 $ sw_vers Pro…

2020-10-01

Python: MLflow Models を使ってみる

MLflow 機械学習 scikit-learn LightGBM Mac OS X

MLflow は MLOps に関連した OSS のひとつ。いくつかのコンポーネントに分かれていて、それぞれを必要に応じて独立して使うことができる。その中でも、今回扱う MLflow Models は主に学習済みモデルやパイプラインの取り回しに関するコンポーネント。 MLfl…

2020-08-22

Python: LightGBM の cv() 関数から得られるモデルの特徴量の重要度を可視化してみる

LightGBM 機械学習 Mac OS X scikit-learn seaborn

今回は LightGBM の cv() 関数から得られる複数の学習済み Booster から特徴量の重要度を取り出して可視化してみる。それぞれの Booster 毎のバラつきなどから各特徴量の傾向などが確認できるかもしれない。使った環境は次のとおり。 $ sw_vers ProductNam…

2020-08-13

Python: SHAP (SHapley Additive exPlanations) を LightGBM と使ってみる

Python 機械学習 JupyterLab LightGBM Mac OS X matplotlib scikit-learn

SHAP は協力ゲーム理論にもとづいて機械学習モデルを解釈する手法と、その実装を指している。今回は、あまり理論の部分には踏み込むことなく、使い方を中心として書いていく。使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 1…

2020-08-05

Python: Null Importance を使った特徴量選択について

Python scikit-learn LightGBM 機械学習 Mac OS X matplotlib

今回は特徴量選択 (Feature Selection) の手法のひとつとして使われることのある Null Importance を試してみる。 Null Importance というのは、目的変数をシャッフルして意味がなくなった状態で学習させたモデルから得られる特徴量の重要度を指す。では、…

2020-06-13

Python: UMAP を使ってみる

Python scikit-learn 機械学習 Mac OS X

UMAP (Uniform Manifold Approximation and Projection) は次元削減手法のひとつ。似た手法としては t-SNE (t-distributed Stochastic Neighbor Embedding) があるけど、それよりも高速らしい。公式のベンチマークが以下で紹介されていて、t-SNE に比べる…

2020-06-11

Python: XGBoost の cv() 関数から学習済みモデルを取り出す

Python XGBoost 機械学習 scikit-learn Mac OS X

今回は、以下のエントリを XGBoost で焼き直したもの。つまり、XGBoost でも cv() 関数から学習済みモデルを取り出して Fold Averaging してみようという話。 blog.amedama.jp 使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 1…

2020-06-04

Python: MLflow Tracking を使ってみる

Python MLflow scikit-learn SQLAlchemy LightGBM 機械学習 Mac OS X

MLflow は MLOps に関連した OSS のひとつ。いくつかのコンポーネントに分かれていて、それぞれを必要に応じて独立して使うことができる。今回は、その中でも実験の管理と可視化を司る MLflow Tracking を試してみることにした。機械学習のプロジェクトで…

2020-06-01

Python: Optuna の LightGBMTunerCV から学習済みモデルを取り出す

LightGBM Optuna Python scikit-learn 機械学習 Mac OS X

Optuna v1.5.0 では、LightGBM インテグレーションの一環として LightGBMTunerCV という API が追加された。これは LightGBM の cv() 関数を Step-wise algorithm で最適化するラッパーになっている。つまり、重要ないくつかのパラメータを Step-wise で調…

2020-05-07

Python: 学習済み機械学習モデルの特性を PDP で把握する

Python scikit-learn matplotlib 機械学習

機械学習を用いるタスクで、モデルの解釈可能性 (Interpretability) が重要となる場面がある。今回は、モデルの解釈可能性を得る手法のひとつとして PDP (Partial Dependence Plot: 部分従属プロット) を扱ってみる。 PDP を使うと、モデルにおいて説明変数…

2020-03-27

Python: 時系列データの交差検証と TimeSeriesSplit の改良について

Python scikit-learn pandas seaborn matplotlib Mac OS X 機械学習統計

一般的に、時系列データを扱うタスクでは過去のデータを使って未来のデータを予測することになる。そのため、交差検証するときも過去のデータを使ってモデルを学習させた上で未来のデータを使って検証しなければいけない。もし、未来のデータがモデルの学…

2019-12-02

Python: Optuna で決められた時間内で最適化する

Python Optuna scikit-learn 機械学習 Mac OS X

今回は Optuna の便利な使い方について。現行の Optuna (v0.19.0) には決められた時間内で可能な限り最適化したい、というニーズを満たす API が実装されている。使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVe…

2019-11-09

Python: Optuna の LightGBMTuner で Stepwise Tuning を試す

LightGBM 機械学習 scikit-learn pandas Mac OS X

先日の PyData.tokyo で発表されていた Optuna の LightGBMTuner だけど v0.18.0 でリリースされたらしい。まだ Experimental (実験的) リリースでドキュメントも整備されていないけど、動くみたいなのでコードを眺めながら試してみた。 github.com LightGB…