Python: Keras で AutoEncoder を書いてみる

Python Keras NeuralNetwork macOS 機械学習 Matplotlib

今回はニューラルネットワークのフレームワークの Keras を使って AutoEncoder を書いてみる。 AutoEncoder は入力になるべく近い出力をするように学習したネットワークをいう。 AutoEncoder は特徴量の次元圧縮や異常検知など、幅広い用途に用いられている…

2019-09-05

Python: pandas のデータ型をキャストしてメモリを節約してみる

Python pandas Seaborn 機械学習統計 macOS

pandas の DataFrame は明示的にデータ型を指定しないと整数型や浮動小数点型のカラムを 64 ビットで表現する。 pandas の DataFrame は、表現に使うビット数が大きいと、メモリ上のオブジェクトのサイズも当然ながら大きくなる。そこで、今回は DataFrame …

2019-09-05

Python: LightGBM で学習済みモデルを自動で永続化するコールバックを書いてみた

LightGBM Python scikit-learn 機械学習統計 macOS Keras

ニューラルネットワークを実装するためのフレームワークの Keras は LightGBM と似たようなコールバックの機構を備えている。そして、いくつか標準で用意されているコールバックがある。 keras.io そんな中に ModelCheckpoint というコールバックがあって、…

2019-09-04

Python: Keras の学習曲線をコールバックで動的にプロットする

Keras Matplotlib Python 機械学習統計 TensorFlow macOS

Keras でニューラルネットワークの学習が進む様子は一般的にコンソールの出力で確認できる。しかし、もっと視覚的にリアルタイムで確認したいと考えて、今回はコールバックと Matplotlib を駆使して可視化してみることにした。使った環境は次の通り。 $ sw…

2019-08-25

Python: LightGBM で Under-sampling + Bagging したモデルを Probability Calibration してみる

LightGBM Python 機械学習統計 scikit-learn Matplotlib macOS

クラス間の要素数に偏りのある不均衡なデータに対する分類問題のアプローチとして、多いクラスのデータを減らすアンダーサンプリングという手法がある。データをアンダーサンプリングしてモデルに学習させることで、評価指標が改善したりモデルの学習時間を…

2019-08-21

Python: Under-sampling + Bagging なモデルを簡単に作れる K-Fold を実装してみた

Python LightGBM scikit-learn 機械学習 macOS

不均衡データに対する分類問題のアプローチとして、多いクラスのデータを取り除く Under-sampling という手法がある。さらに、複数の Under-sampling したデータを用いて、複数のモデルを用意する Bagging という手法を組み合わせることがある。今回は、そ…

2019-08-17

Python: PySpark でサードパーティ製のライブラリを使って分散処理する

Apache Spark PySpark Python Apache Hadoop 機械学習 scikit-learn

今回は PySpark でサードパーティ製のライブラリを使って分散処理をする方法について。サンプルとして、次のような状況を試した。 Apache Spark + Hadoop YARN で構築した分散処理用のクラスタを用いるサードパーティ製のライブラリとして scikit-learn を…

2019-07-25

Python: Kivy と Matplotlib でデータセットの確認ツールを書いてみる

Python Kivy Matplotlib 機械学習

以前、このブログで Kivy で作った GUI に Matplotlib のグラフを埋め込む方法について書いた。 blog.amedama.jp 今回は、これを応用したツール作りをしてみる。といっても、やっていることは単純で先の例にボタンを付けてインタラクティブにした程度にすぎ…

2019-07-18

Python: LightGBM の学習率を動的に制御する

LightGBM scikit-learn Seaborn Matplotlib 機械学習

LightGBM の学習率は基本的に低い方が最終的に得られるモデルの汎化性能が高くなることが経験則として知られている。しかしながら、学習率が低いとモデルの学習に多くのラウンド数、つまり計算量を必要とする。そこで、今回は学習率を学習の過程において動…

2019-06-07

Python: LightGBM を Git のソースコードからインストールする

LightGBM Python 機械学習 macOS

今回は LightGBM の Python パッケージを Git のソースコードからインストールする方法について。まだリリースされていない最新の機能を使いたい、あるいは自分で改造したパッケージを使いたい、といった場合に。なお、インストール方法は以下に記載されて…

2019-06-06

Python: LightGBM の学習曲線をコールバックで動的にプロットする

Python LightGBM Matplotlib 機械学習 macOS

LightGBM の学習が進む様子は、学習させるときにオプションとして verbose_eval などを指定することでコンソールから確認できる。ただ、もっと視覚的にリアルタイムで確認したいなーと思ったので、今回はコールバックと Matplotlib を使って学習曲線を動的…

2019-05-30

Python: scikit-learn の Dummy{Classifier,Regressor} を試してみる

Python scikit-learn 機械学習 macOS

つい最近 scikit-learn に DummyClassifier と DummyRegressor という実装があることを知ったので試してみた。これらの実装は、説明変数の内容は使わず、主に目的変数の内容を代わりに使って、その名の通りダミーの結果を返す。特定のデータセットと評価指…

2019-05-27

Ubuntu 18.04 LTS で NVIDIA-Docker2 を使ってみる

Docker Unix Linux 機械学習 Ubuntu18.04LTS TensorFlow DeepLearning

(2019-09-22 追記) NVIDIA-Docker2 は現在では非推奨 (Deprecated) な方法となっています。代わりに NVIDIA Container Toolkit を使ってください。 blog.amedama.jp ニューラルネットワークに代表される機械学習の一部のアルゴリズムでは、学習する上で大量…

2019-04-20

Python: RFE (Recursive Feature Elimination) で特徴量を選択してみる

Python scikit-learn macOS Matplotlib 機械学習 Optuna

今回は RFE (Recursive Feature Elimination) と呼ばれる手法を使って特徴量選択 (Feature Selection) してみる。教師データの中には、モデルの性能に寄与しない特徴量が含まれている場合がある。アルゴリズムがノイズに対して理想的にロバストであれば、…

2019-04-20

Python: IsolationForest で教師なし学習の外れ値検知を試す

Python Matplotlib scikit-learn 機械学習 macOS

今回は教師なし学習で外れ値の検知に使える IsolationForest というアルゴリズムを試してみる。このアルゴリズムの興味深いところは、教師データの中にある程度外れ値が含まれていても構わないという点。つまり、アノテーションしていないデータをそのまま…

2019-04-20

Python: scikit-learn の cross_val_predict() 関数で OOF な特徴量を作る

Python pandas scikit-learn 機械学習

scikit-learn には cross_val_predict() という関数がある。この関数は、教師データを k-Fold などで分割したときに OOF (Out of Fold) なデータの目的変数を推論する目的で使われることが多い。なお、OOF (Out of Fold) というのは、k-Fold などでデータ…

2019-03-31

Python: LightGBM でカスタムメトリックを扱う

Python LightGBM macOS 機械学習

今回は LightGBM で、組み込みで用意されていない独自の評価指標 (カスタムメトリック) を扱う方法について。ユースケースとしては、学習自体は別の評価指標を使って進めつつ、本来の目標としている評価指標を同時に確認するといったもの。例えば、精度 (A…

2019-03-30

Python: LightGBM の cv() 関数から学習済みモデルを得る

LightGBM Python 機械学習 scikit-learn

(2020-09-05 追記) LightGBM v3.0.0 から cv() 関数に return_cvbooster オプションが追加されました。これにより直接 CVBooster のインスタンスが取得できるため、下記のコールバックを使う必要はなくなりました。勾配ブースティング決定木を扱うフレーム…

2019-03-16

Python: pandas でグループごとにデータをサンプリングする

Python pandas 機械学習統計

取り扱うデータをサンプリングする機会は意外と多い。ユースケースとしては、例えばデータが多すぎて扱いにくい場合や、グループごとに件数の偏りのある場合が挙げられる。今回は pandas を使ってグループごとに特定の件数をサンプリングする方法について…

2019-02-25

Python: Adversarial Validation について

Python 機械学習 scikit-learn Matplotlib macOS

最近、Kaggle などのデータ分析コンペで使われることの多い Adversarial Validation という手法について調べたり考えていたので書いてみる。もくじもくじ背景 Adversarial Validation 試してみる下準備二つのデータが同じ分布に由来するとき二つのデー…

2019-02-22

Python: scikit-learn の cross_validate() 関数で独自の評価指標を計算する

Python scikit-learn 機械学習

今回は scikit-learn の cross_validate() 関数で、組み込みでは用意されていないような評価指標を計算する方法について書く。使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.3 BuildVersion: 18D109 $ python -V Python 3…

2019-02-16

Python: CatBoost を使ってみる

Python CatBoost 機械学習統計 macOS scikit-learn Matplotlib

今回は CatBoost という、機械学習の勾配ブースティング決定木 (Gradient Boosting Decision Tree) というアルゴリズムを扱うためのフレームワークを試してみる。 CatBoost は、同じ勾配ブースティング決定木を扱うフレームワークの LightGBM や XGBoost と…

2019-02-10

Python: k-NN Feature Extraction 用のライブラリ「gokinjo」を作った

Python 機械学習統計 scikit-learn Matplotlib Kaggle

表題の通り、k-NN Feature Extraction という特徴量抽出の手法に使う「gokinjo」という Python のライブラリを作った。今回はライブラリの使い方について紹介してみる。 github.com k-NN Feature Extraction で得られる特徴量は、Otto Group Product Classi…

2019-01-29

Python: XGBoost を使ってみる

Python 機械学習 scikit-learn XGBoost Matplotlib Kaggle macOS

XGBoost (eXtreme Gradient Boosting) は勾配ブースティング決定木 (Gradient Boosting Decision Tree) のアルゴリズムを実装したオープンソースのライブラリ。最近は、同じ GBDT 系のライブラリである LightGBM にややお株を奪われつつあるものの、依然と…

2019-01-28

Python: Hyperopt で機械学習モデルのハイパーパラメータを選ぶ

Python 機械学習 scikit-learn hyperopt macOS

今回は、機械学習モデルのハイパーパラメータをチューニングするのに用いられる Python のフレームワークの一つとして Hyperopt を使ってみる。このフレームワークは、機械学習コンペティションの一つである Kaggle でよく用いられるものとして知られている…

2018-12-16

Python: 機械学習における不均衡データの問題点と対処法について

機械学習統計 Python scikit-learn

機械学習における分類問題では、扱うデータセットに含まれるラベルに偏りのあるケースがある。これは、例えば異常検知の分野では特に顕著で、異常なデータというのは正常なデータに比べると極端に数が少ない。正常なデータが 99.99% なのに対し異常なデー…

2018-12-16

Python: アンサンブル学習の Voting を試す

機械学習 Python scikit-learn macOS 統計

今回は機械学習におけるアンサンブル学習の一種として Voting という手法を試してみる。これは、複数の学習済みモデルを用意して多数決などで推論の結果を決めるという手法。この手法を用いることで最終的なモデルの性能を上げられる可能性がある。実装に…

2018-12-06

Python: Optuna で機械学習モデルのハイパーパラメータを選ぶ

機械学習統計 scikit-learn Python macOS MySQL

今回は、ハイパーパラメータを最適化するフレームワークの一つである Optuna を使ってみる。このフレームワークは国内企業の Preferred Networks が開発の主体となっていて、ほんの数日前にオープンソースになったばかり。ハイパーパラメータ自動最適化ツ…

2018-11-18

Python: Annoy の近似最近傍探索 (ANN) を試す

Python scikit-learn 機械学習統計 macOS

今回は Spotify の作った近似最近傍探索 (ANN: Approximate Nearest Neighbor algorithms search) ライブラリの Annoy を試してみる。 ANN は k-NN (k-Nearest Neighbor algorithms search) の一種で、厳密な解を追い求めない代わりに高いスループットが得ら…

2018-11-11

Python: k-NN Feature Extraction について

Python 統計機械学習 scikit-learn Matplotlib macOS

k-NN Feature Extraction (k-近傍法を用いた特徴量抽出) という手法があるらしい。これは、文字通り k-NN (k-Nearest Neighbor algorithm: k-近傍法) を特徴量の抽出に応用したもの。興味深かったので、今回は自分でも Python を使って実装してみた。手法…

CUBE SUGAR CONTAINER

技術系のこと書きます。

機械学習

Python: Keras で AutoEncoder を書いてみる

Python: pandas のデータ型をキャストしてメモリを節約してみる

Python: LightGBM で学習済みモデルを自動で永続化するコールバックを書いてみた

Python: Keras の学習曲線をコールバックで動的にプロットする

Python: LightGBM で Under-sampling + Bagging したモデルを Probability Calibration してみる

Python: Under-sampling + Bagging なモデルを簡単に作れる K-Fold を実装してみた

Python: PySpark でサードパーティ製のライブラリを使って分散処理する

Python: Kivy と Matplotlib でデータセットの確認ツールを書いてみる

Python: LightGBM の学習率を動的に制御する

Python: LightGBM を Git のソースコードからインストールする

Python: LightGBM の学習曲線をコールバックで動的にプロットする

Python: scikit-learn の Dummy{Classifier,Regressor} を試してみる

Ubuntu 18.04 LTS で NVIDIA-Docker2 を使ってみる

Python: RFE (Recursive Feature Elimination) で特徴量を選択してみる

Python: IsolationForest で教師なし学習の外れ値検知を試す

Python: scikit-learn の cross_val_predict() 関数で OOF な特徴量を作る

Python: LightGBM でカスタムメトリックを扱う

Python: LightGBM の cv() 関数から学習済みモデルを得る

Python: pandas でグループごとにデータをサンプリングする

Python: Adversarial Validation について

Python: scikit-learn の cross_validate() 関数で独自の評価指標を計算する

Python: CatBoost を使ってみる

Python: k-NN Feature Extraction 用のライブラリ「gokinjo」を作った

Python: XGBoost を使ってみる

Python: Hyperopt で機械学習モデルのハイパーパラメータを選ぶ

Python: 機械学習における不均衡データの問題点と対処法について

Python: アンサンブル学習の Voting を試す

Python: Optuna で機械学習モデルのハイパーパラメータを選ぶ

Python: Annoy の近似最近傍探索 (ANN) を試す

Python: k-NN Feature Extraction について