Python: Streamlit を使って手早く WebUI 付きのプロトタイプを作る

Streamlit Python pandas Matplotlib 機械学習統計 macOS

Streamlit は、ざっくり言うと主にデータサイエンス領域において WebUI 付きのアプリケーションを手早く作るためのソフトウェア。使い所としては、ひとまず動くものを見せたかったり、少人数で試しに使うレベルのプロトタイプを作るフェーズに適していると…

2021-03-19

Python: LightGBM の決定木を可視化して分岐を追ってみる

LightGBM Python macOS Matplotlib Graphviz 機械学習

今回は、LightGBM が構築するブースターに含まれる決定木を可視化した上で、その分岐を追いかけてみよう。その過程を通して、LightGBM の最終的な出力がどのように得られているのかを確認してみよう。使った環境は次のとおり。 $ sw_vers ProductName: mac…

2021-03-04

Python: ipywidgets で Jupyter に簡単な UI を作る

jupyter Matplotlib Python macOS

Jupyter を使ってデータを可視化していると、似たようなグラフを何度も描くことがある。そんなとき、変数の値を変更しながらグラフを描画するセルを実行しまくるのは効率があまりよくない。そこで、今回は ipywidgets を使って簡単な UI を作ることで、Jup…

2021-01-08

Python: LightGBM の cv() 関数と SHAP を使ってみる

LightGBM SHAP macOS 機械学習 Matplotlib XAI

以前、このブログでは機械学習モデルの解釈可能性を向上させる手法として SHAP を扱った。 blog.amedama.jp 上記のエントリでは、LightGBM の train() 関数と共に、モデルの学習に使ったデータを解釈していた。今度は cv() 関数を使って、Out-of-Fold なデ…

2020-12-07

Python: 主成分分析を重み付き和への分解と解釈した場合の可視化

scikit-learn Matplotlib 機械学習 macOS

読んでいる本の中に、主成分分析 (Principal Component Analysis; PCA) はデータを重み付き和に分解していると解釈することもできる、という記述があった。なるほどーと思ったので、今回はそれについて試してみた。使った環境は次のとおり。 $ sw_vers Pro…

2020-08-13

Python: SHAP (SHapley Additive exPlanations) を LightGBM と使ってみる

Python 機械学習 JupyterLab LightGBM macOS Matplotlib scikit-learn

SHAP は協力ゲーム理論にもとづいて機械学習モデルを解釈する手法と、その実装を指している。今回は、あまり理論の部分には踏み込むことなく、使い方を中心として書いていく。使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 1…

2020-08-05

Python: Null Importance を使った特徴量選択について

Python scikit-learn LightGBM 機械学習 macOS Matplotlib

今回は特徴量選択 (Feature Selection) の手法のひとつとして使われることのある Null Importance を試してみる。 Null Importance というのは、目的変数をシャッフルして意味がなくなった状態で学習させたモデルから得られる特徴量の重要度を指す。では、…

2020-06-16

Python: 画像データをフーリエ変換して周波数領域で扱ってみる

Digital Signal Processing Python NumPy Matplotlib macOS

フーリエ変換は音声データに対して用いられることが多い手法だけど、画像データにも応用が効く。音声データの場合、フーリエ変換を使うことで時間領域の情報を周波数領域の情報に直せる。それに対し、画像データでは空間領域の情報を周波数領域の情報に直…

2020-05-07

Python: 学習済み機械学習モデルの特性を PDP で把握する

Python scikit-learn Matplotlib 機械学習

機械学習を用いるタスクで、モデルの解釈可能性 (Interpretability) が重要となる場面がある。今回は、モデルの解釈可能性を得る手法のひとつとして PDP (Partial Dependence Plot: 部分従属プロット) を扱ってみる。 PDP を使うと、モデルにおいて説明変数…

2020-04-16

Python: Keras で Convolutional AutoEncoder を書いてみる

Python Keras TensorFlow Matplotlib 機械学習 NeuralNetwork

以前に Keras で AutoEncoder を実装するエントリを書いた。このときは AutoEncoder を構成する Neural Network のアーキテクチャとして単純な全結合層から成る MLP (Multi Layer Perceptron) を使っている。 blog.amedama.jp 一方で、データとして画像を扱…

2020-04-01

Python: 中心化移動平均 (CMA: Centered Moving Average) について

Python pandas Seaborn Matplotlib 統計

以前から移動平均 (MA: Moving Average) という手法自体は知っていたけど、中心化移動平均 (CMA: Centered Moving Average) というものがあることは知らなかった。一般的な移動平均である後方移動平均は、データの対応関係が原系列に対して遅れてしまう。 …

2020-03-27

Python: 時系列データの交差検証と TimeSeriesSplit の改良について

Python scikit-learn pandas Seaborn Matplotlib macOS 機械学習統計

一般的に、時系列データを扱うタスクでは過去のデータを使って未来のデータを予測することになる。そのため、交差検証するときも過去のデータを使ってモデルを学習させた上で未来のデータを使って検証しなければいけない。もし、未来のデータがモデルの学…

2019-09-08

Python: Keras で AutoEncoder を書いてみる

Python Keras NeuralNetwork macOS 機械学習 Matplotlib

今回はニューラルネットワークのフレームワークの Keras を使って AutoEncoder を書いてみる。 AutoEncoder は入力になるべく近い出力をするように学習したネットワークをいう。 AutoEncoder は特徴量の次元圧縮や異常検知など、幅広い用途に用いられている…

2019-09-04

Python: Keras の学習曲線をコールバックで動的にプロットする

Keras Matplotlib Python 機械学習統計 TensorFlow macOS

Keras でニューラルネットワークの学習が進む様子は一般的にコンソールの出力で確認できる。しかし、もっと視覚的にリアルタイムで確認したいと考えて、今回はコールバックと Matplotlib を駆使して可視化してみることにした。使った環境は次の通り。 $ sw…

2019-08-25

Python: LightGBM で Under-sampling + Bagging したモデルを Probability Calibration してみる

LightGBM Python 機械学習統計 scikit-learn Matplotlib macOS

クラス間の要素数に偏りのある不均衡なデータに対する分類問題のアプローチとして、多いクラスのデータを減らすアンダーサンプリングという手法がある。データをアンダーサンプリングしてモデルに学習させることで、評価指標が改善したりモデルの学習時間を…

2019-07-25

Python: Kivy と Matplotlib でデータセットの確認ツールを書いてみる

Python Kivy Matplotlib 機械学習

以前、このブログで Kivy で作った GUI に Matplotlib のグラフを埋め込む方法について書いた。 blog.amedama.jp 今回は、これを応用したツール作りをしてみる。といっても、やっていることは単純で先の例にボタンを付けてインタラクティブにした程度にすぎ…

2019-07-18

Python: LightGBM の学習率を動的に制御する

LightGBM scikit-learn Seaborn Matplotlib 機械学習

LightGBM の学習率は基本的に低い方が最終的に得られるモデルの汎化性能が高くなることが経験則として知られている。しかしながら、学習率が低いとモデルの学習に多くのラウンド数、つまり計算量を必要とする。そこで、今回は学習率を学習の過程において動…

2019-06-06

Python: LightGBM の学習曲線をコールバックで動的にプロットする

Python LightGBM Matplotlib 機械学習 macOS

LightGBM の学習が進む様子は、学習させるときにオプションとして verbose_eval などを指定することでコンソールから確認できる。ただ、もっと視覚的にリアルタイムで確認したいなーと思ったので、今回はコールバックと Matplotlib を使って学習曲線を動的…

2019-04-30

Python: seaborn を使った可視化を試してみる

Python 統計 Seaborn Matplotlib

今回は、Python の有名な可視化ライブラリである matplotlib のラッパーとして動作する seaborn を試してみる。 seaborn を使うと、よく必要になる割に matplotlib をそのまま使うと面倒なグラフが簡単に描ける。毎回、使うときに検索することになるので備…

2019-04-20

Python: RFE (Recursive Feature Elimination) で特徴量を選択してみる

Python scikit-learn macOS Matplotlib 機械学習 Optuna

今回は RFE (Recursive Feature Elimination) と呼ばれる手法を使って特徴量選択 (Feature Selection) してみる。教師データの中には、モデルの性能に寄与しない特徴量が含まれている場合がある。アルゴリズムがノイズに対して理想的にロバストであれば、…

2019-04-20

Python: IsolationForest で教師なし学習の外れ値検知を試す

Python Matplotlib scikit-learn 機械学習 macOS

今回は教師なし学習で外れ値の検知に使える IsolationForest というアルゴリズムを試してみる。このアルゴリズムの興味深いところは、教師データの中にある程度外れ値が含まれていても構わないという点。つまり、アノテーションしていないデータをそのまま…

2019-02-25

Python: Adversarial Validation について

Python 機械学習 scikit-learn Matplotlib macOS

最近、Kaggle などのデータ分析コンペで使われることの多い Adversarial Validation という手法について調べたり考えていたので書いてみる。もくじもくじ背景 Adversarial Validation 試してみる下準備二つのデータが同じ分布に由来するとき二つのデー…

2019-02-16

Python: CatBoost を使ってみる

Python CatBoost 機械学習統計 macOS scikit-learn Matplotlib

今回は CatBoost という、機械学習の勾配ブースティング決定木 (Gradient Boosting Decision Tree) というアルゴリズムを扱うためのフレームワークを試してみる。 CatBoost は、同じ勾配ブースティング決定木を扱うフレームワークの LightGBM や XGBoost と…

2019-02-10

Python: k-NN Feature Extraction 用のライブラリ「gokinjo」を作った

Python 機械学習統計 scikit-learn Matplotlib Kaggle

表題の通り、k-NN Feature Extraction という特徴量抽出の手法に使う「gokinjo」という Python のライブラリを作った。今回はライブラリの使い方について紹介してみる。 github.com k-NN Feature Extraction で得られる特徴量は、Otto Group Product Classi…

2019-01-29

Python: XGBoost を使ってみる

Python 機械学習 scikit-learn XGBoost Matplotlib Kaggle macOS

XGBoost (eXtreme Gradient Boosting) は勾配ブースティング決定木 (Gradient Boosting Decision Tree) のアルゴリズムを実装したオープンソースのライブラリ。最近は、同じ GBDT 系のライブラリである LightGBM にややお株を奪われつつあるものの、依然と…

2018-11-11

Python: k-NN Feature Extraction について

Python 統計機械学習 scikit-learn Matplotlib macOS

k-NN Feature Extraction (k-近傍法を用いた特徴量抽出) という手法があるらしい。これは、文字通り k-NN (k-Nearest Neighbor algorithm: k-近傍法) を特徴量の抽出に応用したもの。興味深かったので、今回は自分でも Python を使って実装してみた。手法…