Python: TensorFlow2 の自動微分を試してみる

今回は、TensorFlow2 のプリミティブな API を使って、自動微分と勾配法で計算グラフを最適化する方法が気になったので試してみた。普段は Keras (tf.keras) を使ったミニバッチ学習をすることが多いけど、データのサイズが小さければバッチ学習で解く選択…

2021-02-04

Python: TensorFlow/Keras で Word2Vec の CBOW を実装してみる

TensorFlow Keras NLP NeuralNetwork 機械学習 macOS

(2021-02-04 追記): ニューラルネットワークのアーキテクチャで、出力側の Embedding が誤って Dense になっていた部分を修正した。 Word2Vec の CBOW (Continuous Bag-of-Words) は、単語の分散表現 (Word Embedding) を得るために用いられるニューラルネッ…

2021-02-01

Python: 正の相互情報量 (PPMI) と特異値分解 (SVD) を使った単語の分散表現

Python NLP scikit-learn NumPy 機械学習統計 macOS

(2021-02-02 追記): 共起行列の計算を NumPy の Integer array indexing を使った実装にしたオライリーの「ゼロから作るDeep Learning ❷ ――自然言語処理編」を読んでいる。この中に、カウントベースで計算する初歩的な単語の分散表現が紹介されていて、な…

2021-01-15

Python: TensorFlow/Keras で Entity Embedding を試してみる

Keras TensorFlow NeuralNetwork macOS 機械学習

ニューラルネットワークでカテゴリ変数を扱う方法としては One-Hot エンコーディングがある。しかし、One-Hot エンコーディングでは特徴量のカーディナリティが高いと扱う次元数が大きくなる。そこで、今回紹介する Entity Embedding を使うと、ラベルエン…

2021-01-08

Python: LightGBM の cv() 関数と SHAP を使ってみる

LightGBM SHAP macOS 機械学習 Matplotlib XAI

以前、このブログでは機械学習モデルの解釈可能性を向上させる手法として SHAP を扱った。 blog.amedama.jp 上記のエントリでは、LightGBM の train() 関数と共に、モデルの学習に使ったデータを解釈していた。今度は cv() 関数を使って、Out-of-Fold なデ…

2020-12-07

Python: 主成分分析を重み付き和への分解と解釈した場合の可視化

scikit-learn Matplotlib 機械学習 macOS

読んでいる本の中に、主成分分析 (Principal Component Analysis; PCA) はデータを重み付き和に分解していると解釈することもできる、という記述があった。なるほどーと思ったので、今回はそれについて試してみた。使った環境は次のとおり。 $ sw_vers Pro…

2020-11-30

動作中の Docker コンテナからイメージを作る

Docker macOS

Docker コンテナを使って技術検証をしているときに、色々と試行錯誤している場面では、ある手順から作業をやり直したくなることがある。すべての作業がすぐに終わるなら特に問題にはならないものの、時間がかかる場合には初めからやり直したときに大きなロ…

2020-11-27

シェルスクリプトで数値をゼロパディングする

macOS Linux ShellScript

シェルスクリプトを書いていると、数値をゼロパディングする必要に迫られることがある。たとえば、ファイル名や日付を処理するときに多い。結論から先に述べると、数値のゼロパディングは printf(1) を使うことで実現できる。使った環境は次のとおり。 $ …

2020-11-14

GNU date で月末の日付を得る

macOS Homebrew GNU

今回は、GNU date を使って月末の日付を得る方法について。シェルスクリプトで一ヶ月単位の処理を書こうとすると、よく調べることになるのでメモしておく。検証に使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.15.7 Build…

2020-11-12

シェルスクリプトの中でスクリプトのあるディレクトリを取得する

ShellScript macOS

シェルスクリプトの中から、実行したスクリプトのあるディレクトリを必要とする場面はちょいちょいある。たとえば、スクリプトの中で相対パスを使って別のファイルを読み込むような処理が典型的だと思う。その場合、スクリプトを実行したときのカレントデ…

2020-11-06

Python: OmegaConf を使ってみる

Python macOS

OmegaConf は、Python の Configuration フレームワークのひとつ。 Hydra が低レイヤー API に利用している、という点が有名だと思う。というより、Hydra を使おうとすると OmegaConf の API が部分的にそのまま露出していることに気づく。なので、OmegaCo…

2020-10-11

リモートの Docker ホストでコンテナを SSH Port Forward 経由で動かす

Docker Ubuntu18.04LTS TCP/IP macOS

今回は、Docker クライアントをリモートの Docker ホストに SSH Port Forward 経由で接続させてコンテナを操作する方法を試してみる。まず、Docker クライアントの環境は次のとおり。 macOS に Docker for Mac をインストールしてある。 $ sw_vers ProductN…

2020-10-10

Python: LIME (Local Interpretable Model Explanations) を LightGBM と使ってみる

LightGBM JupyterLab macOS 機械学習

今回は、機械学習モデルの解釈可能性を向上させる手法のひとつである LIME (Local Interpretable Model Explanations) を LightGBM と共に使ってみる。 LIME は、大局的には非線形なモデルを、局所的に線形なモデルを使って近似することで、予測の解釈を試み…

2020-10-08

Python: MLflow Models の Custom Python Models でデータを Pickle 以外に永続化する

MLflow Python 機械学習 MLOps macOS

以前、このブログでは MLflow Models の使い方について以下のようなエントリを書いた。この中では、Custom Python Models を作るときに、データを Python の Pickle 形式のファイルとして永続化していた。今回は、それ以外のファイルにデータを永続化する…

2020-10-01

Python: MLflow Models を使ってみる

MLflow 機械学習 scikit-learn LightGBM macOS

MLflow は MLOps に関連した OSS のひとつ。いくつかのコンポーネントに分かれていて、それぞれを必要に応じて独立して使うことができる。その中でも、今回扱う MLflow Models は主に学習済みモデルやパイプラインの取り回しに関するコンポーネント。 MLfl…

2020-08-22

Python: LightGBM の cv() 関数から得られるモデルの特徴量の重要度を可視化してみる

LightGBM 機械学習 macOS scikit-learn Seaborn

今回は LightGBM の cv() 関数から得られる複数の学習済み Booster から特徴量の重要度を取り出して可視化してみる。それぞれの Booster 毎のバラつきなどから各特徴量の傾向などが確認できるかもしれない。使った環境は次のとおり。 $ sw_vers ProductNam…

2020-08-13

Python: SHAP (SHapley Additive exPlanations) を LightGBM と使ってみる

Python 機械学習 JupyterLab LightGBM macOS Matplotlib scikit-learn

SHAP は協力ゲーム理論にもとづいて機械学習モデルを解釈する手法と、その実装を指している。今回は、あまり理論の部分には踏み込むことなく、使い方を中心として書いていく。使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 1…

2020-08-05

Python: Null Importance を使った特徴量選択について

Python scikit-learn LightGBM 機械学習 macOS Matplotlib

今回は特徴量選択 (Feature Selection) の手法のひとつとして使われることのある Null Importance を試してみる。 Null Importance というのは、目的変数をシャッフルして意味がなくなった状態で学習させたモデルから得られる特徴量の重要度を指す。では、…

2020-06-16

Python: 画像データをフーリエ変換して周波数領域で扱ってみる

Digital Signal Processing Python NumPy Matplotlib macOS

フーリエ変換は音声データに対して用いられることが多い手法だけど、画像データにも応用が効く。音声データの場合、フーリエ変換を使うことで時間領域の情報を周波数領域の情報に直せる。それに対し、画像データでは空間領域の情報を周波数領域の情報に直…

2020-06-13

Python: UMAP を使ってみる

Python scikit-learn 機械学習 macOS

UMAP (Uniform Manifold Approximation and Projection) は次元削減手法のひとつ。似た手法としては t-SNE (t-distributed Stochastic Neighbor Embedding) があるけど、それよりも高速らしい。公式のベンチマークが以下で紹介されていて、t-SNE に比べる…

2020-06-11

Python: XGBoost の cv() 関数から学習済みモデルを取り出す

Python XGBoost 機械学習 scikit-learn macOS

今回は、以下のエントリを XGBoost で焼き直したもの。つまり、XGBoost でも cv() 関数から学習済みモデルを取り出して Fold Averaging してみようという話。 blog.amedama.jp 使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 1…

2020-06-06

kubectl の複数の設定ファイルを一つにマージする

Kubernetes macOS

何度も調べることになりそうなのでメモしておく。 kubectl で複数の設定ファイルがあるときに、ひとつにまとめる方法について。使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVersion: 18G5033 $ kubectl versio…

2020-06-04

Python: MLflow Tracking を使ってみる

Python MLflow scikit-learn SQLAlchemy LightGBM 機械学習 macOS

MLflow は MLOps に関連した OSS のひとつ。いくつかのコンポーネントに分かれていて、それぞれを必要に応じて独立して使うことができる。今回は、その中でも実験の管理と可視化を司る MLflow Tracking を試してみることにした。機械学習のプロジェクトで…

2020-06-01

Python: Optuna の LightGBMTunerCV から学習済みモデルを取り出す

LightGBM Optuna Python scikit-learn 機械学習 macOS

Optuna v1.5.0 では、LightGBM インテグレーションの一環として LightGBMTunerCV という API が追加された。これは LightGBM の cv() 関数を Step-wise algorithm で最適化するラッパーになっている。つまり、重要ないくつかのパラメータを Step-wise で調…

2020-05-28

kind (Kubernetes IN Docker) を使ってみる

Kubernetes Docker macOS

今回は Kubernetes の開発で使われている公式ツールの kind を使ってみる。このツールを使うと Docker のコンテナを使って Kubernetes のクラスタが素早く簡単に構築できる。使った環境は次のとおり。 $ sw_vers ProductName: macOS ProductVersion: 11.6 …