Python: PyTorch で Adagrad を実装してみる

今回は、以下の記事の続きとして PyTorch で Adagrad を実装したオプティマイザを自作してみる。以下の記事では単純な SGD と Momentum を導入した SGD を実装した。 blog.amedama.jp 今回扱う Adagrad のアルゴリズムではパラメータごとに学習率を自動で調…

2023-11-27

Python: scikit-learn の set_output API で pandas との食べ合わせが改善された

scikit-learn pandas Python 機械学習

これまで scikit-learn が提供する TransformerMixin の実装 1 は、出力に NumPy 配列を仮定していた。そのため、pandas の DataFrame を入力しても出力は NumPy 配列になってしまい、使い勝手が良くないという問題があった。この問題は、特に Pipeline や…

2023-07-14

Python: LightGBM v4.0 の CUDA 実装を試す

LightGBM CUDA GPU 機械学習 Python

LightGBM のバージョン 4.0.0 が 2023-07-14 にリリースされた。このリリースは久しぶりのメジャーアップデートで、様々な改良が含まれている。詳細については、以下のリリースノートで確認できる。 github.com リリースの大きな目玉として CUDA を使った…

2023-04-20

Python: scikit-learn の LabelEncoder を説明変数の変換に使うのは誤り

scikit-learn Python 機械学習

scikit-learn の LabelEncoder を説明変数の変換に使っている例はたくさん見つかる。しかし、実は本来 LabelEncoder は目的変数の変換に使うことが想定されていることは、あまり知られていない。これは公式のドキュメントで確認できる。 scikit-learn.org …

2023-03-17

Python: CatBoost をいくつかの環境でベンチマークしてみる

CatBoost 機械学習 macOS Ubuntu

今回は GBDT (Gradient Boosting Decision Tree) フレームワークのひとつである CatBoost について、いくつかの環境で同一のソースコードを使って学習にかかる時間を比較してみた。きっかけは、最近入手した Apple M2 Pro を搭載した Mac mini が、どれくら…

2023-01-11

Target Encoding のスムージングについて

機械学習統計 Python

Target (Mean) Encoding の出典は、2001 年の ACM SIGKDD Explorations Newsletter, Volume 3, Issue 1 に掲載された以下の論文らしい。 https://dl.acm.org/doi/10.1145/507533.507538 この論文には Target Encoding のスムージングに関する詳しい記述があ…

2022-12-29

Python: PyTorch でバックプロパゲーションが上手くいかない場所を自動で見つける

PyTorch Python 機械学習

PyTorch を使っていると、はるか遠く離れた場所で計算した結果に nan や inf が含まれることで、思いもよらない場所から非直感的なエラーを生じることがある。あるいは、自動微分したときにゼロ除算が生じるようなパターンでは、順伝搬の結果だけ見ていても…

2022-12-27

Python: TabNet を使ってみる

NeuralNetwork PyTorch LightGBM 機械学習 scikit-learn Seaborn Ubuntu20.04LTS Linux

一般に、テーブルデータの教師あり学習では、勾配ブースティング決定木の性能の良さについて語られることが多い。これは、汎化性能の高さや前処理の容易さ、学習・推論の速さ、解釈可能性の高さなどが理由として挙げられる。一方で、ニューラルネットワー…

2022-10-31

Python: category_encoders の CatBoostEncoder を用いた OrderedTS の算出と多値分類タスクへの拡張について

機械学習 pandas 統計 Python macOS

データ分析コンペなどでよく利用される Target Encoding という特徴量抽出 (Feature Extraction) の手法がある。これは、ターゲット (目的変数) の情報に基づいて、カテゴリ変数ごとの期待値を説明変数として利用するもの。 Target Encoding には、いくつか…

2022-07-04

いつの間にか MLflow Tracking Server が Artifact のプロキシに対応していた

MLflow macOS Python 機械学習

以前の MLflow Tracking Server では、アーティファクトを保存する場所については URI としてクライアントに伝えるだけだった。クライアントは、サーバから教えてもらった URI に自分でつなぎにいく。この形では、アクセスするためのクレデンシャルがそれ…

2022-06-24

nvidia-smi(1) で GPU にパワーリミットを設定して消費電力や発熱を減らす

GPU GPGPU Ubuntu Ubuntu20.04LTS 機械学習

自宅にあるオンプレマシンでグラフィックカードを GPGPU の用途に使用していると、消費電力や発熱は切実な問題になりうる。特に昨今は電気代の値上がりも著しいし、発熱は製品寿命の短縮や夏だと室温の上昇につながる。そこで、今回は Linux の環境で nvid…

2022-05-24

Python: 集約特徴量を作るための scikit-learn Transformer 互換クラスの実装例について

scikit-learn pandas 機械学習統計 Python macOS

ふと、集約特徴量を作るための scikit-learn Transformer 互換な実装を巷であまり見かけないなと思った。そこで、自作しているものを公開してみる。使った環境は次のとおり。 $ sw_vers ProductName: macOS ProductVersion: 12.4 BuildVersion: 21F79 $ py…

2022-03-09

Python: Prophet で単変量の時系列予測を試す

Prophet 機械学習

Prophet は Meta (旧 Facebook) が中心となって開発している OSS の時系列予測フレームワーク。目的変数のトレンド、季節性、イベントや外部説明変数を加味した時系列予測を簡単にできることが特徴として挙げられる。使い所としては、精度はさほど追求しな…

2022-02-20

Python: xfeat を使った特徴量エンジニアリング

scikit-learn 機械学習 macOS LightGBM

今回は PFN が公開している OSS の xfeat を使った特徴量エンジニアリングについて見ていく。 xfeat には次のような特徴がある。多くの機能が scikit-learn の Transformer 互換の API で提供されている多くの機能が CuPy / CuDF に対応しているため CUDA …

2021-10-09

Python: PyTorch の MultiheadAttention を検算してみる

PyTorch Python NeuralNetwork macOS 機械学習

今回は、言わずと知れた Transformer 1 において、処理の中心的な役割を果たしている (とされる) Multi-Head Attention を扱ってみる。これは、Scaled Dot Product Attention という処理を改良したもの。 PyTorch には Multi-Head Attention の実装として M…

2021-08-20

Python: PyTorch の RNN を検算してみる

PyTorch Python 機械学習 NeuralNetwork macOS

今回は、PyTorch の RNN (Recurrent Neural Network) が内部的にどんな処理をしているのか確認してみる。なお、ここでいう RNN は、再起的な構造をもったニューラルネットワークの総称ではなく、いわゆる古典的な Simple RNN を指している。これを書いてい…

2021-05-14

Python: Streamlit を使って手早く WebUI 付きのプロトタイプを作る

Streamlit Python pandas Matplotlib 機械学習統計 macOS

Streamlit は、ざっくり言うと主にデータサイエンス領域において WebUI 付きのアプリケーションを手早く作るためのソフトウェア。使い所としては、ひとまず動くものを見せたかったり、少人数で試しに使うレベルのプロトタイプを作るフェーズに適していると…

2021-04-03

Python: LightGBM の学習に使うデータ量と最適なイテレーション数の関係性について

LightGBM 機械学習 Seaborn scikit-learn Python macOS

XGBoost は同じデータセットとパラメータを用いた場合、学習に使うデータの量 (行数) と最適なイテレーション数が線形な関係にあることが経験的に知られている 1。今回は、それが同じ GBDT (Gradient Boosting Decision Tree) の一手法である LightGBM にも…

2021-03-19

Python: LightGBM の決定木を可視化して分岐を追ってみる

LightGBM Python macOS Matplotlib Graphviz 機械学習

今回は、LightGBM が構築するブースターに含まれる決定木を可視化した上で、その分岐を追いかけてみよう。その過程を通して、LightGBM の最終的な出力がどのように得られているのかを確認してみよう。使った環境は次のとおり。 $ sw_vers ProductName: mac…

2021-02-23

Python: TensorFlow/Keras で Word2Vec の SGNS を実装してみる

TensorFlow NLP 機械学習

以前のエントリで、Word2Vec の CBOW (ContinuousBagOfWords) モデルを TensorFlow/Keras で実装した。 CBOW は、コンテキスト (周辺語) からターゲット (入力語) を推定する多値分類のタスクが考え方のベースになっている。 blog.amedama.jp 今回扱うのは、…

2021-02-20

Python: TensorFlow の Dataset API を試す

TensorFlow 機械学習

ニューラルネットワークの並列計算には、今や GPU や TPU を使うのが一般的になっている。一方で、それらのデバイスにデータを供給する部分がボトルネックにならないよう気をつけなければいけない。具体的には、デバイスが計算している最中に、次に計算す…

2021-02-04

Python: TensorFlow2 の自動微分を試してみる

TensorFlow Python macOS 機械学習

今回は、TensorFlow2 のプリミティブな API を使って、自動微分と勾配法で計算グラフを最適化する方法が気になったので試してみた。普段は Keras (tf.keras) を使ったミニバッチ学習をすることが多いけど、データのサイズが小さければバッチ学習で解く選択…

2021-02-04

Python: TensorFlow/Keras で Word2Vec の CBOW を実装してみる

TensorFlow Keras NLP NeuralNetwork 機械学習 macOS

(2021-02-04 追記): ニューラルネットワークのアーキテクチャで、出力側の Embedding が誤って Dense になっていた部分を修正した。 Word2Vec の CBOW (Continuous Bag-of-Words) は、単語の分散表現 (Word Embedding) を得るために用いられるニューラルネッ…

2021-02-01

Python: 正の相互情報量 (PPMI) と特異値分解 (SVD) を使った単語の分散表現

Python NLP scikit-learn NumPy 機械学習統計 macOS

(2021-02-02 追記): 共起行列の計算を NumPy の Integer array indexing を使った実装にしたオライリーの「ゼロから作るDeep Learning ❷ ――自然言語処理編」を読んでいる。この中に、カウントベースで計算する初歩的な単語の分散表現が紹介されていて、な…

2021-01-15

Python: TensorFlow/Keras で Entity Embedding を試してみる

Keras TensorFlow NeuralNetwork macOS 機械学習

ニューラルネットワークでカテゴリ変数を扱う方法としては One-Hot エンコーディングがある。しかし、One-Hot エンコーディングでは特徴量のカーディナリティが高いと扱う次元数が大きくなる。そこで、今回紹介する Entity Embedding を使うと、ラベルエン…

2021-01-08

Python: LightGBM の cv() 関数と SHAP を使ってみる

LightGBM SHAP macOS 機械学習 Matplotlib XAI

以前、このブログでは機械学習モデルの解釈可能性を向上させる手法として SHAP を扱った。 blog.amedama.jp 上記のエントリでは、LightGBM の train() 関数と共に、モデルの学習に使ったデータを解釈していた。今度は cv() 関数を使って、Out-of-Fold なデ…

2020-12-16

Python: GPU を使う主要なパッケージで CUDA が有効か確かめる方法について

Python CUDA GPGPU 機械学習 Ubuntu18.04LTS

CUDA を利用する Python のパッケージは、多くの場合それ自体のバージョンだけでなく対応している CUDA Toolkit や cuDNN のバージョンまで気にする必要がある。なんだか環境やコンテナイメージを作るたびに確認する方法や互換性について調べている気がする…

2020-12-07

Python: 主成分分析を重み付き和への分解と解釈した場合の可視化

scikit-learn Matplotlib 機械学習 macOS

読んでいる本の中に、主成分分析 (Principal Component Analysis; PCA) はデータを重み付き和に分解していると解釈することもできる、という記述があった。なるほどーと思ったので、今回はそれについて試してみた。使った環境は次のとおり。 $ sw_vers Pro…

2020-10-19

Python: MLflow Projects を使ってみる

MLflow MLOps 機械学習 Ubuntu20.04LTS

MLflow は MLOps に関連した OSS のひとつ。いくつかのコンポーネントに分かれていて、それぞれを必要に応じて独立して使うことができる。今回は、その中でも MLflow Projects というコンポーネントを使ってみる。 MLflow Projects を使うと、なるべく環境…

2020-10-10

Python: LIME (Local Interpretable Model Explanations) を LightGBM と使ってみる

LightGBM JupyterLab macOS 機械学習

今回は、機械学習モデルの解釈可能性を向上させる手法のひとつである LIME (Local Interpretable Model Explanations) を LightGBM と共に使ってみる。 LIME は、大局的には非線形なモデルを、局所的に線形なモデルを使って近似することで、予測の解釈を試み…

CUBE SUGAR CONTAINER

技術系のこと書きます。

機械学習