Python: 集約特徴量を作るための scikit-learn Transformer 互換クラスの実装例について

scikit-learn pandas 機械学習統計 Python macOS

ふと、集約特徴量を作るための scikit-learn Transformer 互換な実装を巷であまり見かけないなと思った。そこで、自作しているものを公開してみる。使った環境は次のとおり。 $ sw_vers ProductName: macOS ProductVersion: 12.4 BuildVersion: 21F79 $ py…

2021-11-27

Apple Silicon 版の Mac で Miniforge を使ってサードパーティ製のパッケージをインストールする

Apple Silicon macOS Python scikit-learn LightGBM

これを書いている現在 (2021-11)、Apple Silicon 版の Mac を使って Python の開発環境を整えようとすると、なかなかしんどい。しんどさの主な要因は、サードパーティ製のパッケージが Apple Silicon をまだサポートしていない場合が多い点にある。たとえ…

2021-10-09

Python: PyTorch の MultiheadAttention を検算してみる

PyTorch Python NeuralNetwork macOS 機械学習

今回は、言わずと知れた Transformer 1 において、処理の中心的な役割を果たしている (とされる) Multi-Head Attention を扱ってみる。これは、Scaled Dot Product Attention という処理を改良したもの。 PyTorch には Multi-Head Attention の実装として M…

2021-09-19

Python: Luigi の DateIntervalParameter について

Luigi Python macOS

バッチ処理に特化した Python のデータパイプライン構築用のフレームワークに Luigi がある。今回は、特定の時系列的な範囲を Task が受け取るのに使える DateIntervalParameter というパラメータを紹介する。これは、たとえば一週間とか一ヶ月あるいは特…

2021-09-19

Python: Luigi の RangeDaily 系の使い方と注意点について

Luigi Python macOS

Python の Luigi はバッチ処理に特化したデータパイプライン構築用のフレームワーク。バッチ処理に特化しているとあって、定期的に実行する系のユーティリティも色々と用意されている。今回は、その中でも特定の期間に実行すべきバッチ処理をまとめて扱う…

2021-08-26

Python: PyTorch の GRU / LSTM を検算してみる

Python PyTorch NeuralNetwork

以前のエントリで扱った Simple RNN の検算は、個人的になかなか良い勉強になった。 blog.amedama.jp そこで、今回は Simple RNN の改良版となる GRU (Gated Recurrent Unit) と LSTM (Long Short Term Memory) についても検算してみる。使った環境は次のと…

2021-08-20

Python: PyTorch の RNN を検算してみる

PyTorch Python 機械学習 NeuralNetwork macOS

今回は、PyTorch の RNN (Recurrent Neural Network) が内部的にどんな処理をしているのか確認してみる。なお、ここでいう RNN は、再起的な構造をもったニューラルネットワークの総称ではなく、いわゆる古典的な Simple RNN を指している。これを書いてい…

2021-08-01

Python: Google Colaboratory で Cloud TPU を TensorFlow から試してみる

TPU TensorFlow Python Google Colaboratory

Google Colaboratory では、ランタイムのタイプを変更することで Cloud TPU (Tensor Processing Unit) を利用できる。 Cloud TPU は、Google が開発しているハードウェアアクセラレータの一種。利用することで、行列計算のパフォーマンス向上が期待できる。…

2021-07-28

Python: Session State API で Streamlit をステートフルにする

Python Streamlit macOS

これまで Streamlit で書いた Web アプリケーションは、基本的にステートレスだった。つまり、何らかのイベントが生じてアプリケーションのコードが再評価されると、ウィジェットを除くほとんどすべてのオブジェクトの状態はリセットされていた。アプリケ…

2021-07-23

Python: TFRecord フォーマットについて

Python TensorFlow Protocol Buffers

TFRecord フォーマットは、TensorFlow がサポートしているデータセットの表現形式の一つ。このフォーマットは、一言で表すと TensorFlow で扱うデータを Protocol Buffers でシリアライズしたものになっている。特に、Dataset API との親和性に優れていた…

2021-06-26

Python: Luigi でタスク共通のパラメータを扱う

Python Luigi

今回は、Luigi で複数のタスクが共通のパラメータを扱う方法について考えてみる。ここらへん、調べてもあまりドキュメントなどが出てこなかった。なので、ソースコードを読んでリバースエンジニアリング的に「こういう風にできそう」と判明した内容を書い…

2021-06-24

Python: Jupyter の IPython Kernel にスタートアップスクリプトを登録する

JupyterLab Python

今回は Jupyter の IPython Kernel に、スタートアップスクリプトを登録する方法について書いてみる。スタートアップスクリプトというのは、カーネルの起動時に読み込まれるコードのこと。 IPython Kernel というのは、いわゆるフツーのノートブックを Jupy…

2021-06-24

Python: Luigi から S3 互換のオブジェクトストレージを使う

AWS Luigi Python

今回は、Python のデータパイプライン構築用フレームワークの Luigi から、Amazon 以外が提供している S3 互換のオブジェクトストレージを利用する方法について書いてみる。 S3 互換のオブジェクトストレージとしては、ひとまず以下のエントリで紹介した Min…

2021-05-29

S3 互換オブジェクトストレージの OSS - MinIO を試す

macOS Homebrew AWS Python

MinIO は Amazon S3 互換のオブジェクトストレージを提供する OSS のひとつ。たとえばオンプレ環境でオブジェクトストレージを構築したいときや、手元で S3 を扱うアプリケーションの動作確認をするときなんかに使える。今回はそんな MinIO を AWS CLI と …

2021-05-14

Python: Streamlit を使って手早く WebUI 付きのプロトタイプを作る

Streamlit Python pandas Matplotlib 機械学習統計 macOS

Streamlit は、ざっくり言うと主にデータサイエンス領域において WebUI 付きのアプリケーションを手早く作るためのソフトウェア。使い所としては、ひとまず動くものを見せたかったり、少人数で試しに使うレベルのプロトタイプを作るフェーズに適していると…

2021-04-03

Python: LightGBM の学習に使うデータ量と最適なイテレーション数の関係性について

LightGBM 機械学習 Seaborn scikit-learn Python macOS

XGBoost は同じデータセットとパラメータを用いた場合、学習に使うデータの量 (行数) と最適なイテレーション数が線形な関係にあることが経験的に知られている 1。今回は、それが同じ GBDT (Gradient Boosting Decision Tree) の一手法である LightGBM にも…

2021-03-19

Python: LightGBM の決定木を可視化して分岐を追ってみる

LightGBM Python macOS Matplotlib Graphviz 機械学習

今回は、LightGBM が構築するブースターに含まれる決定木を可視化した上で、その分岐を追いかけてみよう。その過程を通して、LightGBM の最終的な出力がどのように得られているのかを確認してみよう。使った環境は次のとおり。 $ sw_vers ProductName: mac…

2021-03-04

Python: ipywidgets で Jupyter に簡単な UI を作る

jupyter Matplotlib Python macOS

Jupyter を使ってデータを可視化していると、似たようなグラフを何度も描くことがある。そんなとき、変数の値を変更しながらグラフを描画するセルを実行しまくるのは効率があまりよくない。そこで、今回は ipywidgets を使って簡単な UI を作ることで、Jup…

2021-02-14

Python: NumPy の empty() / zeros() を呼び出した直後は物理メモリの使用量が増えない

Python NumPy Linux Ubuntu20.04LTS

表題のとおりなんだけど、NumPy の empty() や zeros() は呼び出した直後はメモリの RSS (Resident Set Size) が増えない。ようするに、呼び出した直後は配列に物理メモリが割り当てられていない、ということ。今回は、そのせいでちょっとハマったのでメモ…

2021-02-04

Python: TensorFlow2 の自動微分を試してみる

TensorFlow Python macOS 機械学習

今回は、TensorFlow2 のプリミティブな API を使って、自動微分と勾配法で計算グラフを最適化する方法が気になったので試してみた。普段は Keras (tf.keras) を使ったミニバッチ学習をすることが多いけど、データのサイズが小さければバッチ学習で解く選択…

2021-02-01

Python: 正の相互情報量 (PPMI) と特異値分解 (SVD) を使った単語の分散表現

Python NLP scikit-learn NumPy 機械学習統計 macOS

(2021-02-02 追記): 共起行列の計算を NumPy の Integer array indexing を使った実装にしたオライリーの「ゼロから作るDeep Learning ❷ ――自然言語処理編」を読んでいる。この中に、カウントベースで計算する初歩的な単語の分散表現が紹介されていて、な…

2021-01-30

Python: REPL に複数行をペーストしたときの挙動が変わって困った件について

Python Homebrew

表題のとおりなんだけど、最近 Python の REPL に複数行のコードをペーストしたときの挙動が以前と変わってしまい困っていた。その Python というのは、具体的には Homebrew でインストールしたものや、Pyenv を使ってソースコードからビルドしたもの。使…

2020-12-16

Python: GPU を使う主要なパッケージで CUDA が有効か確かめる方法について

Python CUDA GPGPU 機械学習 Ubuntu18.04LTS

CUDA を利用する Python のパッケージは、多くの場合それ自体のバージョンだけでなく対応している CUDA Toolkit や cuDNN のバージョンまで気にする必要がある。なんだか環境やコンテナイメージを作るたびに確認する方法や互換性について調べている気がする…

2020-11-10

Python: SQLAlchemy のテーブルに後からインデックスを追加する

SQLAlchemy Python SQLite Alembic

今回は、Python の O/R マッパーである SQLAlchemy について。テーブルを定義した時点のモデルには無かったインデックスを、後から追加する方法についてメモしておく。なお、実務における RDBMS のスキーマ変更に関しては、Alembic のようなフレームワーク…

2020-11-06

Python: OmegaConf を使ってみる

Python macOS

OmegaConf は、Python の Configuration フレームワークのひとつ。 Hydra が低レイヤー API に利用している、という点が有名だと思う。というより、Hydra を使おうとすると OmegaConf の API が部分的にそのまま露出していることに気づく。なので、OmegaCo…