Apple Silicon 版の Mac で Miniforge を使ってサードパーティ製のパッケージをインストールする

これを書いている現在 (2021-11)、Apple Silicon 版の Mac を使って Python の開発環境を整えようとすると、なかなかしんどい。しんどさの主な要因は、サードパーティ製のパッケージが Apple Silicon をまだサポートしていない場合が多い点にある。たとえ…

2021-11-17

Multipass を使って Apple Silicon 版の Mac で Ubuntu の仮想マシンを扱う

Multipass Apple Silicon macOS Ubuntu

Apple Silicon (M1) の載った Mac mini を購入してからというもの、ローカルで仮想マシンを手軽に立ち上げる方法を模索している。 Intel 版の Mac であれば Vagrant + VirtualBox を使っていたけど、残念ながら VirtualBox は ISA が x86 / amd64 のシステム…

2021-10-20

Overlay Filesystem と Docker について

Docker Linux Ubuntu20.04LTS

Linux で利用できるファイルシステムの一つに Overlay Filesystem (OverlayFS) がある。このファイルシステムは、Docker が推奨しているストレージドライバの overlay2 が利用していることで有名。今回は、そんな OverlayFS を Docker を介さずに扱ってみ…

2021-10-09

Python: PyTorch の MultiheadAttention を検算してみる

PyTorch Python NeuralNetwork macOS 機械学習

今回は、言わずと知れた Transformer 1 において、処理の中心的な役割を果たしている (とされる) Multi-Head Attention を扱ってみる。これは、Scaled Dot Product Attention という処理を改良したもの。 PyTorch には Multi-Head Attention の実装として M…

2021-09-19

Python: Luigi の DateIntervalParameter について

Luigi Python macOS

バッチ処理に特化した Python のデータパイプライン構築用のフレームワークに Luigi がある。今回は、特定の時系列的な範囲を Task が受け取るのに使える DateIntervalParameter というパラメータを紹介する。これは、たとえば一週間とか一ヶ月あるいは特…

2021-09-19

Python: Luigi の RangeDaily 系の使い方と注意点について

Luigi Python macOS

Python の Luigi はバッチ処理に特化したデータパイプライン構築用のフレームワーク。バッチ処理に特化しているとあって、定期的に実行する系のユーティリティも色々と用意されている。今回は、その中でも特定の期間に実行すべきバッチ処理をまとめて扱う…

2021-08-26

Python: PyTorch の GRU / LSTM を検算してみる

Python PyTorch NeuralNetwork

以前のエントリで扱った Simple RNN の検算は、個人的になかなか良い勉強になった。 blog.amedama.jp そこで、今回は Simple RNN の改良版となる GRU (Gated Recurrent Unit) と LSTM (Long Short Term Memory) についても検算してみる。使った環境は次のと…

2021-08-20

Python: PyTorch の RNN を検算してみる

PyTorch Python 機械学習 NeuralNetwork macOS

今回は、PyTorch の RNN (Recurrent Neural Network) が内部的にどんな処理をしているのか確認してみる。なお、ここでいう RNN は、再起的な構造をもったニューラルネットワークの総称ではなく、いわゆる古典的な Simple RNN を指している。これを書いてい…

2021-08-01

Python: Google Colaboratory で Cloud TPU を TensorFlow から試してみる

TPU TensorFlow Python Google Colaboratory

Google Colaboratory では、ランタイムのタイプを変更することで Cloud TPU (Tensor Processing Unit) を利用できる。 Cloud TPU は、Google が開発しているハードウェアアクセラレータの一種。利用することで、行列計算のパフォーマンス向上が期待できる。…

2021-07-28

Python: Session State API で Streamlit をステートフルにする

Python Streamlit macOS

これまで Streamlit で書いた Web アプリケーションは、基本的にステートレスだった。つまり、何らかのイベントが生じてアプリケーションのコードが再評価されると、ウィジェットを除くほとんどすべてのオブジェクトの状態はリセットされていた。アプリケ…

2021-07-23

Python: TFRecord フォーマットについて

Python TensorFlow Protocol Buffers

TFRecord フォーマットは、TensorFlow がサポートしているデータセットの表現形式の一つ。このフォーマットは、一言で表すと TensorFlow で扱うデータを Protocol Buffers でシリアライズしたものになっている。特に、Dataset API との親和性に優れていた…

2021-06-26

Python: Luigi でタスク共通のパラメータを扱う

Python Luigi

今回は、Luigi で複数のタスクが共通のパラメータを扱う方法について考えてみる。ここらへん、調べてもあまりドキュメントなどが出てこなかった。なので、ソースコードを読んでリバースエンジニアリング的に「こういう風にできそう」と判明した内容を書い…

2021-06-24

Python: Jupyter の IPython Kernel にスタートアップスクリプトを登録する

JupyterLab Python

今回は Jupyter の IPython Kernel に、スタートアップスクリプトを登録する方法について書いてみる。スタートアップスクリプトというのは、カーネルの起動時に読み込まれるコードのこと。 IPython Kernel というのは、いわゆるフツーのノートブックを Jupy…

2021-06-24

Python: Luigi から S3 互換のオブジェクトストレージを使う

AWS Luigi Python

今回は、Python のデータパイプライン構築用フレームワークの Luigi から、Amazon 以外が提供している S3 互換のオブジェクトストレージを利用する方法について書いてみる。 S3 互換のオブジェクトストレージとしては、ひとまず以下のエントリで紹介した Min…

2021-05-29

S3 互換オブジェクトストレージの OSS - MinIO を試す

macOS Homebrew AWS Python

MinIO は Amazon S3 互換のオブジェクトストレージを提供する OSS のひとつ。たとえばオンプレ環境でオブジェクトストレージを構築したいときや、手元で S3 を扱うアプリケーションの動作確認をするときなんかに使える。今回はそんな MinIO を AWS CLI と …

2021-05-21

iproute2 の ip-netns(8) を使わずに Network Namespace を操作する

Linux Network Namespace Ubuntu20.04LTS TCP/IP

今回は、iproute2 の ip-netns(8) を使わずに、Linux の Network Namespace を操作する方法について書いてみる。目的は、namespaces(7) について、より深い理解を得ること。使った環境は次のとおり。 $ cat /etc/lsb-release DISTRIB_ID=Ubuntu DISTRIB_RE…

2021-05-14

Python: Streamlit を使って手早く WebUI 付きのプロトタイプを作る

Streamlit Python pandas Matplotlib 機械学習統計 macOS

Streamlit は、ざっくり言うと主にデータサイエンス領域において WebUI 付きのアプリケーションを手早く作るためのソフトウェア。使い所としては、ひとまず動くものを見せたかったり、少人数で試しに使うレベルのプロトタイプを作るフェーズに適していると…

2021-04-03

Python: LightGBM の学習に使うデータ量と最適なイテレーション数の関係性について

LightGBM 機械学習 Seaborn scikit-learn Python macOS

XGBoost は同じデータセットとパラメータを用いた場合、学習に使うデータの量 (行数) と最適なイテレーション数が線形な関係にあることが経験的に知られている 1。今回は、それが同じ GBDT (Gradient Boosting Decision Tree) の一手法である LightGBM にも…

2021-03-19

Python: LightGBM の決定木を可視化して分岐を追ってみる

LightGBM Python macOS Matplotlib Graphviz 機械学習

今回は、LightGBM が構築するブースターに含まれる決定木を可視化した上で、その分岐を追いかけてみよう。その過程を通して、LightGBM の最終的な出力がどのように得られているのかを確認してみよう。使った環境は次のとおり。 $ sw_vers ProductName: mac…

2021-03-04

Python: ipywidgets で Jupyter に簡単な UI を作る

jupyter Matplotlib Python macOS

Jupyter を使ってデータを可視化していると、似たようなグラフを何度も描くことがある。そんなとき、変数の値を変更しながらグラフを描画するセルを実行しまくるのは効率があまりよくない。そこで、今回は ipywidgets を使って簡単な UI を作ることで、Jup…

2021-02-23

Python: TensorFlow/Keras で Word2Vec の SGNS を実装してみる

TensorFlow NLP 機械学習

以前のエントリで、Word2Vec の CBOW (ContinuousBagOfWords) モデルを TensorFlow/Keras で実装した。 CBOW は、コンテキスト (周辺語) からターゲット (入力語) を推定する多値分類のタスクが考え方のベースになっている。 blog.amedama.jp 今回扱うのは、…

2021-02-20

Python: TensorFlow の Dataset API を試す

TensorFlow 機械学習

ニューラルネットワークの並列計算には、今や GPU や TPU を使うのが一般的になっている。一方で、それらのデバイスにデータを供給する部分がボトルネックにならないよう気をつけなければいけない。具体的には、デバイスが計算している最中に、次に計算す…

2021-02-14

Python: NumPy の empty() / zeros() を呼び出した直後は物理メモリの使用量が増えない

Python NumPy Linux Ubuntu20.04LTS

表題のとおりなんだけど、NumPy の empty() や zeros() は呼び出した直後はメモリの RSS (Resident Set Size) が増えない。ようするに、呼び出した直後は配列に物理メモリが割り当てられていない、ということ。今回は、そのせいでちょっとハマったのでメモ…

2021-02-04

Python: TensorFlow2 の自動微分を試してみる

TensorFlow Python macOS 機械学習

今回は、TensorFlow2 のプリミティブな API を使って、自動微分と勾配法で計算グラフを最適化する方法が気になったので試してみた。普段は Keras (tf.keras) を使ったミニバッチ学習をすることが多いけど、データのサイズが小さければバッチ学習で解く選択…

2021-02-04

Python: TensorFlow/Keras で Word2Vec の CBOW を実装してみる

TensorFlow Keras NLP NeuralNetwork 機械学習 macOS

(2021-02-04 追記): ニューラルネットワークのアーキテクチャで、出力側の Embedding が誤って Dense になっていた部分を修正した。 Word2Vec の CBOW (Continuous Bag-of-Words) は、単語の分散表現 (Word Embedding) を得るために用いられるニューラルネッ…

2021-02-01

Python: 正の相互情報量 (PPMI) と特異値分解 (SVD) を使った単語の分散表現

Python NLP scikit-learn NumPy 機械学習統計 macOS

(2021-02-02 追記): 共起行列の計算を NumPy の Integer array indexing を使った実装にしたオライリーの「ゼロから作るDeep Learning ❷ ――自然言語処理編」を読んでいる。この中に、カウントベースで計算する初歩的な単語の分散表現が紹介されていて、な…