Python: Keras でカスタムメトリックを扱う

今回は Keras に組み込みで用意されていない独自の評価指標 (カスタムメトリック) を扱う方法について書いてみる。なお、Keras でカスタムメトリックを定義する方法については、以下の公式ドキュメントに記載がある。 keras.io 使った環境は次のとおり。 Ke…

2020-05-16

Python: gensim の FAST_VERSION 定数の意味について

NLP gensim Python 機械学習 Mac OS X

Python の gensim には自然言語処理 (NLP) に関する様々な実装がある。そして、その中のいくつかのモジュールには FAST_VERSION という定数が定義されている。この定数は環境によって異なる値を取って、値によってパフォーマンスが大きく異なる場合がある…

2020-05-11

Python: gensim を使った Word Embedding の内省的評価について

NLP gensim 機械学習 Python

以下の書籍では、Word Embedding の評価方法として内省的評価 (intrinsic evaluation) と外省的評価 (extrinsic evaluation) という 2 つのやり方が紹介されている。内省的評価では、人間が判断した単語間の類似度や、単語の持つ意味を使ったアナロジーを、…

2020-05-09

Python: 使わない変数を "_" (アンダースコア) に代入するイディオム

Python

Python には、使わない変数であることを明確に示すためにアンダースコアに代入するというイディオムがある。今回は、そのイディオムについてあらためて紹介してみる。使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 B…

2020-05-07

Python: 学習済み機械学習モデルの特性を PDP で把握する

Python scikit-learn matplotlib 機械学習

機械学習を用いるタスクで、モデルの解釈可能性 (Interpretability) が重要となる場面がある。今回は、モデルの解釈可能性を得る手法のひとつとして PDP (Partial Dependence Plot: 部分従属プロット) を扱ってみる。 PDP を使うと、モデルにおいて説明変数…

2020-05-03

Python: PySpark で UDAF が作れない場合の回避策について

Python PySpark Apache Spark CentOS7 分散処理

PySpark では、ごく最近まで UDAF (User Defined Aggregate Function: ユーザ定義集計関数) がサポートされていなかった。 Apache Spark 2.3 以降では Pandas UDF を使うことで UDAF に相当する処理を書くことができるようになっている。今回は、それ以前の…

2020-05-01

Word2Vec 形式のファイルフォーマットについて

Python NLP 機械学習 gensim Mac OS X

Word2Vec では、Skip-gram や CBOW といったタスクを学習させたニューラルネットワークの隠れ層の重みを使って単語を特徴ベクトルにエンコードする。つまり、Word2Vec で成果物として得られるのは、コーパスの各単語に対応する特徴ベクトルになる。今回は…

2020-04-16

Python: Keras で Convolutional AutoEncoder を書いてみる

Python Keras TensorFlow matplotlib 機械学習 NeuralNetwork

以前に Keras で AutoEncoder を実装するエントリを書いた。このときは AutoEncoder を構成する Neural Network のアーキテクチャとして単純な全結合層から成る MLP (Multi Layer Perceptron) を使っている。 blog.amedama.jp 一方で、データとして画像を扱…

2020-04-09

Python: gensim で学習済み単語ベクトル表現を扱ってみる

NLP Python NeuralNetwork 機械学習 gensim

Python で自然言語処理を扱うためのパッケージのひとつに gensim がある。今回は、gensim で学習済み単語ベクトル表現 (Pre-trained Word Vectors) を使った Word Embedding を試してみた。 Word Embedding というのは単語 (Word) をベクトル表現の特徴量に…

2020-04-07

Python: statsmodels で時系列データを基本成分に分解する

Python 統計 statsmodels Mac OS X seaborn

時系列データを扱うとき、原系列が傾向変動・季節変動・不規則変動という基本成分の合成で成り立っていると捉えることがある。傾向変動は中長期的な増加・減少といった変化であり、季節変動は例えば 1 ヶ月や 1 年といった周期的な変化を指している。不規…

2020-04-01

Python: 中心化移動平均 (CMA: Centered Moving Average) について

Python pandas seaborn matplotlib 統計

以前から移動平均 (MA: Moving Average) という手法自体は知っていたけど、中心化移動平均 (CMA: Centered Moving Average) というものがあることは知らなかった。一般的な移動平均である後方移動平均は、データの対応関係が原系列に対して遅れてしまう。 …

2020-03-27

Python: 時系列データの交差検証と TimeSeriesSplit の改良について

Python scikit-learn pandas seaborn matplotlib Mac OS X 機械学習統計

一般的に、時系列データを扱うタスクでは過去のデータを使って未来のデータを予測することになる。そのため、交差検証するときも過去のデータを使ってモデルを学習させた上で未来のデータを使って検証しなければいけない。もし、未来のデータがモデルの学…

2020-03-17

Python: Luigi のパラメータ爆発問題について

Python Luigi Mac OS X

Luigi は、Python を使って実装された、バッチ処理のパイプラインを扱うためのフレームワーク。 Luigi でパイプラインを定義するときは、基本的には個別のタスクを依存関係でつないでいくことになる。このとき、扱う処理によってはパイプラインは長大になる…

2020-03-12

Python: Luigi のイベントハンドラを試してみる

Python Luigi Mac OS X

今回は、Luigi でタスクの開始や成功・失敗などのときに発火するイベントハンドラを扱ってみる。なお、Luigi はバッチ処理などのパイプラインを組むのに使われるソフトウェアのこと。基本的な使い方については以下を参照してほしい。 blog.amedama.jp 使っ…

2020-03-01

Python: Optuna を使って QWK の閾値を最適化してみる

Python Optuna LightGBM 機械学習統計 Mac OS X

最近、Twitter のタイムラインで QWK (Quadratic Weighted Kappa: 二次の重み付きカッパ係数) の最適化が話題になっていたので個人的に調べていた。 QWK は順序つきの多値分類問題を評価するための指標で、予測を大きく外すほど大きなペナルティが与えられる…

2019-12-02

Python: Optuna で決められた時間内で最適化する

Python Optuna scikit-learn 機械学習 Mac OS X

今回は Optuna の便利な使い方について。現行の Optuna (v0.19.0) には決められた時間内で可能な限り最適化したい、というニーズを満たす API が実装されている。使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 BuildVe…

2019-11-30

Python: featuretools ではじめる総当り特徴量エンジニアリング

Python 機械学習 pandas featuretools Mac OS X

今回は featuretools というパッケージを用いた総当り特徴量エンジニアリング (brute force feature engineering) について書いてみる。総当り特徴量エンジニアリングは、実際に効くか効かないかに関係なく、考えられるさまざまな処理を片っ端から説明変数…

2019-11-28

Python: 未処理の例外が上がったときの処理をオーバーライドする

Python Mac OS X

今回はだいぶダーティーな手法に関する話。未処理の例外が上がったときに走るデフォルトの処理をオーバーライドしてしまう方法について。あらかじめ断っておくと、どうしても必要でない限り、こんなことはやらない方が望ましい。とはいえ、これによって助…

2019-11-25

Python: 関数合成できる API を作ってみる

Python Mac OS X

今回は普通の Python では満足できなくなってしまった人向けの話題。 dfply や pipe といった一部のパッケージで採用されているパイプ処理や関数合成できる API を作る一つのやり方について。使った環境は次の通り。 $ sw_vers ProductName: Mac OS X Produ…

2019-11-25

Python: dfply を使ってみる

Python pandas Mac OS X

R には、データフレームを関数型プログラミングっぽく操作できるようになる dplyr というパッケージがある。今回紹介する dfply は、その API を Python に移植したもの。実用性云々は別としても、なかなか面白い作りで参考になった。使った環境は次の通…

2019-11-07

Python: 広義の Target Encoding と Stacking は同じもの (と解釈できる)

Python 機械学習 scikit-learn pandas Mac OS X

おそらく、既に分かっている人には「知らなかったの？」とびっくりされる系の話なんだろうけど、今さら理解したので備忘録として残しておく。結論から書くと、目的変数を用いた特徴量生成を広義の Target Encoding と定義した場合、Target Encoding と Stac…

2019-10-31

Python: Target Encoding のやり方について

Python 機械学習統計 pandas NumPy

データ分析コンペでは Target Encoding という特徴量抽出の手法が用いられることがある。 Target Encoding では、一般的に説明変数に含まれるカテゴリ変数と目的変数を元にして特徴量を作り出す。データによっては強力な反面、目的変数をエンコードに用いる…

2019-10-31

Python: sklearn-pandas で scikit-learn と pandas の食べ合わせを改善する

Python 機械学習 scikit-learn pandas NumPy Mac OS X

Python を使った機械学習でよく用いられるパッケージの scikit-learn は API の入出力に numpy の配列を仮定している。そのため、データフレームの実装である pandas と一緒に使おうとすると、色々な場面で食べ合わせの悪さを感じることになる。今回は、そ…

2019-10-22

Docker のマルチステージビルドで自前でビルドした Wheel を含むイメージを作る

Docker Python Wheel

今回は Docker のマルチステージビルドを使って Wheel が提供されていない Python パッケージを含む Docker イメージを作ってみる。これだけだと、なんのこっちゃという感じなので、以下で前提から説明しておく。まず、今の Python のパッケージングにはソ…

2019-10-09

python-livereload で Re:VIEW の執筆を捗らせてみる

Mac OS X Re:VIEW Python Sphinx

普段、Sphinx でドキュメントを書くときは sphinx-autobuild というツールを使っている。このツールを使うと、編集している内容をブラウザからリアルタイムで確認できるようになる。 blog.amedama.jp 今回は、上記のような環境が Re:VIEW でも欲しくて pyth…

2019-09-20

リモートサーバ上の Docker コンテナで JupyterLab を使う

Docker Docker Compose JupyterLab jupyter Python

今回のエントリは、以下のエントリの改訂版となる。起動するアプリケーションを Jupyter Notebook から JupyterLab にすると共に、いくつか変更を加えた。 blog.amedama.jp JupyterLab は従来の Jupyter Notebook を置き換えることを目的とした後継プロジェ…