Python: mlflow.start_run(nested=True) は使い方に注意しよう

Python MLflow 機械学習

今回は MLflow Tracking のすごーく細かい話。ソースコードを読んでいて、ハマる人もいるかもなと思ったので書いておく。結論から先に書くと、MLflow Tracking には次のような注意点がある。 MLflow Tracking で標準的に使う API はマルチスレッドで Run …

2020-06-04

Python: MLflow Tracking を使ってみる

Python MLflow scikit-learn SQLAlchemy LightGBM 機械学習 macOS

MLflow は MLOps に関連した OSS のひとつ。いくつかのコンポーネントに分かれていて、それぞれを必要に応じて独立して使うことができる。今回は、その中でも実験の管理と可視化を司る MLflow Tracking を試してみることにした。機械学習のプロジェクトで…

2020-06-01

Python: Optuna の LightGBMTunerCV から学習済みモデルを取り出す

LightGBM Optuna Python scikit-learn 機械学習 macOS

Optuna v1.5.0 では、LightGBM インテグレーションの一環として LightGBMTunerCV という API が追加された。これは LightGBM の cv() 関数を Step-wise algorithm で最適化するラッパーになっている。つまり、重要ないくつかのパラメータを Step-wise で調…

2020-05-28

kind (Kubernetes IN Docker) を使ってみる

Kubernetes Docker macOS

今回は Kubernetes の開発で使われている公式ツールの kind を使ってみる。このツールを使うと Docker のコンテナを使って Kubernetes のクラスタが素早く簡単に構築できる。使った環境は次のとおり。 $ sw_vers ProductName: macOS ProductVersion: 11.6 …

2020-05-21

Python: Keras でカスタムメトリックを扱う

Keras TensorFlow 機械学習 Python

今回は Keras に組み込みで用意されていない独自の評価指標 (カスタムメトリック) を扱う方法について書いてみる。なお、Keras でカスタムメトリックを定義する方法については、以下の公式ドキュメントに記載がある。 keras.io 使った環境は次のとおり。 Ke…

2020-05-16

Python: gensim の FAST_VERSION 定数の意味について

NLP gensim Python 機械学習 macOS

Python の gensim には自然言語処理 (NLP) に関する様々な実装がある。そして、その中のいくつかのモジュールには FAST_VERSION という定数が定義されている。この定数は環境によって異なる値を取って、値によってパフォーマンスが大きく異なる場合がある…

2020-05-11

Python: gensim を使った Word Embedding の内省的評価について

NLP gensim 機械学習 Python

以下の書籍では、Word Embedding の評価方法として内省的評価 (intrinsic evaluation) と外省的評価 (extrinsic evaluation) という 2 つのやり方が紹介されている。内省的評価では、人間が判断した単語間の類似度や、単語の持つ意味を使ったアナロジーを、…

2020-05-09

Python: 使わない変数を "_" (アンダースコア) に代入するイディオム

Python

Python には、使わない変数であることを明確に示すためにアンダースコアに代入するというイディオムがある。今回は、そのイディオムについてあらためて紹介してみる。使った環境は次のとおり。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.6 B…

2020-05-08

MySQL の InnoDB でトランザクション分離レベルの違いを試す

MySQL

今回は MySQL の InnoDB を使ってトランザクション分離レベル (Transaction Isolation Level) の違いを試してみる。トランザクション分離レベルは、SQL を実装したシステムの ACID 特性において I (Isolation) に対応する概念となっている。利用する分離レ…

2020-05-07

Python: 学習済み機械学習モデルの特性を PDP で把握する

Python scikit-learn Matplotlib 機械学習

機械学習を用いるタスクで、モデルの解釈可能性 (Interpretability) が重要となる場面がある。今回は、モデルの解釈可能性を得る手法のひとつとして PDP (Partial Dependence Plot: 部分従属プロット) を扱ってみる。 PDP を使うと、モデルにおいて説明変数…

2020-05-03

Python: PySpark で UDAF が作れない場合の回避策について

Python PySpark Apache Spark CentOS7

PySpark では、ごく最近まで UDAF (User Defined Aggregate Function: ユーザ定義集計関数) がサポートされていなかった。 Apache Spark 2.3 以降では Pandas UDF を使うことで UDAF に相当する処理を書くことができるようになっている。今回は、それ以前の…

2020-05-02

ピクセラ PIX-MT100 を iPad から使ってみる

TCP/IP

外出先でパソコンからインターネットを使いたいときがある。そんなときのために、普段はピクセラの PIX-MT100 という LTE 対応 USB ドングルに MVNO の SIM カードを入れて持ち歩いている。ピクセラ LTE対応USBドングルホワイト PIX-MT100発売日: 2016/06…

2020-05-01

Word2Vec 形式のファイルフォーマットについて

Python NLP 機械学習 gensim macOS

Word2Vec では、Skip-gram や CBOW といったタスクを学習させたニューラルネットワークの隠れ層の重みを使って単語を特徴ベクトルにエンコードする。つまり、Word2Vec で成果物として得られるのは、コーパスの各単語に対応する特徴ベクトルになる。今回は…

2020-04-25

NAS を買ったら両親に孫の動画を見せやすくなった話

NAS TCP/IP

子どもが生まれると、必然的に動画を撮影する機会が増える。今回は、子どもを撮影した動画を保存するために NAS (Network Attached Storage) を買ったら、副次的な効果として遠隔にいる両親に孫の動画を見せやすくなって良かったという話について。 TL; DR …

2020-04-16

Python: Keras で Convolutional AutoEncoder を書いてみる

Python Keras TensorFlow Matplotlib 機械学習 NeuralNetwork

以前に Keras で AutoEncoder を実装するエントリを書いた。このときは AutoEncoder を構成する Neural Network のアーキテクチャとして単純な全結合層から成る MLP (Multi Layer Perceptron) を使っている。 blog.amedama.jp 一方で、データとして画像を扱…

2020-04-09

Python: gensim で学習済み単語ベクトル表現を扱ってみる

NLP Python NeuralNetwork 機械学習 gensim

Python で自然言語処理を扱うためのパッケージのひとつに gensim がある。今回は、gensim で学習済み単語ベクトル表現 (Pre-trained Word Vectors) を使った Word Embedding を試してみた。 Word Embedding というのは単語 (Word) をベクトル表現の特徴量に…

2020-04-07

Python: statsmodels で時系列データを基本成分に分解する

Python 統計 statsmodels macOS Seaborn

時系列データを扱うとき、原系列が傾向変動・季節変動・不規則変動という基本成分の合成で成り立っていると捉えることがある。傾向変動は中長期的な増加・減少といった変化であり、季節変動は例えば 1 ヶ月や 1 年といった周期的な変化を指している。不規…

2020-04-01

Python: 中心化移動平均 (CMA: Centered Moving Average) について

Python pandas Seaborn Matplotlib 統計

以前から移動平均 (MA: Moving Average) という手法自体は知っていたけど、中心化移動平均 (CMA: Centered Moving Average) というものがあることは知らなかった。一般的な移動平均である後方移動平均は、データの対応関係が原系列に対して遅れてしまう。 …

2020-03-30

エンタープライズ向けヘリウム充填 HDD が安く手に入ることがあるらしい

この製品は、一昨年あたりから「HDD ガチャ」や「HDD おみくじ」といった愛称で親しまれているようだ。今回は、Amazon セールで安くなっていたので実際にガチャを引いてみることにした。このエントリは、その備忘録になる。 HDD ガチャ / HDD おみくじとは…

2020-03-27

Python: 時系列データの交差検証と TimeSeriesSplit の改良について

Python scikit-learn pandas Seaborn Matplotlib macOS 機械学習統計

一般的に、時系列データを扱うタスクでは過去のデータを使って未来のデータを予測することになる。そのため、交差検証するときも過去のデータを使ってモデルを学習させた上で未来のデータを使って検証しなければいけない。もし、未来のデータがモデルの学…

2020-03-17

Python: Luigi のパラメータ爆発問題について

Python Luigi macOS

Luigi は、Python を使って実装された、バッチ処理のパイプラインを扱うためのフレームワーク。 Luigi でパイプラインを定義するときは、基本的には個別のタスクを依存関係でつないでいくことになる。このとき、扱う処理によってはパイプラインは長大になる…

2020-03-12

Python: Luigi のイベントハンドラを試してみる

Python Luigi macOS

今回は、Luigi でタスクの開始や成功・失敗などのときに発火するイベントハンドラを扱ってみる。なお、Luigi はバッチ処理などのパイプラインを組むのに使われるソフトウェアのこと。基本的な使い方については以下を参照してほしい。 blog.amedama.jp 使っ…

2020-03-02

「Linuxで動かしながら学ぶTCP/IPネットワーク入門」という本を書きました

TCP/IP Linux Unix Ubuntu18.04LTS

表題のとおり TCP/IP に関する本を書きました。今回は、そのご紹介です！ Linuxで動かしながら学ぶTCP/IPネットワーク入門作者:もみじあめAmazon どんな本なの？ Linux を使って実際にネットワークを組んで動かしながら TCP/IP について学べる本です。実際…

2020-03-01

Python: Optuna を使って QWK の閾値を最適化してみる

Python Optuna LightGBM 機械学習統計 macOS

最近、Twitter のタイムラインで QWK (Quadratic Weighted Kappa: 二次の重み付きカッパ係数) の最適化が話題になっていたので個人的に調べていた。 QWK は順序つきの多値分類問題を評価するための指標で、予測を大きく外すほど大きなペナルティが与えられる…

2020-02-08

Linux の Network Namespace と radvd / dnsmasq で IPv6 SLAAC (+RDNSS) を試す

Network Namespace Linux TCP/IP IPv6

今回は、Linux の Network Namespace と radvd / dnsmasq を使って IPv6 の SLAAC を試してみる。 IPv6 では、アドレスの自動設定にいくつかのやり方がある。 SLAAC というのは、そのひとつで RFC 4862 で定義されている IPv6 Stateless Address Autoconfigu…

2020-02-08

Linux で VXLAN を扱ってみる

TCP/IP Linux VXLAN Network Namespace Ubuntu18.04LTS Unix blockdiag nwdiag

久しぶりに VXLAN について調べたところ、カーネルの機能で VXLAN インターフェイスが作れるようになってたので試してみた。ここでいう VXLAN というのは、RFC7348 で定義されている Virtual eXtensible Local Area Network というプロトコルを指す。この…

2020-02-02

Lenovo ThinkPad E595 を買ってメモリとストレージを交換してみた

Windows

我が家には、10 年前に購入した、OS が Windows 7 のノートパソコンが 1 台あった。活躍する機会はさほど多くないものの、EOL を迎える製品を使い続けるリスクを考えて、以前からリプレースの機会をうかがっていた 1。今回は、その買いかえに関する備忘録…

2020-02-02

VirtualBox で仮想マシンが入れ子 (Nested Virtualization) できるようになった

macOS Linux Ubuntu18.04LTS CentOS7 Vagrant VirtualBox Libvirt KVM

先日リリースされた VirtualBox 6.0 からは AMD の CPU で、6.1 からは Intel の CPU で Nested Virtualization がサポートされた。 Nested Virtualization というのは、仮想マシンの中に仮想マシンを入れ子に作ることを指す。ようするに、仮想マシンをマト…

2020-01-23

Ubuntu 18.04 LTS で Sphinx の PDF をビルドする

Sphinx Ubuntu18.04LTS Linux Unix

今回は Ubuntu 18.04 LTS を使って、Sphinx の PDF をビルドする方法について。使った環境は次のとおり。 $ cat /etc/lsb-release DISTRIB_ID=Ubuntu DISTRIB_RELEASE=18.04 DISTRIB_CODENAME=bionic DISTRIB_DESCRIPTION="Ubuntu 18.04.3 LTS" $ uname -r …

2020-01-23

Ubuntu 18.04 LTS で利用できるフォントの一覧を得る

Linux Ubuntu18.04LTS Unix

今回は、Ubuntu 18.04 LTS で利用できるフォントの一覧を得る方法について。結論から先に述べると fc-list コマンドを使えば良い。使った環境は次のとおり。ちなみに、相当古い Ubuntu でも同じ方法が使えるみたい。 $ cat /etc/lsb-release DISTRIB_ID=U…

CUBE SUGAR CONTAINER

技術系のこと書きます。

Python: mlflow.start_run(nested=True) は使い方に注意しよう

Python: MLflow Tracking を使ってみる

Python: Optuna の LightGBMTunerCV から学習済みモデルを取り出す

kind (Kubernetes IN Docker) を使ってみる

Python: Keras でカスタムメトリックを扱う

Python: gensim の FAST_VERSION 定数の意味について

Python: gensim を使った Word Embedding の内省的評価について

Python: 使わない変数を "_" (アンダースコア) に代入するイディオム

MySQL の InnoDB でトランザクション分離レベルの違いを試す

Python: 学習済み機械学習モデルの特性を PDP で把握する

Python: PySpark で UDAF が作れない場合の回避策について

ピクセラ PIX-MT100 を iPad から使ってみる

Word2Vec 形式のファイルフォーマットについて

NAS を買ったら両親に孫の動画を見せやすくなった話

Python: Keras で Convolutional AutoEncoder を書いてみる

Python: gensim で学習済み単語ベクトル表現を扱ってみる

Python: statsmodels で時系列データを基本成分に分解する

Python: 中心化移動平均 (CMA: Centered Moving Average) について

エンタープライズ向けヘリウム充填 HDD が安く手に入ることがあるらしい

Python: 時系列データの交差検証と TimeSeriesSplit の改良について

Python: Luigi のパラメータ爆発問題について

Python: Luigi のイベントハンドラを試してみる

「Linuxで動かしながら学ぶTCP/IPネットワーク入門」という本を書きました

Python: Optuna を使って QWK の閾値を最適化してみる

Linux の Network Namespace と radvd / dnsmasq で IPv6 SLAAC (+RDNSS) を試す

Linux で VXLAN を扱ってみる

Lenovo ThinkPad E595 を買ってメモリとストレージを交換してみた

VirtualBox で仮想マシンが入れ子 (Nested Virtualization) できるようになった

Ubuntu 18.04 LTS で Sphinx の PDF をビルドする

Ubuntu 18.04 LTS で利用できるフォントの一覧を得る