BIRD と Network Namespace でスタティックルーティングを試す

BIRD 1 は The BIRD Internet Routing Daemon の略で、ルーティングプロトコルを実装した OSS のひとつ。今回は、そんな BIRD を Network Namespace と組み合わせてスタティックルーティング (静的経路制御) の設定をしてみる。なお、今回試す内容は ip(8)…

2023-06-13

Python: pandas-profiling は ydata-profiling にリネームされた

pandas PySpark Python

Python の EDA 用フレームワークとして有名な pandas-profiling は ydata-profiling に名前が変更された。まだ意外と知られていないようなので、今回はそれについて書いてみる。使った環境は次のとおり。 $ sw_vers ProductName: macOS ProductVersion: 13…

2023-05-11

Linux の Network Namespace で L2TP (IPsec なし) を試す

Network Namespace Linux Ubuntu22.04LTS tcpdump

今回は L2TP の LAC (L2TP Access Concentrator) と LNS (L2TP Network Server) を Linux の Network Namespace の環境で動かしてみる。 L2TP はリモートアクセス VPN でよく使われるプロトコルの一つ。ただし、今回は IPsec を組み合わせないため、単なる…

2023-05-08

Linux の Network Namespace で PPPoE を試す

Network Namespace Linux TCP/IP Ubuntu22.04LTS

今回は PPPoE (PPP over Ethernet) のサーバとクライアントを Network Namespace の環境で動かしてみる。 PPPoE は、その名のとおり PPP (Point-to-Point Protocol) を Ethernet で使えるようにしたもの。 NTT 東西が提供するブロードバンドサービスのフレッ…

2023-04-20

Python: scikit-learn の LabelEncoder を説明変数の変換に使うのは誤り

scikit-learn Python 機械学習

scikit-learn の LabelEncoder を説明変数の変換に使っている例はたくさん見つかる。しかし、実は本来 LabelEncoder は目的変数の変換に使うことが想定されていることは、あまり知られていない。これは公式のドキュメントで確認できる。 scikit-learn.org …

2023-04-19

strongSwan の IPsec VPN を Network Namespace で試す (Route-based / VTI デバイス)

Linux IPsec Security Network Namespace Mount Namespace Ubuntu22.04LTS

strongSwan は IPsec VPN を構成するのに用いられるソフトウェア。今回は、その strongSwan を Network Namespace で作ったネットワーク上で動かしてみる。動作モードとしては VTI (Virtual Tunnel Interface) デバイスを使った Route-based を利用する。 …

2023-04-17

WireGuard の VPN を Linux の Network Namespace で試す

Linux Network Namespace TCP/IP VPN Security

WireGuard は VPN を構成するための一連の実装と通信プロトコル。実装のコードベースが小さく、他の VPN ソフトウェアと比べて設定方法がシンプルという特徴がある。今回は、その WireGuard を Linux の Network Namespace と一緒に試してみる。使った環…

2023-04-10

Python: Pandas 2 系ではデータ型のバックエンドを変更できる

pandas Python

Pandas の 2 系から、新たにデータ型のバックエンドという考え方が導入された。これは、端的にいうと DataFrame のデータをどのような形式で持つかを表している。たとえば Pandas 2.0.0 の時点では、次の 3 つからバックエンドを選ぶことができる。 NumPy …

2023-03-20

Python: Polars で文字列が省略される文字数を変更する

Polars

Polars は DataFrame や Series に含まれる文字列が、デフォルトでは 32 文字までしか表示されず、それを超えると省略されてしまう。今回は、その挙動を変更する方法について書く。結論から先に述べると pl.Config.set_fmt_str_lengths() を使うことで、省…

2023-03-20

Python: Polars と NumPy / SciPy の関数を組み合わせて使う

Polars NumPy SciPy

Polars を使って数値を加工しようとすると、数学に関する API がさほど多くないことに気づく。そうしたときに、最初に思いつくのは Series オブジェクトを NumPy 配列に変換した上で処理する方法かもしれない。しかし、実際には Polars の Expr オブジェク…

2023-03-18

Apple Silicon の macOS にコマンドラインで Rosetta 2 をインストールする

macOS Apple Silicon

Apple の Rosetta 2 は、x86 アーキテクチャ向けにビルドされた macOS のアプリケーションを Apple Silicon の環境で実行できるようにするソフトウェア。今回は、そんな Rosetta 2 をコマンドラインでインストールする方法について書いておく。使った環境…

2023-03-17

Python: CatBoost をいくつかの環境でベンチマークしてみる

CatBoost 機械学習 macOS Ubuntu

今回は GBDT (Gradient Boosting Decision Tree) フレームワークのひとつである CatBoost について、いくつかの環境で同一のソースコードを使って学習にかかる時間を比較してみた。きっかけは、最近入手した Apple M2 Pro を搭載した Mac mini が、どれくら…

2023-03-03

Python: Polars の DataFrame をゼロコピーで Pandas の DataFrame に変換する

Polars pandas Python

Polars の DataFrame は to_pandas() メソッドを使うことで Pandas の DataFrame に変換できる。このとき、デフォルトではメモリのコピーが生じる。 pola-rs.github.io ただし、オプションとして use_pyarrow_extension_array=True を渡すとゼロコピーで変…

2023-02-26

Python: Polars で各種エンコーダを実装したライブラリ「Shirokumas」を作った

Polars Python pandas

最近は Polars が気に入っていて、主にプライベートで使っている。ただ、エコシステムという観点では Pandas に比べて発展途上の段階にあると思う。そこで、今回は発展の一助として「Shirokumas」というライブラリを作ってみた。 github.com どんなライブ…

2023-02-16

Python: DuckDB と Polars を組み合わせて使う

DuckDB Polars Python

DuckDB のバージョン 0.7 で Polars とのインテグレーションが強化された。たとえば Polars の DataFrame に対して DuckDB の Python API で直接クエリを発行できるようになったらしい。また、DuckDB で実行したクエリの結果を Polars の DataFrame に変換…

2023-02-06

k3d (k3s) を使って Ingress と NetworkPolicy を検証する

Kubernetes

Kubernetes を手元で検証しようとすると CNI (Container Network Interface) プラグインの機能が障壁になることがある。たとえば kind を使う場合はデフォルトで kindnetd という CNI プラグインがインストールされる。しかし、この CNI プラグインは動作…

2023-01-25

Python: LightGBM の学習率と精度および最適なイテレーション数の関係について

LightGBM Python

勾配ブースティング決定木 (Gradient Boosting Decision Tree; GBDT) では、以下が経験則として知られている。学習率 (Learning Rate) を下げることで精度が高まる一方で、学習にはより多くのイテレーション数 (≒時間) を必要とするしかしながら、上記が…

2023-01-24

Python: Polars で行・列が省略されないようにする

Polars Python

今回は Python のデータフレームライブラリの Polars で、データフレームを表示するときに行と列が省略されないようにする方法について。結論から先に述べると、省略したくないときは pl.Config.set_tbl_cols() と pl.Config.set_tbl_rows() に負の整数 (た…

2023-01-23

OpenSSH で過去に作った鍵の種類や長さを確かめる

OpenSSH Linux Ubuntu22.04LTS

今回は OpenSSH で過去に作った鍵の種類や長さを確認する方法について。結論から先に述べると ssh-keygen(1) の -l オプションと -f オプションを組み合わせれば良い。使った環境は次のとおり。 $ cat /etc/lsb-release DISTRIB_ID=Ubuntu DISTRIB_RELEASE…

2023-01-11

Target Encoding のスムージングについて

機械学習統計 Python

Target (Mean) Encoding の出典は、2001 年の ACM SIGKDD Explorations Newsletter, Volume 3, Issue 1 に掲載された以下の論文らしい。 https://dl.acm.org/doi/10.1145/507533.507538 この論文には Target Encoding のスムージングに関する詳しい記述があ…

2022-12-29

Python: PyTorch でバックプロパゲーションが上手くいかない場所を自動で見つける

PyTorch Python 機械学習

PyTorch を使っていると、はるか遠く離れた場所で計算した結果に nan や inf が含まれることで、思いもよらない場所から非直感的なエラーを生じることがある。あるいは、自動微分したときにゼロ除算が生じるようなパターンでは、順伝搬の結果だけ見ていても…

2022-12-27

Python: TabNet を使ってみる

NeuralNetwork PyTorch LightGBM 機械学習 scikit-learn Seaborn Ubuntu20.04LTS Linux

一般に、テーブルデータの教師あり学習では、勾配ブースティング決定木の性能の良さについて語られることが多い。これは、汎化性能の高さや前処理の容易さ、学習・推論の速さ、解釈可能性の高さなどが理由として挙げられる。一方で、ニューラルネットワー…

2022-12-16

Linux でリンクアグリゲーション (LAG) を試してみる

Network Namespace Linux Ubuntu22.04LTS

リンクアグリゲーションは、複数のネットワークインターフェイスを束ねて扱う技術の総称。たとえば、2 本のイーサネットを束ねて冗長化することで 1 本に障害が起こってもサービスを提供し続けることができる。あるいは、フレームをロードバランスすること…

2022-12-02

Linux TC (Traffic Control) の netem (Network Emulator) で劣悪なネットワーク環境を再現する

Linux Network Namespace

今回は Linux TC (Traffic Control) に実装されている netem (Network Emulator) という qdisc (Queueing Discipline) を使って、劣悪なネットワーク環境を再現する方法について書いてみる。 Linux TC は、文字通り Linux のトラフィックを制御するための機…

2022-11-13

Ubuntu で iputils をビルドして異なるバージョンの ping(8) を使う

Linux Ubuntu20.04LTS

Ubuntu にインストールされている ping(8) の挙動が、バージョンによって微妙に異なることに気づいた。そこで、あらかじめインストールされているのとは異なるバージョンをビルドして動作を確認することにした。今回は、その手順についてメモしておく。な…

2022-10-31

Python: category_encoders の CatBoostEncoder を用いた OrderedTS の算出と多値分類タスクへの拡張について

機械学習 pandas 統計 Python macOS

データ分析コンペなどでよく利用される Target Encoding という特徴量抽出 (Feature Extraction) の手法がある。これは、ターゲット (目的変数) の情報に基づいて、カテゴリ変数ごとの期待値を説明変数として利用するもの。 Target Encoding には、いくつか…

2022-10-17

Python: Pandas で np.float16 はサポートされていない

Python pandas

まったく知らなかったんだけど、Pandas はカラムの型として NumPy の float16 (16 ビット浮動小数点型) をサポートしていない。これは、以下の Issue で説明されている。どうやら、プラットフォームによっては float16 を利用できないため対応が難しいらし…

2022-07-23

pyenv を使って Ubuntu に複数バージョンの Python をインストールする

Python Ubuntu Ubuntu22.04LTS Linux

今回は Python のインストールマネージャである pyenv を使って、簡単に複数のバージョンの Python を Ubuntu にインストールする方法を書く。 Python でソフトウェアを開発する際には、バージョン間の差異に配慮する必要がある。そのため、開発する環境で…

2022-07-22

Ubuntu の APT で入る Python 仮想環境系のパッケージを使う