Python: uv を使って手軽にフリースレッド版の CPython を試す

Python uv

CPython 3.14 から、フリースレッドモード (Free-threaded mode) が正式にサポートされた 1。フリースレッドモードでは、従来の CPython に存在した GIL (Global Interpreter Lock) の制約が無くなる。 GIL の制約が無くなると、これまでは基本的にマルチプ…

2025-08-04

自分で MCP (Model Context Protocol) を喋ってみる

LLM Model Context Protocol Python

Model Context Protocol (MCP) は、LLM が外部のシステムから情報を得る、または操作するのに用いられるプロトコルのひとつ。昨今の扱われ方からすると、今後のデファクトとなりつつあるように感じられる。今回は、そんな MCP がどういったプロトコルなの…

2025-04-18

Python: パッケージ・プロジェクトマネージャの uv を使ってみる

Python

今回は Rust で書かれた Python のパッケージ・プロジェクトマネージャの uv を使ってみる。これまで Python では複数のツールを組み合わせて開発のワークフローを構築するのが一般的だった。そのような構成では、それぞれのツールは目的に特化しているの…

2025-02-21

Python: multiprocessing モジュールの開始方式 spawn / fork の違いについて

Python

Python の標準ライブラリに含まれる multiprocessing モジュールは、マルチプロセスでの並列処理に用いられる。 Pure Python の処理を並列化しようとしたとき、今のところ最初に検討するのがマルチプロセスになるはず。というのも、Python のマルチスレッド…

2024-12-19

Python: 複数行の文字列のインデントを揃えて読みやすくしたい

Python

今回は小ネタ。インデントのあるソースコード上で、複数行の文字列を読みやすくする方法について。毎回どうやってたっけと調べるのでメモしておく。使った環境は次のとおり。 $ sw_vers ProductName: macOS ProductVersion: 15.2 BuildVersion: 24C101 $ …

2024-12-17

Python: PyTorch で Adam を実装してみる

PyTorch Python NeuralNetwork 機械学習

今回は、以下の記事の続きとして PyTorch で Adam を実装してみる。 blog.amedama.jp Adam は、その収束の早さなどから利用されることの多い代表的なオプティマイザのひとつになっている。使った環境は次のとおり。 $ sw_vers ProductName: macOS ProductVe…

2024-10-31

Python: PyTorch で RMSProp を実装してみる

PyTorch Python NeuralNetwork 機械学習

今回は、以下の記事の続きとして PyTorch で RMSProp のオプティマイザを実装してみる。 blog.amedama.jp 上記では PyTorch で Adagrad のオプティマイザを実装した。 Adagrad は学習率の調整に過去の勾配の平方和の累積を使っている。このやり方には、イテ…

2024-09-13

Python: PyTorch で Adagrad を実装してみる

PyTorch Python NeuralNetwork 機械学習

今回は、以下の記事の続きとして PyTorch で Adagrad を実装したオプティマイザを自作してみる。以下の記事では単純な SGD と Momentum を導入した SGD を実装した。 blog.amedama.jp 今回扱う Adagrad のアルゴリズムではパラメータごとに学習率を自動で調…

2024-09-03

Python: PyTorch のオプティマイザを自作する

PyTorch Python

今回は、PyTorch でオプティマイザを自作する方法について紹介してみる。きっかけは、勉強がてら主要なオプティマイザを自作してみようと思い至ったことだった。その過程で、PyTorch でオプティマイザを自作する場合の流儀が把握できた。そこで、この記事…

2024-08-25

Python: isort で同じパッケージのインポートを 1 行ずつに分割する

Python

isort は、Python のコードフォーマッタのひとつ。使うことで、インポート文を Python の標準的なコーディング規約である PEP8 に沿った形で整形できる。 pycqa.github.io ところで、PEP8 では同じパッケージのオブジェクトをインポートする際には 1 行にま…

2024-08-04

Python: Polars の shrink_dtype で DataFrame の使用メモリを削減する

Python Polars Kaggle

Kaggle などのデータ分析コンペで使われるテクニックのひとつに reduce_mem_usage() 関数がある。これは、一般に pandas の DataFrame のメモリ使用量を削減するために用いられる。具体的には、カラムに出現する値を調べて、それを表現する上で必要最低限…

2024-06-03

Python: PyTorch の MLP で Iris データセットを分類してみる

PyTorch scikit-learn Python

ニューラルネットワークのことが何も分からないので少しずつでも慣れていきたい。そのためには、とにかくたくさんのコードを読んで書くしかないと思う。一環として、今回はこれ以上ないほど簡単なタスクを解くコードを書いてみる。具体的には、シンプルな…

2024-05-22

Python: scikit-learn は v1.4 から Polars をサポートした

Polars scikit-learn Python

scikit-learn に組み込みで用意されている Transformer は、長らく入出力として NumPy 配列にしか対応していなかった。その状況が変わったのは v1.2 以降で、Pandas の DataFrame を扱えるようになった。 blog.amedama.jp そして v1.4 からは、ついに Polar…

2023-12-04

Polars と PySpark / スケールアップとスケールアウト

Polars PySpark Python Ubuntu22.04LTS

これは Polars Advent Calendar 2023 の 4 日目に対応したエントリです。 qiita.com Polars と PySpark は操作方法が似ていると言われることがある。そこで、今回はいくつかの基本的な操作について、実際に両者でコードを比較してみた。また、それぞれの思…

2023-11-27

Python: scikit-learn の set_output API で pandas との食べ合わせが改善された

scikit-learn pandas Python 機械学習

これまで scikit-learn が提供する TransformerMixin の実装 1 は、出力に NumPy 配列を仮定していた。そのため、pandas の DataFrame を入力しても出力は NumPy 配列になってしまい、使い勝手が良くないという問題があった。この問題は、特に Pipeline や…

2023-08-22

Python: tarfile で tar ファイルを圧縮・展開する

Python

Python の標準ライブラリには tarfile というモジュールがある。このモジュールを使うと tar 形式で複数のファイルをまとめることができる。また tarfile モジュールは gzip や bzip2 といった形式の圧縮・展開もサポートしている。今回は、そんな tarfil…

2023-08-10

GCP: Cloud Functions で Cloud Storage にオブジェクトを保存する

Google Cloud Platform Python macOS

今回は Google Cloud の Cloud Functions で実行した処理の中で Cloud Storage にオブジェクトを保存する方法について。 Cloud Functions で実行した何らかの処理の成果物を保存する先として Cloud Storage を使うイメージになる。操作は、基本的に Google …

2023-08-08

Python: lhafile で LZH フォーマットの圧縮ファイルを展開する

Python macOS

一昔前の日本では、ファイルの圧縮に LZH フォーマットがよく使われていた。今ではほとんど使われることが無くなったとはいえ、しぶとく生き残っているシステムもある。今回は、そうしたシステムからダウンロードしたファイルを Python の lhafile で展開…

2023-08-07

GCP: Cloud Functions を Cloud Scheduler から定期実行する

Google Cloud Platform Python

何らかの処理を定期的に実行したくなる場面は多い。トラディショナルなやり方であれば、仮想マシンを用意して cron などで処理を呼び出すと思う。もちろん、それでも良いんだけど、よりシンプルに実装したい気持ちが出てくる。具体的にはマシンの管理をな…

2023-08-03

Python: TrueSkill が収束する様子を眺めてみる

統計 Rating Python

TrueSkill は 2 人以上のプレイヤーまたはチームが対戦して勝敗を決める競技において、プレイヤーの実力を数値にする手法のひとつ。 TrueSkill は Microsoft が開発して特許や商標を保持している。そのため、アルゴリズムを商用で利用するためには同社から…

2023-07-14

Python: LightGBM v4.0 の CUDA 実装を試す

LightGBM CUDA GPU 機械学習 Python

LightGBM のバージョン 4.0.0 が 2023-07-14 にリリースされた。このリリースは久しぶりのメジャーアップデートで、様々な改良が含まれている。詳細については、以下のリリースノートで確認できる。 github.com リリースの大きな目玉として CUDA を使った…

2023-06-13

Python: pandas-profiling は ydata-profiling にリネームされた

pandas PySpark Python

Python の EDA 用フレームワークとして有名な pandas-profiling は ydata-profiling に名前が変更された。まだ意外と知られていないようなので、今回はそれについて書いてみる。使った環境は次のとおり。 $ sw_vers ProductName: macOS ProductVersion: 13…

2023-04-20

Python: scikit-learn の LabelEncoder を説明変数の変換に使うのは誤り

scikit-learn Python 機械学習

scikit-learn の LabelEncoder を説明変数の変換に使っている例はたくさん見つかる。しかし、実は本来 LabelEncoder は目的変数の変換に使うことが想定されていることは、あまり知られていない。これは公式のドキュメントで確認できる。 scikit-learn.org …

2023-04-10

Python: Pandas 2 系ではデータ型のバックエンドを変更できる

pandas Python

Pandas の 2 系から、新たにデータ型のバックエンドという考え方が導入された。これは、端的にいうと DataFrame のデータをどのような形式で持つかを表している。たとえば Pandas 2.0.0 の時点では、次の 3 つからバックエンドを選ぶことができる。 NumPy …

2023-03-03

Python: Polars の DataFrame をゼロコピーで Pandas の DataFrame に変換する

Polars pandas Python

Polars の DataFrame は to_pandas() メソッドを使うことで Pandas の DataFrame に変換できる。このとき、デフォルトではメモリのコピーが生じる。 pola-rs.github.io ただし、オプションとして use_pyarrow_extension_array=True を渡すとゼロコピーで変…

2023-02-26

Python: Polars で各種エンコーダを実装したライブラリ「Shirokumas」を作った

Polars Python pandas

最近は Polars が気に入っていて、主にプライベートで使っている。ただ、エコシステムという観点では Pandas に比べて発展途上の段階にあると思う。そこで、今回は発展の一助として「Shirokumas」というライブラリを作ってみた。 github.com どんなライブ…

2023-02-16

Python: DuckDB と Polars を組み合わせて使う

DuckDB Polars Python

DuckDB のバージョン 0.7 で Polars とのインテグレーションが強化された。たとえば Polars の DataFrame に対して DuckDB の Python API で直接クエリを発行できるようになったらしい。また、DuckDB で実行したクエリの結果を Polars の DataFrame に変換…

2023-01-25

Python: LightGBM の学習率と精度および最適なイテレーション数の関係について

LightGBM Python

勾配ブースティング決定木 (Gradient Boosting Decision Tree; GBDT) では、以下が経験則として知られている。学習率 (Learning Rate) を下げることで精度が高まる一方で、学習にはより多くのイテレーション数 (≒時間) を必要とするしかしながら、上記が…

2023-01-24

Python: Polars で行・列が省略されないようにする

Polars Python

今回は Python のデータフレームライブラリの Polars で、データフレームを表示するときに行と列が省略されないようにする方法について。結論から先に述べると、省略したくないときは pl.Config.set_tbl_cols() と pl.Config.set_tbl_rows() に負の整数 (た…

2023-01-11

Target Encoding のスムージングについて

機械学習統計 Python

Target (Mean) Encoding の出典は、2001 年の ACM SIGKDD Explorations Newsletter, Volume 3, Issue 1 に掲載された以下の論文らしい。 https://dl.acm.org/doi/10.1145/507533.507538 この論文には Target Encoding のスムージングに関する詳しい記述があ…

CUBE SUGAR CONTAINER

技術系のこと書きます。

Python

Python: uv を使って手軽にフリースレッド版の CPython を試す

自分で MCP (Model Context Protocol) を喋ってみる

Python: パッケージ・プロジェクトマネージャの uv を使ってみる

Python: multiprocessing モジュールの開始方式 spawn / fork の違いについて

Python: 複数行の文字列のインデントを揃えて読みやすくしたい

Python: PyTorch で Adam を実装してみる

Python: PyTorch で RMSProp を実装してみる

Python: PyTorch で Adagrad を実装してみる

Python: PyTorch のオプティマイザを自作する

Python: isort で同じパッケージのインポートを 1 行ずつに分割する

Python: Polars の shrink_dtype で DataFrame の使用メモリを削減する

Python: PyTorch の MLP で Iris データセットを分類してみる

Python: scikit-learn は v1.4 から Polars をサポートした

Polars と PySpark / スケールアップとスケールアウト

Python: scikit-learn の set_output API で pandas との食べ合わせが改善された

Python: tarfile で tar ファイルを圧縮・展開する

GCP: Cloud Functions で Cloud Storage にオブジェクトを保存する

Python: lhafile で LZH フォーマットの圧縮ファイルを展開する

GCP: Cloud Functions を Cloud Scheduler から定期実行する

Python: TrueSkill が収束する様子を眺めてみる

Python: LightGBM v4.0 の CUDA 実装を試す

Python: pandas-profiling は ydata-profiling にリネームされた

Python: scikit-learn の LabelEncoder を説明変数の変換に使うのは誤り

Python: Pandas 2 系ではデータ型のバックエンドを変更できる

Python: Polars の DataFrame をゼロコピーで Pandas の DataFrame に変換する

Python: Polars で各種エンコーダを実装したライブラリ「Shirokumas」を作った

Python: DuckDB と Polars を組み合わせて使う

Python: LightGBM の学習率と精度および最適なイテレーション数の関係について

Python: Polars で行・列が省略されないようにする

Target Encoding のスムージングについて