Python: Polars と NumPy / SciPy の関数を組み合わせて使う

Polars NumPy SciPy

Polars を使って数値を加工しようとすると、数学に関する API がさほど多くないことに気づく。そうしたときに、最初に思いつくのは Series オブジェクトを NumPy 配列に変換した上で処理する方法かもしれない。しかし、実際には Polars の Expr オブジェク…

2021-02-14

Python: NumPy の empty() / zeros() を呼び出した直後は物理メモリの使用量が増えない

Python NumPy Linux Ubuntu20.04LTS

表題のとおりなんだけど、NumPy の empty() や zeros() は呼び出した直後はメモリの RSS (Resident Set Size) が増えない。ようするに、呼び出した直後は配列に物理メモリが割り当てられていない、ということ。今回は、そのせいでちょっとハマったのでメモ…

2021-02-01

Python: 正の相互情報量 (PPMI) と特異値分解 (SVD) を使った単語の分散表現

Python NLP scikit-learn NumPy 機械学習統計 macOS

(2021-02-02 追記): 共起行列の計算を NumPy の Integer array indexing を使った実装にしたオライリーの「ゼロから作るDeep Learning ❷ ――自然言語処理編」を読んでいる。この中に、カウントベースで計算する初歩的な単語の分散表現が紹介されていて、な…

2020-07-18

Python: NumPy 配列の操作でメモリのコピーが生じているか調べる

Python NumPy

パフォーマンスの観点からいえば、データをコピーする機会は少ないほど望ましい。コンピュータのバスの帯域幅は有限なので、データをコピーするには時間がかかる。 NumPy の配列 (ndarray) には、メモリを実際に確保している配列と、それをただ参照している…

2020-06-16

Python: 画像データをフーリエ変換して周波数領域で扱ってみる

Digital Signal Processing Python NumPy Matplotlib macOS

フーリエ変換は音声データに対して用いられることが多い手法だけど、画像データにも応用が効く。音声データの場合、フーリエ変換を使うことで時間領域の情報を周波数領域の情報に直せる。それに対し、画像データでは空間領域の情報を周波数領域の情報に直…

2019-10-31

Python: Target Encoding のやり方について

Python 機械学習統計 pandas NumPy

データ分析コンペでは Target Encoding という特徴量抽出の手法が用いられることがある。 Target Encoding では、一般的に説明変数に含まれるカテゴリ変数と目的変数を元にして特徴量を作り出す。データによっては強力な反面、目的変数をエンコードに用いる…

2019-10-31

Python: sklearn-pandas で scikit-learn と pandas の食べ合わせを改善する

Python 機械学習 scikit-learn pandas NumPy macOS

Python を使った機械学習でよく用いられるパッケージの scikit-learn は API の入出力に numpy の配列を仮定している。そのため、データフレームの実装である pandas と一緒に使おうとすると、色々な場面で食べ合わせの悪さを感じることになる。今回は、そ…

2019-06-15

Python: Keras で imdb データセットを読もうとするとエラーになる問題と回避策について

Python Keras NumPy TensorFlow macOS

今回は、表題の通り Keras の API を使ってダウンロードできる imdb データセットを読もうとするとエラーになる問題について。これは数ヶ月前から既知の問題で、以下のチケットが切られている。内容については細かく読まなくても、詳しくは後述する。 gith…

2018-07-11

Python: pandas の永続化フォーマットについて調べた

Apache Arrow Apache Parquet macOS NumPy Python pandas

以前、このブログでは pandas の DataFrame を Pickle として保存することで読み込み速度を上げる、というテクニックを紹介した。 blog.amedama.jp 実は pandas がサポートしている永続化方式は Pickle 以外にもある。今回は、その中でも代表的な以下の永続…

2018-07-07

Python: scikit-learn の Pipeline を使ってみる

macOS NumPy Python 機械学習 scikit-learn

機械学習では、元のデータセットに対して前処理や推論フェーズが何段にも重なることがある。 scikit-learn には、そういった何段にも重なった処理を表現しやすくするために Pipeline という機能が備わっている。今回は、その Pipeline を使ってみることにす…

2018-05-12

Python: pandas で DataFrame を連結したら dtype が int から float になって驚いた話

Python pandas NumPy 機械学習統計 macOS

今回は pandas を使っているときに二つの DataFrame を pd.concat() で連結したところ int のカラムが float になって驚いた、という話。先に結論から書いてしまうと、これは片方の DataFrame に存在しないカラムがあったとき、それが全て NaN 扱いになるこ…

2018-02-18

Apache Hive の Vectorization 機能を試す

Apache Hive CentOS7 NumPy Python SciPy 統計

今回は Apache Hive の Vectorization 機能を使ってパフォーマンスが向上するか試してみる。 Apache Hive では、通常 HDFS に保存されたデータを一行ずつ処理する。それに対し Vectorization 機能を使うと、状況は限られるものの複数行をまとめて処理できる…