Polars と PySpark / スケールアップとスケールアウト

これは Polars Advent Calendar 2023 の 4 日目に対応したエントリです。 qiita.com Polars と PySpark は操作方法が似ていると言われることがある。そこで、今回はいくつかの基本的な操作について、実際に両者でコードを比較してみた。また、それぞれの思…

2023-06-13

Python: pandas-profiling は ydata-profiling にリネームされた

pandas PySpark Python

Python の EDA 用フレームワークとして有名な pandas-profiling は ydata-profiling に名前が変更された。まだ意外と知られていないようなので、今回はそれについて書いてみる。使った環境は次のとおり。 $ sw_vers ProductName: macOS ProductVersion: 13…

2020-05-03

Python: PySpark で UDAF が作れない場合の回避策について

Python PySpark Apache Spark CentOS7

PySpark では、ごく最近まで UDAF (User Defined Aggregate Function: ユーザ定義集計関数) がサポートされていなかった。 Apache Spark 2.3 以降では Pandas UDF を使うことで UDAF に相当する処理を書くことができるようになっている。今回は、それ以前の…

2019-08-17

Python: PySpark でサードパーティ製のライブラリを使って分散処理する

Apache Spark PySpark Python Apache Hadoop 機械学習 scikit-learn

今回は PySpark でサードパーティ製のライブラリを使って分散処理をする方法について。サンプルとして、次のような状況を試した。 Apache Spark + Hadoop YARN で構築した分散処理用のクラスタを用いるサードパーティ製のライブラリとして scikit-learn を…

2019-08-17

Python: PySpark で DataFrame にカラムを追加する

Apache Spark PySpark Python

Apache Spark の Python 版インターフェースである PySpark で DataFrame オブジェクトにカラムを追加する方法について。いくつかやり方があるので見ていく。ちなみに DataFrame や、それを支える内部的な RDD はイミュータブル (不変) なオブジェクトにな…

2019-08-17

Python: Apache Spark のパーティションは要素が空になるときがある

Apache Spark PySpark Python

PySpark とたわむれていて、なんかたまにエラーになるなーと思って原因を調べて分かった話。最初、パーティションの中身は空になる場合があるとは思っていなかったので、結構おどろいた。使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductV…

2018-03-17

PySpark のスクリプトファイルで引数を扱う

Apache Hadoop Apache Spark PySpark Python CentOS7

今回は Apache Spark の Python インターフェースである PySpark について。 PySpark では定型的な作業についてはスクリプトファイル (*.py) にまとめて spark-submit コマンドで実行することになる。その際に、動作に必要な引数をさばく方法について。結…

2018-03-03

PySpark の DataFrame を SparkSQL で操作する

Apache Spark Apache Hadoop CentOS7 PySpark Python

Apache Spark には SQL の実行エンジンが組み込まれていて、そのインターフェースは SparkSQL と呼ばれている。この機能を使うと Spark で主に扱われるデータ構造の DataFrame オブジェクトを SQL で操作できる。今回は PySpark から DataFrame を SparkSQ…

2018-01-31

PySpark の UDF (User Defined Function) を試す

Apache Spark PySpark Python

今回は PySpark の UDF (User Defined Function) 機能を使ってみる。 UDF というのはユーザが定義した関数を使って Spark クラスタで分散処理をするための機能になっている。柔軟に処理を記述できるメリットがある一方で、パフォーマンスには劣るというデメ…

2018-01-29

PySpark: Jupyter Notebook からローカルの PySpark ドライバを操作する

Apache Spark PySpark Python CentOS7

今回はローカルで動作している PySpark のドライバプログラムを Jupyter Notebook から操作する方法について。ようするに Jupyter Notebook と PySpark (のドライバ) が同じマシン上で動く場合ということ。この場合の設定内容はとてもシンプルで、環境変数…

2018-01-29

PySpark: 時刻と文字列を相互に変換する (DataFrame / Spark SQL)

PySpark Apache Spark Python

今回は Apache Spark のインターフェースの一つである PySpark で時刻と文字列を相互に変換する方法について扱う。 PySpark にはいくつかの API があるけど、その中でも DataFrame と Spark SQL を使った方法について紹介する。使った環境は次の通り。 $ py…

CUBE SUGAR CONTAINER

技術系のこと書きます。

PySpark

Polars と PySpark / スケールアップとスケールアウト

Python: pandas-profiling は ydata-profiling にリネームされた

Python: PySpark で UDAF が作れない場合の回避策について

Python: PySpark でサードパーティ製のライブラリを使って分散処理する

Python: PySpark で DataFrame にカラムを追加する

Python: Apache Spark のパーティションは要素が空になるときがある

PySpark のスクリプトファイルで引数を扱う

PySpark の DataFrame を SparkSQL で操作する

PySpark の UDF (User Defined Function) を試す

PySpark: Jupyter Notebook からローカルの PySpark ドライバを操作する

PySpark: 時刻と文字列を相互に変換する (DataFrame / Spark SQL)