Python: PySpark で UDAF が作れない場合の回避策について

PySpark では、ごく最近まで UDAF (User Defined Aggregate Function: ユーザ定義集計関数) がサポートされていなかった。 Apache Spark 2.3 以降では Pandas UDF を使うことで UDAF に相当する処理を書くことができるようになっている。今回は、それ以前の…

2019-08-17

Python: PySpark でサードパーティ製のライブラリを使って分散処理する

Apache Spark PySpark Python Apache Hadoop 機械学習 scikit-learn

今回は PySpark でサードパーティ製のライブラリを使って分散処理をする方法について。サンプルとして、次のような状況を試した。 Apache Spark + Hadoop YARN で構築した分散処理用のクラスタを用いるサードパーティ製のライブラリとして scikit-learn を…

2019-08-17

Python: PySpark で DataFrame にカラムを追加する

Apache Spark PySpark Python

Apache Spark の Python 版インターフェースである PySpark で DataFrame オブジェクトにカラムを追加する方法について。いくつかやり方があるので見ていく。ちなみに DataFrame や、それを支える内部的な RDD はイミュータブル (不変) なオブジェクトにな…

2019-08-17

Python: Apache Spark のパーティションは要素が空になるときがある

Apache Spark PySpark Python

PySpark とたわむれていて、なんかたまにエラーになるなーと思って原因を調べて分かった話。最初、パーティションの中身は空になる場合があるとは思っていなかったので、結構おどろいた。使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductV…

2018-03-17

PySpark のスクリプトファイルで引数を扱う

Apache Hadoop Apache Spark PySpark Python CentOS7

今回は Apache Spark の Python インターフェースである PySpark について。 PySpark では定型的な作業についてはスクリプトファイル (*.py) にまとめて spark-submit コマンドで実行することになる。その際に、動作に必要な引数をさばく方法について。結…

2018-03-03

PySpark の DataFrame を SparkSQL で操作する

Apache Spark Apache Hadoop CentOS7 PySpark Python

Apache Spark には SQL の実行エンジンが組み込まれていて、そのインターフェースは SparkSQL と呼ばれている。この機能を使うと Spark で主に扱われるデータ構造の DataFrame オブジェクトを SQL で操作できる。今回は PySpark から DataFrame を SparkSQ…

2018-01-31

PySpark の UDF (User Defined Function) を試す

Apache Spark PySpark Python

今回は PySpark の UDF (User Defined Function) 機能を使ってみる。 UDF というのはユーザが定義した関数を使って Spark クラスタで分散処理をするための機能になっている。柔軟に処理を記述できるメリットがある一方で、パフォーマンスには劣るというデメ…

2018-01-29

PySpark: Jupyter Notebook からローカルの PySpark ドライバを操作する

Apache Spark PySpark Python CentOS7

今回はローカルで動作している PySpark のドライバプログラムを Jupyter Notebook から操作する方法について。ようするに Jupyter Notebook と PySpark (のドライバ) が同じマシン上で動く場合ということ。この場合の設定内容はとてもシンプルで、環境変数…

2018-01-29

PySpark: 時刻と文字列を相互に変換する (DataFrame / Spark SQL)

PySpark Apache Spark Python

今回は Apache Spark のインターフェースの一つである PySpark で時刻と文字列を相互に変換する方法について扱う。 PySpark にはいくつかの API があるけど、その中でも DataFrame と Spark SQL を使った方法について紹介する。使った環境は次の通り。 $ py…

2017-09-18

Apache Spark でクラスタリングすると動かなくなるプログラムについて

Apache Spark

今回は Apache Spark をスタンドアロンで使っていると上手くいくのに、クラスタリングした途端に上手くいかなくなる状況がある、ということについて。スタンドアロンなら上手くいく場合まずは Apache Spark のコマンドラインシェルを起動する。この場合は…

2017-06-22

Apache Hive を JDBC 経由で操作する

Apache Hive Apache Hadoop Apache Spark CentOS7 Scala

以前、Apache Hive の環境構築についてこのブログで書いた。 blog.amedama.jp 上記では Hive を操作するのに、同梱されたシェルを使っていた。今回は JDBC (Java Database Connectivity) を使って操作する例を示す。環境については先ほど紹介したエントリ…