RPM 形式のパッケージからファイルを取り出す

CentOS CentOS7 Linux

主に RHEL 系の GNU/Linux ディストリビューションで採用されている RPM 形式のパッケージファイルからファイルを取り出す方法について。必要になってたまに調べることになるのでメモとして残しておく。使った環境は次のとおり。 $ cat /etc/redhat-releas…

2020-05-03

Python: PySpark で UDAF が作れない場合の回避策について

Python PySpark Apache Spark CentOS7 分散処理

PySpark では、ごく最近まで UDAF (User Defined Aggregate Function: ユーザ定義集計関数) がサポートされていなかった。 Apache Spark 2.3 以降では Pandas UDF を使うことで UDAF に相当する処理を書くことができるようになっている。今回は、それ以前の…

2020-02-02

VirtualBox で仮想マシンが入れ子 (Nested Virtualization) できるようになった

Mac OS X Linux Ubuntu18.04LTS CentOS7 Vagrant VirtualBox Libvirt KVM

先日リリースされた VirtualBox 6.0 からは AMD の CPU で、6.1 からは Intel の CPU で Nested Virtualization がサポートされた。 Nested Virtualization というのは、仮想マシンの中に仮想マシンを入れ子に作ることを指す。ようするに、仮想マシンをマト…

2018-08-06

Apache Hive で SELECT した結果から ARRAY を作る

Apache Hadoop Apache Hive CentOS7

Apahe Hive を使っていて、テーブルから SELECT してきた結果から ARRAY 型のカラムを作る方法が分からなくて調べた。結論から先に述べると COLLECT_LIST() を使えば良い。使った環境は次の通り。 $ cat /etc/redhat-release CentOS Linux release 7.5.180…

2018-08-04

Apache Hive 1.x の INSERT 文の仕様でハマった話

Apache Hadoop Apache Hive CentOS7 SQL

今回は、タイトルの通り Apache Hive の 1.x を使っていたとき INSERT 文の仕様でハマった話。先に概要を説明しておくと Apache Hive の 1.x と 2.x ではサポートする構文が変わっている。具体的には 1.x では INSERT INTO ... SELECT 文で後続に FROM ...…

2018-03-17

PySpark のスクリプトファイルで引数を扱う

Apache Hadoop Apache Spark PySpark Python CentOS7

今回は Apache Spark の Python インターフェースである PySpark について。 PySpark では定型的な作業についてはスクリプトファイル (*.py) にまとめて spark-submit コマンドで実行することになる。その際に、動作に必要な引数をさばく方法について。結…

2018-03-03

PySpark の DataFrame を SparkSQL で操作する

Apache Spark Apache Hadoop CentOS7 PySpark Python

Apache Spark には SQL の実行エンジンが組み込まれていて、そのインターフェースは SparkSQL と呼ばれている。この機能を使うと Spark で主に扱われるデータ構造の DataFrame オブジェクトを SQL で操作できる。今回は PySpark から DataFrame を SparkSQ…

2018-02-18

Apache Hive の Vectorization 機能を試す

Apache Hive CentOS7 NumPy Python SciPy 統計

今回は Apache Hive の Vectorization 機能を使ってパフォーマンスが向上するか試してみる。 Apache Hive では、通常 HDFS に保存されたデータを一行ずつ処理する。それに対し Vectorization 機能を使うと、状況は限られるものの複数行をまとめて処理できる…

2018-02-15

Apache Hive で圧縮形式のデータを扱う

CentOS7 Apache Hive Python

Apache Hive のテーブルを構成するデータは、デフォルトでは無圧縮になっている。しかし、設定を変更することで圧縮形式のデータも扱うことができる。そこで、今回は Apache Hive で圧縮形式のデータを扱ってみることにする。データを圧縮することには、…

2018-02-13

Docker コンテナのログを syslog でリモートホストに飛ばす

CentOS7 Docker syslog-ng

今回は Docker コンテナのログを syslog で別のホストに飛ばしてみることにする。言うまでもなく、ロギングはシステムを運用する上で欠かせない要素の一つ。 Docker には、あらかじめ複数のロギングドライバが組み込まれていて、それらを使い分けることがで…

2018-02-07

Apache Hive を HiveServer2 経由で操作する

Apache Hive CentOS7 Apache Hadoop MariaDB

Apache Hive を操作する方法としては、以前から hive というコマンドラインツールが提供されている。ただ、この方法だと hive コマンドがインストールされたホストでしか Apache Hive を操作できない。また、Hadoop エコシステムを形成する別のソフトウェ…

2018-02-07

Apache Hive のメタストアに MariaDB を使う

Apache Hive Apache Hadoop CentOS7

Apache Hive はテーブルのスキーマ定義などメタデータを RDBMS に保存する。デフォルトでは Java で書かれた組み込み RDBMS の Apache Derby が使われる。今回は、その Apache Derby の代わりに MariaDB (MySQL) を使う方法について。使った環境は次の通…

2018-01-29

PySpark: Jupyter Notebook からローカルの PySpark ドライバを操作する

Apache Spark PySpark Python CentOS7

今回はローカルで動作している PySpark のドライバプログラムを Jupyter Notebook から操作する方法について。ようするに Jupyter Notebook と PySpark (のドライバ) が同じマシン上で動く場合ということ。この場合の設定内容はとてもシンプルで、環境変数…

2018-01-09

Apache Hive を使ったテーブルのサンプリング

Apache Hive CentOS7

Apache Hive では、大規模なデータセットに対してクエリを実行すると完了までに長い時間がかかる。そこで、全体から一部を抽出した標本に対してクエリを実行する場合がある。今回は、その標本を抽出する方法 (サンプリング) について扱う。使った環境は次…

2018-01-04

Apache Hive の MAP 型を試す

Apache Hive CentOS7

前回に引き続き Apache Hive の複合型の一つ MAP 型を試してみる。 blog.amedama.jp MAP 型は一般的なプログラミング言語でいうマップや辞書といったデータ構造に相当する。これを使うとテーブルのカラムに任意のキーで値を格納できる。環境は次の通り。 $…

2018-01-04

Apache Hive の STRUCT 型を試す

Apache Hive CentOS7

Apache Hive には基本となる文字列や数値以外にも複合型 (Complex Type) というデータタイプがある。以前、その中の一つとして ARRAY 型をこのブログでも扱った。 blog.amedama.jp 今回は、それに続いて複合型の中で STRUCT 型というデータタイプを試してみ…

2018-01-03

Apache Hive の Partition 機能を使ってみる

Apache Hive CentOS7

今回は Apache Hive の Partition 機能を使ってみる。 Partition 機能を用いない場合、クエリを発行するとテーブルを構成するファイル群にフルスキャンがかかる。それに対し、Partition 機能を用いるとクエリによってはスキャンするファイルの範囲を制限で…

2018-01-02

Apache Hive の ARRAY 型を試す

Apache Hive Apache Hadoop CentOS7

Apache Hive には ARRAY 型というデータタイプがある。これは一般的なプログラミング言語でいえば配列に相当するもの。ようするに、文字列や数値といったデータを一つのレコードに複数格納できる。リレーショナルデータベースのアンチパターンであるジェ…

2017-06-22

Apache Hive を JDBC 経由で操作する

Apache Hive Apache Hadoop Apache Spark CentOS7 Scala

以前、Apache Hive の環境構築についてこのブログで書いた。 blog.amedama.jp 上記では Hive を操作するのに、同梱されたシェルを使っていた。今回は JDBC (Java Database Connectivity) を使って操作する例を示す。環境については先ほど紹介したエントリ…

2017-06-14

Apache Spark を完全分散モードの YARN クラスタで動かす

Apache Spark CentOS7 GitHub Apache Hadoop HDFS

Apache Spark を使って複数ノードで分散並列処理をする場合、まずは動作させるためのクラスタマネージャを選ぶことになる。 Apache Spark では以下のクラスタマネージャに対応している。 Apache Spark 組み込み (これはスタンドアロンモードと呼ばれる) Apac…

2017-06-06

CentOS7 で Apache Hadoop の完全分散モードを使ってみる

CentOS7 Apache Hadoop Vagrant

以前、このブログでは OSS 版の Apache Hadoop を疑似分散モードでセットアップする方法を試した。疑似分散モードというのは、一つのホスト上に必要なデーモンを全て立ち上げる方法を指す。このモードを使うと HDFS が使えるような、なるべく本番に近い環…

2017-05-27

CentOS7 で Apache HBase を使ってみる

Apache HBase HDFS Ruby CentOS7

今回は分散データベースの一つである Apache HBase を使ってみる。これは、いわゆる NoSQL と呼ばれるものの一つ。 Hadoop ファミリーの一員だけど MapReduce などは使わず直接 HDFS を触るアーキテクチャになっている。 HBase は、分散データベースの性質…

2017-05-22

CentOS7 で Apache Hive を使ってみる

CentOS7 Apache Hive

今回は Apache Hadoop 上で動作する MapReduce アプリケーションの一つ Apache Hive を使ってみる。 Apache Hive を使うと Hadoop/HDFS の上で HiveQL という SQL のサブセットが使えるようになる。実行したクエリは MapReduce のジョブに変換されて Hadoop…

2017-05-20

Python から Hadoop Streaming を使ってみる

Python Apache Hadoop CentOS7 Linux

今回は、任意のプログラミング言語から Apache Hadoop を使うことのできる Hadoop Streaming という機能を使ってみる。通常、Hadoop を使って MapReduce のジョブを直接扱うときは Java を使ってマッパーとリデューサーを書くことになる。ただ、ご存知の通…

2017-05-15

CentOS7 で Apache Hadoop の疑似分散モードを使ってみる

CentOS7 Apache Hadoop

Apache Hadoop はビッグデータ処理基盤を構築するための超有名なオープンソースソフトウェア。 Google の発表した論文を元にして MapReduce アルゴリズムと Hadoop Distributed File System (HDFS) が実装されている。この Hadoop/HDFS を中心として Apache…

2016-08-13

CentOS7 で Docker Swarm を試してみる

CentOS7 Docker Linux

先日リリースされた Docker 1.12 から Docker Swarm が本体に同梱されるようになった。この Docker Swarm というのは、複数の Docker ホストを束ねて使えるようにするオーケストレーションツールになっている。今回は、その Docker Swarm がどういったもの…

2016-06-07

Python: SQLAlchemy + mysqlclient (MySQLdb) でマルチバイト文字を扱う

CentOS7 SQLAlchemy Python

今回は Python の O/R マッパーである SQLAlchemy と MySQL ドライバの mysqlclient を使ってマルチバイト文字を扱うときの注意点について書いてみる。ただし RDBMS については MySQL ではなく、代わりに MariaDB を使った。注意点というのを先に書いてし…

2016-06-02

Python: インターネットと疎通がない環境に Python パッケージをインストールする (改)

Python Linux CentOS7 Wheel

このブログでは、以前にインターネットと疎通のない環境で Python パッケージをインストールする方法について書いたことがある。具体的には Wheel でパッケージングした配布物を pip を使ってインストールしていた。 blog.amedama.jp ただ、上記の記事には…

2016-05-29

CentOS: rpm でファイルが含まれるパッケージを調べる

CentOS7 Linux

なんか毎回忘れるのでメモっておく。パッケージシステムの基盤として rpm を使っている Linux ディストリビューションでファイルがどのパッケージに含まれるか調べるやり方。使った環境は次の通り。 $ cat /etc/redhat-release CentOS Linux release 7.2.1…

2016-01-03

Xvfb を使って仮想ディスプレイを作る

CentOS7 X Window System

Xvfb (X virtual framebuffer) は X Window System の仮想ディスプレイを作ることのできるソフトウェア。これを使うと実際にスクリーンがない状態でも GUI が必要なソフトウェアを使えるようになる。今回使う環境には CentOS7 を選んだ。 $ cat /etc/redha…

CUBE SUGAR CONTAINER

技術系のこと書きます。

CentOS7

RPM 形式のパッケージからファイルを取り出す

Python: PySpark で UDAF が作れない場合の回避策について

VirtualBox で仮想マシンが入れ子 (Nested Virtualization) できるようになった

Apache Hive で SELECT した結果から ARRAY を作る

Apache Hive 1.x の INSERT 文の仕様でハマった話

PySpark のスクリプトファイルで引数を扱う

PySpark の DataFrame を SparkSQL で操作する

Apache Hive の Vectorization 機能を試す

Apache Hive で圧縮形式のデータを扱う

Docker コンテナのログを syslog でリモートホストに飛ばす

Apache Hive を HiveServer2 経由で操作する

Apache Hive のメタストアに MariaDB を使う

PySpark: Jupyter Notebook からローカルの PySpark ドライバを操作する

Apache Hive を使ったテーブルのサンプリング

Apache Hive の MAP 型を試す

Apache Hive の STRUCT 型を試す

Apache Hive の Partition 機能を使ってみる

Apache Hive の ARRAY 型を試す

Apache Hive を JDBC 経由で操作する

Apache Spark を完全分散モードの YARN クラスタで動かす

CentOS7 で Apache Hadoop の完全分散モードを使ってみる

CentOS7 で Apache HBase を使ってみる

CentOS7 で Apache Hive を使ってみる

Python から Hadoop Streaming を使ってみる

CentOS7 で Apache Hadoop の疑似分散モードを使ってみる

CentOS7 で Docker Swarm を試してみる

Python: SQLAlchemy + mysqlclient (MySQLdb) でマルチバイト文字を扱う

Python: インターネットと疎通がない環境に Python パッケージをインストールする (改)

CentOS: rpm でファイルが含まれるパッケージを調べる

Xvfb を使って仮想ディスプレイを作る