2016-06-26

Python: Ellipsis について

Python

今回は Python の特殊な定数 Ellipsis について調べてみた。

Ellipsis ってなんだ

Ellipsis というのは、主に拡張スライス文と共に使われる特殊な定数のこと。これを使うと、例えば配列などのスライスで「...」を指定できるようになる。

3. 組み込み定数 — Python 3.5.2 ドキュメント

具体的な使用例

例えば、高速な数値計算のための配列ライブラリである NumPy の配列には、この Ellipsis を使うことができる。

ひとまず NumPy をインストールしよう。

$ pip install numpy

そして Python の REPL を起動する。

$ python

array という名前で NumPy の配列を作る。

>>> import numpy as np
>>> array = np.array([1, 2, 3])

この配列のスライスに「...」を指定してみよう。これが Ellipsis だ。

>>> array[...]
array([1, 2, 3])

NumPy では (その次元の) すべての要素を返すことを表すために使われている。

ユーザ定義クラスで Ellipsis を使ってみる

ユーザ定義クラスで Ellipsis を指定できるようにしてみよう。まず、ユーザ定義クラスでは __getitem__() という特殊メソッドを実装すると、そのインスタンスにスライス ([]) が使えるようになる。そのメソッドに渡されるキーとして Ellipsis が指定されたら「...(snip)...」という値を返すようにしてみる。

#!/usr/bin/env python
# -*- coding: utf-8 -*-


class MyClass(object):

    def __getitem__(self, key):
        if key is Ellipsis:
            return '...(snip)...'

        return None


def main():
    obj = MyClass()
    print(obj[...])


if __name__ == '__main__':
    main()

上記を ellipsis.py という名前で保存して実行してみよう。

$ python ellipsis.py
...(snip)...

ばっちり。

Python 2 と 3 における Ellipsis の振る舞い

実は Ellipsis は Python 2.x と 3.x で振る舞いが結構違っている。それぞれのインタプリタで挙動の違いを確かめてみよう。

まずは Python 3.x から。

$ python --version
Python 3.5.1
$ python

Python 3.x では「...」が単独で Ellipsis オブジェクトとして使える。

>>> ...
Ellipsis

それ対し Python 2.x ではどうなるだろうか。

$ python --version
Python 2.7.10
$ python

なんと「...」だけでは文法エラーになってしまった。

>>> ...
  File "<stdin>", line 1
    ...
    ^
SyntaxError: invalid syntax

Python 2.x では Ellipsis の使えるシチュエーションが、とても限られていることがわかる。

例えば、次のように通常のメソッドの引数として Ellipsis を受け取るようにしてみよう。

#!/usr/bin/env python
# -*- coding: utf-8 -*-


class MyClass(object):

    def mymethod(self, value):
        if value is Ellipsis:
            return '...(snip)...'

        return None


def main():
    obj = MyClass()
    print(obj.mymethod(...))


if __name__ == '__main__':
    main()

これを、先ほどと同じように ellipsis.py という名前で保存する。まずは Python 3.x で動かしてみよう。

$ python --version
Python 3.5.1
$ python ellipsis.py
...(snip)...

ちゃんと動いた。

それに対し Python 2.x だと、どうなるだろうか。

$ python --version
Python 2.7.10
$ python ellipsis.py
  File "ellipsis.py", line 16
    print(obj.greeting(...))
                       ^
SyntaxError: invalid syntax

こちらは文法エラーになってしまった。通常のメソッドの呼び出しに Ellipsis は渡すことができないらしい。

まとめ

Ellipsis は「...」を表す特殊な定数
Python 2 と 3 では挙動が異なる
Python 3 では「...」が Ellipsis オブジェクトになっている
そのため、通常のメソッドの引数などにも Ellipsis が使える
それに対し Python 2 では拡張スライス文でしか使えない

スマートPythonプログラミング: Pythonのより良い書き方を学ぶ

作者: もみじあめ
発売日: 2016/03/12
メディア: Kindle版
この商品を含むブログを見る

2016-06-17

Python: 環境ごとの依存ライブラリをセットアップスクリプトの extras_require で管理する

macOS Python Postgresql SQLAlchemy MySQL Homebrew

Python のパッケージを作っていると、特定の環境だけで必要となるパッケージが大抵はでてくる。例えばデータベースを扱うアプリケーションなら、使う RDBMS によってデータベースドライバのパッケージが異なる。あるいは、インストール先の Python のバージョンによっては標準ライブラリに用意されていないパッケージのバックポート版をインストールしなきゃいけない。今回は、そんなときに便利なセットアップスクリプト (setup.py) の extras_require 引数を使ってみる。

使った環境は次の通り。

$ sw_vers
ProductName:    Mac OS X
ProductVersion: 10.11.5
BuildVersion:   15F34
$ python --version
Python 3.5.1

下準備

まず最初に題材とするのはデータベースを扱うアプリケーションにしよう。前述した通り、この状況では使う RDBMS によって異なるデータベースドライバをインストールしなきゃいけない。今回は RDBMS に MySQL と Postgresql を使い分ける状況を想定しよう。

データベースドライバをビルドするために MySQL と Postgresql をインストールしておく。

$ brew install mysql postgresql

次に、題材とするアプリケーション本体のソースコード。これには SQLAlchemy を使ってモデルを定義したモジュールを mydbapp という名前で保存しておく。ただし、今回これはあくまで単なる例に過ぎないので実際に動かしたりすることはない。

$ cat < 'EOF' > mydbapp.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-

from sqlalchemy.ext.declarative.api import declarative_base
from sqlalchemy.sql.schema import Column
from sqlalchemy.sql.sqltypes import BigInteger
from sqlalchemy.sql.sqltypes import Text


Base = declarative_base()


class User(Base):
    """データベースのスキーマの元になるモデル"""
    __tablename__ = 'users'

    id = Column(BigInteger, primary_key=True)
    name = Column(Text, nullable=False)
EOF

サンプルコードにセットアップスクリプトを書く

それでは、今回の本題となるセットアップスクリプト (setup.py) を書いてみることにする。

アプリケーションが共通で必要とするパッケージについては通常どおり install_requires に記述しよう。今回においては SQLAlchemy がこれに当たる。そして、環境に依存するデータベースドライバは extras_require に辞書の形で渡す。辞書のキーは環境の名前で、バリューにはパッケージの入ったリストを指定することになる。今回であれば mysql には mysqlclient を、そして postgresql には psycopg2 を指定している。

$ cat << 'EOF' > setup.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-

from setuptools import setup


def main():
    setup(
        name='mydbapp',
        version='0.0.1',
        zip_safe=False,
        py_modules=['mydbapp'],
        install_requires=[
            # どのような環境でも SQLAlchemy は必要になる
            'SQLAlchemy',
        ],
        extras_require={
            # 使う RDBMS ごとに、それ専用のドライバが必要になる
            'mysql': ['mysqlclient'],
            'postgresql': ['psycopg2'],
        },
    )


if __name__ == '__main__':
    main()
EOF

これで mydbapp モジュールをインストールできるようになった。

環境を指定してインストールする

pip install サブコマンドでは setup.py のあるディレクトリを指定することで、そのパッケージ (モジュール) をインストールできる。このとき extras_require を使ったものであれば、角括弧で環境を指定する。

それでは、環境として mysql を指定してインストールしてみよう。

$ pip install .[mysql]
...(省略)...
Running setup.py install for mydbapp ... done
Successfully installed SQLAlchemy-1.0.13 mydbapp-0.0.1 mysqlclient-1.3.7

インストールされたパッケージを確認すると SQLAlchemy や mydbapp に混じって mysqlclient が見つかる。

$ pip list
mydbapp (0.0.1)
mysqlclient (1.3.7)
pip (8.1.2)
setuptools (23.0.0)
SQLAlchemy (1.0.13)
wheel (0.29.0)

同じように postgresql を指定したときはどうなるだろうか。

$ pip install .[postgresql]
...(省略)...
Running setup.py install for mydbapp ... done
Successfully installed SQLAlchemy-1.0.13 mydbapp-0.0.1 psycopg2-2.6.1

先ほどとは異なり psycopg2 がインストールされている。ちなみに Python の仮想環境は作りなおしている。

$ pip list
mydbapp (0.0.1)
pip (8.1.2)
psycopg2 (2.6.1)
setuptools (23.0.0)
SQLAlchemy (1.0.13)
wheel (0.29.0)

もちろん、環境の指定は pip install 以外のサブコマンドにも有効になっている。例えば Wheel をビルドするときも指定すれば環境ごとの内容になる。

$ pip wheel .[mysql]
$ ls | grep whl$
SQLAlchemy-1.0.13-cp35-cp35m-macosx_10_11_x86_64.whl
mydbapp-0.0.1-py3-none-any.whl
mysqlclient-1.3.7-cp35-cp35m-macosx_10_11_x86_64.whl

Python のバージョンごとに依存ライブラリを切り替える

extras_require には、環境の名前を指定してインストールする以外にも便利な使い方がある。例えば Python のバージョンごとにインストールする依存ライブラリを切り替えることができる。

それでは、例としてアプリケーションが ipaddress モジュールに依存している場合を考えてみよう。 ipaddress モジュールは Python 3.3 で新たに標準ライブラリの仲間入りを果たしたモジュールだ。つまり、それ以前のバージョンでは使うことができない。ただし、バックポート版を PyPI からダウンロードしてインストールすることはできる。

次のセットアップスクリプトでは Python のバージョンが 3.3 未満のときだけ ipaddress モジュールをインストールするようにしよう。これには「:python_version<"3.3"」といった書式で extras_require のキーを指定する。

$ cat << 'EOF' > setup.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-

from setuptools import setup


def main():
    setup(
        name='mydbapp',
        version='0.0.1',
        zip_safe=False,
        py_modules=['mydbapp'],
        install_requires=[
            # どのような環境でも SQLAlchemy は必要になる
            'SQLAlchemy',
        ],
        extras_require={
            # 使う RDBMS ごとに、それ専用のドライバが必要になる
            'mysql': ['mysqlclient'],
            'postgresql': ['psycopg2'],
            # Python 3.3 未満には ipaddress が標準ライブラリにない
            ':python_version<"3.3"': [
                'ipaddress',
            ],
        },
    )


if __name__ == '__main__':
    main()
EOF

それでは、上記を Python 2.7 の環境にインストールしてみよう。

$ python --version
Python 2.7.10
$ pip install .
...(省略)...
Running setup.py install for mydbapp ... done
Successfully installed SQLAlchemy-1.0.13 ipaddress-1.0.16 mydbapp-0.0.1

ipaddress モジュールがインストールされていることがわかる。

$ pip list
ipaddress (1.0.16)
mydbapp (0.0.1)
pip (8.1.2)
setuptools (23.0.0)
SQLAlchemy (1.0.13)
wheel (0.29.0)

次に Python 3.5 にもインストールしてみる。

$ python --version
Python 3.5.1
$ pip install .
...(省略)...
Running setup.py install for mydbapp ... done
Successfully installed SQLAlchemy-1.0.13 mydbapp-0.0.1

今度は ipaddress モジュールはインストールされていない！

$ pip list
mydbapp (0.0.1)
pip (8.1.2)
setuptools (23.0.0)
SQLAlchemy (1.0.13)
wheel (0.29.0)

ちなみに、上記で登場したバージョンの指定方法は PEP 426 という仕様で規定されているらしい。具体的には、その中の Environment Markers だ。

Environment Markers については、次のブログ記事が詳しかった。ちなみに、システムのプラットフォーム (Linux だとか Windows だとか) やアーキテクチャ (i386 や x86_64) まで判定できるようだ。

2014/07/10 PEP-0426 Environment Markers の調査 - 清水川Web

スマートPythonプログラミング: Pythonのより良い書き方を学ぶ

作者: もみじあめ
発売日: 2016/03/12
メディア: Kindle版
この商品を含むブログを見る

2016-06-11

Python: (今のところ) Flask で Request#get_data(as_text=True) は使わない方が良い

Python Flask macOS

今回は最近見つけた Flask (正確には、その中で使われている WSGI ツールキットの Werkzeug) のバグについて。先にざっくりと概要を説明しておくと Flask の Request#get_data() の引数として as_text=True を渡したときの挙動に問題がある。このメソッドは Content-Type に含まれる charset 指定にもとづいてマルチバイト文字をデコードできない。デコードに使われる文字コードが UTF-8 に固定されてしまっているため、それ以外の文字コードを扱うことができない。

このエントリでは、上記の問題について詳しく見ていくことにする。

今回使った環境は次の通り。

$ sw_vers
ProductName:    Mac OS X
ProductVersion: 10.11.5
BuildVersion:   15F34
$ python --version
Python 3.5.1
$ echo $LANG
ja_JP.UTF-8

下準備

まずは Flask をインストールしておく。

$ pip install Flask
$ pip list | grep -i flask
Flask (0.11.1)

Request#charset メンバについて

Flask (正確には Werkzeug) の Request オブジェクトには charset というメンバがある。これは、おそらくは Content-Body をエンコードした文字コードを格納するためのものだろう。ただし、「おそらく」と言ったように、実際にはそのようには動作しない。このメンバの値は、今のところ UTF-8 に固定されてしまっているためだ。

動作を確認するために、次のようなサンプルコードを用意しよう。このサンプルコードでは Request#charset の内容をレスポンスとして返す。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from flask import Flask
from flask import request

app = Flask(__name__)


@app.route('/', methods=['POST'])
def post():
   return request.charset

上記のサンプルコードを実行する。 Flask v0.11 からは Flask のテストサーバの推奨される起動方法が少し変わった。

$ export FLASK_APP=charset.py
$ flask run
 * Serving Flask app "charset"
 * Running on http://127.0.0.1:5000/ (Press CTRL+C to quit)

まずは Content-Type に charset の指定がないとき。これは「utf-8」になる。まあ、猫も杓子も UTF-8 の昨今、これは特に違和感のない挙動だと思う。

$ curl -X POST -H "Content-Type: text/plain" -d "こんにちは" http://localhost:5000
utf-8

次に UTF-8 以外の文字コードを扱ってみることにしよう。今回は EUC-JP を使うことにして、それでエンコードされたテキストファイルを用意する。先ほどのサンプルコードでは Content-Body の内容を読みこんだりはしないけど、一応ね。

$ cat << 'EOF' > greeting.txt
こんにちは
EOF
$ nkf -e greeting.txt > greeting.euc.txt
$ nkf --guess greeting.euc.txt
EUC-JP (LF)

ちなみに Mac OS X に nkf はデフォルトではインストールされていないので Homebrew でインストールしよう。

$ brew install nkf

次は Content-Type に charset をつけてリクエストする。 Content-Body も、それに合わせて EUC-JP でエンコードされたテキストファイルを使って送る。

$ curl -X POST -H "Content-Type: text/plain; charset=EUC-JP" -d @greeting.euc.txt http://localhost:5000
utf-8

Content-Type の charset で EUC-JP と指定しているんだけど utf-8 になってしまっている。

このように Flask (正確には Werkzeug) の Request#charset は、今のところ正しく動作しない。

MIMETYPE の文字コードは何処に格納されるのか

じゃあ Flask では Content-Type で指定された文字コードを正しく扱うことはできないのか？というと、そうではない。実は Request#mimetype_params という辞書の中に入っている。

これもサンプルコードを用意して、動作を確認してみよう。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from flask import Flask
from flask import request

app = Flask(__name__)


@app.route('/', methods=['POST'])
def post():
   return str(request.mimetype_params.get('charset'))

そしてアプリケーションを起動する。

$ export FLASK_APP=mimetype.py
$ flask run
 * Serving Flask app "mimetype"
 * Running on http://127.0.0.1:5000/ (Press CTRL+C to quit)

先ほどと同じように EUC-JP を指定したリクエストを送ってみよう。

$ curl -X POST -H "Content-Type: text/plain; charset=EUC-JP" -d @greeting.euc.txt http://localhost:5000
EUC-JP

今度はちゃんと EUC-JP になっている！

ちなみに、この値にはデフォルト値が入るわけではない。指定がないときは空になっている。

$ curl -X POST -H "Content-Type: text/plain" -d @greeting.euc.txt http://localhost:5000
None

Request#get_data(as_text=True) への副作用

先ほどの Request#charset が UTF-8 で固定される問題は、別のメソッドにも影響を与えている。それが、今回のエントリのタイトルにもなっている Request#get_data() メソッドだ。このメソッドはリクエストから Content-Body として送られたデータを取り出すためのメソッドになっている。

この Request#get_data() というメソッドには as_text という引数がある。これは Content-Body をデコードした内容を受け取るためのオプションで、デフォルトでは False になっている。つまり、デフォルトでは Request#get_data() を実行したとき得られるものはバイト列 (bytes) ということになる。そして、この引数を True にすると、バイト列をデコードしたユニコード文字列 (Python3: str, Python2: unicode) になる。

問題は、この as_text オプションを True にしたとき使われる文字コードだ。ここまで語ってきたように Request#charset は utf-8 に固定されてしまっている。だから、このメンバにもとづいてデコードしているとアウトなんだけど、今 (v0.11.10) の Wekzeug は見事にそれをやってしまっている。

github.com

この挙動を確認するため、次のようなサンプルコードを用意しよう。このサンプルコードでは Request#get_data(as_text=True) で取得した内容を、そのままレスポンスとして返す。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from flask import Flask
from flask import request

app = Flask(__name__)


@app.route('/', methods=['POST'])
def post():
    return request.get_data(as_text=True)

上記を実行する。

$ export FLASK_APP=getdata1.py
$ flask run
 * Serving Flask app "getdata1"
 * Running on http://127.0.0.1:5000/ (Press CTRL+C to quit)

先ほどと同じように EUC-JP を含むリクエストを送ってみよう。

$ curl -X POST -H "Content-Type: text/plain; charset=EUC-JP" -d @greeting.euc.txt http://localhost:5000
����ˤ���

文字化けしてしまった…。

何が起こったのか

これはつまり、以下のようなことが起こっている。

[EUC-JP 文字列] -> (UTF-8 デコード) -> [Python ユニコード文字列] -> (UTF-8 エンコード) -> [UTF-8 文字列 (文字化け)]

HTTP クライアントから送られてきた EUC-JP のバイト列を UTF-8 でデコードしてしまっているのが間違い。結果的にめちゃくちゃなユニコード文字列が生成されて、それをエンコードしたところで文字化けしてしまう、という寸法だ。

じゃあ、どうすればいいのか

Wekzeug のバグが修正されるまではワークアラウドでしのぐしかない。 Werkzeug 任せにすると、リクエストに含まれるバイト列が UTF-8 固定でデコードされてしまうのが根本的な原因だ。つまり、デコードを自分でやれば問題は起きなくなる。

次のサンプルコードを見てほしい。このコードではリクエストからバイト列でデータを取り出した上で、それを自分でデコードしている。デコードに使う文字コードは Request#mimetype_params に入っている値で、それがなければ UTF-8 を使うようにした。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

from flask import Flask
from flask import request

app = Flask(__name__)


@app.route('/', methods=['POST'])
def post():
    data = request.get_data()
    charset = request.mimetype_params.get('charset') or 'UTF-8'
    return data.decode(charset, 'replace')

実行してみる。

$ export FLASK_APP=getdata2.py
$ flask run
 * Serving Flask app "getdata2"
 * Running on http://127.0.0.1:5000/ (Press CTRL+C to quit)

今度も同じように EUC-JP を含むリクエストを送ってみよう。

$ curl -X POST -H "Content-Type: text/plain; charset=EUC-JP" -d @greeting.euc.txt http://localhost:5000
こんにちは

今度は文字化けしていない！

今度は、次のようなことが起こっている。

[EUC-JP 文字列] -> (EUC-JP デコード) -> [Python ユニコード文字列] -> (UTF-8 エンコード) -> [UTF-8 文字列]

EUC-JP 文字列が正しい文字コードでデコードされて、本来のユニコード文字列になっている。それを UTF-8 でエンコードしてレスポンスとして返した。そして、ターミナルの文字コードも UTF-8 なので文字化けは起きない。

実は、このやり方は Flask の Request#get_json() を真似している。このメソッドでも、同じように Request#mimetype_params に入っている charset にもとづいてデコードしているからだ。つまり Request#get_json() はバグっていない。 github.com

最近は猫も杓子も JSON だし、UTF-8 以外の文字コードを使う機会も少ないから今回のバグを踏む人は少ないのかもしれない。とはいえ、こういう問題があるので Flask のアプリケーションでマルチバイト文字を扱うときは注意しよう。

ちなみに

この不具合については Wekzeug にバグレポートした。将来的には、いつか直るかもしれない。

Request#get_data(as_text=True) does not work with Content-Type/charset · Issue #947 · pallets/werkzeug · GitHub

スマートPythonプログラミング: Pythonのより良い書き方を学ぶ

作者: もみじあめ
発売日: 2016/03/12
メディア: Kindle版
この商品を含むブログを見る

2016-06-11

Python: Alembic をプロジェクトの途中から導入する

Alembic MySQL Python macOS Homebrew

今回は Python のデータベースマイグレーションツールの Alembic について。 Alembic を使うとデータベースのスキーマをマイグレーションスクリプトにもとづいて管理できる。マイグレーションスクリプトというのは、スキーマのバージョンを現在の状態から進める・戻すのに必要な手順が書かれたスクリプトのこと。このブログでも、以前に Alembic でマイグレーションスクリプトを自動生成するための方法について書いたことがある。

blog.amedama.jp

そして、今回はアプリケーションの実運用が始まってしまった後からスキーマの管理を Alembic に移行するための手順を書いてみる。スケジュールが厳しいプロジェクトなんかだと、リリースまでにマイグレーションまで手が回らないなんてこともまあ考えられる。

今回使った環境は次の通り。 RDBMS には MySQL 5.7 を使った。

$ sw_vers
ProductName:    Mac OS X
ProductVersion: 10.11.5
BuildVersion:   15F34
$ python --version
Python 3.5.1
$ mysql --version
mysql  Ver 14.14 Distrib 5.7.13, for osx10.11 (x86_64) using  EditLine wrapper

下準備

まずは Homebrew で MySQL をインストールしておく。

$ brew install mysql

そして MySQL サーバを起動しよう。

$ mysql.server start

次に Python の O/R マッパーの SQLAlchemy と MySQL ドライバの mysqlclient をインストールしておく。

$ pip install sqlalchemy mysqlclient
$ pip list | egrep -i "(sqlalchemy|mysqlclient)"
mysqlclient (1.3.7)
SQLAlchemy (1.0.13)

今回、動作確認に使うためのデータベースを用意する。

$ mysql -u root -e "CREATE DATABASE IF NOT EXISTS migration CHARACTER SET utf8mb4"

「migration」という名前のデータベースだ。

$ mysql -u root -e "SHOW CREATE DATABASE migration"
+----------+--------------------------------------------------------------------+
| Database | Create Database                                                    |
+----------+--------------------------------------------------------------------+
| migration   | CREATE DATABASE `migration` /*!40100 DEFAULT CHARACTER SET utf8mb4 */ |
+----------+--------------------------------------------------------------------+

これで RDBMS に関しては準備ができた

テーブルとレコードを用意する

次に Alembic が導入されていない頃のプロジェクトを想定した状況を作る。最初に SQLAlchemy でテーブル定義に対応するモデルを用意しよう。このモデルは、ユーザを管理するための users というテーブルをひとつ持っている。

$ cat << 'EOF' > model.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-

from sqlalchemy.ext.declarative.api import declarative_base
from sqlalchemy.sql.schema import Column
from sqlalchemy.sql.sqltypes import BigInteger
from sqlalchemy.sql.sqltypes import Text


Base = declarative_base()


class User(Base):
    __tablename__ = 'users'

    # 主キー
    id = Column(BigInteger, primary_key=True)
    # 名前
    name = Column(Text, nullable=False)
EOF

次に、上記のモデルを使って実際にデータベースにテーブルとレコードを追加するスクリプトを用意する。

$ cat << 'EOF' > insert.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-

from sqlalchemy.engine import create_engine
from sqlalchemy.orm.session import sessionmaker

from model import Base
from model import User


def main():
    # エンジンを作る
    engine = create_engine(
        'mysql+mysqldb://root@localhost/migration?charset=utf8mb4',
        echo=True,
    )

    # テーブルを作る
    Base.metadata.create_all(engine)

    # セッション作成用のオブジェクトを作る
    SessionMaker = sessionmaker(
        bind=engine,
        autocommit=True,
        expire_on_commit=False,
    )

    # セッションを作る
    session = SessionMaker()
    # 最初に行をひとつ追加しておく
    with session.begin(subtransactions=True):
        user = User(name='foo')
        session.add(user)


if __name__ == '__main__':
    main()
EOF

上記のスクリプトを実行しよう。

$ python insert.py
2016-06-11 12:46:19,645 INFO sqlalchemy.engine.base.Engine SHOW VARIABLES LIKE 'sql_mode'
2016-06-11 12:46:19,646 INFO sqlalchemy.engine.base.Engine ()
2016-06-11 12:46:19,649 INFO sqlalchemy.engine.base.Engine SELECT DATABASE()
...(省略)...
2016-06-11 12:46:19,721 INFO sqlalchemy.engine.base.Engine INSERT INTO users (name) VALUES (%s)
2016-06-11 12:46:19,721 INFO sqlalchemy.engine.base.Engine ('foo',)
2016-06-11 12:46:19,726 INFO sqlalchemy.engine.base.Engine COMMIT

これで Alembic を導入する前のデータベースの状態が用意できた。

$ mysql -u root -D migration -e "DESC users"
+-------+------------+------+-----+---------+----------------+
| Field | Type       | Null | Key | Default | Extra          |
+-------+------------+------+-----+---------+----------------+
| id    | bigint(20) | NO   | PRI | NULL    | auto_increment |
| name  | text       | NO   |     | NULL    |                |
+-------+------------+------+-----+---------+----------------+
$ mysql -u root -D migration -e "SELECT * FROM users\G" 
*************************** 1. row ***************************
  id: 1
name: foo

Alembic を導入する

さて、ここからは Alembic を導入するフェーズに入る。

$ pip install alembic
$ pip list | grep -i alembic
alembic (0.8.6)

ここからの作業は、先ほど用意した Python スクリプトと同じ場所で進める。

$ ls
__pycache__ insert.py   model.py

まずは alembic コマンドを使って必要なファイルセットを一式用意しよう。

$ alembic init alembic

これでディレクトリには alembic.ini というファイルと alembic というディレクトリができるはず。

$ ls
__pycache__ alembic     alembic.ini insert.py   model.py

ここからは Alembic の設定ファイルを編集していくんだけど、その前に GNU sed が入っていなければインストールしておく。 Mac の sed はオプションが GNU 版と違うので。

$ brew install gnu-sed
$ alias sed='gsed'

まずは alembic.ini の中にある sqlalchemy.url という項目を編集する。必要に応じて接続用 URL のアカウントなどは適宜変更する。

$ sed -i -e 's!^sqlalchemy\.url = .*$!sqlalchemy.url = mysql+mysqldb://root@localhost/migration?charset=utf8mb4!' alembic.ini
$ grep 'sqlalchemy\.url' alembic.ini
sqlalchemy.url = mysql+mysqldb://root@localhost/migration?charset=utf8mb4

次に Alembic に管理対象のモデルを教えてやる。これには alembic/env.py の target_metadata にモデルが継承しているオブジェクトの metadata メンバを指定する。

$ sed -i -e '
  2i import model
  s:^\(target_metadata = \)None:\1model.Base.metadata:
' alembic/env.py
$ head -n 3 alembic/env.py
from __future__ import with_statement
import db
from alembic import context
$ grep ^target_metadata alembic/env.py
target_metadata = model.Base.metadata

これで Alembic の下準備ができた。

マイグレーションスクリプトを用意する

次は Alembic のマイグレーションスクリプトを用意する。これはデータベースに何もないまっさらな状態から users テーブルがある状態にするためのスクリプト。

最初のリビジョンのマイグレーションスクリプトを生成する。

$ PYTHONPATH=. alembic revision -m "Initial"

これで、なんか適当なリビジョンが振られたスクリプトができる。

$ ls alembic/versions 
6b7569a12df9_initial.py __pycache__

生成されたスクリプトにマイグレーションの内容を記述する。

$ cat alembic/versions/6b7569a12df9_initial.py 
"""Initial

Revision ID: 6b7569a12df9
Revises: 
Create Date: 2016-06-11 13:39:23.954411

"""

# revision identifiers, used by Alembic.
revision = '6b7569a12df9'
down_revision = None
branch_labels = None
depends_on = None

from alembic import op
import sqlalchemy as sa


def upgrade():
    op.create_table('users',
        sa.Column('id', sa.Integer(), nullable=False),
        sa.Column('name', sa.Text(), nullable=False),
        sa.PrimaryKeyConstraint('id')
    )



def downgrade():
    op.drop_table('accounts')

ちなみに、マイグレーションスクリプトの内容はある程度まで Alembic で自動化で生成することもできる。ただし、今回は既にデータベースの状態とモデルの状態が一致してしまっている。そのため自動で生成するときはまっさらなデータベースを別に用意する必要がある。

blog.amedama.jp

スキーマの管理を Alembic に移行する

さて、ここまでで全ての下準備が整った。いよいよデータベースのスキーマを Alembic に移行してみよう。

Alembic では、今のスキーマの状態を alembic_version というテーブルで管理している。もちろん、現状ではスキーマを Alembic で管理していないので、このテーブルがない。そこで、プロジェクトの途中から管理を Alembic に移すときは手動でこのテーブルを作ってやれば良い。

まずは、次のようにしてテーブルとレコードを追加する。レコードに入れるリビジョン番号は、今のデータベースの状態が Alembic のマイグレーションスクリプトをどこまで適用したかを示している。今のデータベースの状態は、先ほど用意したマイグレーションスクリプトが既に適用された状態と捉えることができる。要するに、ここには先ほど用意したマイグレーションスクリプトのリビジョンを指定すれば良い。

$ mysql -u root -D migration -e "CREATE TABLE alembic_version(version_num varchar(32) NOT NULL)"
$ mysql -u root -D migration -e "INSERT INTO alembic_version(version_num) values ('6b7569a12df9')"

レコードを追加できたら alembic コマンドで upgrade head サブコマンドを実行してみよう。これは Alembic のマイグレーションスクリプトを最新の状態までデータベースに適用することを意味している。

$ PYTHONPATH=. alembic upgrade head
INFO  [alembic.runtime.migration] Context impl MySQLImpl.
INFO  [alembic.runtime.migration] Will assume non-transactional DDL.

ここで上記のように、特に何も実行されなければ上手くいっている。

ちなみに、間違えてレコードを追加する前に上記のコマンドを実行してしまっても問題はない。まずは、何やら例外が出て焦るかもしれない。

$ PYTHONPATH=. alembic upgrade head
...(省略)...
sqlalchemy.exc.OperationalError: (_mysql_exceptions.OperationalError) (1050, "Table 'users' already exists") [SQL: '\nCREATE TABLE users (\n\tid INTEGER NOT NULL AUTO_INCREMENT, \n\tname TEXT NOT NULL, \n\tPRIMARY KEY (id)\n)\n\n']

上記は alembic_version テーブルがないことで Alembic がデータベースがまっさらな状態と考えてテーブルを作ろうとしているために発生したエラーだ。

alembic_version テーブル自体は上記のコマンドで作られる。

$ mysql -u root -D migration -e "CREATE TABLE alembic_version(version_num varchar(32) NOT NULL)"
ERROR 1050 (42S01) at line 1: Table 'alembic_version' already exists

つまり、落ち着いて現在のリビジョンをレコードに追加することで Alembic に今データベースがどの状態にあるかを教えてやれば良い。

$ mysql -u root -D migration -e "INSERT INTO alembic_version(version_num) values ('6b7569a12df9')"

スキーマを更新してみる

Alembic に管理が移行できたところで、試しにスキーマを更新してみよう。

例えば users テーブルに年齢 (age) を入れるカラムを追加してみよう。既存のユーザがマイグレーションするときは null を入れることにする。

$ cat << 'EOF' > model.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-

from sqlalchemy.ext.declarative.api import declarative_base
from sqlalchemy.sql.schema import Column
from sqlalchemy.sql.sqltypes import BigInteger
from sqlalchemy.sql.sqltypes import Integer
from sqlalchemy.sql.sqltypes import Text


Base = declarative_base()


class User(Base):
    __tablename__ = 'users'

    # 主キー
    id = Column(BigInteger, primary_key=True)
    # 名前
    name = Column(Text, nullable=False)
    # 年齢
    age = Column(Integer, nullable=True)
EOF

今度は Alembic のスキーマの自動検出機能を使ってみよう。

$ PYTHONPATH=. alembic revision --autogenerate -m "Add age column"

するとマイグレーションスクリプトが追加されたことがわかる。

$ ls alembic/versions 
6b7569a12df9_initial.py        e64c12b8698d_add_age_column.py
__pycache__

内容を確認すると users テーブルに age カラムを追加・削除するスクリプトが生成されている。

$ cat alembic/versions/e64c12b8698d_add_age_column.py 
"""Add age column

Revision ID: e64c12b8698d
Revises: 6b7569a12df9
Create Date: 2016-06-11 14:20:27.826977

"""

# revision identifiers, used by Alembic.
revision = 'e64c12b8698d'
down_revision = '6b7569a12df9'
branch_labels = None
depends_on = None

from alembic import op
import sqlalchemy as sa


def upgrade():
    ### commands auto generated by Alembic - please adjust! ###
    op.add_column('users', sa.Column('age', sa.Integer(), nullable=True))
    ### end Alembic commands ###


def downgrade():
    ### commands auto generated by Alembic - please adjust! ###
    op.drop_column('users', 'age')
    ### end Alembic commands ###

早速、このスクリプトを使ってデータベースを更新してみよう。

$ PYTHONPATH=. alembic upgrade head
INFO  [alembic.runtime.migration] Context impl MySQLImpl.
INFO  [alembic.runtime.migration] Will assume non-transactional DDL.
INFO  [alembic.runtime.migration] Running upgrade 6b7569a12df9 -> e64c12b8698d, Add age column

すると確かにデータベースのスキーマが更新されている。

$ mysql -u root -D migration -e "DESC users"
+-------+------------+------+-----+---------+----------------+
| Field | Type       | Null | Key | Default | Extra          |
+-------+------------+------+-----+---------+----------------+
| id    | bigint(20) | NO   | PRI | NULL    | auto_increment |
| name  | text       | NO   |     | NULL    |                |
| age   | int(11)    | YES  |     | NULL    |                |
+-------+------------+------+-----+---------+----------------+

既存のユーザについては age に null が入った。

$ mysql -u root -D migration -e "SELECT * FROM users"
+----+------+------+
| id | name | age  |
+----+------+------+
|  1 | foo  | NULL |
+----+------+------+

もし、マイグレーションしたときに特定の値を入れなおすみたいな処理がしたければマイグレーションスクリプトにそれを記述すれば良い。 Alembic のマイグレーションスクリプトはあくまで、ただの Python モジュールに過ぎない。だから、どんな処理を書いても構わない。

まとめ

プロジェクトの途中からでも Alembic を導入してスキーマ管理を移行できる
それには alembic_version というテーブルのレコードを手作業で用意すれば良い

スマートPythonプログラミング: Pythonのより良い書き方を学ぶ

作者: もみじあめ
発売日: 2016/03/12
メディア: Kindle版
この商品を含むブログを見る

2016-06-07

Python: SQLAlchemy + mysqlclient (MySQLdb) でマルチバイト文字を扱う

CentOS7 SQLAlchemy Python

今回は Python の O/R マッパーである SQLAlchemy と MySQL ドライバの mysqlclient を使ってマルチバイト文字を扱うときの注意点について書いてみる。ただし RDBMS については MySQL ではなく、代わりに MariaDB を使った。注意点というのを先に書いてしまうと、接続先 URL で charset を指定するのを忘れないようにしましょうというところ。

使った環境は次の通り。

$ cat /etc/redhat-release
CentOS Linux release 7.2.1511 (Core)
$ uname -r
3.10.0-327.18.2.el7.x86_64

MariaDB をセットアップする

まずは下準備として MariaDB をインストールして設定する。

CentOS 7 では標準の RDBMS が MySQL ではなく MariaDB になっている。

$ sudo yum -y install mariadb-server

インストールされたバージョンは次の通り。現在 MariaDB の安定版には 5.5 系、10.0 系、10.1 系がある。

$ rpm -qa | grep -i mariadb-server
mariadb-server-5.5.47-1.el7_2.x86_64

MariaDB のサービスを起動する。

$ sudo systemctl start mariadb
$ sudo systemctl enable mariadb

デフォルトでは文字コードがクライアントは utf8 でサーバは latin-1 になっている。

$ mysql -u root -e "show variables like 'character%'"
+--------------------------+----------------------------+
| Variable_name            | Value                      |
+--------------------------+----------------------------+
| character_set_client     | utf8                       |
| character_set_connection | utf8                       |
| character_set_database   | latin1                     |
| character_set_filesystem | binary                     |
| character_set_results    | utf8                       |
| character_set_server     | latin1                     |
| character_set_system     | utf8                       |
| character_sets_dir       | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+

サーバについては、このままだと不都合があるので utf8mb4 にしたい。これは 4 バイト対応の UTF-8 文字コードセットで、ただの utf8 のスーパーセットになっている。

$ mysql -u root -e "show character set where Charset = 'utf8mb4'"
+---------+---------------+--------------------+--------+
| Charset | Description   | Default collation  | Maxlen |
+---------+---------------+--------------------+--------+
| utf8mb4 | UTF-8 Unicode | utf8mb4_general_ci |      4 |
+---------+---------------+--------------------+--------+

サーバの文字コードが utf8mb4 になるよう設定ファイルを書き換える。

$ sudo sed -i -e "/^\[server\]$/a character-set-server=utf8mb4" /etc/my.cnf.d/server.cnf
$ grep -A 1 "\[server\]" /etc/my.cnf.d/server.cnf
[server]
character-set-server=utf8mb4

ついでにクライアントについても書き換えておく。

$ sudo sed -i -e "/^\[client\]$/a default-character-set=utf8mb4" /etc/my.cnf.d/client.cnf
$ grep -A 1 "\[client\]" /etc/my.cnf.d/client.cnf
[client]
default-character-set=utf8mb4

設定できたら MariaDB のサービスを再起動する。

$ sudo systemctl restart mariadb

文字コードが utf8mb4 になっていることを確認しよう。 character_set_system が utf8 のままだけど、ここは固定値らしいので気にしなくても良さそう。

$ mysql -u root -e "show variables like 'character%'"
+--------------------------+----------------------------+
| Variable_name            | Value                      |
+--------------------------+----------------------------+
| character_set_client     | utf8mb4                    |
| character_set_connection | utf8mb4                    |
| character_set_database   | utf8mb4                    |
| character_set_filesystem | binary                     |
| character_set_results    | utf8mb4                    |
| character_set_server     | utf8mb4                    |
| character_set_system     | utf8                       |
| character_sets_dir       | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+

今回の動作確認に使うデータベースを sample という名前で用意する。

$ mysql -uroot -e "CREATE DATABASE IF NOT EXISTS sample"

ちゃんとデフォルトの文字コードである utf8mb4 を使うようになっている。

$ mysql -uroot -e "SHOW CREATE DATABASE sample"
+----------+--------------------------------------------------------------------+
| Database | Create Database                                                    |
+----------+--------------------------------------------------------------------+
| sample   | CREATE DATABASE `sample` /*!40100 DEFAULT CHARACTER SET utf8mb4 */ |
+----------+--------------------------------------------------------------------+

もし、グローバルの設定を変更せずに utf8mb4 を使いたいときはデータベースを作るときにも指定できる。

$ mysql -uroot -e "CREATE DATABASE IF NOT EXISTS sample CHARACTER SET utf8mb4"

あるいは、既にあるデータベースを変更しても良い。

$ mysql -uroot -e "ALTER DATABASE sample DEFAULT CHARACTER SET utf8mb4"

以上で MariaDB の設定はおわり。

SQLAlchemy と mysqlclient をインストールする

次は Python パッケージの設定に入る。

まずは CentOS7 にデフォルトで yum 管理の setuptools が入っていたら、それをアンインストールしておこう。

$ sudo yum -y remove python-setuptools

代わりに get-pip.py を使って最新版の pip と setuptools をインストールしてしまう。

$ curl https://bootstrap.pypa.io/get-pip.py | sudo python

次に pip を使って SQLAlchemy をインストールする。

$ sudo pip install SQLAlchemy

mysqlclient の拡張モジュールをビルドするのに必要なパッケージをインストールする。

$ sudo yum -y install mariadb-devel python-devel

そして mysqlclient をインストールする。

$ sudo pip install mysqlclient

マルチバイト文字を含むレコードを追加する

さて、ここからやっと本題に入れる。 SQLAlchemy を使った Python スクリプトを書いてマルチバイト文字を含むレコードを追加したい。

最初のサンプルコードとして、次のようなものを用意した。 User クラスが RDB のテーブルのモデルとなる。そのインスタンスに「山田太郎」という文字列を入れて永続化を試みている。ちなみに、これはまだ問題を抱えたプログラムになっている。

$ cat << 'EOF' > multibyte0.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-

from __future__ import unicode_literals

from sqlalchemy.engine import create_engine
from sqlalchemy.ext.declarative.api import declarative_base
from sqlalchemy.orm.session import sessionmaker
from sqlalchemy.sql.schema import Column
from sqlalchemy.sql.sqltypes import Integer
from sqlalchemy.sql.sqltypes import Text

Base = declarative_base()


class User(Base):
    __tablename__ = 'users'

    # 主キー
    id = Column(Integer, primary_key=True)
    # 名前
    name = Column(Text, nullable=False)


def main():
    engine = create_engine(
        'mysql://root@localhost/sample',
        echo=True,
    )
    Base.metadata.create_all(engine)
    SessionMaker = sessionmaker(
        bind=engine,
        autocommit=True,
        expire_on_commit=False,
    )
    session = SessionMaker()
    with session.begin(subtransactions=True):
        user = User(name='山田太郎')
        session.add(user)


if __name__ == '__main__':
    main()
EOF

また、最初に __future__ パッケージの unicode_literals をインポートしているので、文字列リテラルはすべて unicode 型になっている点に注意が必要。 CentOS 7 の Python はバージョンが 2.7 系なのでマルチバイト文字を扱うときは、これをインポートしておいた方が良い。プログラムの中で扱う文字列を unicode 型に統一しておくと後からの手間が色々と少なくなる。

さて、それでは上記を実行してみよう。しかし、これは例外になる。

$ python multibyte0.py
...(省略)...
File "/usr/lib/python2.7/site-packages/sqlalchemy/engine/default.py", line 450, in do_execute
  cursor.execute(statement, parameters)
File "/usr/lib64/python2.7/site-packages/MySQLdb/cursors.py", line 207, in execute
  args = tuple(map(db.literal, args))
File "/usr/lib64/python2.7/site-packages/MySQLdb/connections.py", line 304, in literal
  s = self.escape(o, self.encoders)
File "/usr/lib64/python2.7/site-packages/MySQLdb/connections.py", line 222, in unicode_literal
  return db.literal(u.encode(unicode_literal.charset))
UnicodeEncodeError: 'latin-1' codec can't encode characters in position 0-3: ordinal not in range(256)

上記ではマルチバイト文字が含まれる unicode 型の文字列を latin-1 (ASCII) でエンコードしようとして例外になっている。

であれば、エンコード済みの UTF-8 を書き込めば良いのでは、という発想で行ってみる。今度は SQLAlchemy の Engine を作る段階で convert_unicode=True をつけてみよう。ちなみに、この修正でもまだ問題が残っている。

$ cat << 'EOF' > multibyte1.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-

from __future__ import unicode_literals

from sqlalchemy.engine import create_engine
from sqlalchemy.ext.declarative.api import declarative_base
from sqlalchemy.orm.session import sessionmaker
from sqlalchemy.sql.schema import Column
from sqlalchemy.sql.sqltypes import Integer
from sqlalchemy.sql.sqltypes import Text

Base = declarative_base()


class User(Base):
    __tablename__ = 'users'

    # 主キー
    id = Column(Integer, primary_key=True)
    # 名前
    name = Column(Text, nullable=False)


def main():
    engine = create_engine(
        'mysql://root@localhost/sample',
        echo=True,
        convert_unicode=True,
    )
    Base.metadata.create_all(engine)
    SessionMaker = sessionmaker(
        bind=engine,
        autocommit=True,
        expire_on_commit=False,
    )
    session = SessionMaker()
    with session.begin(subtransactions=True):
        user = User(name='山田太郎')
        session.add(user)


if __name__ == '__main__':
    main()
EOF

実行してみよう。今度は例外にならない。

$ python multibyte1.py
...(省略)...
2016-06-07 23:20:43,771 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2016-06-07 23:20:43,772 INFO sqlalchemy.engine.base.Engine INSERT INTO users (name) VALUES (%s)
2016-06-07 23:20:43,772 INFO sqlalchemy.engine.base.Engine ('\xe5\xb1\xb1\xe7\x94\xb0\xe5\xa4\xaa\xe9\x83\x8e',)
2016-06-07 23:20:43,773 INFO sqlalchemy.engine.base.Engine COMMIT

ちなみに、上記で使われたバイト列は「山田太郎」を UTF-8 でエンコードした内容と一致する。

$ python
>>> from __future__ import unicode_literals
>>> name = u'山田太郎'
>>> name.encode('utf-8')
'\xe5\xb1\xb1\xe7\x94\xb0\xe5\xa4\xaa\xe9\x83\x8e'

これでバッチリでしょうと思いながら MariaDB に入った内容を確認すると、見事に文字化けしている。

$ mysql -u root -D sample -e "SELECT * FROM users\G"
*************************** 1. row ***************************
  id: 1
name: å±±ç”°å¤ªéƒŽ

これは、後述する観測結果から、どうやら mysqlclient と MariaDB の接続に使われる文字コードが latin-1 (ASCII) になっているからのように思える。

じゃあ、どうしたら良いのかというと接続に使う URL の指定に一工夫が必要だった。データベース名の末尾に「?charset=utf8mb4」という形で文字コードを指定してやらなきゃいけない。

$ cat << 'EOF' > multibyte2.py
#!/usr/bin/env python
# -*- coding: utf-8 -*-

from __future__ import unicode_literals

from sqlalchemy.engine import create_engine
from sqlalchemy.ext.declarative.api import declarative_base
from sqlalchemy.orm.session import sessionmaker
from sqlalchemy.sql.schema import Column
from sqlalchemy.sql.sqltypes import Integer
from sqlalchemy.sql.sqltypes import Text

Base = declarative_base()


class User(Base):
    __tablename__ = 'users'

    # 主キー
    id = Column(Integer, primary_key=True)
    # 名前
    name = Column(Text, nullable=False)


def main():
    engine = create_engine(
        'mysql://root@localhost/sample?charset=utf8mb4',
        echo=True,
    )
    Base.metadata.create_all(engine)
    SessionMaker = sessionmaker(
        bind=engine,
        autocommit=True,
        expire_on_commit=False,
    )
    session = SessionMaker()
    with session.begin(subtransactions=True):
        user = User(name='山田太郎')
        session.add(user)


if __name__ == '__main__':
    main()
EOF

ちなみに Engine を作るときの convert_unicode=True については、あってもなくても良さそう。

実行してみる。今度はユニコード文字列がそのまま書き込まれているようだ。

$ python multibyte2.py
...(省略)...
2016-06-07 23:24:03,562 INFO sqlalchemy.engine.base.Engine BEGIN (implicit)
2016-06-07 23:24:03,563 INFO sqlalchemy.engine.base.Engine INSERT INTO users (name) VALUES (%s)
2016-06-07 23:24:03,563 INFO sqlalchemy.engine.base.Engine (u'\u5c71\u7530\u592a\u90ce',)
2016-06-07 23:24:03,564 INFO sqlalchemy.engine.base.Engine COMMIT

永続化された内容を確認しておこう。今度はちゃんと文字化けせずにレコードが入っている。

$ mysql -u root -D sample -e "SELECT * FROM users\G"
*************************** 1. row ***************************
  id: 1
name: å±±ç”°å¤ªéƒŽ
*************************** 2. row ***************************
  id: 2
name: 山田太郎

めでたしめでたし、と行きたいところだけど原因をもうちょっと調べておかないとね。「?charset=utf8mb4」があるときとないときで、何が変わっているのかを見てみよう。おそらく SQLAlchemy が操作する MySQL ドライバ (mysqlclient) の設定が変わるんだろうなとアタリをつけて調べていった。

ここからは mysqlclient のソースコードについて。どうやら mysqlclient では mysqlclient.connections.Connection をインスタンス化するときに charset の設定があるらしい。ちゃんと細部までソースコードを追うことはできていないけど、たぶんこれかな。

https://github.com/PyMySQL/mysqlclient-python/blob/master/MySQLdb/connections.py#L130,L133

Python の REPL で確認してみよう。まずは「?charset=utf8mb4」がないとき。作成した SQLAlchemy の Engine からは raw_connection() メソッドでドライバの生のコネクションをラップしたオブジェクトが得られる。

$ python
>>> from MySQLdb.constants import FIELD_TYPE
>>> engine = create_engine('mysql://root@localhost/sample')
>>> raw_conn = engine.raw_connection()

そこからさらに connection メンバを参照すると、ここに生のドライバが入っている。

>>> mysqldb_conn = raw_conn.connection

文字コードは character_set_name() というメソッドで取得した内容が使われる雰囲気。それを確認すると latin1 となっている。たしかに、これだとマルチバイト文字は扱えなさそう。根本的な問題はこれだったはず。

>>> mysqldb_conn.character_set_name()
'latin1'

次にあるとき。こちらはちゃんと utf8mb4 が指定されている。やはり接続先 URL に charset の指定があるかないかでドライバの設定が変わっていた。

>>> engine = create_engine('mysql://root@localhost/sample?charset=utf8mb4')
>>> raw_conn = engine.raw_connection()
>>> mysqldb_conn = raw_conn.connection
>>> mysqldb_conn.character_set_name()
'utf8mb4'

めでたしめでたし。

オチ

で、まあここらへんの話って SQLAlchemy の公式ドキュメントにもちゃんと書かれているんだよね。

MySQL — SQLAlchemy 1.1 Documentation

まとめ

SQLAlchemy と mysqlclient (MySQLdb) を組み合わせて使うときマルチバイト文字を扱いたいなら接続先 URL で charset を指定しよう
公式ドキュメントはちゃんと読もう

スマートPythonプログラミング: Pythonのより良い書き方を学ぶ

作者: もみじあめ
発売日: 2016/03/12
メディア: Kindle版
この商品を含むブログを見る

2016-06-02

Python: インターネットと疎通がない環境に Python パッケージをインストールする (改)

Python Linux CentOS7 Wheel

このブログでは、以前にインターネットと疎通のない環境で Python パッケージをインストールする方法について書いたことがある。具体的には Wheel でパッケージングした配布物を pip を使ってインストールしていた。

blog.amedama.jp

ただ、上記の記事にはひとつ問題点が残されていた。そもそも Wheel をインストールするのに必要な pip を OS のパッケージ管理システム (yum) を通してインストールしていたことだ。このやり方では、OS が提供するパッケージをそのまま使った場合には古いバージョンの pip しか使うことができない。それに pip 自体も Python のパッケージなので、その管理が yum と pip というふたつのシステムにまたがることになる。

今回は、その解決策がわかったので紹介することにした。ポイントは get-pip.py を pip コマンドの代わりとして使うことだ。

使った環境は次の通り。

$ cat /etc/redhat-release
CentOS Linux release 7.2.1511 (Core)
$ uname -r
3.10.0-327.18.2.el7.x86_64

下準備

もし OS の提供する pip や setuptools がインストールされているときは、あらかじめ削除しておこう。

$ sudo yum remove -y python-setuptools python-pip

パッケージング (インターネットと疎通のあるホストで実行する)

ここからはインストールしたい Python パッケージなどのパッケージングを行う。

まずは、普段なら pip をインストールするために使う get-pip.py をダウンロードしておこう。

$ wget https://bootstrap.pypa.io/get-pip.py

次に Wheel を入れるディレクトリを作っておく。

$ mkdir wheelhouse

これは単に一箇所にまとめておくために作っている。

そして pip の Wheel ファイルを作って先ほど作ったディレクトリの中に入れる。

$ python get-pip.py wheel pip --no-cache-dir --download wheelhouse

上記の操作で get-pip.py を Python スクリプトとして実行している。実は get-pip.py は一部の機能は絞られるものの pip コマンドの代わりとして使うことができる。

pip 以外にも、インストールしたい Python パッケージの例として requests の Wheel を用意しておこう。

$ python get-pip.py wheel requests --no-cache-dir --download wheelhouse

用意した Wheel ファイルは次の通り。

$ ls wheelhouse | grep \.whl$
pip-8.1.2-py2.py3-none-any.whl
requests-2.10.0-py2.py3-none-any.whl
setuptools-22.0.0-py2.py3-none-any.whl
wheel-0.29.0-py2.py3-none-any.whl

上記のパッケージをインストールする (インターネットと疎通のない) ホストには、これらと先ほどダウンロードした get-pip.py を持っていく。

インストール (インターネットと疎通のないホストで実行する)

ここからは、先ほど作った Wheel ファイルをインストールする先の話。本来はインターネットと疎通のないホストで実行することになるけど、ここではさっきビルドしたのと同じところでやってしまうことにする。

インストールにはパッケージングと同じように get-pip.py を使う。 get-pip.py は pip コマンドの代わりになるので、これを使って pip の Wheel パッケージをインストールする。このとき --no-index オプションと --find-links オプションを併用することで、パッケージの解決が指定したディレクトリに閉じて実行される。

$ sudo python get-pip.py --no-index --find-links=wheelhouse pip

これで pip がインストールできた。

$ pip list | egrep "(pip|setuptools|wheel)"
pip (8.1.2)
setuptools (22.0.0)
wheel (0.29.0)

pip さえインストールできてしまえばこちらのものなので、あとはふつうに pip コマンドで Wheel ファイルをインストールしていく。

$ sudo pip --no-index --find-links=wheelhouse requests

もちろん get-pip.py を使い続けても良いけどね。

無事に requests もインストールできた。

$ pip list | grep requests
requests (2.10.0)

ばっちり。

まとめ

Wheel ファイルにはブートストラップ問題がある
Wheel ファイルをインストールするための pip をどうインストールするか
この問題は get-pip.py を使って解決できる
get-pip.py は pip コマンドの代わりとして使える
pip の Wheel ファイルを get-pip.py を使ってインストールしよう

スマートPythonプログラミング: Pythonのより良い書き方を学ぶ

作者: もみじあめ
発売日: 2016/03/12
メディア: Kindle版
この商品を含むブログを見る

2016-06-01

Python: skflow を使ってディープラーニングで FizzBuzz 問題を解いてみる

Python TensorFlow skflow

最近 TensorFlow を使ってディープラーニングで FizzBuzz 問題を解くっていうブログ記事を読んだんだけど、これが面白かった。

joelgrus.com

そこで、自分でも同じようにディープラーニングを使って FizzBuzz 問題を解いてみることにした。ただし、アレンジとして TensorFlow を直接使うのではなく、代わりに skflow を使ってみる。 skflow というのは TensorFlow を scikit-learn と同じインターフェースで扱えるようにしたラッパーだ。これなら使い慣れた scikit-learn と同じ雰囲気で TensorFlow を使うことができる。

使った環境は次の通り。

$ sw_vers 
ProductName:    Mac OS X
ProductVersion: 10.11.5
BuildVersion:   15F34
$ python --version
Python 3.5.1

下準備

まずは TensorFlow と skflow を pip でインストールする。

$ pip install -U https://storage.googleapis.com/tensorflow/mac/tensorflow-0.8.0-py3-none-any.whl
$ pip install -U git+https://github.com/tensorflow/skflow.git

解いてみる

で、いきなりソースコードなんだけど次のようになった。

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import skflow
from sklearn import metrics

import numpy as np


def fizzbuzz_encode(n):
    """整数を FizzBuzz の各答えに対応する整数に変換する"""
    # FizzBuzz
    if n % 3 == 0 and n % 5 == 0:
        return 0

    # Fizz
    if n % 3 == 0:
        return 1

    # Buzz
    if n % 5 == 0:
        return 2

    return 3


def fizzbuzz_decode(n, prediction):
    """各答えに対応する整数を文字列の答えに変換する"""
    mappings = ['FizzBuzz', 'Fizz', 'Buzz', str(n)]
    return mappings[prediction]


def vector_encode(n, digits):
    """整数を特徴ベクトルに変換する"""
    return np.array([
        # リストの d 番目の要素として n の d ビット目の値を取り出す
        n >> d & 1
        for d in range(digits)
    ])


def dataset(dataset_len, vector_len, offset=1):
    """FizzBuzz の入力と答えが含まれるデータセットを作成する"""
    x = np.array([
        vector_encode(n, vector_len)
        for n in range(offset, dataset_len)
    ], dtype=np.int32)
    y = np.array([
        fizzbuzz_encode(n)
        for n in range(offset, dataset_len)
    ], dtype=np.int32)

    return x, y


def main():
    # 特徴ベクトルの次元数
    DIGITS = 14
    # ホールドアウト検証に使うテストデータ点数
    HOLDOUT_LEN = 100

    # (2 ^ DIGITS) のサイズでデータセットを作成する
    x, y = dataset(2 ** DIGITS, DIGITS)

    # データセットを学習用データと検証用データに分ける
    train_x, train_y = x[HOLDOUT_LEN:], y[HOLDOUT_LEN:]
    test_x, test_y = x[:HOLDOUT_LEN], y[:HOLDOUT_LEN]

    # DNN 分類器
    classifier = skflow.TensorFlowDNNClassifier(
        hidden_units=[100],
        n_classes=4,
        batch_size=128,
        steps=100000,
        learning_rate=0.05,
    )

    # 学習用データを使って学習する
    classifier.fit(train_x, train_y)

    # 検証用データを使った正答率 (汎化性能) を調べる
    score = metrics.accuracy_score(classifier.predict(test_x), test_y)
    msg = '正答率: {percent:.2f}%'.format(
        percent=score * 100,
    )
    print(msg)

    # ニューラルネットワークの出した答えを表示する
    vectorizer = np.vectorize(fizzbuzz_decode)
    answers = classifier.predict(test_x)
    numbers = np.arange(1, HOLDOUT_LEN + 1)
    output = vectorizer(numbers, answers)
    print(output)


if __name__ == '__main__':
    main()

最初のポイントとしては skflow.TensorFlowDNNClassifier かな。これが scikit-learn でおなじみの API をもった分類器になっている。具体的には fit() メソッドで学習したり、predict() メソッドで学習した内容を元に分類できたりするところ。

コンセプトは元ネタのブログとほとんど同じ。 FizzBuzz 問題の入力となる特徴ベクトルはビットが入った長さ N のリストで、例えば 1 => [0, ... 0, 0, 1], 2 => [0, ... 0, 1, 0] みたいなかんじになっている。そして学習データのラベルには FizzBuzz 問題の答えとして FizzBuzz => 0, Fizz => 1, Buzz => 2, それ以外 => 3 という風にしている。この入力と答えをデータセットとしてあらかじめたくさん用意しておいて、それを学習用データと検証用データに分けて扱っている。

また、最終的に学習には使わなかった 1 ~ 100 の検証用 (ホールドアウト) データを入力したときの汎化性能 (未知のデータに対する対処能力) を調べている。ついでに学習したニューラルネットワークが出した答えも出力するようにした。

インスパイア元からの変更点は色々とあるけど、パラメータでいえば特徴ベクトルが 10 次元から 14 次元になっていたり、学習ステップ数が 10 倍になっていたりする。反面、ニューラルネットワークの隠れ層のユニット数なんかは同じ (100) かな。

動かしてみる

早速実行してみよう。学習に結構な時間がかかる。

$ python fizzbuzz.py
Step #99, avg. train loss: 1.19849
Step #200, epoch #1, avg. train loss: 1.14770
Step #300, epoch #2, avg. train loss: 1.14635
Step #400, epoch #3, avg. train loss: 1.14502
Step #500, epoch #3, avg. train loss: 1.14393
...
Step #99500, epoch #777, avg. train loss: 0.10758
Step #99600, epoch #778, avg. train loss: 0.11312
Step #99700, epoch #778, avg. train loss: 0.10891
Step #99800, epoch #779, avg. train loss: 0.10846
Step #99900, epoch #780, avg. train loss: 0.10930
Step #100000, epoch #781, avg. train loss: 0.10990
正答率: 100.00%
['1' '2' 'Fizz' '4' 'Buzz' 'Fizz' '7' '8' 'Fizz' 'Buzz' '11' 'Fizz' '13'
 '14' 'FizzBuzz' '16' '17' 'Fizz' '19' 'Buzz' 'Fizz' '22' '23' 'Fizz'
 'Buzz' '26' 'Fizz' '28' '29' 'FizzBuzz' '31' '32' 'Fizz' '34' 'Buzz'
 'Fizz' '37' '38' 'Fizz' 'Buzz' '41' 'Fizz' '43' '44' 'FizzBuzz' '46' '47'
 'Fizz' '49' 'Buzz' 'Fizz' '52' '53' 'Fizz' 'Buzz' '56' 'Fizz' '58' '59'
 'FizzBuzz' '61' '62' 'Fizz' '64' 'Buzz' 'Fizz' '67' '68' 'Fizz' 'Buzz'
 '71' 'Fizz' '73' '74' 'FizzBuzz' '76' '77' 'Fizz' '79' 'Buzz' 'Fizz' '82'
 '83' 'Fizz' 'Buzz' '86' 'Fizz' '88' '89' 'FizzBuzz' '91' '92' 'Fizz' '94'
 'Buzz' 'Fizz' '97' '98' 'Fizz' 'Buzz']

やったー、元ネタと同じように汎化性能で 100% の精度が得られたー。

これはようするに、色んなデータでニューラルネットワークを学習させたら、教えていないデータについても正しい答えが出せるようになったということ。こちらは FizzBuzz 問題というものが何なのか一切説明していない。なのに、ただ色んなデータを突っ込んだら、あたかもそれを理解しているように見えるのは面白いね。

といっても、上記は検証用データの点数を 100 に絞ったとき、たまたま全部当たっていたというだけ。例えば点数を 1024 まで使うと精度は 97% ほどだった。

$ python fizzbuzz.py
Step #99, avg. train loss: 1.20100
Step #200, epoch #1, avg. train loss: 1.14943
Step #300, epoch #2, avg. train loss: 1.14813
Step #400, epoch #3, avg. train loss: 1.14763
Step #500, epoch #4, avg. train loss: 1.13771
...
Step #99500, epoch #829, avg. train loss: 0.09799
Step #99600, epoch #830, avg. train loss: 0.10067
Step #99700, epoch #830, avg. train loss: 0.09853
Step #99800, epoch #831, avg. train loss: 0.10148
Step #99900, epoch #832, avg. train loss: 0.09875
Step #100000, epoch #833, avg. train loss: 0.09879
正答率: 97.07%
['1' '2' 'Fizz' ..., '1022' 'Fizz' '1024']

まあ、ほどほどかな？問題の難易度に比べると低すぎるような気もする。学習・検証曲線を見ながら最適なパラメータを選択できれば、もっと上がるのかな。

まとめ

skflow は TensorFlow のラッパになっていて scikit-learn と同じ API が使えて便利
ニューラルネットワークが FizzBuzz 問題を理解していくさまを見るのは面白い
FizzBuzz 問題は分類問題と見なせるので、別に機械学習の分類器なら何でもいけそう

スマートPythonプログラミング: Pythonのより良い書き方を学ぶ

作者: もみじあめ
発売日: 2016/03/12
メディア: Kindle版
この商品を含むブログを見る