More than 5 years have passed since last update.

Pythonのcoding: ﾅﾝﾄｶのことがよく分からないから調べてみた

Last updated at 2018-04-03Posted at 2015-04-23

2行目に書くあの枕詞

とりあえず1行目にshebang書いて続けざまに2行目に書くアレ

haiku_wo_yome.py

# !/usr/bin/python
# -*- Coding: utf-8 -*-

Pythonのソースコードがどうエンコードされるべきか定義するおまじないめいた文である。
ちなみにこの例だとうまくいかない。Cが大文字だからだ。ハマった。

なんなんだ。一体coding: ﾅﾝﾄｶってなんなんだ。
ちょっと調べてみよう。

調べようと言ってみたが全てはPEP 263に書かれている。さすがPython。
というわけでかいつまんでみる。

ざっくり書くと、
Python 2.1までユニコード文字を表記するにはエスケープシーケンスを使うしかなかった。8-bit文字なら好きなエンコーディングでいいけど限界あるよね。
…ということらしい。実際不便だ。Pythonでの文字コードの話はこの辺が参考になるかもしれない。UTF-8便利。

エンコーディングについて何も指定がない場合はASCIIとして解釈される。
追記：Python3ではデフォルトでUTF-8（PEP 3120）

2行目でもいいのはshebangがあるためだろうか？

単純にこれでもいい。

simple.py

# coding=<encoding name>

よく使われるのは：

emacs.py

# !/opt/local/bin/python
# -*- coding: <encoding name> -*-

この表記はEmacs由来のようだ。vimだと：

vim.py

# !/emacs/or/vim/python
# vim: set fileencoding=<encoding name> :

実は1行目か2行目が次のパターンにマッチすると括弧内を文字コードとして認識する。¹

"coding[:=]\s*([-\w.]+)"

なのでこれにマッチする書き方さえすればエディタとの整合が取れるようになっている。
他にも次のような表記が可能。

wazamae.py

# !/mongoose/vs/python
# This Python file uses the following encoding: utf-8

jillypoor.py

# !/neko/nadetai/python
# Current encoding: shift-jis is not good for this environment.