はじめに
PythonでIPアドレスを扱うことが時々あって、IPv4アドレスにマッチする正規表現をいつもググって以下のサイトなどを参考にさせていただいて盲目的に使うのですが、自分がちゃんと理解した上でQiitaに記載しておくと何かと便利だと思って、その理解のためのレポートを書くつもりで書いておきます。参考サイト:
1. 結論
結論から言うとこれでうまく動作する(Pythonで扱う場合)。^(([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$
例えば、あるリストの要素にIPv4とIPv6の文字列が混在していて、そこからIPv4だけを抜き出したいときにこんな感じで使える。
import re
#IPv4にマッチする正規表現
ptn = '^(([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$'
#IPv4とIpv6が混在したリスト
ip_lst = ['192.168.1.1', '::ffff:192.168.1.1']
#IPv4だけのリスト
ipv4_lst = list(filter(lambda x: re.search(ptn, x), ip_lst))
では、この正規表現の意味の解釈を以下につぶさに記載する。
2.そもそもIPv4アドレス表記に関してRFCはどう定義してるか
IPv4表記のRFCの定義なんて、「ちょっと検索すれば出てくるでしょ」とたかを括ってたらですよ、それを見つけられないばかりか、コミュニティサイトで「そんなのない」って言ってる人を見かけた...Leading zeros in IPv4 address; is that a no-no by convention or standard?(Superuser)
でも、このQAには「RFCに採用されずに、期限が切れたIETFのドラフト」へのリンクがあったので、これを参考にすることにする。
Textual Representation of IPv4 and IPv6 Addresses(IETF)
以下、抜粋。
原文:
3.1 IPv4 Dotted Octet Format
A 32-bit IPv4 address is divided into four octets. Each octet is
represented numerically in decimal, using the minimum possible number
of digits (leading zeroes are not used, except in the case of 0
itself). The four encoded octets are given most-significant first,
separated by period characters
Google翻訳 + α:
3.1 IPv4 ドット付きオクテット形式
32ビットのIPv4アドレスは4つのオクテットに分割されます。各オクテットは可能な限り最小桁数を使用して、10進数で表されます(それ自体が0の時以外は前にゼロを付与しません)。
エンコードされた4つのオクテットは、ピリオドで区切られた最上位のものが最初に置かれます。IPv4address = d8 "." d8 "." d8 "." d8 d8 = DIGIT ; 0-9 / %x31-39 DIGIT ; 10-99 / "1" 2DIGIT ; 100-199 / "2" %x30-34 DIGIT ; 200-249 / "25" %x30-35 ; 250-255
このドラフトによればオクテット表記は表1の通りとなる。
(オクテット表記はすごく簡単に言うと、「前ゼロを含まない0-255までの10進数の数値」ということではあるけれど...)
説明 | 範囲 |
---|---|
Digit | 0-9 |
1-9(0x31-39)とDigit | 10-99 |
"1"と2Digit | 100-199 |
"2"と0-4(0x30-34)とDigit | 200-249 |
"25"と0-5(0x30-35) | 250-255 |
3.正規表現をひとつずつ見ていく
権威がありそうでないIPv4アドレス表記ルールがわかったところで、ここからは冒頭の正規表現を分解しながらひとつずつ見ていく。3.1 オクテットのパターン
まずは最初のこの部分の^(([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$
これ[1-9]?[0-9]
。
・[1-9]
は123456789のいずれか1文字にマッチ
・?
は前の文字([1-9]
)がないか、1文字だけある
・[0-9]
は0123456789のいずれか1文字にマッチ
つまり、[1-9]?[0-9]
の意味は表1のこの2行を表している。
説明 | 範囲 |
---|---|
Digit | 0-9 |
1-9(0x31-39)とDigit | 10-99 |
次にこの部分の
^(([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])¥
これ1[0-9]{2}
。
・1
は1にマッチ
・[0-9]{2}
は0123456789のいずれかが2文字ある場合にマッチ
つまり、1[0-9]{2}
の意味は表1のこの行を表している。
説明 | 範囲 |
---|---|
"1"と2Digit | 100-199 |
今度はこの部分の
^(([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$
これ2[0-4][0-9]
。
・2
は2にマッチ
・[0-4]
は01234のいずれか1文字にマッチ
・[0-9]
は01234567899のいずれか1文字にマッチ
つまり、2[0-4][0-9]
の意味は表1のこの行を表している。
説明 | 範囲 |
---|---|
"2"と0-4(0x30-34)とDigit | 200-249 |
オクテットの表現としては最後のこの部分の
^(([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$
これ25[0-5]
。
・25
は25にマッチ
・[0-5]
は012345のいずれか1文字にマッチ
つまり、25[0-5]
の意味は表1のこの行を表している。
説明 | 範囲 | "25"と0-5(0x30-35) | 250-255 |
---|
ここまででオクテット表記は全て網羅したので、表1に正規表現を追記して整理してみる。
説明 | 範囲 | 正規表現 |
---|---|---|
Digit | 0-9 | [1-9]?[0-9] |
1-9(0x31-39)とDigit | 10-99 | |
"1"と2Digit | 100-199 | 1[0-9]{2} |
"2"と0-4(0x30-34)とDigit | 200-249 | 2[0-4][0-9] |
"25"と0-5(0x30-35) | 250-255 | 25[0-5] |
3.2 オクテットとドット、そして繰り返し
オクテットのパターンがわかったところで、この部分の
^(([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])$
これに注目していきたい。
([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])
よく見てみると、今まで出てきたオクテットのパターンが()
(カッコ)で括られ、|
(パイプ)で区切られていることがわかる。
正規表現の代わりに表2の「範囲」で表してみると、このようになっている。
(0~99|100~199|200~249|250~255)
|
(パイプ)は()
(カッコ)でグルーピングして並列に記載されている文字列のいずれかにマッチするので、0~99
, 100~199
, 200~249
, 250~255
のいずれかにマッチする。
そして、全体を眺めてみると、
^(A\.){3}A$
ただし、A = ([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])
という構造になっていることがわかる。これを見ていくと。
・\.
は.
(ドット)(\
(バックスラッシュ)でエスケープ)にマッチ
・{3}
は直前のグループ、(A\.)
が3回続く文字列にマッチ
・それらにAを加えた文字列にマッチ
・行の先頭と最後を示すメタ文字^
と$
で挟まれている上記にマッチ
ここで、エスケープ文字の\
(バックスラッシュ)を外し、繰り返しの{3}
を分解して、行の先頭と最後を示す^
と$
を外して考えると、
A.A.A.A
という見慣れた構造になっていることがわかり、冒頭のこの正規表現がIPv4アドレスにマッチすることがわかった(気がする)。
^(([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])|
まとめ
ここまで読み進めてくれた方は余程の暇人かIPv4アドレスがマッチする正規表現を本当に知りたかった方だと思いますが、いずれにしても感謝いたします。そんな方にささやかながら感謝の意味を込めて一つプレゼントを贈ります。はい。どうぞ。
^(([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])\.){3}([1-9]?[0-9]|1[0-9]{2}|2[0-4][0-9]|25[0-5])/([1-2]?[0-9]|3[0-2])$
これまでの正規表現とそっくりだと思いますが、CIDR表現のネットワークアドレス(例:192.168.1.0/24)とマッチする正規表現です。
違いは後ろに追記された/([1-2]?[0-9]|3[0-2])
です。
ここまで、読んだ方にとって、これを理解するのは造作もないことだと思うので、解説は控えておきます。
PHPなどで正規表現のデリミタに/
(スラッシュ)を使用する場合は/
を\
(バックスラッシュ)でエスケープしてください。