More than 5 years have passed since last update.

Pythonの正規表現でURLの特定の文字列から/スラッシュに囲まれた文字列を抽出

Last updated at 2021-05-12Posted at 2021-05-12

URLである特定の部分から手前の/までの文字を抽出したい

いまいち文章だと分かりづらいので例を出します。

https://exsample.com/hendou/1234/category

というURLがあった場合。
末尾のcategoryのみ分かっていてhendouは動的なので特定できないとします。
この条件下で1234を抽出する正規表現です。

とりあえずこれで動くと思います。

'[^/]*(?=/category)'

m = re.search('[^/]*(?=/category)','https://exsample.com/hendou/1234/category')
print(m.group())
# 1234

[^/]*は/を除く0個以上の文字列です。
[^除外したい文字]で文字の除外ができます。
文字列を除外したい場合[^a-z]等の記述ができます。

categoryが末尾ではなく手前だった場合

https://exsample.com/hendou/category/1234/hendou2

先ほどの正規表現を少し変えれば抽出できます。

m = re.search('(?<=category/)[^/]*', 'https://exsample.com/hendou/category/1234/hendou2')
print(m.group())
# 1234

categoryが手前にある為先読み肯定から後読み肯定になりました。

実はこの記事を投稿した時は[^/]*を((?!/).)* と記述してました。
((?!除外したい文字列).)*でも同じ効果が期待できます。
ただ圧倒的に[^]のが簡素ですね、調査不足でした。