0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

【粛清】Pythonで正規表現を使ってURLのパラメーターを消去する【正規表現を利用した置換】

Posted at

背景(メキシコ風味)

URLにはパラメータというものがしばしばつきまとう。

くわしい説明は省略するが、そういったものはたしかにあるのだ。
(もしもURLのパラメータについて知りたければしらべろ。おれはお前のママではない。)

お前が普段つかう分には問題ないが、
記録や共有したいときなどに少しずつお前の心をむしばむだろう。
だからお前は、ときに「パラメータをブルシットしたい」などと考える。
そんなときに役立つのが正規表現だ。
(お前のパソコンのデリート=キーでも良い。デリート=キーをしらないやつは帰れ。)

また、お前はパイッソンでURLを使うこともあるだろう。
そんなとき、パイッソンで正規表現をつかうにはreというモジュールをインスコしなければならない。
もしかしたらお前はそれを知らず、いつまでもパイッソンの黒い画面(例えばの話だ。白い画面のブシェミも確かに存在するのだろう)のまえで終わらない仕事になげくことになるのだ。

そうならないためにも、俺はキーターをかくことにした。
(俺はいまだにQiitaのよみ方を知らない。マルチャンもよく似た名前のせいひんを出しており、お前もくべつがつかず眠れないナイトライフをすごしているだろう。お大事にしてください。)

もしもお前がこのような問題のかいけつ方法をしらべてここに来たのなら、
このシータはお前がメキシコをサバイブする助けになるだろう。

背景(簡単に)

例えばこれはAmazonで「protein」と検索した結果です。
https://www.amazon.co.jp/s?k=protein&crid=1ZC9C468MNZU3&sprefix=protein%2Caps%2C175&ref=nb_sb_noss

実は、「&crid」以降を取り除いてもちゃんとみれます。
https://www.amazon.co.jp/s?k=protein

こんな風に、不要なパラメータを取り除いてURLを短くしたいときに役立ちます。

自分は正規表現をたまにしか使わないので、すぐ見返せる備忘録としてここに記載します。

ああああ.*$ ←「ああああ以降の文字列」という正規表現

見出しのとおりです。

特定の文字列.*$
↑これで「特定の文字列以降の文字列」を指定できます。

re.sub() ←正規表現を使った文字列の置換

re.sub('検索対象の文字列','置換後の文字列','検索対象を含む文字列')
↑ こ う や っ て 使 う の だ

Pythonでは正規表現を利用するのにreというモジュールが必要です。
インストールも忘れずに。

re.sub()の使用例
import re

doman = '羅刹王髑髏烏帽子蘆屋道満'

print(re.sub('刹.*$', '',doman))
#羅

(おまけ)replace() ←正規表現を使わない置換

Pythonで正規表現を使わず置換する場合、replace()メソッドを使う。
検索対象を含む文字列.replace('検索対象の文字列','置換後の文字列')

print('そこで自爆です'.replace('そこで',''))
#自爆です

参考

考えるタケノコのブロゴ
https://kantake.hatenablog.com/

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?