0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

正規表現による置換と最短一致

Posted at

こんにちは。
荒れ狂う正規表現による検索を行う中で、少し前の私が知りたかったことを今の私がまとめました。

中でも躓いた

  • 最長一致・最短一致
  • 正規表現によってあるパターンから求めた文字を、あるパターンを残しつつ置換する方法

を、特に記そうと思いました。
順を追って説明していますが、読み飛ばしても大丈夫です。

ご指摘やアドバイスは、コメントでお気軽に頂けたら嬉しいです。

まとめ

  • 正規表現を使うと、パターンからマッチする文字列を得られる。
  • 最長一致と最短一致は書けば簡単。
  • 置換先のテキストで使える正規表現は$1~$9。

正規表現とは

マッチする:正規表現で一致すること。

ある文字列をマッチさせたい時、通常の文字に加えて"メタキャラクタ"と"構文"によるマッチを可能とする機能。

正規表現を使うと

スタートゥインクルプリキュア.txt
キュアスター
キュアミルキー
キュアソレイユ
キュアセレーネ
キュアコスモ
キー

から、^キ.+ー$

スタートゥインクルプリキュア.txt
キュアスター
キュアミルキー

という風に、「キ」で始まって「ー」で終わる3文字以上の行をマッチさせることが出来ます。

他には、

レインボースプラッシュ.txt
「 プリンセススターカラーペン!おとめ座!くるくるチャージ! 」

を、(プ.*?!).*(座.*?!)でマッチさせて、$1かに$2で置換を行い

レインボースプラッシュ.txt
「 プリンセススターカラーペン!かに座!くるくるチャージ! 」

という置換をしたりすることが出来ます。

正規表現による検索は基本的に行単位で処理されます。

件の「正規表現によってあるパターンから求めた文字を、あるパターンを残しつつ置換する方法」がこれなのですが、ひとまず順番にメモしておきます。

メタキャラクタと構文

  • メタキャラクタは正規表現で使える特別な文字です。
  • 構文は正規表現による表現です。

"メタキャラクタ"とは、"文字(=Character)以上の意味を持った(≒超越した≒超=meta)文字"です。
()内はイメージです。

は、どうあってもにしかマッチしませんが、メタキャラクタである.にもAにもにもマッチします。
それは、.なんでもいいので1文字という意味を持ったメタキャラクタだからです。

メタキャラクタは、メタではない普通の文字と組み合わせることが出来ます。
すると、

正規表現 マッチする文字列
ひ.る ひかる ひある ひAる ひ!る ...

と、"で始まって、なんでもいいので1文字で終わる3文字"にマッチさせることが出来ます。

そして、**"で始まって、なんでもいいので1文字で終わる3文字"**が、正規表現による表現、構文です。
ただし、正規表現でも「ひかる」が表現するものは「ひかる」なので、「ひかる」も構文です。
また、「.(なんでもいいので1文字)」だけでも、構文です。

総じて"正規表現"と捉えていても、大丈夫です。

単体で使える、ある文字をさすメタキャラクタ・構文

表現 意味 マッチする文字 代替表現
. 任意の1文字にマッチする。 あ or A or !
\t タブ
\r 改行(CR)Macは多分これ。 (改行)
\n 改行(LF)Windowsはエディタによってこれの場合がある。 (改行)
\r\n 改行(CRLF)Windowsは大体これ。 (改行)
\d 全ての数字 0~9 [0-9]
\s 垂直タブ以外の全ての空白文字 (スペース等) [ \t\f\r\n]
\w 英数字、アンダーバー a~z A~Z 0~9 _ [a-zA-Z0-9_]
\D 全ての数字以外 0~9以外 [^0-9]
\S 垂直タブ以外の全ての空白文字以外(全角文字は含みません) (スペース等)以外 [^ \t\f\r\n]
\W 英数字、アンダーバー以外 a~z A~Z 0~9 _以外 [^a-zA-Z0-9_]

\t\dは、2文字で1文字の構文です。
(1文字というと誤解を招くかもしれませんが、とにかく2つで1つです。)

なお、\バックスラッシュで、Backspaceキーの左か、右Shiftの左で入力出来ます。
環境によって¥と表示されるかもしれませんが、¥でも大丈夫です。

全ての・全ての~以外、の表現で使用されている文字はそれぞれ以下の通りです。
セットで覚えると、思い出しやすいと思います。

表現 文字の意味
\s、\S white spaceのs
\w、\W wordのw。
\d、\D digit(数字)のd。

組み合わせて使うメタキャラクタ

表現 意味 記述例 マッチする文字列
+ 直前の文字1回以上繰り返す文字列にマッチ。最長一致 オ**ヨ+**~ オヨ~ オヨヨ~ オヨヨヨ~ ...
* 直前の文字0回以上繰り返す文字列にマッチ。最長一致 *~ オ~ オヨ~ オヨヨ~ オヨヨヨ~ ...
? 直前の文字0または1文字の場合にマッチ。最長一致 オ**ヨ?**~ オ~ オヨ~

正規表現ではメタキャラクタによる豊かな表現ができる一方で、逆に*+を見つける時、そのままではメタキャラクタとなって、*+は見つけられません。
そこで、メタキャラクタの前に\を入力することで、続くメタキャラクタを普通の文字として使えるようになります。
このことを「エスケープさせる」とも言います。

表現 意味 記述例 マッチする文字列
\ 直後のメタキャラクタ正規表現的意味合いをエスケープさせます。 オ**\+**ヨ~ オ+ヨ~

ある複数の文字を指定する構文

表現 意味 記述例 マッチする文字列
(...) ()の中の文字を文字列とする ( cure ) precure -> cure
[...] []の中に含まれるいずれかの文字とマッチする。 [ cure ] precure -> c u r e
[^...] []の中に含まれる文字以外とマッチする。 [^** cure **] precure -> p
{n} 直前の文字の桁数を指定 オヨ**{2}** オヨヨ
{n,} 直前の文字の最小桁数を指定 オヨ**{2,}** オヨヨ オヨヨヨ オヨヨヨヨ...
{nA,nB} 直前の文字の最小桁数(nA)と最大桁数(nB)を指定 オヨ**{2,3}** オヨヨ オヨヨヨ

()は、置換操作を行う際にとても便利な構文です。詳しくは下で解説しています。

[]を使用することで、全てのひらがなや全てのカタカナ、等をマッチさせられます。

表現 マッチする文字列
[亜-熙] すべての漢字。
[ぁ-ん] すべてのひらがな。
[ァ-ヶ] すべてのカタカナ。
[亜-熙ぁ-んァ-ヶ] すべての漢字、ひらがな、カタカナ。

特定の位置を指定する構文

1行ずつ、プリキュアメンバーの名前が書かれています。

スマイルプリキュア.txt
キュアハッピー
キュアサニー
キュアピース
キュアマーチ
キュアビューティー
表現 意味 記述例 マッチする文字列
^ 直後の文字行頭にある場合にマッチ。 ^キ ュアハッピー ュアサニー ュアピース ュアマーチ ュアビューティー
$ 直前の文字が行末にある場合にマッチ。 ー$ キュアハッピ キュアサニ キュアビューティ

最長一致と最短一致について

本題その1です。
多くの正規表現はそのまま使うと最長一致の文字列を選択します。

例えば以下のテキストがあるとします。

スタートゥインクルプリキュア
キュアスター キュアミルキー

ここで、「キ」で始まって「ー」で終わる文字列を検索するために、キ.*ーで検索した場合、

スタートゥインクルプリキュア
キュアスター キュアミルキー
↓
「キュアスター キュアミルキー」

「」中がマッチする文字列です。
これは**「キ」で始まって()「ー」で終わる文字列**という表現とマッチしているためです。

ですが、本当は**「キ」で始まって「ー」で終わるメンバー**単位でマッチさせたかった場合、キ.*?ーで検索すると、マッチさせることが出来ます。

スタートゥインクルプリキュア
キュアスター キュアミルキー
↓
「キュアスター」 「キュアミルキー」

この、正規表現で解釈可能な最短の文字列にマッチさせるのが、最短一致です。

最短一致の文字列をマッチさせる構文

スタートゥインクルプリキュア
キュアスター キュアミルキー
表現 意味 記述例 マッチする文字列
+? 直前の文字1回以上繰り返す文字列にマッチ。最短一致。 キュ.**+?**ー キュアスター キュアミルキー キュアー
*? 直前の文字0回以上繰り返す文字列にマッチ。最短一致。 キュ.***?**ー キュアスター キュアミルキー キュー
?? 直前の文字0または1文字の場合にマッチ。最短一致。 キュ**??**ー キュー キー

置換先の文字列で使える正規表現

本題その2です。

おとめ座レインボースプラッシュ!
「 プリンセススターカラーペン!おとめ座!くるくるチャージ! 」
→「 (プリンセススターカラーペン!).*(座!くるくるチャージ!) 」

→置換操作にて、置換文字列に$1かに$2を入力し、実行。

かに座レインボースプラッシュ!
→「 プリンセススターカラーペン!かに座!くるくるチャージ! 」
表現 意味 記述例 マッチする文字列
$1~9 ()で囲んでおいた文字列を出力する 上記 $1:プリンセススターカラーペン!
$2:座!クルクルチャージ!

これを利用することで前後の文字列からマッチさせたい文字を求めつつ、
前後の文字列に影響を与えることなくマッチさせた文字の置換が行えます。

おわりに

長かったですね、すみません。
次はもっと誰か、または少し前……今の私の役に立つ投稿がしたいです。

参考文献・参考にしたページ

いつもお世話になっています。
どうもありがとうございます。

正規表現(RegExp) - とほほのWWW入門
https://www.tohoho-web.com/js/regexp.htm

正規表現:最短一致でマッチさせる表現 | WWWクリエイターズ
https://www-creators.com/archives/1804

0
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
1

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?