More than 5 years have passed since last update.

JavaScriptでの正規表現の備忘録

Last updated at 2019-12-19Posted at 2015-09-27

正規表現

JSでの正規表現の備忘録です。

項目	値
1	正規表現リテラル(/expression/)
2	文字列リテラル('expression')をRegExpのコンストラクタへ

項目	値
i(case insensitive)	大文字小文字区別なし
g(case global)	ローカルパターンでは最初の出現だけマッチするが、グローバルパターンではパターンの全ての出現にマッチする
m(multiple lines)	複数行にマッチする
挿入方法	正規表現リテラルの場合はスラッシュの後に挿入する。文字列リテラルの場合はRegExpの第二引数に文字列リテラルで挿入する

項目	値
集合演算子とは	角括弧([])で表現する。各括弧の中は候補文字列（どれか一つにマッチさせたい文字列）を入れる。それが、一つの項となる
候補文字列	角括弧の中に入れる[abc]の中のどれかにマッチさせたい時に使う
キャレット(^)	ある文字列以外のマッチなら集合演算子の直後にキャレット(^)をつける。（集合演算子内の場合）
ダッシュ(-)	[a-m]だとaからmまでの、辞書順のすべての文字を指定している
エスケープ(\)	エスケープをすると特殊文字列($など)を候補文字列として指定することができる

項目	値
?演算子	ある項が1個あってもなくてもいい場合は?記号を対象項の末尾に指定する
+演算子	ある項が一回以上の繰り返しの場合は+記号を対象項の末尾に指定する
*演算子	ある項がゼロ回以上の繰り返しの場合は*演算子を対象項の末尾に指定する
波括弧演算子（引数一つ）	ある項の繰り返し回数を指定する場合は、波括弧({})で記述し、第一引数にその回数を指定する
波括弧演算子（引数２つ）	ある項の繰り返し回数の範囲を指定する場合は、波括弧({})で記述し、第一引数に下限、第二引数に上限を指定する。 Note: 上限を省略するには、{4, }のような形で指定する
欲張りと控えめな記述	デフォルトは欲張りで、欲張りだとマッチする全てのパターンを検索する。控えめだと最小限のマッチの検索のみをする。 “aaa”という文字列を対象とし、/a+?/の場合は、a+を満足させるため、ただ一個のa文字にマッチする（?は最小量指定子）。

項目	値
	改行や数字全部、英数字全部などはエスケープキャラクターを使用し記述する

項目	値
２つの役割がある。	複数項のグループ化とキャプチャ指定である。
グループ化とは何か？	括弧演算子を使って複数の項を一つの項にする。/(ab)+/などはabの一回以上の繰り返しを意味する
キャプチャ	正規表現の一部に括弧を入れてグループ化すると作られるもの。後方参照できるようになる
受動的な部分式
キャプチャしない括弧	(?:x)のように「?:」をグループに指定するとindexから参照できなくなる。（$1などで）

項目	値
1	複数の選択肢はパイプ（\|）を使って記述する

項目	値
	バックスラッシュの後に数字を入れるとキャプチャを指定することができる。
	XMLなどのマッチをする時に使う

例	意味
`(?<=東京)`	東京が先に入っている(positive lookahead)
`(?<!東京)`	東京が先に入っていない(negative lookahead)
`(?=東京)`	東京が後に入っている(positive lookbehind)
`(?!東京)`	東京が後に入っていない(negative lookbehind)

例: (?<=東京)(?<!大阪)特許(?=許可)(?!許諾)

東京特許許可局 <=== Matched
東京特許許諾
大阪特許許可局
大阪特許許諾

特殊文字の\wは\w matches any word character (equal to [a-zA-Z0-9_]) とあるが、この [a-zA-Z0-9_]はあくまで英語の話で、日本語の場合は全角文字、半角ｶﾅ、半角英数字またはアンダースコア1文字なので注意！


>>> import re
>>> x = re.search("\w", "日本語")
>>> x
<re.Match object; span=(0, 1), match='日'>

項目	値
1	コンパイル時、正規表現はJavaScriptエンジンによって構文解析され内部表現に変換される。
2	賢明なブラウザなら同じ表現はキャッシュするがそれは、そのブラウザが採用しているエンジンに依存する
3	同じ表現でも別のユニークなオブジェクトとして表現される。ここが他のプリミティブオブジェクト（文字や数値）などと違う所。

項目	値
1	マッチしたかを論理値で返す

項目	値
内容	マッチ結果を配列で返す。
ローカル正規表現	デフォルトの正規表現。最初のマッチした結果の配列を返す。その時、マッチの内側も返す。
グローバル正規表現	フラグのgがついた正規表現。グローバルマッチ（マッチが成立した全ての候補）を返す。その時、マッチの内側は返さない。

項目	値
内容	同じ実行を同じ変数に格納するたびに結果が変わる（次のグローバルマッチを返す）。戻り値の内容はローカルマッチを配列で返す。
ローカル正規表現	Whileでループするとエラー
グローバル正規表現	配列が返る。結果はWhileでループするとグローバルマッチの内側のマッチを配列で返す。つまり、全て参照可能。

項目	値
内容	一致する文字列が見つかった場合、search メソッドは、最初に見つかった文字列の、先頭からのオフセットを示す整数値を返します。見つからなかったら-1を返す

項目	値
内容	ある文字列で配列を区切る。正規表現リテラルでも指定が可能。