参考記事と書籍
この記事の概要
この記事は上の記事のアウトプットのための記事です。
よりわかりやすい説明は上の記事を読んでください。
正規表現とは
文字列をわかりやすく置き換える手法です。
正規表現を書いてみた
まずこんなをテキストを以下のサイトのYour test string;にコピペしました。
⚫︎Rubular
http://rubular.com/
名前:伊藤淳一
電話:03-1234-5678
住所:兵庫県西脇市板波町1-2-3
Match resultに表示されました。
そしてYour regular expressionに\d
を入力しました。
そうするとMatch resultの数字が水色に点滅しました。
\d
は正規表現では「メタ文字」
という特別な意味があるみたいです。
\d
は「1個の半角数字(0123456789)」を表すメタ文字で(文字の集合を表しているので、
特に 「文字クラス」 と呼ばれているみたいです)。
メタ文字を使って文字列検索
\d\d-\d\d\d\d-\d\d\d\d
をYour regular expressionに入力しました。
これで電話番号が水色に点滅し、電話番号がはっきりとわかるようになりました。
\d は1個の半角数字
で\d\dは2個の半角数字
です。
"\"
は文字列として扱われます。
-
はメタ文字ではなく"-" という文字
みたいです。
使い方によっては -
も特殊な意味を持つみたいです。
電話番号の03-1234-5678を当てはめてみました。
\d\d-\d\d\d\d-\d\d\d\d
は
半角数字2個、ハイフン、半角数字4個、ハイフン、半角数字4個で合致して
電話番号がきれいに水色に点滅しました。
これを自分に当てはめてみました。
住所や電話番号は変えておきます。
名前:Hashimoto Noriaki
電話:060-2893-4789
住所:埼玉県XX市YY町5番
この中の番号を検索しました。そして以下の記述をしました。
\d\d\d-\d\d\d\d-\d\d\d\d
で060-2893-4789が水色に点滅しました。
MacOSでのバックスラッシュの入力方法
option + ¥
で\
を入力できます。
しかし毎回\の入力の際、optionを使うのが面倒な場合は
打つ必要がなくなる設定ができるみたいです。
https://qiita.com/miyohide/items/6cb8967282d4b2db0f61
Rubyで動かしてみた
正規表現はプログラミング言語やテキストエディタ内でも使用できるみたいです。
実際に動かしてみます。
⚫︎環境
VSCode
/ /
で囲まれた部分が正規表現(Regexpクラスのインスタンス)です。
text = <<TEXT
名前:Hashimoto Noriaki
電話:0290-69-1259
住所:埼玉県さいたま市XX345
TEXT
puts text.scan /\d\d\d\d-\d\d-\d\d\d\d/
実行し
0290-69-1259
と出力されました。
note = <<NOTE
名前:Hashimoto Noriaki
電話:060-1655-8177
住所:東京都新宿区西新宿356
NOTE
puts note.scan /\d\d\d-\d\d\d\d-\d\d\d\d/
060-1655-8177
と出力。
JavaScriptでも動く
JavaScriptでも正規表現は使えるみたいです。
JS向けにScriptularというRubyの時とほぼ同じサイトがあるみたいです。
JS上の正規表現の動作を確認したい場合は下のサイトがいいみたいです。
https://scriptular.com/
⚫︎補足
devtoolsをすぐ開けるコマンド(Mac)
command
+ option
+ i
Rubyの時と同じ処理を書いてみました。
var text =
'名前:Hashimoto Noriaki\n 電話:0290-69-1259\n 住所:埼玉県さいたま市XX345';
console.log(text.match(/\d\d\d\d-\d\d-\d\d\d\d/g));
実行すると
['0290-69-1259']
⚫︎補足
/\d\d\d\d-\d\d-\d\d\d\d/g
のgは
グローバルオプションと呼ばれるもので、下のような違いがあるみたいです。
・gなし
=> 最初の1件が見つかったら検索終了
・gあり
=> 一致する文字列をすべて抽出
いろんな市外局番への対応
携帯だけでなく地域によって番号が変わるのでいろんな番号への対応をみていきます。
名前:Hashimoto Noriaki
電話:02-1234-3456
電話:090-1244-5647
電話:0395-19-1359
電話:02992-1-2345
住所:埼玉県XX市YY町456
こちらをRubularに貼り付けてみました。
先程の /\d\d\d\d-\d\d-\d\d\d\d/
では検索ができません。
法則を見つけることが大事みたいです。
半角数字が2個~5個、ハイフン、半角数字が1個~4個、ハイフン、半角数字が4個
みたいな感じです。
これを正規表現で書いていきます。
⚫︎文字の個数の限定法
{n,m}
{m}
などのメタ文字
を使うみたいです。
このnとmを数字に置き換えていきます。
{1,5}
なら1個以上5個以下
という意味です。
{3}ならちょうど3
という意味です。
\d{2,5}-\d{1,4}-\d{4}
これなら2個以上5個以下、ハイフン、1個以上4個以下、ハイフン、4個
という意味でこれで
電話番号を検索できます。
カッコの対応
下のようにカッコがつくと上のやり方で検索できなくなります。
名前:Hashimoto Noriaki
電話:02-(1234)-3456
電話:090-(1244)-5647
電話:0395-(19)-1359
電話:02992-(1)-2345
住所:埼玉県XX市YY町456
\d{2,5}-\d{1,4}-\d{4}
だと検索できません。
今回「ハイフンまたはカッコ(開き)」と、「ハイフンまたはカッコ(閉じ)」という「AまたはB」のパターン
があります。
「AまたはBの1文字」表す場合は [AB]
と書くみたいです。(文字クラス の一種です)。
[ ]の中の文字数に制限はなく[ABC]と書けば、「AまたはBまたはCの1文字」
となるみたいです。
ハイフンまたはカッコ(開き)と、ハイフンまたはカッコ(閉じ)はそれぞれ、
[-(]、[-)]
と表現するみたいです。
名前:Hashimoto Noriaki
電話:02(1234)3456
電話:090-1244-5647
電話:0395(19)1359
電話:02992-1-2345
住所:埼玉県XX市YY町456
\d{2,5}[-(]\d{1,4}[-)]\d{4}
で電話番号は全部検索できます。
カッコハイフンについて
[a-z] などのカッコハイフンとなると文字の範囲を表すみたいです。
[-az] や [az-] のように、ハイフンが [ ] の最初または、最後に置かれると「ハイフン1文字」の意味になるみたいです。
[0-9]
とすると
名前:Hashimoto Noriaki
電話:02(1234)3456
電話:090-1244-5647
電話:0395(19)1359
電話:02992-1-2345
住所:埼玉県XX市YY町456
の数字の0から9まで検索されます。半角数字が検索されます。\d と同じです。
[-15]
だとハイフン、1と5が検索されます。
ポイント
かなり難しい内容ですが最後に知っておくべきことです。
\d
は半角数字1文字
{n,m}
は直前の文字が n 文字以上、m 文字以下
{n}
は直前の文字がちょうど n 文字
であることを表す
[AB] は
AまたはBが1文字であることを表す
[a-z]は
aからzの範囲を表す
[-az]は
ハイフン、aとzを表す```