0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

【ChatGPT無】正規表現について、ChatGPTに聞いてみました。

Posted at

 どうも、カーブミラーです。

 今回は、正規表現について、ChatGPTに聞いてみました。正規表現は1950年代に出てきた考えです。詳しくは記事の中で。

本記事は、ChatGPT(無料版)で
行なっております。GPT4での確認
はできておりません。あしからず。

 今回は、
  正規表現です。

 エンジニアならば、
  知らない人は、少ない?
   と思います。

 ゲームエンジニアは、
  使わないかな?

 でも、一般人で知っている人は、
  マスコミ関係くらいでしょうか?

 私は、
  PCで、サクラエディタの
   マクロで、よく使っています。
    あと、検索で。

 文章を処理する上で、
  避けては通れない(おおげさ)
   場合が多いです。

 これがないと、
  マクロプログラムが、
   複雑怪奇になります。

 ただでさえ、
  大きいマクロなので、
   正規表現が使えなかったら
    マクロが動かなくなるかも。
     その前に、マクロを
      考えないかなw


 では、
  ChatGPTさんに
   尋ねてみましょう。


User
正規表現をご存知ですか?
知らなければ、知らないと答えてください。

ChatGPT
はい、正規表現について知識があります。正規表現はテキストパターンを検索や置換するための強力なツールです。どのような情報をお探しでしょうか?

User
どこまでご存知ですか?
事実だけを述べてください。

ChatGPT
正規表現に関して、パターンマッチング、キャプチャグループ、メタキャラクタ、クォンティファイア、エスケープシーケンス、正規表現エンジンの動作、正規表現ライブラリ、および基本的な正規表現操作について知識があります。

User
正規表現の歴史を教えてください。
事実だけを述べてください。

ChatGPT
正規表現は1950年代にアメリカの数学者Stephen Kleeneによって初めて形式化されました。 Kleeneは正規表現を有限オートマトンと結びつけ、形式的な言語理論に組み込みました。その後、正規表現はコンピュータサイエンスと情報処理の分野で非常に重要なツールとなり、多くのプログラミング言語やテキスト処理ツールで広く利用されています。


 ウィキペディアで
  確認しました。

 UNIX(Linuxの前身)の
  エディタやツールに
   組み込まれたのが、
    広まった要因のようですね。

 おかげで、
  エディタが
   便利に使えています。

 ありがたやありがたや。

 次に、
  記述方法をば。


User
正規表現の記述方法を教えてください。

ChatGPT
正規表現は、テキストパターンを記述するための特殊な文字と記号の組み合わせです。以下は正規表現の基本的な要素です:

  1. 文字リテラル: 通常の文字はそのまま表現します。たとえば、文字 "a" は正規表現として "a" と記述します。

  2. メタキャラクタ: 正規表現で特別な役割を持つ文字です。例えば、ドット(.)は任意の文字と一致し、アスタリスク(*)は前のパターンが0回以上繰り返すことを示します。

  3. 文字クラス: [ ] 内に文字や範囲を指定することができます。例えば、[a-z] は小文字のアルファベットと一致します。

  4. 量化子: パターンの前につけて、そのパターンが何回繰り返されるかを指定します。例えば、* は0回以上、+ は1回以上、? は0回または1回という意味です。

  5. エスケープシーケンス: バックスラッシュ(\)を使って特殊文字をエスケープできます。たとえば、\. はピリオド文字自体と一致します。

  6. グループ: ( ) を使用してパターンの一部をグループ化できます。これは量化子をグループ全体に適用するために使用されます。

  7. パイプ: | は "または" の意味で、複数のパターンのいずれかと一致することを示します。

正規表現を構築するために、これらの要素を組み合わせてテキストパターンを記述します。正規表現エンジンは、指定したパターンと一致するテキストを検索または置換します。


 これが、難解。

 ちょっとした
  文字列サーチ程度ならば、
   苦労は少ない。

 でも、
  敷居は高い。

 データから
  電話番号を
   取得するのも大変。

 まぁ、
  どこかから
   コピってくれば
    いいだけですが。

 さすがに、それもアレなんで、
  ChatGPTさんに
   指示して、
    正規表現を
     吐き出してくれるのか
      を試してみます。

 しかも、
  その正規表現を
   ChatGPTさんの中で
    使用できるかも聞きます。

 ちなみに、下記で
  「日本の電話番号」と
   書いたのは、
    そのままだと、
     アメリカの電話番号と
      考えてしまうためです。


User
例えば、リスト中の日本の電話番号を知りたい場合の正規表現を教えてください。

ChatGPT
日本の電話番号を含むテキストを検索する正規表現の一例は、次のようになります:

\d{2,4}-\d{2,4}-\d{4}

この正規表現は、ハイフンで区切られた日本の電話番号を検出するためのものです。電話番号の形式によって調整が必要かもしれませんが、このパターンは一般的な日本の電話番号に一致します。

User
あなたに正規表現の文字列を渡したら、使えますか?
事実だけを述べてください。

ChatGPT
はい、正規表現の文字列を受け取った場合、それに基づいてテキストを検索または置換することができます。

User
正規表現の文字列を渡す際に「正規表現」と書いた方がいいですか?

ChatGPT
はい、正規表現の文字列を渡す際に、その文字列が正規表現であることを明示するために「正規表現」と明記することは一般的に良い実践です。これにより、コミュニケーションが明確になり、正確な処理が行われます。例えば、「次の正規表現を使用してください:」といった形で伝えることができます。


 うむうむ。
  良いではないか、
   良いではないか。

 では、
  ここで
   サンプルデータを拵えて、
    NewChatして
     テストします。


User
以下はサンプルデータです。

  1. 番号: 001, 住所: 東京都渋谷区渋谷1-2-3, 名前: 山田太郎, 電話番号: 080-1234-5678
  2. 番号: 002, 住所: 京都府京田辺市田辺1-4-5, 名前: 田中花子, 電話番号: 03-9876-5432
  3. 番号: 003, 住所: 大阪府大阪市中央区中央2-3-4, 名前: 鈴木健太, 電話番号: 090-5555-8888
  4. 番号: 004, 住所: 北海道札幌市中央区北1-2-3, 名前: 佐藤美代, 電話番号: 042-555-9999
  5. 番号: 005, 住所: 福岡県福岡市博多区博多5-6-7, 名前: 高橋次郎, 電話番号: 070-1111-2222

処理は、次からです。

ChatGPT
了解しました。どの処理を行いたいですか?サンプルデータに対して何か特定の操作や情報を必要としていますか?詳細を教えていただければ、お手伝いできるかと思います。

User
サンプルデータから、正規表現「\d{2,4}-\d{2,4}-\d{4}」で当てはまる文字列だけ、表示してください。

ChatGPT
正規表現「\d{2,4}-\d{2,4}-\d{4}」に一致する文字列は、電話番号のフォーマットです。サンプルデータからそれらの電話番号を表示します。

  1. 080-1234-5678
  2. 03-9876-5432
  3. 090-5555-8888
  4. 042-555-9999
  5. 070-1111-2222

これが正規表現に一致する電話番号です。必要な場合、他の情報を抽出することもできます。

User
サンプルデータから、正規表現「(北海道|青森県|岩手県|宮城県|秋田県|山形県|福島県|茨城県|栃木県|群馬県|埼玉県|千葉県|東京都|神奈川県|新潟県|富山県|石川県|福井県|山梨県|長野県|岐阜県|静岡県|愛知県|三重県|滋賀県|京都府|大阪府|兵庫県|奈良県|和歌山県|鳥取県|島根県|岡山県|広島県|山口県|徳島県|香川県|愛媛県|高知県|福岡県|佐賀県|長崎県|熊本県|大分県|宮崎県|鹿児島県|沖縄県) (?:[都道府県])?([^0-9]+[市区町村])[0-90-9丁目番]^0-90-9丁目番」で当てはまる文字列だけ、表示してください。

ChatGPT
指定された正規表現に一致する文字列をサンプルデータから抽出します。

  1. 北海道札幌市中央区北1-2-3
  2. 東京都渋谷区渋谷1-2-3
  3. 京都府京田辺市田辺1-4-5
  4. 大阪府大阪市中央区中央2-3-4
  5. 福岡県福岡市博多区博多5-6-7

これらの文字列が指定された正規表現に一致します。必要であれば、さらに情報を抽出できます。


 できたできた。

 と、よろこべれば
  いいんですけどね。

 電話番号は
  良かったんですけど、
   住所の際に、
    5件のはずが、
     4件しか出なかった。

 足らない、と
  指摘すれば、
   正しく出してくれます。
    でも、Regenerateでは
     何度も失敗しました。

 つまり、
  ChatGPTさんで、
   正規表現は、
    やめた方がいいですね。

 まぁ、
  最初から
   使おうとは
    思わないでしょうけどね。


 正規表現は、
  覚えれば、
   いろいろな場面で
    便利に使えます。

 それを
  ChatGPTさんが
   サポートできるんです。

 これからも
  使っていきましょう。

 今回は、ここまで。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?