正規表現の特訓 1

Posted at 2025-03-09

はじめに

正規表現が苦手なので
基礎を学ぶために時々練習することにしました。
今回は、HTMLのタグを用いて練習します。

問題１

HTML 文字列から、すべての開始タグ (<タグ名> 形式) を抽出するコード

my $html = <<__HTML;
<head>
  <meta charset="utf-8">
  <title>TEST! TEST</title>
  <meta name="description" content="testtest">
  <script src="test.js"></script>
</head>
__HTML

my @tags = ($html =~ /<([a-z]+)[\sa-z\-"\.=]*>/g);
foreach my $tag (@tags){
  print '<' . $tag . '>' . "\n";
}

# => 出力結果
<head>
<title>
<meta>
<script>

問題２

HTML 文字列から、属性を含む開始タグ全体を抽出するコード

my @tags = ($html =~ /<([a-z]+[\sa-z\-"\.=]*)>/g);
foreach my $tag (@tags){
  print '<' . $tag . '>' . "\n";
}

# => 出力結果
<head>
<title>
<meta name="description" content="testtest">
<script src="test.js">

問題３

タグとその中身をセットで抽出するコード

my @tags = ($html =~ /(<[a-z]+[\sa-z\-"\.=]*>.*?<\/[a-z]+>)/g);
foreach my $tag (@tags){
  print $tag . "\n";
}

=> 
<title>TEST! TEST</title>
<script src="test.js"></script>

まとめ

少しずつ練習していこうと思います。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up