LoginSignup
17
16

More than 5 years have passed since last update.

【Ruby】Nokogiriでbrタグを改行(¥n)に変更したい時【Nokogiri】

Posted at

Nokogiriでいろいろなサイトをスクレイピングしてると、たまに(主にHTMLが)すごいことになってるサイトに出会いますよね。

Nokogiriでスクレイピングしたのに、brタグだらけなページがあります。
こういうサイトって古めの、テーブルレイアウト使いまくりのサイトに多い気がしますがどうなんでしょう。

今回はそんなページから、なんとかしてテキストを抜き出す方法をメモしておきます。

普通に

page.text

したら、改行されるべきところが改行されてないのが出てきたりしますね。

そういう時は、

page.search('br').each do |br|
  br.replace("¥n")
end

ってやればOKです。

brタグが自動的に¥nに置き換えられて、

page.text

するとキレイに改行されたテキストが出てくるようになります。

17
16
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
17
16