More than 3 years have passed since last update.

【Python】BeautifulSoupでHTMLをパースすると勝手に構造が変わる問題

Posted at 2021-02-08

問題

BeautifulSoupで書き方の間違ったHTMLをパースすると，勝手に構造を変えられてしまいます。

html = '<h3><p>テキスト</p></h3>'
soup = BeautifulSoup(html, 'lxml')
print(soup.prettify())

期待する出力.

<html>
 <body>
  <h3>
    <p>
     テキスト
    </p>
  </h3>
 </body>
</html>

実際の出力.

<html>
 <body>
  <h3>
  </h3>
  <p>
   テキスト
  </p>
 </body>
</html>

パーサーをlxmlからhtml.parserに変更すると解決します。
ただし，ルートにhtmlタグとbodyタグが自動で追加されなくなるので，必要な場合は自分で追加しましょう。

html = '<h3><p>テキスト</p></h3>'
soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())

出力.

<h3>
 <p>
  テキスト
 </p>
</h3>