1.はじめに
今回はテキストデータからHTMLタグを削除する方法を紹介します。
htmlタグは文章の意味を学習させる際にノイズとなるデータです。
なので、削除してあげることが重要になります。
2.環境
- MacOS Catalina10.15.5
- Miniconda
- Python3.7.5
3.例題
Amazon Reviewのデータセットから
タグが付いている文章を抽出しました。
ここから
タグを抜き出しましょう。
4.方法
4.1.beautiful Soupのインストール
まずはPythonライブラリであるbeautiful soupをMiniconda環境にインストールします。
>conda install beautiful Soup
4.2.変数htmlに文字列を代入
>>>html = ""はまってしまう!楽しい!! ついついやってしまいます。<br />簡単なものから難しいものまで<br />子供と一緒に楽しく遊べて考えながら<br />出来るので面白いです。""
4.3.HTMLタグを除去する関数を定義
from bs4 import BeautifulSoup
def clean_html(html, strip=False):
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text(strip=strip)
return text
4.4.出力する
clean_html(html)
他にも正規表現を使った方法などもあるので追々紹介できたらと思います!