HTMLのテキスト部分だけを抜き出したいとか、特定タグの内容を抽出したいとかいうことを実現するものは、HTMLパーサーと呼ぶらしい。
ライセンス含めて使えそうなのを参考からピックアップする。
検討結果
2014-07-31時点で jsoup が良いんじゃないかと思った。
MITライセンスなのと、パーサー機能、使い方も悪くなさそう。最終更新日も割と最近。
参考
-
Comparison of HTML parsers
テーブルでの比較 -
Javaで実装されたHTMLパーサの性能や使い勝手を比べてみるよん | 世界はどこまでもシンプルである
たくさんのライブラリへのリンク -
2007/08/23 日記: Javaで実装された HTML Parser (HTMLパーサ) を調べてみました
テーブル形式でライセンスまで掲載 -
JavaのHTMLパーサー色々 - ドナドナごとごと
サンプル付きでリンク紹介(jsoup,NekoHTML,Jericho,HtmlCleaner) - メモ捨て場: html parser for GAE