4
7

More than 5 years have passed since last update.

Webサイトのタイトル・テキスト取得

Last updated at Posted at 2016-02-03

はじめに

事前に以下のライブラリを用意します。

今回のサンプルは以下のjarがあれば動作します。

  • jsoup-1.10.3.jar

実装例

サンプルでは、動作確認しやすいようにmainメソッドで実行できるようにしてあります。
結果だけを確認したい場合は、この記事の一番下のリンク先で使えるようにしてありますのでご覧ください。

Wget.java
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
 *
 * @author tool-taro.com
 */
public class Wget {

    public static void main(String[] args) throws IOException {

        //取得したいURL
        String url = "http://tool-taro.com";
        //ユーザエージェント(ある程度最新のブラウザを指定しないとコンテンツを返してくれないサイトがある)
        String userAgent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36";

        //取得・パース処理
        Document document = Jsoup.connect(url).userAgent(userAgent).get();
        Elements elements = document.body().getAllElements();
        StringBuilder builder = new StringBuilder();
        for (Element element : elements) {
            if (element.ownText() == null) {
                continue;
            }
            builder.append(element.ownText()).append("\n");
        }
        //標準出力
        System.out.format("タイトル=%1$s, 本文=%2$s", document.title(), builder.toString());
    }
}

動作確認

$ javac Wget.java
$ java Wget
$ タイトル=Web便利ツール@ツールタロウ, 本文=Web便利ツール@ツールタロウ
ツールタロウのブログ
Web便利ツール一覧
Web制作やシステム開発に便利な無料ツール集。
...(省略)

実際に使う際には、Webサイトの著作権等に充分ご注意ください。

環境

  • 開発

    • Windows 10 Pro
    • JDK 1.8.0_144
    • NetBeans IDE 8.2
  • 動作検証

    • CentOS Linux release 7.3
    • JDK 1.8.0_144

上記の実装をベースにWebツールも公開しています。
WebサイトのHTMLテキスト取得|Web便利ツール@ツールタロウ
Webサイトのクロール|Web便利ツール@ツールタロウ

4
7
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
7