Javaを使用し外部URLからHTMLを取得して、簡単にパースしOGP情報を取得したい
スクレイピングにはJsoupを使用します。
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class Ogp {
public Elements getOgp(String url) throws IOException {
Document document = Jsoup.connect(url).get();
return document.select("meta[property~=og:*]");
}
}
取得するだけならこれだけ
データもこんな感じで取り出せる
Elements elements = getOgp("http://gamy.jp");
for (Element element : elements) {
System.out.println(element.attr("property"));
System.out.println(element.attr("content"));
}