0
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 5 years have passed since last update.

スクレイピング

Last updated at Posted at 2019-06-24

用途

ウェブサイト上のHTMLからデータを抜き出す処理

使用例

例えばこのようなHTMLのサイトがあったとして

<ul>
    <li>TEST1</li>
    <li>TEST2</li>
    <li>TEST3</li>
  </ul>

TEST1
TEST2
TEST3
の値を取り出す事ができる

必要なGem

Mechanize

Mechanizeクラスが使えるようになる

Gemfileの最後の行に以下のコードを記述する

Gemfile.
gem 'mechanize'

Gemfileに記述されたgemをインストールする

$ bundle install

Mechanizeクラスのインスタンスを生成

スクレイピングするにはまず、Mechanizeクラスのインスタンスを生成する

例.
agent = Mechanize.new
# Mechanizeクラスのインスタンスを生成して、agentへ代入

webサイトのHTML情報を取得する

getメソッド

getメソッドはMechanizeクラスのインスタンスメソッド
get(スクレイピングしたいウェブサイトのURL)

例.
agent = Mechanize.new
page  = get("https://qiita.com/")
# QiitaのHTMLを取得

HTMLの文字列ではなく、ウェブサイトのHTMLの情報を持ったMechanize::Pageオブジェクトを取得
※オブジェクト
関連する変数(値)とメソッド(動作)をまとめて、そのまとまりに名前を付けたもの

0
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?