2
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Goとスクレイピングに同時に入門する

Posted at

この記事は?

この記事は ウィルゲート Advent Calendar 2022 4 日目の記事です。

Go言語でHello Worldをしたことがなく、Webページのスクレイピングもやったことがない人が、Go言語でWebページのスクレイピングしてみる入門用の記事です。
「コピペでひとまず動かしてみる」ことが目的なので、詳しい関数の解説などはありませんがご了承ください。

この記事では「WILLGATE TECH BLOG」のトップ画面に表示されている、記事の投稿日とタイトルをスクレイピングで取得する例を紹介します。
https://tech.willgate.co.jp/

参考文献

『Go初心者でも作れるスクレイピングツール』という本を読んで勉強しました。
初めてGoとスクレイピングをやる私でも分かりやすい内容で書かれており、技術書展の同人誌でページ数も少ないのでとても入門しやすい本でした。

Go言語にHello Worldしよう

まず、Goのファイルを実行する練習をします。
任意のディレクトリを作成します。

$ mkdir go-scraper-blog

main.goファイルを作成します。

$ cd go-scraper-blog
$ touch main.go

main.goファイルの中身を記述します。

main.go
package main

import "fmt"

func main() {
	fmt.Println("Hello World! Go!")
}

モジュール管理ツールを導入するため、以下のコマンドを実行します。
(モジュール名の例: github.com/kotomi1338/go-scraper-blog

$ go mod init [任意のモジュール名]

実行すると、go.modファイルが生成されます。

ここまでで Hello World が実行できます。動作確認してみましょう。

$ go run .
Hello World! Go!

ここまででGoのファイルを実行する練習は終わりです。
ここから先ではいよいよスクレイピング入門していきます。

スクレイピング入門しよう

スクレイピングしたデータを保持するための型を定義

まずはスクレイピングしたデータを保持し、扱いやすくするために型を定義します。

main.go
package main

// 省略

type Item struct {
	Date  string
	Title string
}

スクレイピング用の関数を作成

GETリクエストを投げて帰ってきたレスポンスのメッセージボディを取得する関数getResponseと、データをスクレイピングする関数getListを作成します。

main.go
package main

// 追加
import (
	"fmt"
	"net/http"
	"strings"

	"github.com/PuerkitoBio/goquery"
)

// 省略

func getResponse(url string) (*http.Response, error) {
	response, err := http.Get(url)
	if err != nil {
		return nil, fmt.Errorf("http get request error: %w", err)
	}
	return response, nil
}

func getList(response *http.Response) ([]Item, error) {
	// レスポンスボディを取得
	body := response.Body

	var items []Item

	doc, err := goquery.NewDocumentFromReader(body)
	if err != nil {
		return nil, fmt.Errorf("get document error: %w", err)
	}

	// Find関数を使用して記事の要素を取得
	entry := doc.Find("section.archive-entry.test-archive-entry.autopagerize_page_element")

	// 記事の要素ごとに必要な情報を変数に格納する
	entry.Each(func(_ int, s *goquery.Selection) {
		item := Item{}

		// 記事の投稿日を格納
		item.Date = strings.TrimSpace(s.Find("div.date.archive-date").Text())
		// 記事のタイトルを格納
		item.Title = strings.TrimSpace(s.Find("h1.entry-title").Text())

		if item.Date != "" {
			items = append(items, item)
		}
	})

	return items, nil
}

関数を作成した後、以下のコマンドを実行してください。

$ go mod tidy

import文をもとに依存性解決が行われます。
go.modが修正され、新たにgo.sumが追加されます。

main関数を変更し、スクレイピングする

スクレイピングしたデータをコンソールに出力するようにmain関数を書き換えます。
先程追加したgetResponse関数とgetList関数を呼び出します。

main.go
package main

// 省略

func main() {
	// スクレイピングするページのURL
	baseUrl := "https://tech.willgate.co.jp/"
	response, err := getResponse(baseUrl)
	if err != nil {
		panic(err)
	}

	items, err := getList(response)
	if err != nil {
		panic(err)
	}

	for _, item := range items {
		fmt.Println(item)
	}
}

// 省略

ここまで出来たらスクレイピングが出来ていることの動作確認です。

$ go run .
{2022-11-30 5%ルールを利用してプロダクトマネージャーカンファレンス2022 に参加しました!}
{2022-11-28 PhpStormを使って半年の2年目エンジニアが紹介する便利な機能・ショートカット}
{2022-11-24 社内ハッカソンを開催しました!}
{2022-10-27 ざっくり理解するPrometheusを使った監視システム #1}
{2022-09-22 2年目エンジニアが初めてのPhpStormを使いこなせるように工夫したこと}
{2022-09-16 他社との交流LT会を開催しました}
{2022-09-15 PHP Conference Japan 2022 に協賛および所属エンジニアが登壇します #phpcon}
{2022-08-09 io-ts を使った実行時型チェック(TypeScript)}

お疲れさまでした。
見事に記事の投稿日とタイトルを取得して出力出来ました。

おわりに

ウィルゲート Advent Calendar 2022 明日は「ファシリテーションや司会進行で心掛けていること」です!乞うご期待!

2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?