クローリングのベンチマークを取ってみました。

Last updated at 2019-12-18Posted at 2019-12-18

はじめに

agouti を使ってクローリングを行い、ベンチマークを測定してみました。

クローリング対象ページ

今回クローリング対象のページは、goのtemplateパッケージを使用してローカルに生成したものを利用しました。以下では9つのページを生成しています。

func createPages() {
	createPage("/1", []string{"/2", "/3"})
	createPage("/2", []string{"/4", "/5"})
	createPage("/3", []string{"/6", "/7"})
	createPage("/4", []string{"/8", "/9"})
	createPage("/5", nil)
	createPage("/6", nil)
	createPage("/7", nil)
	createPage("/8", nil)
	createPage("/9", nil)

	http.ListenAndServe(":8080", nil)
}

func createPage(url string, links []string) {
	handler := newHandler(links)
	http.HandleFunc(url, handler)
}

func newHandler(links []string) func(w http.ResponseWriter, r *http.Request) {
	return func(w http.ResponseWriter, r *http.Request) {
		temp := "template.html.tmpl"
		t := template.Must(template.New(temp).ParseFiles(temp))
		if err := t.Execute(w, links); err != nil {
			log.Fatal(err)
		}
	}
}

template.html.tmpl


<!DOCTYPE html>
<html>
<body>
    <div>
        {{range .}}
            <p><a href="{{.}}">{{.}}</a></p>
        {{end}}
    </div>
</body>
</html>

クローラー

再帰的にクローリングを行いページ内のリンクを取得するクローラーを作成しました。

// クローリング済のリンク一覧
var seen = make(map[string]bool)

// クローリング対象のリンク一覧
var worklinks = make(chan string)

// maxConcurrent = クローリング最大平行数
// maxCrawlCount = クローリングするページの最大数
func Crawls(link string, maxConcurrent int, maxCrawlCount int) ([]string, error) {
	errCh := make(chan error)

	go func() {
		worklinks <- link
	}()

	for i := 0; i < maxConcurrent; i++ {
		go func() {
			for link := range unseen {
				links, err := crawl(link)
				if err != nil {
					errCh <- err
					return
				}
				for _, l := range links {
					l := l
					go func() {
						worklinks <- l
					}()
				}
			}
		}()
	}

	for {
		select {
		case link := <-worklinks:
			if !seen[link] {
				seen[link] = true
				unseen <- link
			}
			if len(seen) >= maxCrawlCount {
				links := make([]string, 0, len(seen))
				for k := range seen {
					links = append(links, k)
				}
				return links, nil
			}
		case err := <-errCh:
			return nil, err
		}
	}
}

// ページ内のリンクを検索
func crawl(link string) ([]string, error) {
	driver := agouti.ChromeDriver(
		agouti.ChromeOptions("args", []string{
			"--headless",
		}),
	)
	if err := driver.Start(); err != nil {
		return nil, errors.Wrap(err, "Failed to start driver")
	}
	defer driver.Stop()

	p, err := driver.NewPage()
	if err != nil {
		return nil, err
	}

	err = p.Navigate(link)
	if err != nil {
		return nil, err
	}

	t := p.All("a")
	length, err := t.Count()
	if err != nil {
		return nil, err
	}

	links := []string{}
	for i := 0; i < length; i++ {
		link, err := t.At(i).Attribute("href")
		if err != nil {
			return nil, err
		}
		links = append(links, link)
	}
	return links, nil
}

Benchmark測定

最大並行数を変えてベンチマークを測定してみました。現在の実装だと並行数を単純に増やせばその分早くなるというわけではないことがわかりました。。今後改善していきたいと思います。

並行数	処理時間（ns）
1	16479309835
2	10561147824
3	8914031897
4	8981436252
5	7767930345
10	6496013517
50	8146189396


func BenchmarkCrawl1(b *testing.B) {
	benchmark(b, 1)
}

func BenchmarkCrawl2(b *testing.B) {
	benchmark(b, 2)
}

func BenchmarkCrawl3(b *testing.B) {
	benchmark(b, 3)
}

func BenchmarkCrawl4(b *testing.B) {
	benchmark(b, 4)
}

func BenchmarkCrawl5(b *testing.B) {
	benchmark(b, 5)
}

func BenchmarkCrawl10(b *testing.B) {
	benchmark(b, 10)
}

func BenchmarkCrawl10(b *testing.B) {
	benchmark(b, 50)
}

func benchmark(b *testing.B, maxConcurrent int) {
	go func() {
		createPages()
	}()

	for i := 0; i < b.N; i++ {
		links, err := Crawls("http://localhost:8080/1", maxConcurrent, 9)
		b.Logf("links: %v", links)
		if err != nil {
			b.Error(err)
			return
		}
	}
}

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up