1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

【#55 エンジニア転職学習】Goでスクレイピングプロジェクト(完成)

Posted at

はじめに

富山県に住んでいるChikaといいます。
毎日投稿を目標に、バックエンドエンジニア転職に向けた学習内容をアウトプットします。

間隔が空いてしまいましたが、
スクレイピングのプロジェクトが一旦完成しました。

バックエンドエンジニアになるまでの学習内容は以前投稿した以下の記事を基にしています。

本日の学習内容

  • Goで求人情報のスクレイピング ←Topics!!

Goで求人情報のスクレイピング

前回から取得したURL一覧の各求人情報を取得してくる機能、
その情報をMySQLからCSVファイルにエクスポートする機能を追加しました。

各ファイルのおおまかな役割は以下になります。

job_offer_scraping/
├── main.go           --> DBコネクタ起動、スクレイピング、CSV出力実行
├── csv
│   └── csv.go        --> MySQLのmynavi_jobsテーブルからCSVを作成
├── db
│   ├── dbmodels.go   --> DBテーブル用、CSV用のstruct定義
│   └── base.go       --> MySQLのコネクタ作成、スクレイピング時のテーブルリセット、マイグレーション
└── scrape
    └── scrape.go     --> URL一覧、各求人情報のスクレイピング

最終的なコードです。エラー処理等できていない箇所が多々ありますがご容赦ください。

main.go
package main

import (
	"job_offer_scraping/csv"
	"job_offer_scraping/db"
	"job_offer_scraping/scrape"
)

func main() {
	dbconn := db.DbConnect()
	scrape.SaveURLs(dbconn)
	scrape.SaveJobs(dbconn)
	csv.PutCSV(dbconn)
}
dbmodels.go
package db

import (
	"gorm.io/gorm"
)

type Mynavi_url struct {
	gorm.Model
	URL string
}

type Mynavi_job struct {
	gorm.Model
	URL          string
	Title        string
	Company_name string
	Features     string
}

type CSV_job struct {
	ID           uint64
	URL          string
	Title        string
	Company_name string
	Features     string
}}
base.go
package db

import (
	"gorm.io/driver/mysql"
	"gorm.io/gorm"
)

func DbConnect() *gorm.DB {
	var dsn = "USER:PASS/job_offer_scraping?charset=utf8mb4&parseTime=True&loc=Local"
	db, err := gorm.Open(mysql.Open(dsn))
	if err != nil {
		panic("failed connecting DB")
	}
	db.Migrator().DropTable(&Mynavi_url{})
	db.AutoMigrate(&Mynavi_url{})

	db.Migrator().DropTable(&Mynavi_job{})
	db.AutoMigrate(&Mynavi_job{})

	return db
}
scrape.go
package scrape

import (
	"job_offer_scraping/db"
	"log"
	"net/http"
	"strconv"
	"strings"
	"time"

	"github.com/PuerkitoBio/goquery"
	"gorm.io/gorm"
)

var urllist []db.Mynavi_url   //mysqlのINSERT用
var urls []string
var joblist []db.Mynavi_job   //mysqlのINSERT用
var host = "https://tenshoku.mynavi.jp"

func SaveURLs(dbconn *gorm.DB) {
    //取得したいページ数分指定
	for i := 1; i < 2; i++ {
		indexurl := host + "/list/pg"
		indexurl += strconv.Itoa(i)
		indexurl += "/"

		res, err := http.Get(indexurl)
		if err != nil {
			log.Fatal(err)
		}
		defer res.Body.Close()
		if res.StatusCode != 200 {
			log.Fatalf("status code error: %d %s", res.StatusCode, res.Status)
		}

		doc, err := goquery.NewDocumentFromReader(res.Body)
		if err != nil {
			log.Fatal(err)
		}

		doc.Find("div.cassetteRecruit").Each(func(i int, s *goquery.Selection) {
			href, _ := s.Find("p.cassetteRecruit__copy > a").Attr("href")
			href = string([]rune(href))
			url := strings.SplitAfterN(href, "/", 3)
			trimurl := strings.Join(url[0:2], "")

			urls = append(urls, trimurl)

			mynaviurl := db.Mynavi_url{URL: trimurl}
			urllist = append(urllist, mynaviurl)
		})
		time.Sleep(30 * time.Second)
	}
	dbconn.Create(&urllist)
}

func SaveJobs(dbconn *gorm.DB) {
    //urls[:2]は動作確認用に最小にしているだけなので実際は指定なしでOK
	for _, v := range urls[:2] {
		pageurl := host + v
		mynavijob := db.Mynavi_job{}

		res, err := http.Get(pageurl)
		if err != nil {
			log.Fatal(err)
		}
		defer res.Body.Close()
		if res.StatusCode != 200 {
			log.Fatalf("status code error: %d %s", res.StatusCode, res.Status)
		}

		doc, err := goquery.NewDocumentFromReader(res.Body)
		if err != nil {
			log.Fatal(err)
		}

		var ftlist []string
		doc.Find("body").Each(func(i int, s *goquery.Selection) {
			title := s.Find(".occName").Text()
			companyname := s.Find(".companyName").Text()
			s.Find("div.cassetteOfferRecapitulate__content--2colLarge.cassetteOfferRecapitulate__content--2colLargeJobinfo > ul > li").Each(func(i int, s *goquery.Selection) {
				ft := s.Find("span").Text()
				ftlist = append(ftlist, ft)
			})
			joinFtlist := strings.Join(ftlist, ",")

			mynavijob = db.Mynavi_job{URL: pageurl, Title: title, Company_name: companyname, Features: joinFtlist}
		})

		joblist = append(joblist, mynavijob)
		time.Sleep(30 * time.Second)
	}
	dbconn.Create(&joblist)
}
csv.go
package csv

import (
	"encoding/csv"
	"job_offer_scraping/db"
	"os"
	"strconv"

	_ "github.com/go-sql-driver/mysql"
	"gorm.io/gorm"
)

func PutCSV(dbconn *gorm.DB) {
	file, err := os.Create("mynavi_jobs.csv")
	if err != nil {
		panic(err)
	}
	defer file.Close()

	cw := csv.NewWriter(file)
	defer cw.Flush()

	header := []string{"ID", "URL", "Title", "Company_name", "Features"}
	cw.Write(header)

	rows, err := dbconn.Raw("select `id`, `url`, `title`, `company_name`, `features` from mynavi_jobs").Rows()
	if err != nil {
		panic(err)
	}
	defer rows.Close()

	for rows.Next() {
		j := db.CSV_job{}
		err := rows.Scan(&j.ID, &j.URL, &j.Title, &j.Company_name, &j.Features)
		if err != nil {
			panic(err)
		}
		strID := strconv.FormatUint(j.ID, 10)
		col := []string{strID, j.URL, j.Title, j.Company_name, j.Features}
		cw.Write(col)
	}
}

使用している教材はこちら↓

おわりに

最後までお読みいただきありがとうございました。
アドバイス・応援コメント等いただけますと幸いです。

1
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?