0
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 3 years have passed since last update.

pythonでたべろぐをスクレイピングしCSVに出力

Posted at

はじめに

グノシーの福島良典さんの「センスのいらない経営学」を読みました。

データ分析と機械学習の重要さについてわかりやすく書かれていました。
さらに、グノシーのターゲティング、ユーザー最適化がどのように、どれくらいの労力をかけて行われているか書かれていました。

インターンで1か月ほどプログラミングから離れていたのですが、グルメ系キュレーションサイトを作ることをゴールに勉強することしました。

短期目標:簡易キュレーションサイト作成
最終目標:ぐるなびを超えるキュレーションサイト。時間コストをかけずに店を選べるように、レコマンド機能

本記事の目標:食べログをスクレイピングして店名とURLをSCV出力する

メモ兼日記として綴っていきます

やったこと

* URLからHTMLの取得 * HTMLから特定の情報を抜きだす * タグやクラスを指定して抜き出す方法 * 正規表現を用いて欲しい要素を抜き出す

コード

first.py

import csv
import requests
from bs4 import BeautifulSoup
import re

urlName = "https://tabelog.com/osaka/A2701/A270103/rstLst/?SrtT=rt&Srt=D&sort_mode=1"
dataHTML = requests.get(urlName)

soup = BeautifulSoup(dataHTML.content, "html.parser")

elems = soup.select('a.list-rst__rst-name-target.cpy-rst-name')
#data = elems.text

with open(r'C:\Users\daisuke\Desktop\python\first.csv', 'w') as f:
    for i in elems:
        url = re.search(r'"http.*/"', str(i))
        url = re.sub(r'"', '',  str(url.group()))

        name = re.search(r'target="_blank">.*</a>', str(i))
        name = re.sub(r'target="_blank">', '',  str(name.group()))
        name = re.sub(r'</a>', '',  name)

        print(url)
        print(name)

        writer = csv.writer(f)
        writer.writerow([name,url])

今後やりたいこと

1時間程度でスクレイピングが出来てしまった。 ひさびさにコードを書いたけどスクレイピングってこんなに簡単だったのか‥‥
  • Djangoでhelloworld
  • Djangoでスクレイピング結果をDBに格納
  • DBから情報取得ー表示
  • 各グルメメディアから取得した情報を整理して人気店ランキングを作る
  • そのために、機械学習を絡める
0
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
3

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?