More than 3 years have passed since last update.

中古マンションの価格をスクレイピングしてみた

Last updated at 2022-09-07Posted at 2022-08-09

概要

こんにちは中学校の先生です。
先日縁あって不動産を買う機会がありました。
その中で『業者さんの情報って忖度入ってるよなあ』と感じたので、自分で情報収集したくなりました。
ただどのサイトも非常に情報が多く、pythonを活用してみよう！と思い立ちました。
プログラミング初心者としての備忘録になりますので、苦労した点が多めです。

本題

コードの内容

不動産価格参照ツール

from re import T
from ssl import SSL_ERROR_WANT_X509_LOOKUP
from retry import retry
import requests
from bs4 import BeautifulSoup
import pandas as pd

#対象サイトのURL
want_url = "(省略)"
#10秒おきに3回リトライ
@retry(tries=3,delay=10,backoff=2)

#html取得関数を定義
def get_html(url):
  r = requests.get(want_url)
  soup = BeautifulSoup(r.content,"html.parser")
  return soup
#データの代入先を定義
all_data=[]
#最後のページを求める(現在は手作業)
max_page=2

#最後のページまで繰り返し
for page in range(1,max_page+1):
  #urlを取得
  url=want_url.format(page)
  #htmlを取得
  soup=get_html(url)
  #物件の数を取得
  items=soup.select("div.click_Row")
  #物件の数だけ情報を収集
  for item in items:
    item_data={}
    item_data["名称"]=item.select(".click_R_link")
    item_data["所在地"]=item.select("item_location")
    item_data["価格"]=item.select("p.item_price")
    item_data["アクセス"]=item.select("p.item_access")
    item_data["築年数"]=item.select(".item_5")
    item_data["面積"]=item.select(".item_4")
    #データを代入し一時保管
    all_data.append(item_data)

#データフレームを作成
df=pd.DataFrame(all_data)
print(df)

利用したライブラリ

retry
requests
Beautifulsoup

pandas

先行研究との差異

苦労したこと

スクレイピング対策の対策

クラスの選定

あとがき

今後の課題は

データ出力

ページ数の自動取得
操作ページの作成
他ページへの対応

（実動3日、20時間程度）

今回は以上になります。最後まで閲覧いただきありがとうございました。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

中古マンションの価格をスクレイピングしてみた

目次

概要

本題

あとがき