More than 3 years have passed since last update.

Yahooニュースをスクレイピング

Last updated at 2020-11-12Posted at 2020-11-02

記事の内容は古くなっていると思います。
最新の状態はGitHubで確認してください。

Yahooニュースをスクレイピングする関数を定義したので、シェアします。
データフレームを返してくれるので、データ分析に使えます！！

requests、BeautifulSoupを利用しています。

import requests
from bs4 import BeautifulSoup
import re
import pandas as pd
import unicodedata
import math
import string

# 記号文字は分析をするにあたって邪魔になるため、記号を取り除く関数を定義します。
# 下のYahooNews関数で使用します。
def symbol_removal(soup):
    soup = unicodedata.normalize("NFKC", soup)
    exclusion = "「」『』【】《》≪≫、。・◇◆" + "\n" + "\r" + "\u3000" # 除去する記号文字を指定
    soup = soup.translate(str.maketrans("", "", string.punctuation  + exclusion))
    return soup


# Yahooニュースをスクレイピングする関数です。
# 引数で指定した数の記事をとってきてデータフレームを返します。
def YahooNews(n=30):
    url = "https://news.yahoo.co.jp/topics/top-picks"
    URL = "https://news.yahoo.co.jp/"
    res = requests.get(url)
    soup = BeautifulSoup(res.text, "html.parser")
    all_page_links = []
    all_page_links.append(url)
    all_links = []
    while True:
        try:
            next = soup.find("li", class_="pagination_item-next").find("a")["href"]
            next_link = URL + next
            all_page_links.append(next_link)
            next_res = requests.get(next_link)
            soup = BeautifulSoup(next_res.text, "html.parser")
        except:
            break
            
    title_list = []
    category_list = []
    text_list = []
    for url in all_page_links: # all_page_links: 全てのニュースのリスト
            res = requests.get(url) # url: 25個分のニュースのリスト
            soup = BeautifulSoup(res.text, "html.parser")
            page_soup = soup.find_all("a", class_="newsFeed_item_link")
            for href in page_soup:
                link = href["href"] # link: 一つのニュースのリンク(本文は一部のみ)
                all_links.append(link)
    
    if len(all_links) <= n:
        n = len(all_links)
    
    i = 0
    for link in all_links:
        link_res = requests.get(link)
        href_soup = BeautifulSoup(link_res.text, "html.parser")
        try:
            title = href_soup.find("h1", class_=re.compile("^sc")).string
        except:
            continue
        title_link = href_soup.find("a", class_="sc-eAyhxF")["href"] # title_link: 本文
        res = requests.get(title_link)
        soup = BeautifulSoup(res.text, "html.parser")

        category = soup.find_all("li", class_="current")
        try:
            category = category[1].string
        except:
            continue
        else:
            for tag in soup.find_all(["a"]):
                tag.decompose()
            try:
                soup = soup.find("div", class_="article_body").get_text()
                soup = symbol_removal(soup)
                
                text_list.append(soup)
                title_list.append(title)
                category_list.append(category)
                i += 1 # 本文が正常に保存できたことをトリガーにしてカウントを一つ増やすことにします。
                # 進捗バーを表示させます。
                pro_bar = ('=' * math.ceil(i / (n / 20))) + (' ' * int((n / (n / 20)) - math.ceil(i / (n / 20))))
                print('\r[{0}] {1}記事'.format(pro_bar, i), end='')
                if i >= n:
                    df = pd.DataFrame({'title': title_list, 'category': category_list, 'text': text_list})
                    return df
            except:
                continue
    df = pd.DataFrame({'title': title_list, 'category': category_list, 'text': text_list})
    return df

では、YahooNews関数を利用して記事をデータフレームに格納しましょう。
取得したい記事数を引数に渡します。
全件取得したい場合は1000などの大きな数を引数に入れておきましょう。
引数に何も渡さなかった場合はデフォルトで30件としています。

df = YahooNews(1000)

[====================] 497記事

df

	title	category	text
0	菅首相来年1月にも訪米検討	国内	菅義偉首相は3日の米大統領選の当選者と会談するため来年1月にも訪米する検討を始めた日本政府...
1	燕14年ドラフト 6年で姿消す	スポーツ	2日にヤクルトは2014年ドラフト2位の風張ら7選手に戦力外通告ヤクルトは2日近藤一樹投手...
2	北海道また最多更新街の声は	地域	UHB 北海道文化放送感染拡大の猛威がとまりません北海道内では新たに1日の過去最多となる9...
3	GoTo食事券県知事「改善を」	地域	新型コロナウイルスの感染拡大を受けて飲食業界を支援する国のGo To イートで兵庫県内で使...
4	SMBC コンビニATM手数料改定	経済	三井住友銀行は2日来年4月5日からコンビニの現金自動預払機ATMの手数料を改定すると発表し...
...	...	...	...
492	Zeebra、家族と別居報道	エンタメ	自分の不甲斐ない行いにより大切な家族を傷つけてしまった事を深く反省しております今後は家族ひと...
493	NYダウ大幅続落 650ドル安	経済	ニューヨーク共同週明け26日のニューヨーク株式市場のダウ工業株30種平均は大幅続落し前週末...
494	ももクロ高城阪神D1にエール	エンタメ	阪神がドラフト1位で交渉権を獲得した近大佐藤輝明内野手21が大ファンだと公言しているももい...
495	アント史上最高額で上場へ	経済	上海共同中国の電子商取引最大手アリババグループ傘下で電子決済サービスアリペイを運営するアン...
496	所信表明言い間違い6カ所	国内	菅義偉首相が26日の所信表明演説で新型コロナウイルス対策を巡り医療資源を重症者に重点化しま...

497 rows × 3 columns

データの保存

今回作成したテーブルデータは、

df.to_csv('./YahooNews.csv', index=False)

として保存して、次回分析するときのために保存しておきましょう！
(パスとファイル名は適宜変更してください。)

工夫した点：

引数を受け取って必要な数だけ記事をとってくることができるようにしました。
進捗が確認できるようにしました。(取って来る記事数が多いと、かなり時間がかかるので。)
引数に1000などの大きな数字を入れておくことで、Yahooニュースの記事を全て取得することができます。(yahooニュースは約500記事程度。)
記号を除去する関数も実装し、YahooNews関数に組み込んでいます。

妥協した点:

たまーに複数ページに渡って書かれている記事があるが、その場合は最初の1ページだけとってくる仕様にしております。
コードがすごく長くなってしまいました。。もっと短くしたいです。
最初に全てのページの記事のリンクを取得するようにしているので、引数に指定した記事数が少なくても、最初に30秒程時間がかかりますし、その間は進捗も表示されません。

参考

スクレイピング →　https://www.udemy.com/course/python-web-scraping-with-beautifulsoup-selenium-requests/
進捗バーの表示　→　https://dot-blog.jp/news/python-print-overwrite-output/

記事の内容は古くなっていると思います。
最新の状態はGitHubで確認してください。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up