Requests-HTMLを使用してBeautifle SoupやSeleniumを使用せずに簡単にスクレイピングしてみます。
この記事をスクレイピングしてみます。
from requests_html import HTMLSession
session = HTMLSession()
r = session.get('https://jp.reuters.com/article/chile-google-idJPKCN1LT0E0')
article = r.html.find('.StandardArticleBody_body', first=True)
print(article.text)
実行結果
$ python3 scrape_reuter.py
[サンティアゴ 12日 ロイター] - 米アルファベット(GOOGL.O)傘下のグーグルは、1億4000万ドルを投じてチリのデータセンターを拡充すると発表した。同施設はグーグルにとって中南米唯一のデータセンター。
9月12日、米アルファベット傘下のグーグルは、1億4000万ドルを投じてチリのデータセンターを拡充すると発表した。写真はチューリッヒで5日撮影(2018年 ロイター/Arnd WIegmann)
今回の投資でサンティアゴ近郊のキリクラにあるデータセンターの規模を3倍の11.2ヘクタールに広げる。拡張工事に伴い新たに1000人余りの雇用が発生するほか、完成後に正規に120人を採用するという。
同センターはグーグルが1億5000万ドルで建設し、2015年に全面操業を開始。17年1月からはアタカマ地域の太陽光発電だけで運営されている。
チリのゼネラルマネージャー、エドガルド・フリアス氏は、チリでのデータセンター建設によるインフラの改善が、人工知能(AI)や機械学習の分野で処理能力向上に役立っていると述べた。
私たちの行動規範:トムソン・ロイター「信頼の原則」