2
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

Webスクレイピングでオリコンから好きなアーティストの最新10ニュースを取り出す

Last updated at Posted at 2022-03-11

学生の選んだ題材が,Webスクレイピングでオリコンから好きなアーティストの最新10ニュースを取り出すというものだったので,Pythonを使って作ってみたものは次のようなものでした.

import re 
import requests
from bs4 import BeautifulSoup

url = 'https://www.oricon.co.jp/search/result.php?types=article&search_string=Aimer'
#オリコンの検索ボックスに「Aimer」と入れた時の記事タイトル検索画面で,記事が21件並ぶページのリンクを変数urlに代入
res = requests.get(url)
#変数urlに代入されているリンクからHTMLデータをダウンロード
res.text
#テキスト化
soup = BeautifulSoup(res.text, "html.parser")
#解析器(パーサー)に通している
titles = soup.find_all('h4')
#タイトルに当たる部分は「h4」というHTMLのタグ(最小見出しの役割)で割り当てられているのでそれがついているものを全て見つける
links = soup.find_all(href=re.compile("www.oricon.co.jp/news/"))
#ニュース記事のリンクは全て"www.oricon.co.jp/news/"で始まっていることがわかるので,それで始まるものを指定
for i in range(10):
#iが0から9までの10個の間
  print(titles[i].text)
#配列titlesを順にテキストだけ出力
  print(links[i].attrs['href'])
#配列linksを順にリンクの部分だけ出力

こんな出力が出ます.(2022/3/11)

韓国発グループが続々ランクイン 
https://www.oricon.co.jp/news/2227110/
Aimer「残響散歌」1億回再生突破 
https://www.oricon.co.jp/news/2227171/
3/7付週間SGランキング 
https://www.oricon.co.jp/news/2226358/
三浦大知、Da-iCEと初コラボ  
https://www.oricon.co.jp/news/2226391/
SixTONES「FASHION」上位初登場 
https://www.oricon.co.jp/news/2226275/
2/28付週間SGランキング 
https://www.oricon.co.jp/news/2225414/
Aimer、合算シングル1位返り咲き 
https://www.oricon.co.jp/news/2225765/
Aimer「残響散歌」3週連続V 
https://www.oricon.co.jp/news/2225433/
Aimer「残響散歌」デジタル2冠  
https://www.oricon.co.jp/news/2225475/
2/14付週間SGランキング 
https://www.oricon.co.jp/news/2224016/

これをいくつか条件がえしてみたいと思います.
まずは違うアーティストに

import re
import requests
from bs4 import BeautifulSoup

url = 'https://www.oricon.co.jp/search/result.php?types=article&search_string=Ado'
#検索結果をAdoに変更
res = requests.get(url)
res.text
soup = BeautifulSoup(res.text, "html.parser")
titles = soup.find_all('h4')
links = soup.find_all(href=re.compile("www.oricon.co.jp/news/"))
for i in range(10):
  print(titles[i].text)
  print(links[i].attrs['href'])

出力結果

3/14付週間アルバムランキング 
https://www.oricon.co.jp/news/2227216/
3/7付週間アルバムランキング 
https://www.oricon.co.jp/news/2226360/
ORIHARA描き下ろし『モービウス』 
https://www.oricon.co.jp/news/2226529/
浜辺美波×Ado、共通点は好物 
https://www.oricon.co.jp/news/2226044/
2/28付週間アルバムランキング 
https://www.oricon.co.jp/news/2225416/
Aimer「残響散歌」デジタル2冠  
https://www.oricon.co.jp/news/2225475/
まふまふトリビュート 全曲発表 
https://www.oricon.co.jp/news/2225195/
2/21付週間アルバムランキング 
https://www.oricon.co.jp/news/2224798/
2/14付週間アルバムランキング 
https://www.oricon.co.jp/news/2224017/
2022年1月のラジオ界 
https://www.oricon.co.jp/news/2223779/

カタカナアーティストはどうしたら?
また続きは更新してみます.

2
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
2
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?