0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

RIZEの歌詞に出てくる固有名詞を分析してみる

Last updated at Posted at 2024-11-13

はじめに

The BONEZ - Straight Up feat. Kj / THE FIRST TAKE がサイコーすぎるので全人類に観て欲しい🦴🐉

歌詞の通り、「出会った時からのマブダチ」という関係ではないJESSEとKjが、並んでバキバキの気概全開で最高のミクスチャーロックをやっている。JESSEとKjが「お前にだけは負けるわけにいかねえ」とばかりに、彼らのバンド人生の全てぶちこんでガンガン掛け合いをかましていく曲であるため、歌詞に自身の名前や故人の名前等の固有名詞が頻出している。RIZEの歌詞でも固有名詞が多く出てくる印象はあったが、具体的な数は流石に把握していなかった。
というわけで、以前他のバンドPeople in the boxの歌詞でスクレイピングをしたことがあるため、同様の方法でJESSEの歌詞を見てみることにした。

目的

JESSEの言葉の弾丸の構成要素をスクレイピングで調べる。
※The BONEZとJESSE個人名義の方の歌詞は基本英語なので、日本語多めのRIZEの歌詞でやる

①スクレイピング

# 準備
pip install --upgrade pip
pip install beautifulsoup4
pip install requests

import requests
from bs4 import BeautifulSoup

# アーティストのページURL
url = 'https://www.uta-net.com/artist/808/'

response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 曲のリンクを格納するリスト
song_links = []

# すべての曲のリンクを取得
for link in soup.find_all('a'):
    href = link.get('href')
    if href and '/song/' in href:  # 曲へのリンクを確認
        full_link = f'https://www.uta-net.com{href}'
        song_links.append(full_link)

# 各曲の歌詞を取得
for song_link in song_links:
    song_response = requests.get(song_link)
    song_soup = BeautifulSoup(song_response.text, 'html.parser')
    
    lyrics = song_soup.find('div', id='kashi_area').text
    
lyrics_data = []

# すでに定義されているsong_linksリストを使用
for song_link in song_links:
    song_response = requests.get(song_link)
    song_soup = BeautifulSoup(song_response.text, 'html.parser')
    
    # 曲のタイトルと歌詞を取得
    title = song_soup.find('title').text
    lyrics = song_soup.find('div', id='kashi_area').text.strip()  # .strip()で前後の不要な空白を削除
    
    # 曲のタイトルと歌詞をリストに追加
    lyrics_data.append({
        'title': title,
        'lyrics': lyrics
    })

②取得データをデータフレームにする

import pandas as pd

# リストをDataFrameに変換
df_lyrics = pd.DataFrame(lyrics_data)

def count_words(lyrics, word):
    return lyrics.count(word)

③固有名詞のカウント

地名編

# 各単語に対してカウントを行う
df_lyrics['日本_count'] = df_lyrics['lyrics'].apply(lambda x: count_words(x, '日本'))
df_lyrics['東京_count'] = df_lyrics['lyrics'].apply(lambda x: count_words(x, '東京'))
df_lyrics['江戸_count'] = df_lyrics['lyrics'].apply(lambda x: count_words(x, '江戸'))
df_lyrics['品川_count'] = df_lyrics['lyrics'].apply(lambda x: count_words(x, '品川'))
df_lyrics['五反田_count'] = df_lyrics['lyrics'].apply(lambda x: count_words(x, 'GOTANDA'))
df_lyrics['戸越_count'] = df_lyrics['lyrics'].apply(lambda x: count_words(x, '戸越'))
df_lyrics['下北_count'] = df_lyrics['lyrics'].apply(lambda x: count_words(x, '下北'))

# 各単語の総出現回数を集計
total_counts = {
    '日本': df_lyrics['日本_count'].sum(),
    '東京': df_lyrics['東京_count'].sum(),
    '江戸': df_lyrics['江戸_count'].sum(),
    '品川': df_lyrics['品川_count'].sum(),
    '五反田': df_lyrics['五反田_count'].sum(),
    '戸越': df_lyrics['戸越_count'].sum(),    
    '下北': df_lyrics['下北_count'].sum()
}

print(total_counts)

出力結果

{'日本': 14, '東京': 5, '江戸': 11, '品川': 0, '五反田': 7, '戸越': 2, '下北': 1}

「火事と喧嘩は江戸の華」「GOTANDA」のおかげで、江戸率と五反田率が高めだった。
JSFには品川グッズもあるので「品川」は出てくるかなと思ったのだがなかった。

メンバー編

# 各単語に対してカウントを行う
# lower()で文字列を小文字に変換して'JESSE'と'Jesse'の両方をカウント
df_lyrics['RIZE_count'] = df_lyrics['lyrics'].apply(lambda x: count_words(x, 'RIZE'))
df_lyrics['雷図_count'] = df_lyrics['lyrics'].apply(lambda x: count_words(x, '雷図'))
df_lyrics['JESSE_count'] = df_lyrics['lyrics'].apply(lambda x: count_words(x.lower(), 'jesse'))
df_lyrics['akkun_count'] = df_lyrics['lyrics'].apply(lambda x: count_words(x, 'nobuaki'))
df_lyrics['Tokie_count'] = df_lyrics['lyrics'].apply(lambda x: count_words(x.lower(), 'tokie'))
df_lyrics['Naka_count'] = df_lyrics['lyrics'].apply(lambda x: count_words(x, 'Naka'))
df_lyrics['Kenken_count'] = df_lyrics['lyrics'].apply(lambda x: count_words(x.lower(), 'kenken'))
df_lyrics['Rio_count'] = df_lyrics['lyrics'].apply(lambda x: count_words(x, 'Rio'))

# 各単語の総出現回数を集計
total_counts = {
    'RIZE': df_lyrics['RIZE_count'].sum(),
    '雷図': df_lyrics['雷図_count'].sum(),
    
    'JESSE': df_lyrics['JESSE_count'].sum(),
    'あっくん': df_lyrics['akkun_count'].sum(),
    'Tokie': df_lyrics['Tokie_count'].sum(),
    'Naka': df_lyrics['Naka_count'].sum(),
    'Kenken': df_lyrics['Kenken_count'].sum(),    
    'Rio': df_lyrics['Rio_count'].sum()
}

print(total_counts)

出力結果

{'RIZE': 86, '雷図': 10, 'JESSE': 8, 'あっくん': 5, 'Tokie': 2, 'Naka': 1, 'Kenken': 7, 'Rio': 1}

筆者は歌詞を読まないため、JESSEが「RIZE」と「雷図」両方を使っていることに今回初めて気付いた。
金子兄より弟の方が歌詞登場回数は多かった。kenkenの方が加入は後からなのに、そうなんだ。

感想

「スクレイピングしてきて特定のワードをカウントする」というのは私にとっても新規性がある手法ではないし、どうせ書くなら形態素くらいやりなよとは思うのだが、「今これをただ知りたい」という時にできる方法を自分で持っているというのは人生を楽しくするな~と思った。
QiitaもPythonもしばらくサボっていたが、やはりここいらで再開しようと思う。

最後までお読みいただきありがとうございました⚡️

おまけ

家宝

IMG_4265.jpeg

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?