感情分析 |
歌詞の感情を「ポジティブ・ネガティブ」や「喜怒哀楽」などで分類 |
Transformersによる事前学習モデル、ルールベース感情辞書 |
transformers , daigo/bert-base-japanese-sentiment , textblob , ginza , Janome
|
キーワード抽出 |
頻出語や重要語(TF-IDFスコアなど)を抽出 |
TF-IDF, テキスト正規化、ストップワード除去 |
sklearn.feature_extraction.text.TfidfVectorizer , Janome , MeCab , wordcloud
|
類似歌詞の発見 |
歌詞間の類似度(コサイン類似度など)を計算し、似た構造やテーマを検出 |
Word2Vec / Doc2Vecによるベクトル化と類似度計算 |
gensim , scipy.spatial.distance.cosine , sklearn.metrics.pairwise.cosine_similarity
|
トピックモデリング |
LDAやNMFにより、歌詞に潜む共通話題(例:「別れ」「夢」など)を抽出 |
LDA(潜在ディリクレ配分法)、NMF、BERTクラスタリング |
gensim.models.LdaModel , sklearn.decomposition.NMF , transformers , bertopic
|
時系列・年代分析 |
年代ごとの語彙・テーマの傾向変化を可視化 |
時系列でのTF-IDFスコア、主成分分析(PCA)、回帰分析 |
pandas , matplotlib , seaborn , sklearn.decomposition.PCA , statsmodels
|
クラスタリング |
歌詞ベクトルを用いて自動的にグループ化(ジャンル別・作詞者別など) |
KMeans, DBSCAN, t-SNE, UMAP |
sklearn.cluster , sklearn.manifold.TSNE , umap-learn
|
固有表現抽出 |
歌詞内の人名・地名・時間などを抽出(特にストーリーテリング分析に有用) |
NER(固有表現抽出) |
spaCy , ginza , transformers
|
形態素解析 |
日本語の文節に分解し、品詞をラベル付け(語彙分析や前処理に必須) |
MeCab, Janome, SudachiPy 等 |
MeCab , Janome , SudachiPy , ginza
|
構文解析・係り受け |
歌詞の文構造を解析し、主語・述語の関係や言い回しのパターンを取得 |
係り受け解析、構文木解析 |
spaCy , ginza , CaboCha
|
可視化 |
各分析結果を視覚的に表現して直感的理解を促す |
WordCloud、散布図、ヒートマップ、ネットワーク図など |
wordcloud , matplotlib , seaborn , plotly , networkx , pyvis , bokeh , pandas.plotting , sklearn.manifold.TSNE , umap-learn
|