LoginSignup
6
3

More than 3 years have passed since last update.

Text Analytics APIのセンチメント分析で映画のセリフを分析してみた(2019年)

Last updated at Posted at 2019-12-06

過去にナウシカのセリフでセンチメント分析を行ってみましたが、今回は他のジブリ作品でも試してみます。

概要

映画のシナリオ作成の理論があって、場面の盛り上がり・盛り上がりの王道パターンがいくつかあり、それに合うよう計算しながらシナリオを組み立てることで「面白い」映画を作ることができるそうです。
今回は、AzureのCognitive ServicesのText Analytics APIを使って映画のセリフのセンチメント、感情のネガポジを判定して、映画全体でどのように推移していくかを見てみます。

元データを集めて編集

今回は以下の作品の英語のセリフを用意することができたので、これを使って分析してみます。

  • 紅の豚
  • 千と千尋の神隠し
  • となりのトトロ

データはText Analytics APIで読み込める形式(json)に整形します。

{'id': '1', 'language': 'en', 'text': '\n Another village died.\n \n '}

結果

APIから返ってきたセンチメント値をグラフにします。
縦軸はセンチメント値で上に行くほどポジティブ、横軸はセリフを時系列に並べてます。またセンチメント値は前後合わせて18個のセリフの平均値を取ってプロットしました。
結果を見ていきましょう。

となりのトトロ

totoro.png
盛り上がり、盛り下がりの波が見えます。
最初の引っ越してくるところ、トトロと空を飛ぶシーンのポジティブ度が高く、逆にマックロクロスケに遭遇するドキドキのシーン、お母さんの退院が伸びてサツキが不安になって泣いてしまうシーンがネガティブなシーンと判定されていて、結構正確に判定されてそうです。

千と千尋の神隠し

sentochihiro.png
トトロより波の上下が細かいです。
かま爺との遭遇、湯婆婆との契約、大けがのハクを助けるシーンなど緊張したりハラハラいしてるシーンがネガティブと判定される傾向があります。

紅の豚

kurenai.png
千と千尋よりさらに上下が回数が大きい傾向があります。
場面が細かく変わる、盛り上がりのシーンも単純な楽しいシーンだけでなく、ちょっと大人向けの話であることがうかがえます。

まとめ

セリフの出現時間は今回考慮してないので、作品中の位置も考慮してグラフにすれば、もうちょっと傾向が見やすくなるかもしれません。
あと、セリフデータの正規化がいろいろ大変だった。。。
これは機械学習や文書処理のあるあるですね。。。

6
3
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
6
3