過去にナウシカのセリフでセンチメント分析を行ってみましたが、今回は他のジブリ作品でも試してみます。
- 過去にナウシカでやってみたやつ Text Analytics APIのセンチメント分析で映画のセリフを分析してみた - Qiita
- Text Analyticsの使いかた [Azure Text AnalyticsをPythonから使ってみた - Qiita]
(https://qiita.com/oyngtmhr/items/8b305986e7aab823fb62)
#概要
映画のシナリオ作成の理論があって、場面の盛り上がり・盛り上がりの王道パターンがいくつかあり、それに合うよう計算しながらシナリオを組み立てることで「面白い」映画を作ることができるそうです。
今回は、AzureのCognitive ServicesのText Analytics APIを使って映画のセリフのセンチメント、感情のネガポジを判定して、映画全体でどのように推移していくかを見てみます。
元データを集めて編集
今回は以下の作品の英語のセリフを用意することができたので、これを使って分析してみます。
- 紅の豚
- 千と千尋の神隠し
- となりのトトロ
データはText Analytics APIで読み込める形式(json)に整形します。
{'id': '1', 'language': 'en', 'text': '\n Another village died.\n \n '}
結果
APIから返ってきたセンチメント値をグラフにします。
縦軸はセンチメント値で上に行くほどポジティブ、横軸はセリフを時系列に並べてます。またセンチメント値は前後合わせて18個のセリフの平均値を取ってプロットしました。
結果を見ていきましょう。
となりのトトロ
盛り上がり、盛り下がりの波が見えます。
最初の引っ越してくるところ、トトロと空を飛ぶシーンのポジティブ度が高く、逆にマックロクロスケに遭遇するドキドキのシーン、お母さんの退院が伸びてサツキが不安になって泣いてしまうシーンがネガティブなシーンと判定されていて、結構正確に判定されてそうです。
千と千尋の神隠し
トトロより波の上下が細かいです。
かま爺との遭遇、湯婆婆との契約、大けがのハクを助けるシーンなど緊張したりハラハラいしてるシーンがネガティブと判定される傾向があります。
紅の豚
千と千尋よりさらに上下が回数が大きい傾向があります。
場面が細かく変わる、盛り上がりのシーンも単純な楽しいシーンだけでなく、ちょっと大人向けの話であることがうかがえます。
まとめ
セリフの出現時間は今回考慮してないので、作品中の位置も考慮してグラフにすれば、もうちょっと傾向が見やすくなるかもしれません。
あと、セリフデータの正規化がいろいろ大変だった。。。
これは機械学習や文書処理のあるあるですね。。。