#はじめに
「どうもミルクボーイですー。お願いします。」
「今、バレンタインで売れ残ったチョコをいただきましたけどもね。こんなんなんぼあってもいいですからね。」
「ゆうとりますけれどね。」
##ミルクボーイとは
M-1グランプリ2019で優勝した、吉本興業所属のお笑いコンビです。
マイナビニュースさんにコーンフレークネタの動画が上がっているので、ぜひ見てください。
https://www.youtube.com/watch?v=VjBQtr4lH0k
##COTOHA APIとは
NTTグループの40年以上の研究成果を活かした自然言語処理技術や音声認識・合成技術を、
APIでお手軽に利用できるよう提供しているサービスです。
https://api.ce-cotoha.com/contents/index.html
無料プランと有料プランがありますが、無料プランでも十分遊べます!
あと、QiitaのCOTOHAタグを見ると、たくさんのネタ記事が上がっています。
こんなんなんぼあってもいいですからね。
##この記事は何?
M-1グランプリ2019決勝のファーストステージで披露されたコーンフレークネタを、
自然言語処理サービスCOTOHA APIを使い要約します。
#本題
##やったこと
・コーンフレークネタを文字に書き起こす
よく考えたら、COTOHAの有料プランに申し込んで音声認識使えば良かったのでは・・・?
・Pythonに初挑戦
触ってみたいと思っていたのと、サンプルコードもたくさんあるようだったので。
開発環境ですが、一応ローカルにも環境を作りましたが、
今回はColaboratoryを使用してみました。
[Colaboratory へようこそ - Colaboratory]
(https://colab.research.google.com/notebooks/welcome.ipynb?hl=ja#scrollTo=2fhs6GZ4qFMx)
Web上でソースコードを書いて実行もできるの、便利!!!
・ソースコード
*** [「メントスと囲碁の思い出」をCOTOHAさんに要約してもらった結果。COTOHA最速チュートリアル付き]
(https://qiita.com/youwht/items/16e67f4ada666e679875)***
こちらのサンプルコードをほぼコピペさせていただきました。
マジでコピペで動きますし、全体的にわかりやすく、Pythonを初めて触った人にも優しいソースコードで有難いです。
記事の内容も面白くて好きです。
ネタは著作権の関係上公開するのはマズいかなと思ったので中略。
変更した部分だけ抜き出しています。
print("■ 要約")
sentence='''うちのおかんがね、好きな朝ごはんがあるらしいんやけど。
そうなんや。
その名前を忘れたらしいねん。
朝ごはんの名前忘れてまうってどうなってんねん。
---------
(中略)
---------
もうええわ。どうもありがとうございました。
'''
api_result = cotoha_api.callSummaryApi(sentence, 1) # 1を指定すると、1文に要約する。
print('結果 = {}'.format(api_result['result']) )
最速チュートリアルを使わせていただいたからとはいえ、
ネタをテキストに起こすのが一番時間かかった気がする・・・。
音声処理について学ぼうかな・・・。
#結果
■ 要約
結果 = コーンフレークちゃうがな。
コーンフレークちゃうがな。
すごい!!!!!
そう!!!結果的にコーンフレークではない話やからねこれは!!!!!
キレのある回答が出てきて笑ってしまった。
#COTOHAは関西弁が達者?
結果を見て思ったのは、テキスト中に「コーンフレークちゃうがな。」が大量に出てきたのかな?ということでした。
そこで、書き起こしたコーンフレークテキストを見てみたところ、
「コーンフレークちゃう」までなら大量に出てくるのですが(「ちゃうか。」とか「ちゃうやないか。」とか)
「コーンフレークちゃうがな。」は3回しか出てきませんでした。
ただ多く出てきた言葉を抜き出しているわけではないっぽい・・・?
よく考えると、「コーンフレークちゃう」で止めてしまうと、
「コーンフレークちゃう。(コーンフレークではない)」
「コーンフレークちゃう?(コーンフレークなのでは?)」
と、同じ言葉で全く別の意味を受け取れてしまいます。
しかし、「コーンフレークちゃうがな。」まで言うと「コーンフレークではない」という意味になるので、
「コーンフレークちゃうがな。」が正解だと納得できます。
そもそも、コーンフレークかコーンフレークじゃないかを見極められているだけでもすごいのに、
関西弁で回答してきたのがすごい。
これでいてこの要約機能、まだβ版なんですよね・・・。
COTOHA、恐るべし。ほかの機能も触ってみよう。
#おまけ
キーワード抽出してみたら、「コーンフレーク」の次に「おかん」が抽出されていました。
やっぱ関西弁も達者なんですね。
■ キーワード抽出
{'form': 'コーンフレーク', 'score': 220.0}
{'form': 'おかん', 'score': 110.0}
{'form': '俺', 'score': 67.61265}
{'form': '好き', 'score': 56.08416}
{'form': 'フルーチェ', 'score': 26.9968}