自分が YouTube にアップロードしている動画を Video Indexer に処理させて、どんな分析結果がでるのか試してみます。
動画はこんな感じの料理動画です。(この外出自粛の機会にはじめたばかりですがチャンネル登録お願いします笑)
https://youtu.be/eF3xswnCGjk
Video Indexer には既存でサンプルが用意されており、非常にキレイに単語などが抽出されています。それらは Video Indexer が分析しやすいようにカスタマイズされたものや、カスタマイズモデルを使用していると思いますので、今回は自分の作成した動画を読み込ませてみて、どんな感じで分析されているか主観的に見てみたいと思います。
では早速試してみたいと思います!
#結果
顔が映っていない動画なので、顔認識、感情分析はされませんでしたが、以下のような結果になりました。
##Topics
動画の中で取り上げられている Topics を認識した結果は以下のようになりました。なぜかニンニクが抽出されましたね笑
まぁでも、野菜、ショッピング、という大きな項目はあながち間違っていないですね。脱毛ってなんだろう、、おそらく、オマール貝を洗っているときに、藻のようなものを抜いていたからからな、、笑
##Labels
Label は以下のような結果になりました。
かなり細かく Label が張られるんですね。これは認識したものにすべて貼られるようです。1度しか出てきていないものにもラベルが張られています。
##Named Entities
Named Entities とは、自然言語処理 (NLP) を使用して、音声および視覚テキストからブランド、場所、および人物を抽出します
の様です。つまり今回のような音声をあとから吹き込んだ動画に関しては、ビデオ、オーディオのマルチ分析がうまくできないため、あまり良い結果が出ないです。
##Scene
シーンは特に代わり映えないですが、こんな感じでした。場面が変わるような動画でないとあまり面白い結果はでないですね。
##Timeline
タイムラインはこんな感じですね。これは音声認識で文字お越しをしているので動画は関係ないです。精度はまずまずといったところでしょうか。
でも正直まだ微妙なところも多く、例えば以下の部分とかはしっかり認識した欲しかったですね、、
(誤)Nさあ始めました。魚さばくチャレンジ本日は十七匹目を回るが、いいでございます。
(正)さあはじまりました。さかなさばくチャレンジ、本日は17匹目、オマール貝でございます。
いい、とは、、?笑
(誤)そしたらですね。フライパンにオリーブオイルしてあげまして、その上にニンニクですね。辞めていきます。
(正)そしたらですね、フライパンにオリーブオイルを敷いてあげて、その上にニンニクを炒めていきます。
ニンニクを辞める、とは、、?笑
(誤)白いんですね。白ワインを入れて、ちょっとエビの色が変わるぐらいまでにしてあげます。汐音加えながら味を調整しつつ炒めていきます。
(正)次にですね、白ワインをいれて、ちょっとエビの色が変わるぐらいまで熱してあげます。塩を加えながら味を調整しつつ炒めていきます。
汐音ってなんかおしゃれ、、、笑
#結論
活舌の問題もありますが、日本語の音声認識精度はもう少しといったところです。
ただ、API で色々カスタマイズして使えそうですし、最近もアップデートが多い Video Indexer なので今後も色々試して使ってみたいと思います!
参考情報 : Video Indexer
参考情報 : さかなさばくチャレンジの YouTube チャンネル 登録お願いします!笑