はじめに
前回、前々回のテーマ(「1:キャラクター(言語モデル)」・「2:話者交代」)からの引き続きとなります。最後は「コンテンツ理解」について解説させていただきます。
ー【AIコンテンツとしてのネウロ様について】ー
主にここまでAI技術の利用という観点からネウロ様を取り上げてきましたが、いったんAIという観点を忘れ、単なるコンテンツとしての「ネウロ様」を考えて見たいと思います。
私はコンテンツビジネスの世界で仕事をしているため、そのような視点で「ネウロ様」を見たときに、その製作者であるビーダル氏の行動はネウロ様をコンテンツとして理解している、つまりコンテンツクリエイターとしての自己認識が強くあると感じる部分が多く、そのことが結果的にネウロ様の現在の人気の原因となっているのではないか、と考えています。
そのように感じる以下3つのポイントを解説します。
1:コンテンツ優位性の理解
2:「飽き」問題への対峙
3:コストカット
【1:優位性の理解】「そもそもコンテンツ的な優位性がAIにあるのか?」
例えばAIと会話する、AIが歌うなど、AIそれ自体をコンテンツ的な意味における「最終商品」として組み込む場合に、果たしてそれは人間によって作られたコンテンツと比較して何か優位な点があるのか?という問題提起です。
ー【初音ミクの優位性について】ー
AIとは違いますが、同じ機械的なコンテンツとして著名な先行事例としては「初音ミク」があげられると思います。
「初音ミク」の説明は割愛いたしますが、2007年ごろから巷に広まり始め、当時、私も
同じ業界でその存在を間近で見てきたものの一人ですが、単なる機械音源、という枠を超えてその後のカルチャーやミュージックシーンにこれほどまでの影響を与えるとは、当時は想像もできませんでした。
当初はキャラクターコンテンツとしての需要、ニコニコ動画での盛り上がり、ネタ的な利用が強かったと記憶していますが、それが一回りした後は、ボカロPといわれるような新進気鋭の作曲家たちによるミュージックシーンにおけるムーブメントが拡張してきたという印象があります。
ボーカロイドは当初、仮歌やコーラスの歌唱、DTM作業の効率性向上などの間接的価値が主たるもの、つまり「人間歌唱の補助ツール」として理解されていたと思うのですが、徐々にその無機質な歌い方がネタ的な利用として盛り上がり、そこからさらに発展し、特殊な感情表現、人間では歌えないような高音、高速、息継ぎ無視などの歌唱法自体を音楽表現に盛り込む形で「あえて」ボーカロイドをメインボーカルとして選択するという作曲者が増えてきた、ということがあるかと思います。この辺については識者の方のリンクをご参照頂ければ幸いです。
息継ぎ不要、早口、高音、無機質な歌い方、これらが人間にはできない歌い方として、積極的な価値を感じる部分として認知されて、新しい音楽表現の可能性を開いた。結果「あえて」ボーカロイドに歌わせるという選択が生まれてきた。
これは初音ミクに代表されるボーカロイドが、人間の歌唱に対して「ある部分」においては「一定の優位性」があったことによる現象であると言えるかと思います。すべてにおいて人間歌唱の劣化互換であったのであれば、このような現象は起きなかったでしょう。
つまり「人間にはできない行為」であってかつ「人間が価値を感じるもの」がもしAIにあるのであれば、ボーカロイドのようにコンテンツ的な拡散をする可能性があると言えるのかも知れません。
ー【AIのコンテンツ的な優位性について】ー
では、現状の生成AIにおいて、そのような「コンテンツ的な優位性」がある箇所を考えます。
「画像生成」「動画生成」などの領域において特に顕著ですが、AIの最大の優位性は「大量生産」「一定の高品質」にあると言えます。ですがこれは突き詰めると「コストカット」の価値(量的な価値)であり、これ自体は「質的な価値」とは言えないと思います。AIを駆使した新しい表現手法、つまり質的な価値を求める試みもなされているかとは思いますが、現状は確立されたムーブメントとまでは言えない状況かとは思います。
AIコンテンツにおける質的な価値が感じられる事例が現状、何かあるか?挙げたい事例として「大喜利」があります。
ー【大喜利AIについて】ー
AIが大喜利をする。出始めのころに触ってみて、その内容に驚愕したことを今でも覚えています。「りんな」さんのLINEアカウントも近い時期に大きな話題となり、同じく驚愕し、当時AIコンテンツの可能性と脅威を強く感じ、コンテンツ業界の未来はどうなるのか?と同僚と話をした記憶があります。調べてみると大喜利AIやりんなさんが出始めたのは2016年ごろのようです。
過去の返答のまとめ記事ですが、今見てもとてもハイレベルで面白いと感じないでしょうか?少なくとも私にはこんな回答はできないです。
文化庁から受賞がされるほど、この大喜利AIというジャンルは広く認知と人気を博していたことは説明不要かと思います。
最近ですと「ラーメンを食べる絵」 / 「AIが考える○○」などの画像出力がネタツイートとして評判を得ることがあると思います。これも一種の「大喜利」的な面白さを表現したものと言えるものですが、AIならではの表現の面白さがあるかと思います。
すなわち「AIによる大喜利」というジャンルは長く人気を博しているAIコンテンツのジャンルの一つと言っていいのかと思います。
「大喜利」的な面白さは「関係はあるのだが、普通は思いつかないような方向からの返答」という言葉に集約されるかと思います。生成AIの根本原理(統計的に似つかわしい回答をする)を考えると、実はとても親和性がある使い方なのか?と最近思っているところですが(とても雑な考察ですが…)、いずれにせよ大喜利という領域においては、AIは人間に対抗しうるコンテンツ的なポテンシャルがある、ということは事実として言えるかと思います。
ー【ネウロ様のキャラクターについて】ー
「大喜利的な利用」という部分における優位性は「ちょっとズレた回答」という部分に集約されるわけですが、この「ちょっとズレた回答をする」という機能(能力)をネウロ様のキャラクターづくりにおいて意識的に利用していると感じられる部分があり、つまりビーダル氏はこの部分を「AIにおけるコンテンツ的優位性」として認識し、利用しているのではないかと考えています。
私が初めてネウロ様の動画を見たのは2023年ごろと記憶していますがそのとき、第一印象として「とても良い切り口(まとめ方)」だなと感じたことを今でも覚えています。「良い」とはコンテンツ的な意味におけるものです。「洗練」というべきでしょうか。子供の女の子の見た目、子供の声、毒舌、博学、という組み合わせはコンテンツ的な洗練を感じる部分が多いです。
まず見た目が子供だと、毒舌や博学であったとしても視聴者に恐怖心やマウント感、不快感を与えにくいということがあります。「ちびまる子ちゃん」や「チコちゃんに叱られる」など、子供が大人びたこと、毒舌などをいうことはそれだけで愛くるしさや面白さにつながりやすいですが、見た目が大人だと、痛々しさや不快感につながりやすいリスクがあります。
また、可愛らしい見た目なのにそれに反してそのキャラクターが毒舌や博学を感じさせる、というのは「ギャップ萌え」を形成しやすく、「牧瀬紅莉栖(STEINS;GATE)」「長門有希(涼宮ハルヒシリーズ)」など、コンテンツ業界では定番のキャラクター類型の一つと言えるかと思います。
大喜利における「ちょっとズレた回答」は、今風にいうと「ハルシネーション」と表現すべきものかもしれません。「中途半端な知識がある」「知ったようなことをいう」というのはハルシネーションつまり、AIの弱点として認識されるところですが、「(知ったような)子供」の見た目とすることでコンテンツ的な価値に転換することができ、かつそれが「愛らしい女の子」であると、さらに「小悪魔」「生意気(いたずらっぽさ)」などのギャップ的なキャラ属性を感じやすくなるため、コンテンツ的に運用しやすいと思います。
これをファインチューニングにより更に「ちょっとズレた毒舌や博学な回答」に磨きをかけることで見た目との相乗効果を期待できるわけですが、ネウロ様はまさにそういった効果で成功を収めていると感じていただけるかと思います。
ビーダル氏が意図的にやったのか、単なる趣味やセンスでやったのかは断言できないですが、少なくとも、生成AIにおいて優位性がある「ズレた回答(ハルシネーション)」にフォーカスし、その部分をコンテンツ的な演出(表層)でサポートし、キャラクターづくりに利用する。すなわちこれは「コンテンツにおける優位性」という着眼点がなければまず不可能であろうと思われることであり、つまりビーダル氏がただの天才プログラマーではなくコンテンツクリエイターとして「コンテンツ理解」を伴っていることの証左と言えると思われます。そしてこのことは、コンテンツとしての「ネウロ様」の人気に大きな影響を与えるであろうことは、想像に難くないと思います。
【2:「飽き」問題】「AIの優位性をあえて捨てる」
AIVtuberと人間Vtuberを比較した際に、その優位性の一つとして「24時間365日稼働ができる」ということを言われる場合があると思います。休まず疲れず稼働できることは当然ながらシステムの優位性の一つだと言えます。
以下の動画はサバソンチャレンジ動画(投げ銭の額に合わせて放送時間が決まる企画)、つまり長時間放送(合計17日間)の一部です。
この動画の構成は以下の通りとなっています。
1 :「scribble nauts unlimited」ゲームプレイ動画
2 :「The Long Drive」ゲームプレイ動画→イビル登場→ゲスト1,2登場
3 : 過去の放送の振り返り
4 : 睡眠、MVの放映(小休止)
5 : ビーダル氏+ネウロ様の雑談(イビル就寝)
6 : コメント読み(ネウロ様のみ)
7 : マインクラフト実況
17日間という壮絶な長時間放送の7時間を切り取ったこの動画であっても、これだけの企画を入れていることがお分かりかと思います。
そして、上記動画の52分~55分の間を試しに手計算で計測したところ、ネウロ様のしゃべっている時間は1分16秒くらいでした。むしろビーダル氏、コラボ配信者の人がしゃべっている箇所のほうが多いくらいです。
つまりビーダル氏は「24時間365日稼働ができる」というシステム的なメリットをほぼ享受せずにひたすら手間をかけていることがこのサバソンでご理解頂けると思います。
プログラマーの視点で言うと、これはかなり勇気がいるというか、システムによる「自動化」「省力化」はプログラマーからすれば最も価値を置くべきところであり、これを生粋のプログラマーであるはずのビーダル氏が真正面から否定するような行為をなぜ選択するのか?それは当然ながら「そうせざるを得ない理由」が彼にあるからで、これは「飽き」を防ぐということが理由であろうと考えております。
ー【飽きさせない工夫】ー
監視カメラの映像や、単調な作業のアルバイトなど、例証をするまでもなく、人間は変化の乏しい行為に対して、退屈や不快を感じる特性があるかと思います。当たり前のことですが、コンテンツを作る際、映像であればカメラアングルを切り替えたり、画面演出をしたりすることで、これらの感情を回避することを常に意識し実行します。
AIVtuberの利用として最も多いものとして「自動コメント読み」タイプの放送があります。AIVtuberと視聴者のみ、視聴者のコメントをAPI経由でAIが認識し、返答を生成する、という仕組みです。システムで完結し、自動化されますので、AIの特性を最も生かした利用法の一つといえるでしょう。
ネウロ様はほぼ毎日放送をしていて、もちろん「自動コメント読み」タイプの放送も多数ありますが、それ以外の企画も実に豊富です。
・ゲーム実況
・人間Vtuberとのコラボ
・ビーダル氏本人コラボ
・人間Vtuber+ビーダル氏本人のコラボ
・バーチャル旅行
・お料理企画
・写真大喜利
・歌ってみた
・サバソン
・イビル登場
・リアル外出ロケ
・ネットショッピング企画
定番から変わり種まで実に多種多様です。自動化とは程遠い、極めて古典的というか、スタンダードなVtuberとしての企画が多く見受けられます。
ー【コンテンツの価値を重視する】ー
私はコンテンツ業界の人間なので、これらの行為は極めて当たり前のことと感じますが、プログラマーの視点として考えるとこれはかなり特異なことと感じます。何のためのシステムだ、自動化した意味がないじゃないか、ということですね。
「飽き」が発生しにくい総合的システムを構築できれば最高ではあると思いますが、それができない場合に、「システムのメリットを放棄したとしても、飽きさせないようにする」なのか「システムのメリットを放棄したら意味がない(やらない)」なのかは、その信念によるところがあると思います。
ビーダル氏は現時点において、極めて泥臭いコンテンツ的努力をしている、つまり「飽きさせないようにする」を優先しており、このことはビーダル氏がコンテンツクリエイターとしての信念をもって行動しない限り、選択できないことといえるでしょう。彼がコンテンツ理解をもって行動していることの証左の一つと言えないでしょうか。
【3:コストカット】「コンテンツ制作のコストについて」
Copyright(C) 動画幹事. All Rights Reserved.
ここまで、ビーダル氏が古典的な努力をしている、ということをご説明しましたが、これはある意味、誰でもできるというか、私のようなコンテンツ企業に所属する人間からすると日常業務とも言えることです。
なので、これらを行うこと自体は特筆に値しないとも言えるのですが、重要な特筆ポイントとして「コスト」の問題があります。
ビーダル氏はこのような手間のかかる行為をした動画を常時大量に投稿しているわけですが、これをほぼ一人で行っている状態です。もし彼と同じクオリティの動画を企業がこのペースで提供する場合、工数の見積としては、1か月について、めちゃくちゃ頑張って2.5人月、普通なら3人月~5人月くらいの予算感(ただしMCと進行台本除く)で見積もると思います。となると、彼のような動画の内容だと純粋にペイしない、と思いますので投資案件と割り切って予算組みしないと実施は難しいと思います。
ビーダル氏の動画はそこまで動画編集や素材作成をしているわけではないので、ある程度フォーマットを決めてしまえば、それらの工数はそこまで多くない、とは思います。
ただ受託してやる場合、間接費用が結構ありそうです。プログラムを利用した表現が多いので、制作部門と技術(組み込み)部門との間のやり取りに時間がかかることが一つ。コラボ相手のブッキングや契約などを想像し、間接費用を少し多めに見積もると個人的には思いますのでこれも一つ。その前提の数字で考えています。
もしこの間接費用がなかったら?頑張れば1人月くらいに収まるかも…、経済的な持続ができるかも…、と、つまりここがポイントになります。
ー【プランナーとプログラマーの乖離問題】ー
コラボ相手のブッキング等の間接費用は、インディーズでの運用であれば、かなり簡略化できると思うので、それは純粋なコストカットになると思います。問題は「制作部門と技術(組み込み)部門との間のやり取り」です。
既存システムを使うだけなら問題ないのですが、例えば新しい企画として、表示される画像を見てネウロ様がコメントを言う、みたいなことを制作部門が企画したとして、ではそれをどうやって組み込むか?
当然、それを技術部門に発注するわけですが、往々にして「…これじゃないよ」「いや、そういうことじゃなくて…」「……発注書に書いてないですよね?」などの、ディスコミュニケーションが発生しやすい(ですよね?)、そこで時間を取られる、ということは結構なコストとして私だったら見積に入れると思います。
「そんなのはお前の会社だけだろ」という突っ込みはあるかもしれませんが、プログラムを知らない人間が、プログラマーに作業依頼をする場合において、齟齬が生じやすいという現象は大なり小なり、あるかと思います。検索すると「よくある事例」として出ることも多いですし、この辺はあるあるの話かとは思いますのでとりあえずその前提で論を進めさせていただきますことご容赦ください。
ー【プログラムを知らない人間の発注の実例】ー
私は2022年まで一切、プログラムに触れたことがなく、完全に無知な状態でした。そのころ、AIのビジネス利用に関する検証を進めるため、調査研究を開始したのですが、プログラムはプログラマーに依頼する前提で、自分でやることなど一切考えておりませんでした。難しいので触れたくないという考え方です。
とはいえ、まったく理解できないと何もできないので大まかには勉強していったものの、コードを実際に書く、などというのは当然ながら禁断の領域として理解していました。そんな状態で、まずはなんでもいいからテストモデルを作らないとなんだかわからない、ということで、当時、読みかじり、聞きかじりの知識をもとに、社内でプログラマーに依頼をしたことがあります。
お恥ずかしいですが、2022年9月の私が書いた依頼書の実物を転載します。「なんだこれ…」という感じかもしれませんが、事例としてご理解ください。なお相手のプログラマーもAIは全く未経験者でした。
「依頼内容」
りんな13億パラメータモデルを使ったチャットボット環境を作る
(LINEかスラックかWEB上のどれか)
「メイン参考サイト」
(ダミーURL)[https://xxxxxxxxxxxxxxxxxxxx]
(ダミーURL)[https://yyyyyyyyyyyyyyyyyyyyy]
(ダミーURL)[https://zzzzzzzzzzzzzzzzzzzzzzz]
「手順」
今回紹介するモデルはHugging Faceに公開されており、
Pythonの自然言語処理ライブラリであるtransformersを使用することで
簡単に扱うことができるようになっています。
りんな13億をDL
https://huggingface.co/rinna/japanese-gpt-1b
↓
transformersをDL
https://huggingface.co/docs/transformers/index
ほぼ原文ママです。送ったものはこれだけです。その後は追加でひたすらそれっぽいWEBサイトのリンクを送って、これを見てあとはそっちで何とかしてくれ、という感じの依頼でした。
突っ込みどころ満載、なのは承知ですが、AIはおろか、Pythonって何?言語ってどういう意味?みたいな状態の人間が頑張って書いた依頼書なので暖かい目で見ていただきたいです。
この依頼から2か月半で一応、納品はされたのですが、それまでの間、技術的問題などを説明されてもよくわからず、「聞かれてもわからないから…」「何でもいいから早くやってくれ…」「とりあえず動けばいいから」みたいなことを繰り返し、ただ納期の催促だけしてました。今にして思えば、相手も迷惑だったことでしょう…
この場を借りてお詫びしたいところはありますが、いずれにせよ自分に知識がないことを依頼して、それを進行管理することは本当に大変だと思います。
ー【二人が一人になれば解決する】ー
ビーダル氏は天才プログラマーであると同時に、コンテンツクリエイターでもある。つまり、一人でこの二役をこなせるわけであり、このコミュニケーションコストがゼロ、となります。
思いついた企画、仕様をいちいち外部資料にまとめる必要もなく、即実行、依頼側(プランナー)の監修、チェックバック→即反映。コミュニケーションのタイムラグが一切ない。プログラマーでありながらコンテンツ理解を伴うこと、これがコスト面でいかに強力な武器であるかということも、ネウロ様を語る上では重要なポイントだと思われます。
それ以外にも画像素材の作成、動画編集などの技術もお持ちのようなので、こういう「間接的なコミュニケーションコスト」がかかりにくいというのは一人作業の特徴的なコストメリットであり、そのメリットがないと収益性の低い企画を維持することが経済的に困難である、ということは、重要な論点だと思います。
【結論】「ビーダル氏のコンテンツ理解とは?」
1:コンテンツ優位性の理解
2:「飽き」問題への対峙
3:コストカット
この3つのポイントに沿って解説をさせていただきました。
コンテンツ的な意味における優位性を意識してキャラクターを設計し、プログラマーとしての視点よりも「飽きさせないこと」を重視して、しかも破壊的な低コストで運営している。
ネウロ様が他のAI-Vtuberとは一線を画す人気を博している事実は、コンテンツとしての優位性があるからこそであり、その理由は開発者であるビーダル氏の根底に「コンテンツ理解」があることが要因の一つとなっていることを、以上にてご理解いただけたのであれば幸いです。
【おわりに】「ネウロ様という"奇跡"」
ここまで3回に分けて自分なりのネウロ様分析を行わせていただきました。
天才的プログラマーとしての才能のみならず、コンテンツクリエイターとしてもたぐいまれなセンスを持ち、そして地道で無骨な努力を積み上げるビーダル氏は希代の才能といえる奇跡的な人物であり、そして彼によってほぼ一人、信じれないような低コストで作られた「ネウロ様」もまた、奇跡的なコンテンツであると言えると思います。
ビーダル氏の偉業には驚嘆するのみではありますが、この偉業を冷静に分析することによってAIコンテンツの可能性を探求する上での手がかりの一つになればと思い、拙いながら解説をさせていただきました。
今後AI技術の発展により、社会実装される過程の中でコンテンツとしての側面が重要視されることもあると思います。そのようなときに、この偉大な先行事例はきっと、多くの示唆を与える事例となるだろうと考えています。
ビーダル氏がジャパニーズコンテンツを愛してくれていることは、同じ業界に身を置く人間としてとてもうれしいことであると同時に、本家日本勢として、歯がゆい部分もございます。
この偉業に到達することは極めて困難ではありますが、先を行く彼の研究をすることで、私を含め、多くの日本開発陣の研究の礎になり、彼に追いつき追い越すようなAIコンテンツ制作の少しでもお役に立てれば何よりの幸いと思っております。
以上、3回にわたり、大変な長文にお付き合いいただきまして誠にありがとうございました。
<おわり>