1.始めに
ご覧いただきありがとうございます。情報系大学院生のらーめん。です!
この記事が自分の記念すべき1つ目の記事でございます。不慣れではありますが、最後までお付き合いいただけると幸いです。
今回のあらすじ
今回は、私の大好きなYoutubeグループ 「SKJvillage」 のスクリーンショットを用いたAIの学習用のデータセットを作成しました。
2.SKJvillage とは?
3人組のゲーム実況系YouTubeチャンネル。高校時代の親友で「早稲田・慶應・上智」大学にそれぞれ進学し、大手企業を退職後、2018年に3人でYoutube活動開始。2019年2月に登録者10,000人を突破、2020年3月に登録者100,000人を突破し、2023年2月10日現在は登録者17.9万人。
(https://www.youtube.com/@SKJVillage/about より参考)
動画のスタイルとしては、「3人でゲームをプレイし、負けたメンバーに対して煽ることで視聴者に笑いを届ける」といった動画が多い。他にも、「ゲームの検証を3人で協力して取り組む」「ゲームを協力してクリア」「プロゲーマー、有名人とのコラボ」「カードゲーム、ボードゲーム」「大食い」などゲーム実況の垣根を越えてバラエティに富んだ企画の動画を投稿している。また、Youtube shortsの投稿も行っており、過去動画の切り抜きから実写の動画も投稿している。
動画内での奇行・謎セリフのこともあり、ファンからは 妖怪 と言われている。
気になった方は、個人的な神回をまとめてあるのでこちらから!
メンバー紹介(https://www.youtube.com/@SKJVillage/about より参考)
sa2(リーダー)
読み方は「えすえーつー」。由来は会社員時代のコードネームとのこと。メンバーカラーは青。ピアノ、ダンス、高速指パッチンといった特技を持つことからも「THE器用な男」である。エンディングではピアノでの演奏を実際に行っている。やると決めたことをきちんと出来るタイプでリーダーに適任である。スマブラのスネーク使いShogunさんによると、メンバーの中では頭脳派でありビジネス寄りの人間である、とのことだが実際はどうなのか。
サイカツ(主砲)
名前は本名由来らしい。メンバーカラーは赤。「波ありお調子者」であり、喜び、怒り、悲しみなどの感情が表に出やすく、陽気な面がある。生粋の顔でかキャラであるが、見た目とのギャップのある歌声を出せる。エンディングで歌を担い、個人でのツイキャスでも自慢の歌声を披露したことがある。サブチャンネルでの配信やTwitterの投稿を定期的にしており、メンバーで一番ファンに寄り添っていると言える。
シンカ(最終兵器)
名前は本名由来らしいが、シンカから彼の本名を想像するのは困難だそうだ。メンバーカラーは黄。大切なものは家族と一番最初に言えるタイプであり「いいヤツ」である。YouTube界No.2のイケメン(自称)であり、適当な発言やノリが売りである。煽るセンスに長けていることから煽り神と呼ばれる。コラボや生配信だと3人の中ではよく喋る方であり、コラボ相手に話かけたり他の人のプレーの実況(?)したりして、盛り上げ役に回ることもある。
(個人的に、シンカが理系院卒であり謎の親近感がある)
3.SKJvillageのスクリーンショットに関するデータセット「SKJ Dataset」
収集方法
Twitterで私と同じSKJvillageファンの方々に協力を募り、私のツイートのリプにスクリーンショットを添付してもらう形で収集しました。37名(2023年2月10日現在)の方々から提供していただきました!また、集まった画像の枚数はなんと466枚!!皆さん、ご協力ありがとうございました!
追記:後日リプを頂いた方から、更に20枚の画像を頂けました!!合計486枚!!
クラス(カテゴリ)分け
クラス分けの方法は、データ1つ1つを確かめて自力で分類した。クラスは以下の8クラスである。
・「sa2」sa2のみ
・「saikatsu」サイカツのみ
・「shinka」シンカのみ
・「sai×sa」サイカツとsa2のツーショット
・「sai×shin」サイカツとシンカのツーショット
・「sa×shin」sa2とシンカのツーショット
・「SKJ」3人全員
・「others」その他(コラボ相手を含む、メンバーがいない)
クラス分けが困難だった例
クラス分けを自力で行った中で、判別に困った画像がいくつか存在した。以下にその例を示す。
[例1]メンバーの誰か判定できない場合
メンバー全員の後ろ姿であるが、詳しくない人はどれが誰なのか分からないと考え、今回はその他の「others」とした。
[例2]メンバーが見切れてる、メンバーが隠れている場合
1枚目の画像では、手前にいるシンカが見切れており顔が確認できないが、一応3人揃って映っているため、クラスは3人全員の「SKJ」とした。2枚目の画像では、シンカの手でsa2が隠れてしまっているが、これも3人揃っているため、クラスは3人全員の「SKJ」とした。
[例3]同じメンバーが複数存在する場合
SKJvillageの動画では編集で同じメンバーを何人も配置する場合がある。今回の例だと、sa2が3人いるようが画像になっているが、誰に関するデータかと聞かれたらsa2と答えるだろうと考え、クラスはsa2のみの「sa2」とした。
本データセットの問題点
今回AIの学習のためのデータセットを作成し、今後の趣味の研究で扱おうと考えているが、その際に問題点となる点が3つ存在する。
(1)データ数が少ない
今回、ファンの皆さんの協力の下で400枚ものデータを収集できたが、AIの学習を行うには十分ではない。一応、データの水増し(増幅)を行えば学習できなくもないが、少し不安である。
(2)各クラス(カテゴリ)のデータ数のバランスが悪い
一般的には、AIの学習を行うには各クラスのデータ数は均等であることが望ましいが、本データセットは各クラスのデータ数にかなりバラつきがある。特に、サイカツとシンカのツーショットを表す「sai×shin」は1枚のみである。原因として、SKJvillageの動画でのメンバーの並びは左から、サイカツ、sa2、シンカの順であり、sa2を省いて映る場合が少ないためと考えられる。
(3)画像サイズがバラバラ
収集したスクリーンショットには、PCで撮影したものやスマホで撮影したものなどが存在し、画像のサイズが全て一緒ではない。AIの学習の際にはサイズを揃える必要がある。
(4)同じスクリーンショットが存在する
ファンの中で有名なスクリーンショットが存在するが、有名なものが複数の方が添付されていたことがあった。現在は、そのまま残しているが状況によっては同じものは省いて、1種類1枚にしなければならない。
4.さいごに
改めまして、この度ご協力して頂いたSKJvillageファンの皆さん、私のツイートにいいねやリツイートして頂いた皆さん、
本当にありがとうございました!
趣味にはなりますが、今回作成したSKJ Datasetを扱ってAIの学習に関する研究を行えればと思います。初めてに投稿でQiitaにふさわしくない投稿なのかもしれませんが、今後ともよろしくお願いします!
P.S. もし、今回作成したデータセットが気になる方がおられましたら、私のSKJ用のTwitterアカウント のDMにご連絡ください。何らかの方法でZIPファイルを送らせていただきます。