syutorum001さんのおっしゃる通り,他の例があることを念頭に別の方法を示してみます.
深層学習により、悪意ある表現や暴言を抽出する際に、深層学習に必要なデータはどのように集めるのか。(そもそも必要なデータとは。)
一般に必要なデータは,文章を判断するモデルへの入力と出力のペアです.今回であれば文章という入力データと,悪意ある表現や暴言を意味するフラグを持った値が出力データになりますね.文章そのままは機械が認識できないのでデータクレンジングやtokenizeを含めてpreprocessingだとして
このようになるでしょう.必要なデータはこの図の両端ですね.
SNSで独自に収集するのも良いですが,前処理やアノテーションを行うコストを考えて既に公開されているデータセットを使ったり,それを感情分類用に再構築する方法もあります.
主観と客観の感情極性分類のための日本語データセットという研究では,既存データセットのデータ件数が少ない欠点を補うためにデータ量を拡張する試みがなされています.
このシステムを動かす方法は、サーバー側なのか、クライアント側なのか。(私の中では拡張機能のようなものなので、サーバー側を想定していました。)
$\mathbb{X}$(Twitter)に組み込む方法。システムを機能させる方法。
実装によります.少なくとも,クライアント側でMLモデルを動かすのはあまり現実的ではないので,サーバ側に分類器を置くことになります.
Chromeの拡張機能を作ることで,ChromeからアクセスしたTwitterにおいて,タイムラインの悪意検出による非表示機能や,投稿直前の悪意投稿抑制が可能だと思います.
気を付けてほしいこと
研究と言うからには,実験結果の評価が必要です.今回で言えば,作った拡張機能でどれだけ負の感情に触れなかったことによるメリットが創出できたかの評価とかでしょうか.
最終的にどういう評価を得られたらゴールとするか決めてから研究に取り組むようにしてください.「拡張機能を作ってみたw」では社会実装とかアプリ開発とかそこらへんの別物になってしまいますからね.
評価があれば考察ができ,考察ができれば今後の展望が書けます.これで卒論の完成です.質問文だけ読むとシステムを作ることしか頭に無いように見受けられてしまったので注意喚起までに.