それを先輩・教授に質問したり書籍で調査して「自分で具体化していく」ことが
ゼミにおいて求められていることだとは思いますが…それを言ってはおしまいなので。
ざっくりイメージを回答します。
深層学習ににより、悪意ある表現や暴言を抽出する際に、深層学習に必要なデータはどのように集めるのか。
(そもそも必要なデータとは。)
・ツイッターや他のソーシャルメディア等からラベル付きデータを収集する。(訓練データと呼ばれるもの)
・収集したデータに対し、前処理、テキストをトークン化、特殊文字を取り除く、等の加工をする。(若しくは、テキストをベクトル化する等)
・ニューラルネットワークを設計し、トレーニングに使用するモデルを構築する。(CNN、RNN等)
・ラベル付きデータを使用して、モデルをトレーニングする。
・トレーニングデータセットを使用して、モデルのパラメータを調整し、悪意のある表現を検出できるようにする。
このシステムを動かす方法は、サーバー側なのか、クライアント側なのか。
X(Twitter)に組み込む方法。システムを機能させる方法。
・TwitterAPIを使用し、ツイートに対してリアルタイムに悪意を検出する必要があると思うので、サーバーサイドかと思います。
簡単に概要を提示したので、
不明なワード等があれば検索しながら情報収集してみてください。
※あくまで私がイメージした一例ですので、「正解」はないことを念頭に置いてください
追記:
@PondVillege さんの回答
気を付けてほしいこと
を拝見し、質問者の方に少しでも役に立てばと思い追記します。
「インタラクティブ情報アクセスと可視化マイニング」という研究会の
「第24回研究会研究発表予稿集」にて以下の論文が公開されていたので
「研究し論文を作成する」とはどういうことなのか
成果物のイメージが少しでもできれば良いと思った為、情報共有します。
(内容の理解、というよりイメージが掴める程度で良いかと思います)
■該当サイト
■該当ページ
■該当資料