LoginSignup
furupon0510
@furupon0510

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

[急募]X(Twitter)に組み込む(拡張機能的な)誹謗中傷抑制システムの作成

現在大学生三回生のものです。情報系の学科に通っています。

卒業研究のテーマに関することで質問させていただきます。

私は、セキュリティ関係の研究室に配属差されたのですが、
研究内容として、X(Twitter)に組み込む(拡張機能的な)誹謗中傷抑制システムの作成を検討しています。
その際に、深層学習を用いて行おうと考えています。

開始は来年の4月ですが、ある程度決めろと言われています。
知識がないので、以下のことを教えていただきたいです。

・深層学習ににより、悪意ある表現や暴言を抽出する際に、深層学習に必要なデータはどのように集めるのか。
(そもそも必要なデータとは。)

・このシステムを動かす方法は、サーバー側なのか、クライアント側なのか。
(私の中では拡張機能のようなものなので、サーバー側を想定していました。)

・X(Twitter)に組み込む方法。システムを機能させる方法。

について、簡単に教えていただきたいです。

勉強に当てる時間はあるため、アドバイスいただければと思います。

0

2Answer

それを先輩・教授に質問したり書籍で調査して「自分で具体化していく」ことが
ゼミにおいて求められていることだとは思いますが…それを言ってはおしまいなので。

ざっくりイメージを回答します。

深層学習ににより、悪意ある表現や暴言を抽出する際に、深層学習に必要なデータはどのように集めるのか。
(そもそも必要なデータとは。)

・ツイッターや他のソーシャルメディア等からラベル付きデータを収集する。(訓練データと呼ばれるもの)

・収集したデータに対し、前処理、テキストをトークン化、特殊文字を取り除く、等の加工をする。(若しくは、テキストをベクトル化する等)

・ニューラルネットワークを設計し、トレーニングに使用するモデルを構築する。(CNN、RNN等)

・ラベル付きデータを使用して、モデルをトレーニングする。

・トレーニングデータセットを使用して、モデルのパラメータを調整し、悪意のある表現を検出できるようにする。

このシステムを動かす方法は、サーバー側なのか、クライアント側なのか。
X(Twitter)に組み込む方法。システムを機能させる方法。

・TwitterAPIを使用し、ツイートに対してリアルタイムに悪意を検出する必要があると思うので、サーバーサイドかと思います。

簡単に概要を提示したので、
不明なワード等があれば検索しながら情報収集してみてください。
※あくまで私がイメージした一例ですので、「正解」はないことを念頭に置いてください

追記:
@PondVillege さんの回答

気を付けてほしいこと

を拝見し、質問者の方に少しでも役に立てばと思い追記します。

「インタラクティブ情報アクセスと可視化マイニング」という研究会の
「第24回研究会研究発表予稿集」にて以下の論文が公開されていたので
「研究し論文を作成する」とはどういうことなのか
成果物のイメージが少しでもできれば良いと思った為、情報共有します。
(内容の理解、というよりイメージが掴める程度で良いかと思います)

■該当サイト

■該当ページ

■該当資料

3

syutorum001さんのおっしゃる通り,他の例があることを念頭に別の方法を示してみます.

深層学習により、悪意ある表現や暴言を抽出する際に、深層学習に必要なデータはどのように集めるのか。(そもそも必要なデータとは。)

一般に必要なデータは,文章を判断するモデルへの入力と出力のペアです.今回であれば文章という入力データと,悪意ある表現や暴言を意味するフラグを持った値が出力データになりますね.文章そのままは機械が認識できないのでデータクレンジングやtokenizeを含めてpreprocessingだとして

このようになるでしょう.必要なデータはこの図の両端ですね.

SNSで独自に収集するのも良いですが,前処理やアノテーションを行うコストを考えて既に公開されているデータセットを使ったり,それを感情分類用に再構築する方法もあります.

主観と客観の感情極性分類のための日本語データセットという研究では,既存データセットのデータ件数が少ない欠点を補うためにデータ量を拡張する試みがなされています.

このシステムを動かす方法は、サーバー側なのか、クライアント側なのか。(私の中では拡張機能のようなものなので、サーバー側を想定していました。)
$\mathbb{X}$(Twitter)に組み込む方法。システムを機能させる方法。

実装によります.少なくとも,クライアント側でMLモデルを動かすのはあまり現実的ではないので,サーバ側に分類器を置くことになります.

Chromeの拡張機能を作ることで,ChromeからアクセスしたTwitterにおいて,タイムラインの悪意検出による非表示機能や,投稿直前の悪意投稿抑制が可能だと思います.

気を付けてほしいこと

研究と言うからには,実験結果の評価が必要です.今回で言えば,作った拡張機能でどれだけ負の感情に触れなかったことによるメリットが創出できたかの評価とかでしょうか.

最終的にどういう評価を得られたらゴールとするか決めてから研究に取り組むようにしてください.「拡張機能を作ってみたw」では社会実装とかアプリ開発とかそこらへんの別物になってしまいますからね.

評価があれば考察ができ,考察ができれば今後の展望が書けます.これで卒論の完成です.質問文だけ読むとシステムを作ることしか頭に無いように見受けられてしまったので注意喚起までに.

2

Your answer might help someone💌