@ensan_hcl (Miwa)

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

【自然言語処理】「不適切な言葉」のデータのリスト

日本語の文章を処理する際、「不適切な言葉」をフィルタリングしたいと考えています。例えば「統失」「ガイジ」などの差別的な語彙や、犯罪を示唆する「援交」「円光」などの語彙、「うんこ」「ちんこ」等の下ネタや下品な語彙です。

そこでこのような語彙をリストアップしたようなデータを探したのですが、個人の作成したデータ(例えば https://github.com/MosasoM/inappropriate-words-ja など)はいくつか見つかっても、企業等や団体などによる十分な検討に基づいて作成したようなデータは見当たりませんでした。

そこで2点質問です。

  • 企業等や団体などによる十分な検討に基づいて作成された「不適切な言葉」の標準的なリストはありますか?
  • (そういうものがない場合)掲示板サービスなどの運営側はどのように「不適切な言葉」を決めているのでしょうか。

よろしくお願いいたします。

0 likes

No Answers yet.

Your answer might help someone💌