【自然言語処理】「不適切な言葉」のデータのリスト
Q&A
日本語の文章を処理する際、「不適切な言葉」をフィルタリングしたいと考えています。例えば「統失」「ガイジ」などの差別的な語彙や、犯罪を示唆する「援交」「円光」などの語彙、「うんこ」「ちんこ」等の下ネタや下品な語彙です。
そこでこのような語彙をリストアップしたようなデータを探したのですが、個人の作成したデータ(例えば https://github.com/MosasoM/inappropriate-words-ja など)はいくつか見つかっても、企業等や団体などによる十分な検討に基づいて作成したようなデータは見当たりませんでした。
そこで2点質問です。
- 企業等や団体などによる十分な検討に基づいて作成された「不適切な言葉」の標準的なリストはありますか?
- (そういうものがない場合)掲示板サービスなどの運営側はどのように「不適切な言葉」を決めているのでしょうか。
よろしくお願いいたします。
0 likes