不特定多数のユーザが使うサービスにおけるNGワード・不適切な単語のバリデーション
NGワードを弾くための解決策が欲しい
SNSや質問サイト、ゲームなどではユーザ名や投稿する文章にNGワード(卑猥な言葉や攻撃的な言葉)が含まれているのを弾くような処理をしていることが多いですよね。現在携わっている開発案件でも、サービスを使用するユーザが不快感を覚えることや、スパムの乱発を防ぐためにもNGワードを弾く必要性があるという話が上がり、その解決策を探しています。
もっとも簡単な解決策としてはNGワードをたくさん書き込んだテキストファイルや配列データを作り、正規表現でチェックするやり方ですが、GitHubに卑猥な用語がたくさん載ったファイルをあげるのも気が引けます。
一方で開発者向けにNGワードを弾くためのライブラリのようなものがあるかを調べてみたのですが、ぱっと見た感じでは、広く使われているソリューションがあるわけでもなさそうでした。
多数のユーザが使うサービスを展開している大企業ではNGワード対策はどうしているんですかね?
企業ごとにノウハウがあるのでしょうか?
エンジニアが思いつく限りの悪口を書き込んだテキストファイルを秘伝のタレ的に受け継いでいるのでしょうか?
多くのサービスで必要とされる機能ならもっと一般的な解決策が用意されていてもいいと思うのですが、良い解決策はないでしょうか。
この辺りの事情に詳しい方、ご教授いただけると助かります。