やりたいこと
弊社提供サービスsirokuro.siteでは、ユーザ様より「シロクロつけたいこと」を投稿いただき、他のユーザ様からそれに関するコメントをいただく、ということを実験的に開始しました。なかなかユーザ様に認知されることもなく、小さく、貧しく、ひっそりとサービスを提供しています
そこで完全に思いつきではあるのですが、システムが自動でコメントを集めてきて投稿者様に報告できれば、本サービスをご利用いただくモチベーションにつながるように思いはじめました。以下でその方式検討を進めてみようと思います
形態素解析
以下の2つの場面で利用する考えです
- ユーザ様の投稿内容を機械的に把握するため
- ユーザ様に紹介するコメントの内容を機械的に把握するため
日本語の形態素解析は、現時点では様々な選択肢があるようです
ツール?
-
MeCab
- UNIXインストール: C++ コンパイラ
- Windowsインストール: 自己解凍インストーラによるバイナリ
-
JUMAN
- UNIXインストール: Cっぽい
- Windowsインストール: インストーラによるバイナリ
-
kuromoji
- Java
-
KeyTear
- UNIXインストール: make
-
RakutenMA
- JavaScript
ライブラリ?
-
JANOME
- Python
WebAPI
検索エンジン
Yahoo! Search BOSS がリリースされた際 (2008年)、Web全体をインデックス化して独自の検索エンジンを構築するには、数百億円かかると言われていました。現在 (2022年) だと技術革新はあったものの、Web自体の規模が膨らんでいるので、やはり数百億円かそれ以上かかるんだと思っています。Yahoo! Search BOSS は 2016年でサービス終了してしまったので、現状では無償サービスは無くなってしまったようです
- Google Custom Search API
- 5USD / 1000リクエスト (100リクエスト / 1日 は無料)
- Bing Search API
- 4USD / 1000リクエスト (1000リクエスト / 1月 は無料)(オプションの Bing Statistics アドイン: 1USD / 1000リクエスト)
当サービスの規模はとても小さいので、Google Custom Search API で充分対応できると思っています
Fess
挑戦してみようと思っています
クローリング
Web全体をインデックス化するのは無理だとしても、検索エンジンから候補をもらって、これらをきっかけに独自のクローリングを行うのはありかもしれないと思っています。クローリング結果のインデックス化には Elasticsearch ? かなと思っているところです
「『Yahoo!ニュース コメント』の健全化を目的に導入している『深層学習を用いた自然言語処理モデル(AI)』を利用してコメントを評価する技術のAPI」も利用したいサービスです
センシティブ検出APIも使ってみたい