簡単な自然言語処理のAPIを考えている。
構成としては二つある。
1)類義語API
これはテキスト分析の入り口の部分で、単語の類義語をインデックスに置き換えて、機械学習のベクトル次元を削減する前処理用のAPI
入力 → 単語
出力 → インデックス
現在のところは意味ベースで曖昧性の高い日本語を、英単語に置き換えることでインデックス化させる
2)機械学習用API
これはユーザーベースでトークンを入れてコールすることで、機械学習を自動処理させるもの
イメージ的にはAUTO MLのように、教師データを流すごとに成長していくもの
今のところはインデックスのベクトルを与えて、ラベルを返すものを想定している。
活用事例
ユースケースから仕様を決めるというのも、なんとなく変な話であるが、このAPIを使って何が出来るのかを考える。
1)スパムメール削除
メール本文から頻出単語のインデックスベクトルを作り、このメールが削除対象かどうかを判断して、フォルダに移動させる。
利用形態はOUTLOOKにVBAマクロで仕込む
2)ブックマーク整理
お気に入りフォルダのファイル名から、キーワードごとに仕分けして整理する
親子関係を学習し、フォルダが自動的に階層構造になるようなもの
コマンドラインから実行する
関連情報
これから着手していく