AIは銀の弾丸ではない（NJSSのラベリング機能改善のためにAIを入れたけど、まあ色々あったよというお話）

Last updated at 2023-12-03Posted at 2023-12-03

ここ数年でAIの技術は一気に進歩しましたよね。
特にGPTが台頭してきたこの1年で非エンジニアの方もAIという技術に
様々な感情を抱いたのではないかなと思います。

さて、そんなAIの技術が進歩する中、今年9月にNJSSの業種システムのリニューアルを実施しました。
NJSSとしては初めてAI技術をシステムに組み込むリリースとなりました。
初めてのAIリリースに至るまでに色々な壁があったので
自分の振り返りも兼ねて書いてみようかと思います。

この記事では技術にはまったく触れません。
技術より少しだけ上流の対ステークホルダーやその時に考えてた事を中心に書いていきます。

導入前の状況はどうだったのか

端的に言うと 非常に検索ノイズが多い 状況でした。
当時の設計思想として「モレが少ないこと（≒ Recall）」を優先していたのですが、
反面、「ブレが少ないこと（≒ Precision）」は二の次となっておりました。

その結果、業種を用いた検索はノイズを多く含んだ状態となっており、
ユーザの検索体験としては課題のある状態だったと言えます。

NJSSの中で「AIを使って何か出来ないか？」を検討している段階だったのですが、
上記の課題に対して「AIで精度改善が出来るのでは」という仮説をたて、
取り組みを始めることとなりました。

AIは銀の弾丸に見られがち

昨今のAIの発展は著しく「AIは優秀で何でもできる」ように見えます。
確かに「それっぽく動く」ことは多いのですが「耐えうる品質で動くか」となると実は話は全然別です。

初めてGPTを触った時は返答の多様さに感動した一方で、たまに返答間違えてましたよね？
端的に言うとコレがビジネスの議論でも起こります笑

みんなAIには期待しちゃうんだよね

良くも悪くもAIの領域は期待値が高くなりやすく、
ステークホルダーと会話する際に一番ギャップが出やすいポイントです。
そして多少の粗が出るだけで「（優秀なはずなのに）なんでこれ間違えるの？」と指摘を受けるわけです。
（※そしてAIは基本的にブラックボックス化しちゃうので確証を持った証明は基本的に難しいです）

自分もそのギャップとやりとりに非常に苦しみました。

不毛なやり取りを防ぐ為にちゃんと動くことを数値で証明する

結局のところ、数値で証明するのが一番分かりやすいです。
今回の開発においては「現状のシステムを代替する」という形だったので
「現行数値」をRecall, Precisionなどの指標で評価した上で「目標数値」を設定しました。
「なに、当たり前のことを言っているんだ」なのですが、
今回のプロジェクトを進めるにあたって非常に助けられることとなるのです。

「現行数値」と「目標数値」の2つの基準値が守ってくれる

どんなに優秀なAIでも100%正しく予測が出来るわけではありません。
また、この手の予測システムの場合、レコード単位で見てみると
「現行では正解していたのに新版では間違える」みたいなケースもあります。

ですが「現行数値」と「目標数値」をちゃんと設定していたことで
「全体で見た時は目標値は達成しているし、現行より正しく推論できている」と証明ができ、
非常に細かい課題の解決のために進捗が遅延してしまうことを防止することが出来ます。
（議論しないことを推奨している訳ではなく、今解決すべき課題かどうかの判断材料になるという観点です。）

今回の業種システムの改善の時もレコード単位で見ると劣化するケースはあったのですが、
件数としては少数派であったこともありリリース後の保守で継続改善していく流れで
今回のリリースに踏み切っております。
その点でもちゃんと数値を可視化しておいてよかったなあと感じております。

結局、AIは課題解決の為の手段の1つでしかない

実は今回のリリースはAIに全てを委ねる設計にはしておらず、
一部は地道なロジックベースでの実装が介在しております。
なぜならば、AIの判定だけでは精度が頭打ちになってしまった為です。
おそらくAIだけに固執していたらリリースは未達に終わっていたことでしょう。

決まった流れはロジックベースがなんだかんだ最強である

決まりきったルールがある場合は下手にAIを入れてブラックボックス化させるより
ロジックベースで設定した方が確実に動く分、精度が上がりやすいです。
（もちろん、作り込みが発生するので手間と工数が掛かるわけですが。。。）

AIはあくまでも「課題解決の手段の1つ」でしかないのです。

リリースをしてみて

まずシステムの定量的成果としては前システム比で1.7倍の改善に成功しました。
当初目標は1.4倍を目標としていた為、数値的には大成功です。

またリリース後、プレスリリースを発信したのですが、
会社の株価が少し上がったので市場からのAIの関心はまだあるんだなあと思った次第です。

実際のユーザの使用率については別プロジェクトの兼ね合いもあり、
正確な計測は出来ていないのですがユーザの使用感のヒアリングも出来たらなあと思ってます。

まとめ

既存システムの改善の為にAIを取り入れようと考えている方も多いことかと思いますが、
もしも自分の経験が何かしらのヒントになりましたら幸いです。

今回は技術よりは少し上流の部分で記事を書いたのですが、
技術の部分ではGPTの推論が安定しないとか推論時間が遅いとか
こちらも色々ありましたw
もしかしたら続く、かもしれない。

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up