はじめに
昨今のAIブームは凄まじいですよね。毎日のようにモデルの進化があり、カンファレンスでもAIの話ばかり。しかしいろんな事例を聞いているとそれって御社のパフォーマンスですよね?っていう話も多く、自分が手元で動かしている所感と大きく乖離がある部分も多いです。今回はその中の一つである単純作業のAIによる代替について考えてみます。
私が現場を見て考えるAIに代替にできない理由
100%は保証できない
まずLLMのハルシネーションを100%無くす方法は2025/10/18時点で見つかっていません。現在のLLMの裏側にあるtransformerの仕組みを考えても確率的にありそうな言葉を並べているだけなので、今後transformerアーキテクチャの刷新がされない限り、これは変わらないと思います。
さてここで人間のやっている単純作業を置き換えることを考えると100%は保証できないものをどうやって実務に適応するでしょうか。99%の精度で良いものであれば適応しても問題ないですが、1%で間違えても良い仕事というのは私の経験上あまり多くないです。だから多くの事例でLLMで単純作業を代替したという事例はダブルチェックに人間が入っています。これでは部分的に単純作業は残ります。
精度検証できない
AIで人の作業を代替するには「人がやるよりもAIがやった方が良い」という意思決定が必要です。しかしLLMOpsの考えは発展途上であり、正解がない領域です。機械学習のように精度〇〇%で定量評価できるケースは少なく、評価自体を人が実施する必要があります。LLM as a judgmentとかもありますがこれも評価軸は人が決めています。人が決めているということは決定者の主観が必ず入り、それを組織的に納得を持って導入するのは社内政治やその人の発言力など他の要因にも影響されます。
ユーザーの理解が浅いから
ユーザー側がAIの仕組みを理解している人が少なく、いまだにChatGPTによりAIに感情が生まれたと勘違いしている層もいます。我々のような技術者にとっては当たり前の常識もユーザーとなる非技術者には馴染みのないことも多いです。これはダメでしょうというプロンプトが書かれることも多く、これによりハルシネーションが生じて使えないという烙印を押されます。
人は意外と膨大なコンテキストウィンドウを処理している
単純作業の代替をするときにまず人がやる時の作業内容を明確にする必要がありますが、このときに人は意外と膨大な情報を処理していることがわかります。例えばメールの中にある情報をAIで抽出することを考えます。このとき情報は単純にテキストだけで送られることもあれば、前のメールとの文脈があって送られている文章もあったり、画像が添付されていてその中に情報があるかもしれないし、PDFかも知れない。人なら簡単に処理できるイレギュラーは存在しこれにより単純作業を代替できません。
AIを使ったアウトプットの責任問題
AIを使って創出した成果物の責任所在を決められない場合があります。AIを使って創出した成果物の責任は使用者にあるという考えが一般的ですが(少なくとも私の職場では)、この考えが浸透していない会社も多く開発者側でその責任を持たせられることも多いと聞きます。これにより単純作業は残り続けます。
まとめ
上記が私が思う単純作業がAIで代替できない理由であり、AIプロジェクトで障害になっていることだと思います。逆にこの部分を期待値調整して、関係者に説明することでAIの導入できる確率は高まるはずです。