社内AI導入の振り返り（失敗体験）

Posted at 2026-01-12

1. 概要

課長とのレビューで厳しい指摘を受け、再チャレンジ中。
さまざまな手段を試した結果、

いずれも精度向上に結びつかず、ほぼ「気のせい」レベルの変化に終わった。

ツール/エンジン	変更内容	結果
Ollama + Open WebUI	コンテンツ抽出エンジンの切替	精度ほぼ変わらず
Ollama + Open WebUI	埋め込みモデルエンジンの切替	精度ほぼ変わらず

最低でもエラーコードの正確出力 を目的に個別ファイルへ分割したところ、精度が向上。
つまり 前処理 が最も効果的だった。

ステップ	内容	具体例
①	マニュアル変換	PymuPDF4LLでPDF → Markdown（文字列をテキスト化）
②	余分文字除去	ページ番号、目次、参考文書等を目視＋Pythonで検索・削除
③	文字列整形	縦書き・吹き出しの途切れた行を修正（エディタで複数行検索 → 一行化）
④	章単位分割	章ごとにファイル化し、必要な前処理を適用（章別に処理フローを切り替え）
⑤	図除去	ハードウェア構成図、ソフトウェア構成図、フローチャートを完全排除（文字ベースに絞るため）
⑥	データ順序調整	入力→処理→結果の順に並べ替え（左→右の文を上→下へ整理）
⑦	フッター整形	フッターを見出しとして再構成（大項目/中項目/小項目等へ分解）

しかし、これを無駄な時間ととるか、先行投資と見るか
上の判断が微妙な気がする。

結論
前処理が最も大きな効果を発揮。
モデルやツールの変更より、入力データの質を高めることが不可欠。
今後は前処理に注力し、効率化できるポイントを検討する。

ちなみに外に発注するとすんげぇ単価になるのを今回知った（苦笑