0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

社内AI導入の振り返り(失敗体験)

0
Posted at

1. 概要

課長とのレビューで厳しい指摘を受け、再チャレンジ中。
さまざまな手段を試した結果、

  • ツールの設定変更
  • モデルエンジンの切替

いずれも精度向上に結びつかず、ほぼ「気のせい」レベルの変化に終わった。

2. 具体的な試行

ツール/エンジン 変更内容 結果
Ollama + Open WebUI コンテンツ抽出エンジンの切替 精度ほぼ変わらず
Ollama + Open WebUI 埋め込みモデルエンジンの切替 精度ほぼ変わらず

最低でもエラーコードの正確出力 を目的に個別ファイルへ分割したところ、精度が向上。
つまり 前処理 が最も効果的だった。

3. 前処理の流れ

ステップ 内容 具体例
マニュアル変換 PymuPDF4LLでPDF → Markdown(文字列をテキスト化)
余分文字除去 ページ番号、目次、参考文書等を目視+Pythonで検索・削除
文字列整形 縦書き・吹き出しの途切れた行を修正(エディタで複数行検索 → 一行化)
章単位分割 章ごとにファイル化し、必要な前処理を適用(章別に処理フローを切り替え)
図除去 ハードウェア構成図、ソフトウェア構成図、フローチャートを完全排除(文字ベースに絞るため)
データ順序調整 入力→処理→結果の順に並べ替え(左→右の文を上→下へ整理)
フッター整形 フッターを見出しとして再構成(大項目/中項目/小項目等へ分解)

4. 時間とリソース

  • 1文あたり 1日〜数日 の作業が必要

しかし、これを無駄な時間ととるか、先行投資と見るか
上の判断が微妙な気がする。


結論
前処理が最も大きな効果を発揮。
モデルやツールの変更より、入力データの質を高めることが不可欠。
今後は前処理に注力し、効率化できるポイントを検討する。

ちなみに外に発注するとすんげぇ単価になるのを今回知った(苦笑

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?