1. 概要
課長とのレビューで厳しい指摘を受け、再チャレンジ中。
さまざまな手段を試した結果、
- ツールの設定変更
- モデルエンジンの切替
いずれも精度向上に結びつかず、ほぼ「気のせい」レベルの変化に終わった。
2. 具体的な試行
| ツール/エンジン | 変更内容 | 結果 |
|---|---|---|
| Ollama + Open WebUI | コンテンツ抽出エンジンの切替 | 精度ほぼ変わらず |
| Ollama + Open WebUI | 埋め込みモデルエンジンの切替 | 精度ほぼ変わらず |
最低でもエラーコードの正確出力 を目的に個別ファイルへ分割したところ、精度が向上。
つまり 前処理 が最も効果的だった。
3. 前処理の流れ
| ステップ | 内容 | 具体例 |
|---|---|---|
| ① | マニュアル変換 | PymuPDF4LLでPDF → Markdown(文字列をテキスト化) |
| ② | 余分文字除去 | ページ番号、目次、参考文書等を目視+Pythonで検索・削除 |
| ③ | 文字列整形 | 縦書き・吹き出しの途切れた行を修正(エディタで複数行検索 → 一行化) |
| ④ | 章単位分割 | 章ごとにファイル化し、必要な前処理を適用(章別に処理フローを切り替え) |
| ⑤ | 図除去 | ハードウェア構成図、ソフトウェア構成図、フローチャートを完全排除(文字ベースに絞るため) |
| ⑥ | データ順序調整 | 入力→処理→結果の順に並べ替え(左→右の文を上→下へ整理) |
| ⑦ | フッター整形 | フッターを見出しとして再構成(大項目/中項目/小項目等へ分解) |
4. 時間とリソース
- 1文あたり 1日〜数日 の作業が必要
しかし、これを無駄な時間ととるか、先行投資と見るか
上の判断が微妙な気がする。
結論
前処理が最も大きな効果を発揮。
モデルやツールの変更より、入力データの質を高めることが不可欠。
今後は前処理に注力し、効率化できるポイントを検討する。
ちなみに外に発注するとすんげぇ単価になるのを今回知った(苦笑