背景
Document Intelligence で index を作る際に、特定の PDF ファイルで件名の問題が出た。
恐らくは、以下の問題だと思われるが・・ライブラリ内部の問題っぽいので放置してた・・
が、暫定回避策はいるかなぁと思って対処した備忘録
環境
- python 3.11
- DocumentIntelligenceClient 1.0.0b4
暫定対処策
問題の発生個所は以下
エラーだけ見ると、PDF ファイルに問題があるかと思えるんだけど、物理的に 100 page 単位に分割してみたところ、失敗する可能性はあるものの、成功率は格段にあがった。
ってことで、問題の発生個所である begin_analyze_document() を利用する箇所を、数百ページ単位でメモリ上にて分割するように書き換えて、暫定回避策とした。
あ、ついでに、credential の timeout を 60s から延長した。
※cli credential を延長失敗することがあったので。
あとがき
インデクサーで対処すればいいかなとも思うんだけど、あっちはあっちでまた難しく・・さてどうしたもんか