Azure Document Intelligence で aiohttp.client_exceptions.ClientPayloadError: Response payload is not completed が出たときの暫定対処

Posted at 2024-12-04

背景

Document Intelligence で index を作る際に、特定の PDF ファイルで件名の問題が出た。

恐らくは、以下の問題だと思われるが・・ライブラリ内部の問題っぽいので放置してた・・
が、暫定回避策はいるかなぁと思って対処した備忘録

問題の発生個所は以下

エラーだけ見ると、PDF ファイルに問題があるかと思えるんだけど、物理的に 100 page 単位に分割してみたところ、失敗する可能性はあるものの、成功率は格段にあがった。

ってことで、問題の発生個所である begin_analyze_document() を利用する箇所を、数百ページ単位でメモリ上にて分割するように書き換えて、暫定回避策とした。

あ、ついでに、credential の timeout を 60s から延長した。
※cli credential を延長失敗することがあったので。

インデクサーで対処すればいいかなとも思うんだけど、あっちはあっちでまた難しく・・さてどうしたもんか