最初に謝っておきます。自慢です。ご承知おきください。
Notionをお使いの方ならPDFをNotionのページに挿入できることはご存知のことと思います。この機能はPDFをそのまま挿入するので、表示は完璧ですが、その内容を活用するのは難しいです。そこでインポートという機能がベータ版で提供されています。これはPDFをマークダウンに変換して挿入するのでテキストとしての活用が期待できます。ただまだ開発中の為かその品質は不十分です。以下に例示します。
元PDF:https://arxiv.org/pdf/1905.01164
標準インポート:https://beryl-geography-b1d.notion.site/1905_01164_compressed-389eff4d2c4b801c9c18fa50ea68a3f2
Notionの標準のインポートも相当良いです。図やキャプションもちゃんと挿入されていますし、二段組も順番に並んでいます。ハイフネーションも解消され、改行が結合されています。文中の式は一部失敗していますが、ほぼ認識できていて、1行の式は完璧に式として認識されています。表もまあまあ大丈夫です。ただ、まだ不満が残ります。
そこで私が作成した機能でインポートしたものを見てください。
オレオレインポート:https://beryl-geography-b1d.notion.site/sample-389eff4d2c4b801b821af4f2a53d658d
如何でしょうか。完璧じゃないでしょうか。図とキャプションもわかりやすく表示されています。2段組も正しく結合されています。ページを跨いだ文章も結合されています。自動翻訳した場合、文章が分断されていないので、その部分の翻訳の質が向上します。文中の式も完璧に認識。太字やイタリックも。さらに表もセルの結合ができています。脚注も文書末に飛んでいません。
さらに日本語の縦書きが混在しているパンフレットを処理してみましょう。
標準インポート:https://beryl-geography-b1d.notion.site/text_multilang__japanese5-389eff4d2c4b807e9d96ca15dd02dc62
オレオレインポート:https://beryl-geography-b1d.notion.site/text_multilang__japanese5-387eff4d2c4b81bbad86ed8268f93d9e
標準インポートは壊滅していますが、オレオレインポートは大丈夫です。上手く行った例だけを提示している疑惑は残るわけですが、以下のサイトで無料で試してみてください。
品質には自信があるのですが、実は全く売れてません…orz
Notionに丸ごと買ってもらいたいけど、、、