pdfの文書をtxtに変換する方法
注意としてはpdf自身にはOCR(画像などに含まれる文字を認識してくれる)してなければできません。つまりpdfの文字がコピーできたりすればok
OCRがされていないPDFの場合あらかじめ何かしらの手段でPDFにOCRをかけましょう(有名どころだとAdobe Acrobatだとすぐにできそうですね[未確認])
方法
1.Macのapplicationのその他からAutomatorというアプリを起動してください
2.起動したら新規書類を選択、次にワークフローを選択してください
3.変換したいpdfをドラック&ドロップしてください
4.ドラック&ドロップしたら🔎検索で「PDFのテキストを取り出す」を選択してください
5.右上の実行を押してください
6.保存先に.txtファイルができているはずです
以上でPDFの文書が無事txtに変換できているはずです
(精度は察してください)