医療業界の営業職は学会の動向なども気になるので演題集等や抄録集を見る機会も多いのですが読むには骨が折れます。
学会Webサイトに テキストやcsvで置いてあれば便利なのですが大抵はPDFファイルなので pdftotext は大変重宝すます。
非エンジニアの営業職ですが どなたかの参考になれば...。
環境: Debian Buster
今回は 安倍首相 辞任の理由となった 「潰瘍性大腸炎」が 昨年の日本消化器学会の演題でどんな発表があったのかみてみます。
まず、去年(2019)の日本消化器学会 「一般演題(口演)」を拾ってくる。
wget http://www.med-gakkai.org/jsge2019/pro/data/pro_13.pdf
発表プログラムは 複数ページの pdfファイルなので pdftotext でテキストを抽出、改ページ ^L を -nopgbrk で無視し、grep で関連しそうな単語でフィルターをかけて、csvファイルに書き出してみます。
pdftotext -nopgbrk pro_13.pdf - | grep "クローン病\|潰瘍性大腸炎\|UC\|IBD" | sed 's/ /,/1' > daityouen.csv
下の例だと 出力 をvisidata に渡しています。
pdftotext -nopgbrk pro_13.pdf - | grep "クローン病\|潰瘍性大腸炎\|UC\|IBD" | sed 's/ /,/2' | vd --header=0 -d,