Go to Qiita Advent Calendar Top

0

More than 5 years have passed since last update.

@kayaker(Shinya Araki)

【非エンジニア医療卸営業職】潰瘍性大腸炎が去年(2019)の日本消化器学会でどんな発表があったのか?

Posted at 2020-08-29

医療業界の営業職は学会の動向なども気になるので演題集等や抄録集を見る機会も多いのですが読むには骨が折れます。

学会Webサイトに　テキストやcsvで置いてあれば便利なのですが大抵はPDFファイルなので pdftotext は大変重宝すます。

非エンジニアの営業職ですがどなたかの参考になれば...。

環境: Debian Buster

今回は安倍首相辞任の理由となった「潰瘍性大腸炎」が昨年の日本消化器学会の演題でどんな発表があったのかみてみます。

まず、去年(2019)の日本消化器学会「一般演題(口演)」を拾ってくる。

wget http://www.med-gakkai.org/jsge2019/pro/data/pro_13.pdf

発表プログラムは複数ページの pdfファイルなので pdftotext でテキストを抽出、改ページ ^L を -nopgbrk で無視し、grep で関連しそうな単語でフィルターをかけて、csvファイルに書き出してみます。

pdftotext -nopgbrk pro_13.pdf - | grep "クローン病\|潰瘍性大腸炎\|UC\|IBD" | sed 's/ /,/1' > daityouen.csv

下の例だと出力をvisidata に渡しています。

pdftotext -nopgbrk pro_13.pdf - | grep "クローン病\|潰瘍性大腸炎\|UC\|IBD" | sed 's/ /,/2' | vd --header=0 -d,

病院名、疾患名、個人名のリストがあれば grep -f list.txt で自由に抽出できます。(VisiData だけでも上の処理はできるのですが...。)

お役所のデータもそうだけど医療系も使えるデータとしてでなく「閲覧目的」のデータで二次利用し難いので pdftotext コマンドや grep sed が重宝します。

自分はデータの下処理には csvkit、VisiData 、適当なシェルスクリプト、分析&視覚化には jyupyterlab を使っていますがまたの機会に...。(書きたいけど超長くなりそう...。)

0

Register as a new user and use Qiita more conveniently

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

0