LoginSignup
0
0

More than 3 years have passed since last update.

【非エンジニア 医療卸営業職】潰瘍性大腸炎が去年(2019)の日本消化器学会でどんな発表があったのか?

Posted at

医療業界の営業職は学会の動向なども気になるので演題集等や抄録集を見る機会も多いのですが読むには骨が折れます。

学会Webサイトに テキストやcsvで置いてあれば便利なのですが大抵はPDFファイルなので pdftotext は大変重宝すます。

非エンジニアの営業職ですが どなたかの参考になれば...。

環境: Debian Buster

今回は 安倍首相 辞任の理由となった 「潰瘍性大腸炎」が 昨年の日本消化器学会の演題でどんな発表があったのかみてみます。

まず、去年(2019)の日本消化器学会 「一般演題(口演)」を拾ってくる。

wget http://www.med-gakkai.org/jsge2019/pro/data/pro_13.pdf

発表プログラムは 複数ページの pdfファイルなので pdftotext でテキストを抽出、改ページ ^L を -nopgbrk で無視し、grep で関連しそうな単語でフィルターをかけて、csvファイルに書き出してみます。

pdftotext -nopgbrk pro_13.pdf - | grep "クローン病\|潰瘍性大腸炎\|UC\|IBD" | sed 's/ /,/1' > daityouen.csv

下の例だと 出力 をvisidata に渡しています。

pdftotext -nopgbrk pro_13.pdf - | grep "クローン病\|潰瘍性大腸炎\|UC\|IBD" | sed 's/ /,/2' | vd --header=0 -d,

病院名、疾患名、個人名のリストがあれば grep -f list.txt で自由に抽出できます。(VisiData だけでも上の処理はできるのですが...。)

お役所のデータもそうだけど 医療系も使えるデータとしてでなく「閲覧目的」のデータで二次利用し難いので pdftotext コマンドや grep sed が重宝します。

自分はデータの下処理には csvkit、VisiData 、適当なシェルスクリプト、分析&視覚化には jyupyterlab を使っていますがまたの機会に...。(書きたいけど超長くなりそう...。)

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0