手動スクレイピングの話題

  • 5
    Like
  • 0
    Comment
More than 1 year has passed since last update.

muran001さんの記事を拝見していて、自分だったらどう書くかやってみました。
プログラムいらず!vimで手動スクレイピング - Qiita

bashからなら

wget  http://b.hatena.ne.jp/ctop/it -O- -q | grep -oP '(?<=href=").+?(?=")'

vimからなら

:r !wget  http://b.hatena.ne.jp/ctop/it -O- -q | grep -oP '(?<=href=").+?(?=")'

です。

必要に応じて aタグに限定したり、>を改行に変えたりします。
GNUなGrepが無い場合には動かないのでsedでやってみることが多いのですが、覚えきれていないので、今回試してみるうちに、grepのPオプションが簡単そうなのでメモ代わりに投稿します。

ひとまずこんな感じで書き捨てることが多いです。
元記事にある通りに、エディタの中で完結した方が、ヘッダとかを手動削除できたりできて
便利だと思いますが、今のところvimの編集処理にそんなに自身が無いので、
テンポラリのファイルを作りながら上記のような手順でやることが
多い気がします。
もう少しどうにかした方がよいのかもしれませんが…