LoginSignup
1
1

More than 3 years have passed since last update.

青空文庫から目当ての作家の作品取得

Last updated at Posted at 2019-06-15

概要

NLP 遊び用にファイルを取得する。

  • 環境は MacOSX Mojave 10.14.5 ローカル。
  • 手順:
    1. github から青空文庫のソースコードを丸ごと git clone
    2. WEB ページで目当ての作家の ID 探してディレクトリにたどり着く
    3. unar で unar
    4. xattr で xattr
    5. nkf で nkf

1. github から青空文庫のソースコードを丸ごと git clone

いつからか github で管理し始めたらしい。

Clone or download からリポジトリのアドレスをコピーして
image.png

クローンする。15 GB あるので注意。

$ cd $適当なディレクトリ
$ git clone git@github.com:aozorabunko/aozorabunko.git

2. WEB ページで目当ての作家の ID 探してディレクトリにたどり着く

WEB ページから好きな作家の作品のページにどうにかしてたどり着く。
URL の「〜cards」の直後に作家を示す ID が入ってるのでコピー。
画像でいうと 000879

image.png

ID 把握したら以下のディレクトリに移動。

cd $適当なディレクトリ/aozorabunko/cards/$作家を示すID/files/

3. unar で unar

解凍する。
解凍できたら unar でなくてもよいです。

$ mkdir $解凍ファイル用ディレクトリ
$ brew install unar
$ find . -name '*.zip' -exec unar {} -o $解凍ファイル用ディレクトリ \;

4. xattr で xattr

なんか com.apple.FinderInfo っていう属性がついてる。
気持ち悪いので削除。

$ # なかったらインストール
$ brew xattr
$ # まとめて削除
$ for f in `ls -1 $解凍先ディレクトリ`;
$ do
$     xattr -d com.apple.FinderInfo ${f};
$ done

5. nkf で nkf

これで準備万端!
ってあああああああああ!!!!!!!

image.png

文字コード直す

$ cd $解凍先ディレクトリ
$ mkdir ../$UTF8用ディレクトリ
$ for f in `ls -1`;
$ do
$     nkf -u $f > ../$UTF8用ディレクトリ/$f;
$ done 

直った
image.png

あとはお好みで前処理。

1
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
1
1