クローラー&スクレイピング フレームワーク Scrapy のSpider 実行時に指定できるオプション
$ scrapy crawl コマンドだけではなく、$ scrapy runspider コマンドでも使用可能。
| オプション |
説明 |
| --help, -h |
ヘルプを表示 |
| -a NAME=VALUE
|
Spider の init() メソッドにキーワード引数を渡す。複数回指定可能。 |
| --output=FILE, -o FILE
|
抽出した Item を保存するファイルパスを指定する。 |
| --output-format = FORMAT, -t FORMAT
|
抽出した Item を保存する際のフォーマットを指定する |
| --logfile=FILE
|
ログの出力先のパスを指定する。デフォルトでは標準エラー出力。 |
| --loglevel=LEVEL,-L LEVEL |
ログレベルを指定する。デフォルト値は DEBUG |
| --nolog |
ログの出力を完全に無効化する。 |
| --profile=FILE
|
プロファイルの統計を出力するパスを指定する。 |
| --pidfile=FILE
|
プロセス ID を指定したパスのファイルを出力する。 |
| --set = NAME = VALUE, -s NAME=VALUE
|
設定を指定する。複数回指定可能。 |
| --pdb |
例外発生時に pdb によるデバッグを開始する。 |
Spider 実行時に指定可能な Format
| 拡張子 |
フォーマットの説明 |
| json |
JSON 形式の配列 |
| jl または jsonlines |
JSON Lines 形式(各行に JSON のオブジェクトを持つテキスト) |
| csv |
CSV 形式 |
| xml |
XML 形式 |
| marshal |
marshal モジュールでシリアライズしたバイナリ形式 |
| pickle |
pickle モジュールでシリアライズしたバイナリ形式 |