クローラー&スクレイピング フレームワーク Scrapy のSpider 実行時に指定できるオプション
$ scrapy crawl
コマンドだけではなく、$ scrapy runspider
コマンドでも使用可能。
オプション |
説明 |
--help, -h |
ヘルプを表示 |
-a NAME=VALUE
|
Spider の init() メソッドにキーワード引数を渡す。複数回指定可能。 |
--output=FILE, -o FILE
|
抽出した Item を保存するファイルパスを指定する。 |
--output-format = FORMAT, -t FORMAT
|
抽出した Item を保存する際のフォーマットを指定する |
--logfile=FILE
|
ログの出力先のパスを指定する。デフォルトでは標準エラー出力。 |
--loglevel=LEVEL,-L LEVEL |
ログレベルを指定する。デフォルト値は DEBUG |
--nolog |
ログの出力を完全に無効化する。 |
--profile=FILE
|
プロファイルの統計を出力するパスを指定する。 |
--pidfile=FILE
|
プロセス ID を指定したパスのファイルを出力する。 |
--set = NAME = VALUE, -s NAME=VALUE
|
設定を指定する。複数回指定可能。 |
--pdb |
例外発生時に pdb によるデバッグを開始する。 |
Spider 実行時に指定可能な Format
拡張子 |
フォーマットの説明 |
json |
JSON 形式の配列 |
jl または jsonlines |
JSON Lines 形式(各行に JSON のオブジェクトを持つテキスト) |
csv |
CSV 形式 |
xml |
XML 形式 |
marshal |
marshal モジュールでシリアライズしたバイナリ形式 |
pickle |
pickle モジュールでシリアライズしたバイナリ形式 |