ブラウザでページを見ると日本語なのに、scrapy経由でダウンロードすると英語のページがダウンロードされてしまうことがあります。
これはscrapyがwebサーバーにリクエストを投げる時のAccept-Lauguageがデフォルトでen
なためなので、以下の内容をsettings.pyに書くことで日本語ページをリクエストすることができます。
DEFAULT_REQUEST_HEADERS = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'ja,en-US;q=0.8,en;q=0.6',
}
参考:
https://doc.scrapy.org/en/latest/topics/settings.html#std:setting-DEFAULT_REQUEST_HEADERS