#動作環境
Cloudera 5.7
Elasticsearch 2.3.4
Apache-Nutch 2.4 (2.x branchの最新clone)
#ポイント
Apache-NutchのIndexer-elastic2プラグインにより、Elasticsearch 2.x系にデータを入れれるようになりました。
conf/nutch-site.xml
<property>
<name>plugin.includes</name>
<!-- do **NOT** enable the parse-html plugin, if you want proper HTML parsing. Use something like parse-tika! -->
<value>protocol-httpclient|urlfilter-regex|parse-(text|tika|js)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-elastic2</value>
</property>
最後のindexer-elasticをindexer-elastic2に変えるとElasticsearch 2.x系にデータが入ります。