概要
Hadoopを使ってWordCountを実行してみます。
同じ単語が何回出現したかを数えます。
目次
- Apache Hadoopのインストール手順
- Apache Hiveのインストール手順
- HadoopでWordCountをやってみる
環境
- CentOS 7.1
- Hadoop 2.8.0
- MariaDB 5.5.52
- java 1.8.0
- Hive 2.3.0
- HBase 1.3.1
テキストファイルを用意する
以下のようなテキストファイルを作成します。
こちらの文字列を対象としてWordCountを実行します。
sample.txt
red blue yellow red
ファイルの保存先(HDFS)となるディレクトリを作成します。
$ $HADOOP_HOME/bin/hadoop fs -mkdir /input
テキストファイルを、/inputの下にコピーします。
$ $HADOOP_HOME/bin/hadoop fs -put sample.txt /input
コピーされたことを確認します。
$ $HADOOP_HOME/bin/hadoop fs -ls /input
Found 1 items
-rw-r--r-- 1 vagrant supergroup 20 2017-07-28 05:38 /input/sample.txt
$ $HADOOP_HOME/bin/hadoop fs -cat /input/sample.txt
red blue yellow red
WordCountを実行する
実行
$ $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar wordcount /input /output
ファイルが生成されたことをを確認します。
$ $HADOOP_HOME/bin/hadoop fs -ls /output
Found 2 items
-rw-r--r-- 1 vagrant supergroup 0 2017-07-28 05:47 /output/_SUCCESS
-rw-r--r-- 1 vagrant supergroup 22 2017-07-28 05:47 /output/part-r-00000
/output/part-r-00000が結果が出力されたファイルです。
$ $HADOOP_HOME/bin/hadoop fs -cat /output/part-r-00000
blue 1
red 2
yellow 1
それぞれのwordが何回出現したのか、結果が出力されています。
以上