Apache
hadoop
hive

HadoopでWordCountをやってみる

More than 1 year has passed since last update.


概要

Hadoopを使ってWordCountを実行してみます。

同じ単語が何回出現したかを数えます。


目次


  1. Apache Hadoopのインストール手順

  2. Apache Hiveのインストール手順

  3. HadoopでWordCountをやってみる


環境


  • CentOS 7.1

  • Hadoop 2.8.0

  • MariaDB 5.5.52

  • java 1.8.0

  • Hive 2.3.0

  • HBase 1.3.1


テキストファイルを用意する

以下のようなテキストファイルを作成します。

こちらの文字列を対象としてWordCountを実行します。


sample.txt

red blue yellow red


ファイルの保存先(HDFS)となるディレクトリを作成します。

$ $HADOOP_HOME/bin/hadoop fs -mkdir /input

テキストファイルを、/inputの下にコピーします。

$ $HADOOP_HOME/bin/hadoop fs -put sample.txt /input

コピーされたことを確認します。

$ $HADOOP_HOME/bin/hadoop fs -ls /input

Found 1 items
-rw-r--r-- 1 vagrant supergroup 20 2017-07-28 05:38 /input/sample.txt
$ $HADOOP_HOME/bin/hadoop fs -cat /input/sample.txt
red blue yellow red


WordCountを実行する

実行

$ $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar wordcount /input /output

ファイルが生成されたことをを確認します。

$ $HADOOP_HOME/bin/hadoop fs -ls /output

Found 2 items
-rw-r--r-- 1 vagrant supergroup 0 2017-07-28 05:47 /output/_SUCCESS
-rw-r--r-- 1 vagrant supergroup 22 2017-07-28 05:47 /output/part-r-00000

/output/part-r-00000が結果が出力されたファイルです。

$ $HADOOP_HOME/bin/hadoop fs -cat /output/part-r-00000

blue 1
red 2
yellow 1

それぞれのwordが何回出現したのか、結果が出力されています。

以上


参考