LoginSignup
5
1

More than 5 years have passed since last update.

HadoopでWordCountをやってみる

Posted at

概要

Hadoopを使ってWordCountを実行してみます。
同じ単語が何回出現したかを数えます。

目次

  1. Apache Hadoopのインストール手順
  2. Apache Hiveのインストール手順
  3. HadoopでWordCountをやってみる

環境

  • CentOS 7.1
  • Hadoop 2.8.0
  • MariaDB 5.5.52
  • java 1.8.0
  • Hive 2.3.0
  • HBase 1.3.1

テキストファイルを用意する

以下のようなテキストファイルを作成します。
こちらの文字列を対象としてWordCountを実行します。

sample.txt
red blue yellow red

ファイルの保存先(HDFS)となるディレクトリを作成します。

$ $HADOOP_HOME/bin/hadoop fs -mkdir /input

テキストファイルを、/inputの下にコピーします。

$ $HADOOP_HOME/bin/hadoop fs -put sample.txt /input

コピーされたことを確認します。

$ $HADOOP_HOME/bin/hadoop fs -ls /input
Found 1 items
-rw-r--r--   1 vagrant supergroup         20 2017-07-28 05:38 /input/sample.txt
$ $HADOOP_HOME/bin/hadoop fs -cat /input/sample.txt
red blue yellow red

WordCountを実行する

実行

$ $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar wordcount /input /output

ファイルが生成されたことをを確認します。

$ $HADOOP_HOME/bin/hadoop fs -ls /output
Found 2 items
-rw-r--r--   1 vagrant supergroup          0 2017-07-28 05:47 /output/_SUCCESS
-rw-r--r--   1 vagrant supergroup         22 2017-07-28 05:47 /output/part-r-00000

/output/part-r-00000が結果が出力されたファイルです。

$ $HADOOP_HOME/bin/hadoop fs -cat /output/part-r-00000
blue    1
red 2
yellow  1

それぞれのwordが何回出現したのか、結果が出力されています。

以上

参考

5
1
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
5
1