More than 5 years have passed since last update.

HadoopでWordCountをやってみる

Posted at 2017-07-28

概要

Hadoopを使ってWordCountを実行してみます。
同じ単語が何回出現したかを数えます。

環境

CentOS 7.1
Hadoop 2.8.0
MariaDB 5.5.52
java 1.8.0
Hive 2.3.0
HBase 1.3.1

テキストファイルを用意する

以下のようなテキストファイルを作成します。
こちらの文字列を対象としてWordCountを実行します。

sample.txt

red blue yellow red

ファイルの保存先（HDFS）となるディレクトリを作成します。

$ $HADOOP_HOME/bin/hadoop fs -mkdir /input

テキストファイルを、/inputの下にコピーします。

$ $HADOOP_HOME/bin/hadoop fs -put sample.txt /input

コピーされたことを確認します。

$ $HADOOP_HOME/bin/hadoop fs -ls /input
Found 1 items
-rw-r--r--   1 vagrant supergroup         20 2017-07-28 05:38 /input/sample.txt
$ $HADOOP_HOME/bin/hadoop fs -cat /input/sample.txt
red blue yellow red

WordCountを実行する

実行

$ $HADOOP_HOME/bin/hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.0.jar wordcount /input /output

ファイルが生成されたことをを確認します。

$ $HADOOP_HOME/bin/hadoop fs -ls /output
Found 2 items
-rw-r--r--   1 vagrant supergroup          0 2017-07-28 05:47 /output/_SUCCESS
-rw-r--r--   1 vagrant supergroup         22 2017-07-28 05:47 /output/part-r-00000

/output/part-r-00000が結果が出力されたファイルです。

$ $HADOOP_HOME/bin/hadoop fs -cat /output/part-r-00000
blue	1
red	2
yellow	1

それぞれのwordが何回出現したのか、結果が出力されています。

以上

参考

CentOSでHadoopとHiveを試してみる（2015年秋編）

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

HadoopでWordCountをやってみる

概要

目次

環境

テキストファイルを用意する

WordCountを実行する

参考