はじめに
毎週1本様々な技術に関する記事を投稿しています。
もし興味のある方は下のリンクから他の記事も見ていただければ幸いです。
@7_inai_
Hadoopとは
Hadoopとは、膨大なデータ(ビッグデータ)を、複数のマシンに分散して処理する(分散処理)ためのオープンソースのプラットフォームです。
分散処理はなんのため?
分散処理とは、処理速度の向上とサーバー負荷軽減のために、1つの処理を分散して行うことです。
ビッグデータをリアルタイム処理するにあたり、処理速度の向上は必須です。分散処理を行うことで、処理速度を向上させて、リアルタイムのデータを解析することができます。
また、分散処理の方法は、主に以下の2つに分けられます。
①1台のPCに多数のプロセッサを搭載して処理する方法
②複数のサーバーにデータを分散させて処理する方法
MapReduce と HDFS
Hadoopは分散処理を実現するためにMapReduceとHDFSといったの2つのコンポーネントを使用しています。
■MapReduce
MapReduceはHadoopで動作するプログラミングモデルです。大量のデータを複数のタスクに分類し、並列処理することができます。
■HDFS
HDFS(Hadoop Distributed File System)は、大量のデータを複数のマシンに分散させて保存するためのファイルシステムです。
終わりに
IoTの普及により、大量のデータ(ビッグデータ)を処理することの重要性が高まってきている昨今、Hadoopを使用した分散処理は必要不可欠な技術となっています。
IoTのみならず、AI、インダストリー4.0、5G等新しい技術や思想が生まれるにつれ、処理しなければならないデータ量は指数関数的に増加していますので、発生したデータを処理するための技術にも注目していきたいです、
最後までお付き合いくださりありがとうございました。