5 Reasons to Become an Apache Spark Expert - The Databricks Blogの翻訳です(2019年のイベントを想定している内容があるため一部修正しています)。
Apache Spark™は、急速なペースでビッグデータ、機械学習において人気のある統合分析エンジンとなりました。Sparkは2009年にUCバークレイ校において、Databricksの創業者達の手で誕生しました。リリース以降、急速にApache Sparkの導入が進んでいます。Apple、Netflix、Facebook、Uberのような最先端の企業で、リアルタイムでの不正検知、パーソナライゼーションなど全ての業界を変化させるようなイノベーションを引き起こすために、ペタバイトのデータを処理する目的で、大規模でのSpark導入が進んでいます。
これらの革新的なイノベーションの背後には、Apache Sparkに対する深い理解を持つ才能のあるエンジニア、開発者、データサイエンティストからなる、小規模ですが急速に成長しているグループが生まれています。SparkとTensorFlowのような関連技術の専門知識を身につけることで、ビジネスの方向性のみならずキャリアパスも変化する可能性があります。そのために、ここではSparkの導師(グル)になるべき5つの理由を説明します。
Apache Spark™になるべき5つの理由
1. 統合分析エンジン
Apache Sparkを人気あるものにした理由として、複雑なデータワークフローを統合することができ、使いやすいということがあります。Sparkには、SQLクエリー、ストリーミングデータ、機械学習、グラフ処理を含む数多くのライブラリが同梱されています。これらの標準ライブラリによって、開発者の生産性を改善することに加え、単体のエンジンで頑健性のあるデータワークフローを構築することができます。加えて、Sparkにおける開発を容易に進めるために、Java、Scala、Python、Rのような人気のあるプログラミング言語のサポートと、100を超える高レベルオペレーターを有するAPIセットを提供します。
2. 大規模での高速分析処理
高いパフォーマンスを実現するためにボトムアップの開発を通じて、インメモリの処理や他の最適化を活用することで、Sparkは大規模データ処理においてHadoopの100倍の性能を実現しえます。Sparkはディスクに保管されたデータに対しても高速に動作し、現時点で大規模のディスク上のデータソートの世界記録を保持しています。これは、データサイエンティストの要求に応えられるようにスケーラブル、高速、高信頼性なデータパイプラインを構築する必要がある、高頻度の繰り返しを行う機械学習においては非常に重要なことです。これによって、かれらはより精度の高いモデルの構築、トレーニングを行うことが可能となります。
3. Sparkはイノベーションの最先端
パフォーマンス、スケーラビリティ、対障害性の観点から構築されたSparkを活用することによって、最先端のビッグデータ、AIのユースケースに対応することができます。加えて、機械学習のためのビルトインライブラリ(MLlib)、ストリーム処理(構造化ストリーミング)、グラフ処理(GraphX)、Spark SQL/データフレーム、および、TensorFlow、Kerasなどの人気のあるディープラーニングフレームワークとの統合によって、業界横断でのイノベーションを可能としています。業界リーダーの導入事例のいくつかを以下に示す。
- Regeneron: Future of Drug Discovery with Genomics at Scale powered by Spark
- Zeiss: Using Spark Structured Streaming for Predictive Maintenance
- Devon Energy: Scaling Geographic Analytics with Spark GraphX
4. Sparkエキスパートに対する需要の高さ
デファクトのビッグデータ分析エンジンとしてのApache Sparkの導入は進んでいます。今では、世界中の250以上の企業にいる1000人以上のコントリビューターが存在しています。急速に成長している大企業のいくつかは、データ処理および下流の分析および機械学習のためにSparkを採用しています。
最近では、Indeed.comがApache Sparkのフルタイムの専門家に対して、様々な業界で2400人以上の求人を出しています。業界には、エンタープライズテクノロジー、eコマース・小売、ヘルスケア、ライフサイエンス、オイルアンドガス、製造などが含まれます。Sparkの経験は非常に求められており、急速に需要が無くなるという傾向は認められません。
2021年5月末に開催されるData + AIサミットに参加することで、Sparkの持つ勢いを体験することができます。
5. 収入増加の機会
GoogleやNetflixのようなインターネットのビッグプレーヤーは、企業がビジネスを行うアプローチを変化させました。テクノロジーファースの世界で戦うためには、様々な業界の企業はイノベーションやビジネス戦略を推進するために、どのようにビッグデータやAIテクノロジーを活用するのかにフォーカスしており、それらを可能にする人材の価値は非常に高くなっています。
実際、Apache Spark開発者は他のプログラマー全てより平均的に高いサラリーを得ています。2015 Data Science Salary Surveyの調査によると、オライリーはApache Sparkを使える人材と高いサラリーに高い相関があることを発見しました。あるモデルにおいては、Sparkのスキルを加えることで、サラリーの中央値から120万円以上増加しました。
次のステップ:Sparkエキスパートのトレーニングを受けましょう!
Apache Sparkスキルを研ぎ澄ませることは、雇用者に対して価値を出せるとともに、AIの未来を形作る新たな機会を開くことになります。
Data + AIサミットでは、さまざまなトレーニングセッションが用意されています。ぜひご活用ください。