データ分析とは、「数あるデータから有益な情報を探し出し、改善に役立てる取り組みのこと」を指します。データ分析には、ビッグデータツールがたくさんあります。この記事では、オープンソースデータツール、データ可視化ツール、センチメントツール、データ抽出ツール 、データベースの分野で、データ分析用のツール30個をまとめました。
#オープンソースデータツール
1.Knime
KNIME はワークフロー型データ分析プラットフォームを提供するオープンソースソフトウェアです。ノードと呼ばれる機能のかたまりを線でつないで、さまざまな処理を実現します。
1000を超えるノード、数多くのワークフローサンプル、包括的な統合ツール、様々なアルゴリズムが利用でき、データに隠されている可能性を発見したり、新たな知見を得たり、未来を予測するのに役立ちます。
OpenRefine(旧称:Google Refine、さらに以前はFreebase Gridworks)は、スタンドアローンのオープンソースのデスクトップアプリケーションで、データのクリーンナップ、他の形式への変換、データラングリングと呼ばれる処理を行うことができます。見た目はスプレッドシートアプリケーションに似ているが(スプレッドシートファイル形式も処理できる)、よりデータベースに近い動作をします。
3.R言語
R言語はオープンソース・フリーソフトウェアの統計解析向けのプログラミング言語及びその開発実行環境です。システムを開発をする他のプログラムミング言語とは位置付けが異なり、統計解析機能が付いていて、解析処理やデータのグラフ化や図解化の機能が豊富で、さらに柔軟という特徴を持っています。R言語は、統計家が環境の変化(大学などの教育機関から営利企業の研究所への転職など)による影響を受けにくい言語のため、実務分野での利用も拡大しています。
4.Orange
Orangeはあまり経験のないデータマイニングの初心者から、スクリプトを書いてデータ処理のアルゴリズムを実装するプログラマーまで、多様なインターフェースを持つユニークなツールとなっています。ビジュアルプログラミング言語として、事前に定義されたウィジェットまたは利用者自身が設計したウィジェットをリンクしてワークフローを作成するインターフェースを介して実装されます。データ分析の作業にあたっては、結果を表現するためのビジュアライゼーションの機能が重要になってきます。Orangeでは普通の棒、折れ線グラフなどの他に、ツリー図、産婦図、ネットワーク図からヒートマップまで、多様な出力様式に対応できます。
RapidMiner(ラピッドマイナー)とは、オープンソースのデータ分析プラットフォームです。機械学習、データマイニング、テキストマイニング、特徴選択、予測分析、経営分析などを行います。プログラミングなしでデータ分析を行える点が特徴です。また、オープンソースの統計分析ソフトRやプログラミング言語Pythonと連携でき、より高度な分析も可能です。データマイニングの基本処理は、「データ準備」→「データ分析」→「結果評価」という流れです。RapidMinerは、この3つの処理にかかる作業コストを大幅に軽減できます。
RapidMinerは、散布図やヒストグラム、箱ひげ図、ヒートマップ等の可視化機能を豊富に備えています。分析結果を可視化することで、データから集計を超える新たな知見を得られます。
6.Pentaho
Pentahoは、多種多様なビッグデータを統合し、分析を行うためのデータ統合・分析基盤です。データを抽出・準備・ブレンドする「データ統合基盤」、統合したデータを分析・可視化する「データ分析基盤」の2つの基盤により、データ統合から分析までの一貫した環境を提供します。PentahoはBIスイートであり、レポーティング、インタラクティブ(対話型)分析、ダッシュボード、データ統合/ETL(Extract/Transform/Load)、データ・マイニング、その他、BIプラットフォームとBIに必要なすべての機能が用意されています。
7.Talend
Talend は、単一のオープンプラットフォームでクラウドとオンプレミスの環境にわたってデータを統合します。より多くの適切なデータを、より迅速にビジネスで活用できます。複数のシステムを対象としたデータの統合・連携を行うだけではなく、単一データベースシステムを対象としたアプリケーション開発基盤としても威力を発揮するデータ統合連携基盤であり、Talendで生成した処理は、すべてJavaコードとしてエクスポートすることが可能です。
8.Weka
Wekaはデータ解析と予測モデリングのための視覚化ツールとアルゴリズムの集合体です。データプリプロセッシング、クラスタリング、統計分類、回帰分析、視覚化、特徴選択といった標準的データマイニングタスクをサポートしています。完全にJavaで実装されているので、ほとんどのプラットフォームで動作し、GUIも備え使いやすいです。Wekaに実装された機械学習やクラスタリングのアルゴリズムは他のツールとAPIやCLIを通して利用可能であるため、多くのツールでライブラリとして利用されています。
9.NodeXL
NodeXL は Excel で行うことができるオープンソースのネットワーク分析テンプレート。Excel ワークシートにエッジリストを入力したりコピペすることで簡単にネットワーク図を描くことができます。また、ノードの形状には画像を選択することができ、画像ベースのネットワーク図を描くことも出来ます。グラフのメトリックを簡単に計算するとネットワークの可視化を迅速に作成することができ、使い慣れたスプレッドシートに、ソーシャルネットワーク分析と可視化機能が追加されています。
10.Gephi
GephiはNetBeansを基にしてJavaで組まれた、ネットワーク解析及び可視化用オープンソースソフトウェアパッケージです。Gephi は、たとえて言えば、データを対象に扱う Photoshop のようなものです。ユーザーは描画されたグラフと対話し、構造や形状、色などを操作しながら、隠された属性を引き出します。Gephi が目標としているのは、データ解析の支援を通じて、仮説を立てたり、パターンを直感的に把握したり、データソーシング時に構造的な特異点や欠陥を分離したりできるようにすることです。
#データ可視化ツール
11.Datawrapper
Datawrapperというドイツ生まれのオンラインサービスは、美しいチャートを作る「データビジュアライゼーション」を簡単に実現してくれます。基本的にはエクセルなどのデータを用意して、貼り付けて、好きなチャートの形式を選ぶだけで、シンプルながらきれいな棒グラフ、折れ線グラフ、円グラフ、ドーナツグラフなどの生成ができます。グラフは埋め込みコードが用意されていて、簡単に他サイトで埋め込めます。作ったグラフやチャートなどを記事に付けられ、スクリーン上でデータを分かりやすくかつ視覚的に楽しく見せます。
12.BI360
親和性の高いSolver社BI360はExcelをベースにしたレポーティング、予算管理、経営ダッシュボードと倉庫管理データを中規模企業向けに提供します。簡単な操作によって任意の集計軸でデータを参照することが可能となります。BI360のもつ革新性はお客様にとって大変魅力的です。例えば、他のエンタープライズ向けツールが提供する標準レポートや予算管理の機能に加えて、BI360はさらに多機能かつ、ビジネスの本当の姿を掘り下げるための共有機能や分析機能を持ち合わせています。こういった先進的なソリューションは、これを導入する企業にとってデータの本当の意味の理解、よりよい経営判断のための助けになることでしょう。
13.Qlik
Qlik がデータ管理からカスタムアプリのビルドまで、必要なソリューションすべてを 提供します。BI (ビジネスインテリジェンス) ユーザーを対象とした世界最大級の調査において Qlik がビジュアル分析などの部門で No. 1 を獲得しています。Qlikは、世界中の企業がエンドツーエンドのソリューションを活用してデータから価値を引き出し、より迅速に行動して、よりスマートに働き、大きくリードできるように支援しています。
Tableauは、タブローソフトウェア社が提供する大量のデータを直感的に可視化・分析できるツールです。Tableau Publicでは、世界中のTableauユーザがオープンデータを使用して作成した様々なレポートを無料でブラウザで閲覧することができます。Tableau Publicで可視化できるデータソースはテキストデータ、ExcelファイルOData、Web Data Connector、統計ファイルになります。有料版のTableau desktopでは、使えるデータソースが大幅に拡大されますが、残念ながらMySQLはTableau Publicではデータソースとしては使えません。
Fusion TableとはGoogle Drive上で使えるRDBアプリケーションで、本来はGoogle Mapとの連携や複数のユーザー間での共有(マージ)に強みがあります。データに保存されているデータを活用して、ウェブ上の他のデータを組み合わせたり、共同編集したり、視覚的に表現したり、共有したりできます。
16.Infogram
Infogramはあらかじめ用意されたチャート、グラフ、地図を選び、可視化したいデータを入力することにより、簡単にインフォグラフィックスを作成できるサービスです。作成したインフォグラフィックは、PNG・GIF・PDF形式でダウンロードでき、そのまま配布したりプレゼン資料に挿入したりできます。共有 URLを発行できるため、クラウド上での共有も可能です。
#センチメントツール
17.Opentext
OpenText Sentiment Analysisは、テキストの会話中に存在する感情やパターンを識別し、評価するための分析エンジンです。トピック、文章などのテキストの一部が事実であるか主観的であるかを認識し、これらのコンテンツ内で表現された意見がプラス、マイナスまたはニュートラルであるかどうかを判断します。
18.Semantria
Semantriaは、クライアントからのテキスト、つぶやき、その他のコメントを収集し、細かく分析して実用的で価値の高い洞察を得ることによって、ユニークなサービスアプローチを提供するツールです。SemantriaはAPIとExcelプラグインによるテキスト分析を提供し、大きな知識ベースがあり、深い学習も使っています。
19.Trackur
Trackurは、個人またはビジネスに関するソーシャルメディアの言及を追跡する監視ツールであり、ビジネスオーナーはいつでもそのことについて話しているかどうかを正確に知ることができます。そして監視している特定のキーワード対する感情がプラス、マイナスまたはニュートラルであるかどうかを判断します。
SAS Sentiment Analysisは、主なWebサイト、ソーシャル・メディア・サイト、企業内部の文書などからデジタル・コンテンツを収集(クロール)し、強力な統計テクノロジーと言語ルールを駆使し、収集したテキストに含まれるセンチメントを抽出します。これを元に消費者、顧客、競合企 業の感情を把握するために集計・グラフ化し、トレンドを見つけ出します。
Opinion Crawlは、現在の出来事、企業、製品、および人々のオンライン感情分析サービスです。トピックを入力して、そのトピックへの感情評価を取得でき、それぞれのトピックについて、現在のリアルタイム感情、最新のニュース見出しのリスト、サムネイル画像の数、公開されている主な意味概念のタグクラウドを示す円グラフが表示されます。コンセプトは、どのような問題や出来事がプラスかマイナスかを見ることができます。
#データ抽出ツール
22.Octoparse
Octoparseは、どんなWEBサイト上のデータも手軽に抽出することができる強力な無料Webクローラーです。プログラミングの知識がなくても、ダウンロードした後、マウスクリックで簡単にデータを抽出できます。取得したコンテンツをダウンロードし、CSV、Excel、またはデータベースなどの構造化フォーマットとして保存できます。
それに、クラウド型プラットフォームも提供するので、スケジュール設定が可能で、自動取得したデータはクラウドに保存され、どこでもアクセスできます。ハードウェア保守も不要だし、ネットワーク中断に心配する必要もありません。IPが自動的に巡回できるので、アクセス拒否を効果的に避けられます。
Content Graberは、企業向けのWebクローラーソフトウェアです。単独なWebクローリングエージェントを作成できます。ほぼすべてのWebサイトからコンテンツを抽出し、Excel、XML、CSV、ほとんどのデータベースなどの任意の形式で構造化データとして保存できます。
これは、多くの強力なスクリプト編集、インターフェイスのデバッグを提供するので、高度なプログラミングスキルを持つ人に適しています。ユーザーは、C#またはVB.NETを使用して、スクリプトをデバッグしたり書き込んでクローリングプロセスをプログラミングすることができます。たとえば、Content Grabberは、Visual Studio 2013と統合して、ユーザーの特定のニーズに基づいて、高度で洗練されたカスタマイズされたクローラーに最も強力なスクリプト編集、デバッグ、単体テストをサポートします。
24.Import.io
Import. IoはURLを入力するだけでデータの抽出ができるツールです。クラドベースのサービスであるため、ソフトウェアなどのダウンロードやインストールは一切必要ありません。ページのURLを入力すると、自動でデータ箇所を判断して情報を集めてくれます。もちろんWindows、Mac、Linuxで使えるスクレイピング用のアプリも用意されています。スクレイピングの終了後、Csv/Json形式でデータをダウンロードできます。さらに、毎週、毎日、毎時のクロール作業をスケジュールできます。
25.Parsehub
Parsehubは、AJAX、JavaScript、リダイレクト、およびCookieを使用するサイトからの複雑なデータ抽出をサポートする優れたWebクローラーです。Web上の文書を読み込んで解析し、関連するデータを出力できる機械学習技術を備えています。
ParsehubはWindows、Mac OS X、Linuxなどのデスクトップクライアントとして利用でき、ブラウザ内に組み込まれているWebアプリケーションを使用することもできます。
26.Mozenda
Mozendaは、ポイントアンドクリックで、Webからコンテンツを簡単に抽出できるクラウドベースのWebスクレイピングサービスです。データ抽出に有用な多くのユーティリティ機能を提供し、ユーザーは抽出したデータをクラウドストレージにアップロードすることが許可されます。
#データベース
27.Data.gov
Data.govは米国のオープンガバメントに関する取り組みの中で代表的なもので、政府機関が保有する情報・データを入手できるサイトです。このサイトでは、単に統計データの集計結果を公表しているのではなく、ローデータを様々な形(CSV、JSON、PDF、RDF、RSS、XLS、XML)で取得可能となっており、利用者が自由に取得・加工・分析することができるようになっています。また、このData.govの構築に関わったSocrata社による「Open Data API」を利用することによってAPI経由での取得も可能です。
US Census Bureau(アメリカ合衆国国勢調査)は、人口データ、地理データおよび教育を扱う米国市民の生活に関する豊富な情報があります。
The CIA World Factbookは、世界中のあわせて268の国家・属領・その他の地域について、人口統計・地理・通信・政治・経済・軍事の2、3ページの要約を提供しています。
30.PubMed
PubMedは米国国立医学図書館(U.S. National Library of Medicine)が提供する、生命科学や生物医学に関する参考文献や要約を掲載するMEDLINEなどへの無料データベースです。2017年1月5日時点で、最古の1966年からの2680万件以上の記事があり、毎年約500,000件が追加されています。同時点で1310万件が抄録とともに掲載されており、1420万件が全文へのリンクがあります(そのうち380万件の記事が全文無料利用可能)。また、全文データへのリンクも案内されます。