機械学習に関する基本的な内容をまとめてみたものです。機械学習に関する、Web上にすでにある解説コンテンツをまとめたサイトの抜粋です。
[機械学習ライブラリMahout] (https://www.techcrowd.jp/machinelearning/mahout/)
[Mahoutの概要] (https://www.techcrowd.jp/machinelearning/mahout/)
Mahoutとは、Apache Software Foundationにより公開されているオープンソースソフトウェアの機械学習ライブラリです。
Mahoutを使えば、ビッグデータの分散処理を可能とするApache Hadoopのメリットを活かして、機械学習システムを構築する事が出来ます。
無料で使えるライブラリでありながら、クラスタリングやレコメンドなどの機械学習アルゴリズムがMapReduceで実装されていて、ドキュメント類も整備されていますので、本格的な機械学習アプリケーションを構築する事が可能です。
[Mahoutに実装されている機能] (https://www.techcrowd.jp/machinelearning/mahout/)
Mahoutには、
・レコメンデーション(Recomendation)
・クラスタリング(Clustering)
・分類(Classification)
を中心とした機能が実装されています。
Hadoopプロジェクトで実装された分散プログラミング用APIである Map-Reduceを使って実装されているので、簡単に利用出来るのが特徴です。
具体的な機能として以下のようなものが用意されています。
K平均法、ファジィK平均法、Canopy、ディリクレ、平均シフトなどのMap-Reduce に対応するクラスタリング実装
分散型と補完型の単純ベイズ分類器
進化的プログラミングに使用する分散型適応度関数
行列とベクトルに関するライブラリ
[Mahoutの利用方法] (https://www.techcrowd.jp/machinelearning/mahout/)
Hadoopが使える環境でJava1.6以上が環境変数JAVA_HOMEに設定されていれば、バイナリ配布版を入手して展開するだけで、Mahoutを利用出来ます。
Mahoutをコマンドラインで使う場合は、mahoutシェルスクリプトに対して、
・コマンド
・パラメータ
・入出力ディレクトリ
などを指定するだけです。
Javaなどのプログラムからも、ドライバでAPIを使えば簡単にMahoutの機能が利用出来ます。