データセットとは
データセットとは機械学習に使用するデータの集まりです。機械学習の精度はデータセットで決まるといわれるほど、データセットの作成が大事になります。機械学習の目的によって適したデータセットの形は異なるため、うまく分析していくことが重要です。
データセットの使い道
データセットは用途によって三つの呼び方があります。これは集めたデータセットを適当に三つに分割して利用することが多いです。
トレーニングセット
学習に使用するデータセットで、ほか二つのデータセットに比べ一番データの量が多いです。一番初めに利用され、機械学習アルゴリズムに与え、開発モデルのトレーニングに利用します。
バリデーションセット
トレーニングを行ったのち、ハイパーパラメーターといわれる、アルゴリズムの動きを制御するパラメーターを、調整するために使用されるデータセットです。トレーニング中に性能を評価し、最適なパラメータを選択します。トレーニングとテストの両方に使用しているデータセットということです。
テストセット
学習がすべて終わったのちに、そのモデルの精度を確認するために用いられるデータセットです。このテストをトレーニングセットで行ってしまうと、精度が高くなり、正しい測定ができないため、テスト用のデータセットを用意しなければなりません。答えを知っているテストを解くのはあまり意味がないのと同じです。
データセットの作り方
目的によって必要な手順が増えることもありますが、おおよそ
1.課題や目的の設定
何を解決しようとしているのか、どのような結果を得たいのかを明確にし、タスクを特定します。
2.データの収集
まず、どのようにデータを収集するかを決定します。社内で集めたデータを使用するのか、公開されているデータセットを使用するのか、インターネット上でスクレイピングし、集めるのかなど、データを用意する方法は様々あります。この中で課題や目的に適し、十分な量と質を確保できるものを選択します。
ここで注意しなければいけないことは、偏りがないか、著作権などの法律に触れていないか、目的に関連性があるかなど様々な要因を考慮しながら収集する必要があります。
3.前処理
集めたデータをすべてそのまま使用するわけではありません。集めたデータに様々な処理を施し、しっかり機械学習ができるようにデータセットを作成します。
クレンジング
データの中には不完全であったり、不正確なデータが含まれています。まずはこのようなデータの修正や削除を行います。
統合・変換
異なるソースから取得したデータをまとめていきます。まずはデータの形式が異なる場合は合わせる方がよいでしょう。データの単位が異なったり、ファイルの形式が違ったりすると正確な分析ができない可能性があります。ほかにも複数のデータの関連付けを行うことで、予測や分析の精度向上にもつながります。
水増し
データは多いほうがいいということはここまででも述べてきました。少ないデータでより性能の向上を図る際に水増しを行う場合があります。簡単なものでいうと、画像の回転や拡大、移動などの処理を行います。数値データでも水増しを行うことがありますが、複雑な処理が必要であったり、慎重に行わないと、パフォーマンスの悪化につながります。
データの種類
使用するデータには様々な形式があり、単独で使用することもあるが、複数のデータを組み合わせて使用することで、より幅広い問題解決に役立ちます。ここでは主要なデータの種類とその例を紹介します。
音声データ
音楽や声、音などのデータです。音声認識、音声生成、音楽分析などに利用されます。
画像データ
写真や図形などのデータです。画像認識、物体検出、画像分類、最近は画像編集などにも利用されます。
動画データ
連続する画像データです。動作認識やセキュリティ監視などに利用されます。
テキストデータ
書かれた言語のデータです。主に文章データであり、感情分析、トピックモデリング、自然言語理解などに利用されます。
数値データ
主に実数のデータです。気温や株価、人口統計、リテールデータなど細分化すると最も種類の多いデータです。
カテゴリデータ
限られた数のカテゴリーやグループに分けられたデータです。性別や商品の種類などがこれに当たります。
時系列データ
時間の経過とともに記録されたデータです。株価の動き、気象データの変化など、そして音声データもここに含まれます。
センサーデータ
様々なセンサーから得られたデータです。温度や明るさ、加速度センサなど外部の情報を数値化したデータです。
グラフデータ
ノードとエッジで構成されるデータです。複数の要素間の関係を表したデータです。ソーシャルネットワークや交通経路などのデータを表現します。下にグラフデータの図を載せました。ノードとは丸の部分でエッジは線です。
さいごに
ここでは機械学習におけるデータセットの概要をまとめました。次にはリテールビジネスに焦点を当て、データについてまとめます。
ReceiptRollerでは電子レシートをはじめとし、様々なソリューションを提供していきます。
今回の機械学習のほかに、OCRについての記事も投稿していますので読んでみてください。
レシートOCRは、LINEからどなたでも無料でご利用いただけますので、
ぜひ試してください!
また、OCRのデモ体験がこちらのページからできます!
参考