この記事の目的
データのタイプについて説明できるようになる。
そもそもデータとは…
モデルの学習に使用する素材。一口にデータといってもたくさんタイプがあり、それぞれに適応するべきアルゴリズムも違うので簡単にまとめる。
ラベル付きデータ
データに対する正解(ラベル)が明確に定義されたデータのこと。教師あり学習で使用される。
「犬というラベルがついている犬の画像」などが例。
ラベルなしデータ
正解がないデータのこと。教師なし学習で使用される。
ラベルが付いていない犬の画像や、風景写真などが例。
表形式データ
行と列のテーブルみたいな表で構成されるデータ。回帰問題や分類問題で用いられる。(一番一般的なデータ形式らしい)
体重や身長などを含んだ健康診断のデータなどが例。
時系列データ
時間の経過により変わっていくデータのこと。
株価や日々の体重の変化などが例。
画像データ
その名前の通り、画像ベースのデータのこと。処理をするときはピクセルに変換される。
テキストデータ
その名前のとおり、文字で表現されるデータのこと。メールや記事が例。
自然言語処理で使用される。
自然言語処理(NLP)とは
人間が会話で使うような言葉を意味や解釈も含めてAIに学ばせること。
チャットポットなどに使われている。
構造化データ
わかりやすい形式をもち、格納されたデータのこと。データベースに保存され、クエリを適用できるものなどが当てはまる。
Parquet などが例。
非構造化データ
構造化データとは違い、特に形式のないデータのこと。画像データとかもそう。
決まった形式がないので処理が難しく、クエリも使えない。
ざっくりまとめ
ラベル付きデータ
正解(ラベル)とセットのデータ
ラベルなしデータ
特に正解を持たないデータ
表形式データ
行と列をもった表形式のデータ
時系列データ
時間により変化するものを扱ったデータ
画像データ
画像をベースとしたデータ
テキストデータ
文章をベースとしたデータ
構造化データ
決められたスキーマをもつデータ。
非構造化データ
決められた構造を持たないデータ。