0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

ひとりアドベントカレンダーAdvent Calendar 2024

Day 5

【ML初心者アドベントカレンダー】データ形式のタイプについて学ぶ

Last updated at Posted at 2024-12-04

この記事の目的

データのタイプについて説明できるようになる。


そもそもデータとは…
 モデルの学習に使用する素材。一口にデータといってもたくさんタイプがあり、それぞれに適応するべきアルゴリズムも違うので簡単にまとめる。

ラベル付きデータ

データに対する正解(ラベル)が明確に定義されたデータのこと。教師あり学習で使用される。
「犬というラベルがついている犬の画像」などが例。

ラベルなしデータ

正解がないデータのこと。教師なし学習で使用される。
ラベルが付いていない犬の画像や、風景写真などが例。

表形式データ

行と列のテーブルみたいな表で構成されるデータ。回帰問題や分類問題で用いられる。(一番一般的なデータ形式らしい)
体重や身長などを含んだ健康診断のデータなどが例。

時系列データ

時間の経過により変わっていくデータのこと。
株価や日々の体重の変化などが例。

画像データ

その名前の通り、画像ベースのデータのこと。処理をするときはピクセルに変換される。

テキストデータ

その名前のとおり、文字で表現されるデータのこと。メールや記事が例。
自然言語処理で使用される。

自然言語処理(NLP)とは

人間が会話で使うような言葉を意味や解釈も含めてAIに学ばせること。
チャットポットなどに使われている。

構造化データ

わかりやすい形式をもち、格納されたデータのこと。データベースに保存され、クエリを適用できるものなどが当てはまる。
Parquet などが例。

非構造化データ

構造化データとは違い、特に形式のないデータのこと。画像データとかもそう。
決まった形式がないので処理が難しく、クエリも使えない。

ざっくりまとめ

ラベル付きデータ
正解(ラベル)とセットのデータ

ラベルなしデータ
 特に正解を持たないデータ

表形式データ
 行と列をもった表形式のデータ

時系列データ
 時間により変化するものを扱ったデータ

画像データ
 画像をベースとしたデータ

テキストデータ
 文章をベースとしたデータ

構造化データ
 決められたスキーマをもつデータ。

非構造化データ
 決められた構造を持たないデータ。

0
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
0
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?