特徴量の個数 = 次元の数
一言で言うと「特徴量」と「次元」とは・・・
求めたいものを特徴づけるもののことを特徴量と言い、特徴量の数が次元の数に相当します。3つの特徴量なら3次元となります。
特徴量の個数 = 次元の数
特徴量とは、求めたいものを特徴づけるもののことですが、これだけでは中々理解が難しいですよね。もっとわかりやすく言うと例えば、自分が飲食店で働いているとして過去の売上から未来の売上を予測したい場合、天気や気温、湿度等々売上に寄与する情報は、未来の売上げを予測するために必要な特徴量と言います。
また特徴量に似た言葉に「次元」がありますが特徴量の個数が「次元の数」に相当し、特徴量を減らすとは次元の数を減らすということです。
さらに一般的に上記の例のように、求めたい(予測したい)もの(売上)を目的変数、目的変数に寄与するもの、影響を与えるものを説明変数と言います。
ややこしくなってきたので、整理すると、
特徴量の個数 = 次元の数 = 説明変数の数
となります。特徴量に似た言葉に「属性」がありますが、属性はデータタイプ(上記の例では「気温」)を表すのに対して、特徴量は一般に属性と値(上記の例では「気温 + 30℃」)という二つの意味を含んで表す単語として使われます(ただし、特徴量は文脈次第で様々な意味に変化することもあるようです)。けれども、実際は属性と特徴量を同じ意味で使う人が多いことも確かなので注意しましょう。
ここまで特徴量を中心にお話ししてきましたが、機械学習モデルの訓練がうまく行われるためには、訓練データに求めたいものに作用する(関係のある)特徴量が十分に含まれ、無関係な特徴量が多すぎないことが必要です。
機械学習モデルの精度を高めるためには、モデルに学習させるための適切な特徴量を揃えることが重要です。こうした過程は特徴量エンジニアリングと呼ばれています。