1. EDA(探索的データ分析)関連
Summary Statistics(要約統計量)
- 気をつける点: 平均は外れ値に影響を受けやすい。分布が非対称な場合は中央値が適している。
- 知っておくべき点: 四分位範囲(IQR)は外れ値検出にも使える。
Data Distribution(データ分布)
- 気をつける点: データの分布を確認せずに統計解析を進めると誤った結論を導く可能性がある。
- 知っておくべき点: 正規分布でない場合、パラメトリックな手法が適用できないことがある。
Missing Data(欠損値)
- 気をつける点: 無視するとバイアスが発生する可能性がある。適切な補完手法を選ぶことが重要。
- 知っておくべき点: 欠損パターン(MAR, MCAR, MNAR)を理解することで、適切な対応ができる。
Outliers(外れ値)
- 気をつける点: 機械的に削除すると重要な情報を失う可能性がある。
- 知っておくべき点: 外れ値は異常値だけでなく、貴重な発見につながることもある。
Feature Engineering(特徴量エンジニアリング)
- 気をつける点: 過度な変換は解釈性を損なう場合がある。
- 知っておくべき点: 適切なスケーリング(標準化 or 正規化)がモデルの性能向上につながる。
2. データ前処理関連
Data Cleaning(データクリーニング)
- 気をつける点: クリーニングの基準が曖昧だと再現性がなくなる。
- 知っておくべき点: クリーンなデータがモデルの性能に直結する。
Data Transformation(データ変換)
- 気をつける点: 過度な変換は解釈性を損なう可能性がある。
- 知っておくべき点: 対数変換は指数的なデータに適している。
Feature Selection(特徴量選択)
- 気をつける点: 不適切な特徴選択は情報の損失につながる。
- 知っておくべき点: PCAは解釈性を低下させるが、次元削減には有効。
3. 統計解析関連
Descriptive Statistics(記述統計)
- 気をつける点: 数値だけを見てデータの全体像を誤解しないようにする。
- 知っておくべき点: 分布の可視化と組み合わせるとより正確な洞察が得られる。
Inferential Statistics(推測統計)
- 気をつける点: p値が小さい=因果関係があるわけではない。
- 知っておくべき点: 信頼区間の解釈を誤ると結論を誤る。
4. 機械学習・モデリング関連
Supervised Learning(教師あり学習)
- 気をつける点: 過学習を防ぐために正則化やデータ分割を適切に行う。
- 知っておくべき点: バランスの取れたデータセットが重要。
Unsupervised Learning(教師なし学習)
- 気をつける点: クラスタリング結果の解釈が主観的になりがち。
- 知っておくべき点: クラスター数の選択(Elbow法など)が重要。
5. データ可視化関連
Matplotlib / Seaborn / Plotly
- 気をつける点: 誤った可視化は誤解を招く。
- 知っておくべき点: 可視化にはストーリーテリングの要素も重要。
散布図(Scatter Plot)
- 気をつける点: 相関と因果関係を混同しないこと。
- 知っておくべき点: トレンドラインを追加すると理解しやすい。
6. データベース・ビッグデータ関連
SQL
- 気をつける点: 非正規化データはクエリのパフォーマンスに影響を与える。
- 知っておくべき点: インデックスの最適化が重要。
データウェアハウス
- 気をつける点: 大量のデータを扱うため、適切なアーキテクチャ設計が必要。
- 知っておくべき点: 分析用途に特化したデータ管理の考え方。
7. 深層学習(Deep Learning)関連
ニューラルネットワーク
- 気をつける点: パラメータが多いため、適切なチューニングが必要。
- 知っておくべき点: 過学習を防ぐためにドロップアウトなどを活用する。
勾配降下法(Gradient Descent)
- 気をつける点: 学習率が大きすぎると発散、小さすぎると収束が遅くなる。
- 知っておくべき点: AdamやRMSPropなどの最適化手法も検討する。
転移学習(Transfer Learning)
- 気をつける点: 転移元のデータとターゲットデータの類似性を考慮する。
- 知っておくべき点: 計算コストを削減しつつ高精度を実現できる。
8. AIの最新技術
大規模言語モデル(LLM)
- 気をつける点: ハルシネーション(誤った情報生成)が発生する可能性がある。
- 知っておくべき点: 学習データのバイアスが出力に影響を与える。
生成AI(Generative AI)
- 気をつける点: データの著作権問題や倫理的な課題がある。
- 知っておくべき点: データの品質が出力に直結する。
強化学習(Reinforcement Learning, RL)
- 気をつける点: 実世界での応用には報酬設計が非常に重要。
- 知っておくべき点: シミュレーション環境を適切に設定することが成功の鍵。
これで、各用語についての気をつける点と知っておくべき点を網羅しました。他に追加したい用語があれば教えてください!