1. EDA(探索的データ分析)関連
-
Summary Statistics(要約統計量)
- 平均(Mean)、中央値(Median)、最頻値(Mode)
- 分散(Variance)、標準偏差(Standard Deviation)
- 四分位範囲(Interquartile Range, IQR)
-
Data Distribution(データ分布)
- ヒストグラム(Histogram)
- カーネル密度推定(Kernel Density Estimation, KDE)
- 正規分布(Normal Distribution)
- 歪度(Skewness)、尖度(Kurtosis)
-
Missing Data(欠損値)
- 欠損率(Missing Rate)
- リストワイズ削除(Listwise Deletion)
- 多重代入法(Multiple Imputation)
-
Outliers(外れ値)
- ボックスプロット(Box Plot)
- Zスコア(Z-score)
- IQRルール(IQR Rule)
-
Feature Engineering(特徴量エンジニアリング)
- ダミー変数(Dummy Variable)
- 標準化(Standardization)、正規化(Normalization)
- One-hot encoding(ワンホットエンコーディング)
- ラベルエンコーディング(Label Encoding)
2. データ前処理関連
-
Data Cleaning(データクリーニング)
- ノイズ除去(Noise Reduction)
- データスムージング(Data Smoothing)
- 欠損値補完(Imputation)
-
Data Transformation(データ変換)
- 正規化(Min-Max Scaling)
- 標準化(Z-score Normalization)
- 対数変換(Log Transformation)
-
Feature Selection(特徴量選択)
- 主成分分析(Principal Component Analysis, PCA)
- 相関分析(Correlation Analysis)
- Variance Threshold(分散しきい値)
-
次元削減(Dimensionality Reduction)
- t-SNE(t-Distributed Stochastic Neighbor Embedding)
- UMAP(Uniform Manifold Approximation and Projection)
3. 統計解析関連
-
Descriptive Statistics(記述統計)
- 母集団(Population)、標本(Sample)
- パーセンタイル(Percentile)
-
Inferential Statistics(推測統計)
- 仮説検定(Hypothesis Testing)
- p値(p-value)
- t検定(t-test)
- カイ二乗検定(Chi-square test)
- F検定(F-test)
-
Correlation & Causation(相関と因果関係)
- ピアソン相関係数(Pearson Correlation Coefficient)
- スピアマンの順位相関(Spearman’s Rank Correlation)
- グレンジャー因果(Granger Causality)
-
ベイズ統計(Bayesian Statistics)
- ベイズ推定(Bayesian Estimation)
- 事前分布(Prior Distribution)
- 事後分布(Posterior Distribution)
4. 機械学習・モデリング関連
-
Supervised Learning(教師あり学習)
- 回帰(Regression)
- 分類(Classification)
- 過学習(Overfitting)、過少学習(Underfitting)
-
Unsupervised Learning(教師なし学習)
- クラスタリング(Clustering)
- 主成分分析(PCA)
- t-SNE(t-Distributed Stochastic Neighbor Embedding)
-
Semi-Supervised Learning(半教師あり学習)
- ラベリングなしデータ(Unlabeled Data)
-
Evaluation Metrics(評価指標)
- 精度(Accuracy)、適合率(Precision)、再現率(Recall)
- F1スコア(F1-score)
- ROC曲線(Receiver Operating Characteristic, ROC)
- AUC(Area Under Curve)
- 交差検証(Cross Validation)
- RMSE(Root Mean Squared Error)
5. データ可視化関連
- Matplotlib
- Seaborn
- Plotly
- 散布図(Scatter Plot)
- 折れ線グラフ(Line Chart)
- 棒グラフ(Bar Chart)
- ヒートマップ(Heatmap)
- パレート図(Pareto Chart)
- ウォーターフォールチャート(Waterfall Chart)
6. データベース・ビッグデータ関連
-
SQL
- SELECT, JOIN, GROUP BY, HAVING
- データウェアハウス(Data Warehouse)
- データレイク(Data Lake)
- ETL(Extract, Transform, Load)
- OLAP(Online Analytical Processing)
-
分散処理(Distributed Processing)
- Hadoop
- Spark
-
NoSQL
- MongoDB
- Cassandra
-
データパイプライン(Data Pipeline)
- Apache Airflow
7. 深層学習(Deep Learning)関連
-
ニューラルネットワーク(Neural Network)
- 畳み込みニューラルネットワーク(CNN)
- 再帰型ニューラルネットワーク(RNN)
- 長短期記憶(LSTM)
- Transformer
-
勾配降下法(Gradient Descent)
- 確率的勾配降下法(SGD)
- Adamオプティマイザー
- 誤差逆伝播法(Backpropagation)
-
活性化関数(Activation Function)
- ReLU(Rectified Linear Unit)
- Sigmoid
- Softmax
- 転移学習(Transfer Learning)
- 自己教師あり学習(Self-Supervised Learning)
8. AIの最新技術
- 大規模言語モデル(LLM)
- 生成AI(Generative AI)
- 強化学習(Reinforcement Learning, RL)
- エージェントベースAI
- マルチモーダルAI
データサイエンスやAIに関する専門用語を幅広く網羅しました。他にも特定の分野(例:金融データ分析、医療AI、時系列分析)に関する専門用語が必要なら、追加できます!