どこからデータサイエンスを始めれば良いかわからない人向け、知っておいても損じゃなさそうな質問リスト50選
- 教師有と教師無学習の違いは?
- 回帰・分類・クラスタリング・ランキング:それぞれの違いは?
- 回帰モデルを評価するときにどういう指標を用いる?
- 低いMAEかつ高いMSE:とはどういう意味を持つ?
- 分類モデルを評価するときにどういう指標を用いる?
- 何故分類モデルを評価するときに「accuracy」は微妙なのか?
- クラスタリングをする際に、クラスター数はどのように決める?
- クラスタリングモデルの評価方法は?
- データにはどのような種類がある?
- 数値データ同士の相関関係はどうはかる?
- カテゴリカルデータ同士の相関関係はどうはかる?
- 数値データとカテゴリカルデータの相関関係はどうはかる?
- 外れ値・異常値・欠損地値の違いは?
- データが抜けているときの対処法は?
- データ不均衡とは?
- データ不均衡の対処法は?
- どのような場面で「Precision」を「Recall」より優先するべきか?逆の場合は?
- F1-scoreとは?
- AUC-ROCとは?
- AUC-ROCはデータ不均衡に影響を受けない?
- AUC-PRとは?
- confounding variablesとは?
- サンプリングの手法は?
- Pearson Correlationとは?
- Pearson Correlationが0だったら、何を意味する?
- どういうデータに対してPearson correlationを用いる?
- Spearman's Correlationとは?
- Decision Treeとは?
- ロジスティック回帰とは?「回帰」なのに何故分類なの?
- BIAS-Varianceトレードオフとは?
- Cross-Validationとは?
- Training Set/Validation Set/Test Set:それぞれにデータを分ける目的は?
- Training SetとValidation SetのLossの差が大きいかつ、Validation SetとTest SetのLossの差が小さい。何を意味する?逆は?
- A/BTestとは?
- 「Curse Of Dimensionality(次元の呪い)」とは?
- PCAとは?
- AI/MachineLearning/RepresentationLearning/DeepLearningの違いは?
- NeuralNetworksを用いるときに何故活性化関数を用いるのか?活性化関数を無くすと何が起きる?
- Gradient Descentとは?
- Back Propagationとは?
- Normal Equationとは?
- Deterministic ModelとStochastic Modelの違いは?
- Feature Scalling? Normalization? Standardization? 違いは?
- Discretizationとは?どのような時に重要?
- Hyperparameter Optimizationとは?
- Survivorship Bias とは?
- 正則化とは?何故重要?どのような手法がある?
- 強化学習とは?
- Data DriftとConcept Driftの違いは?
- Data Analyst/Data Scientist/ Data Engineering/ML Engineerの違いは?
Writed by F.K(20代・入社3年目)