応用基礎としてのデータサイエンス AI×データ活用の実践 (データサイエンス入門シリーズ)
解答が公開されてますが
解説がないのと誤っている箇所もあるようなので解説付きで解きました
3 AI基礎
3.1 AIと社会
- 3.1.1 ③
- 1950年代に始まり、1956年のダートマス会議でマッカーシーが「AI」と名付けた
- 3.1.2 ④
- 勾配消失は深層学習で問題となるか改善策が提案されている
- トイプログラムは問題ではなくトイプロブレムを解くプログラムのこと
- 3.1.3 ①
- 3.1.4 ⑤
- 3.1.5 ③
3.2 AIと社会
-
3.2.1 ①
- ②識別は「分類」か「判別」って呼ばれる方が多いと思いますが、0/1などのカテゴリ値に分ける教師あり学習
- ③、④は教師なし学習
-
3.2.2 ③
- ①学習データだけに特化して学習してしまうと実際に予測する新たなデータでの予測能力(つまり汎化能力)が落ちるから、この選択肢は正しい
- ②場合により微妙ですが③よりは良いか
- ④①と同様に正しい
-
3.2.3 ②
- ①カテゴリ変数の場合は大小ではなくこの選択肢は微妙だが②よりは良いか
- ②線形識別器ではなくIF条件で大小やカテゴリ値を分けるような分類を行う
- ③3.2.2の複雑な学習モデルと同様
- ④木の分岐で条件と図示ができる
-
3.2.4 ④
- ④正則化パラメータを選ぶ手法である
-
3.2.5 ③
- ③見過ごしをしない確率である再現率なので、逆に言えばどれくらい見過ごししているかがわかる
予測 P N 真
の
値P TP(Pと予測して当り) FN(Nと予測して外れ) N FP(Pと予測して外れ) TN(Nと予測して当り) - 正解率=$\frac{TP+TN}{TP+FN+FP+TN}$
- 適合率=$\frac{TP}{TP+FP}$
- 陽性Pと予測されたうち真にPな割合。これが大きいほどオオカミ少年じゃなくなる
- 再現率=$\frac{TP}{TP+FN}$
- 真の陽性Pのうち、正しく予測Pとなった割合。陽性の見過ごしをしない確率
- 偽陽性率TPR=$\frac{TP}{TP+FN}$
- 真の陽性Pのうち正しく予測Pとなった割合。
- 偽陽性率FPR=$\frac{FP}{TN+FP}$
- 真の陰性Nのうち誤って予測Pとなった割合。
-
3.2.6 ②
- 予測をする際には推定パラメータを確率分布で表す
3.3 深層学習の基礎
- 3.3.1 ①
- ①恒等関数なので層が増えただけでは複雑な計算はできない
- 層が増えるので②③④は正しい
- 3.3.2 ④
- 問題文では$j''$となているが$j'$の誤りと思われる
\begin{align} s_j(z)&=\frac{\operatorname{exp}(z_j)}{\sum_{j'=1}^d\operatorname{exp}(z_{j'})} \\ Z&=\sum_{j'=1}^d\operatorname{exp}(z_{j'})とおくと\\ s_j(z)&=\frac{\operatorname{exp}(z_j)}{Z} \\ \frac{\partial \operatorname{exp}(z_j)}{\partial z_{j'}}&=\delta_{ij}\operatorname{exp}(z_j)\\ &=0\\ \frac{\partial \frac{1}{Z}}{\partial z_{j'}}&=-\frac{1}{Z^2}\frac{\partial Z}{\partial z_{j'}} \\ &=-\frac{\operatorname{exp}(z_j)}{Z^2}\\ &=-s_j(z)\frac{1}{Z}\\ \operatorname{exp}(z_j)\frac{\partial \frac{1}{Z}}{\partial z_{j'}}&=\operatorname{exp}(z_j)(-s_j(z)\frac{1}{Z})\\ &=-s_j(z) s_{j'}(z) \end{align}
- 3.3.3 ③
- ①1回当たりの計算コストは変わらない
- ②購買計算の実行時間には影響がない
- ④学習率を増加させると最適解を通り越してしまう恐れあり
- 3.3.4 ③
- 畳み込み層は画像を抽象化していく過程なので生成層では使えない
- 3.3.5 ①
- 状態:学力、 行動:費やす勉強時間、報酬:試験の合否
- 学力:行動ではない。報酬も考えられなくはないがスコアとして得られるのは試験の合否
- 費やす勉強時間:報酬ではない。状態とも考えられなくもないがそうすると行動がなくなる
- 試験の合否:状態ではない。行動でもない。
3.4 ロボット、認識、言語
- 3.4.1 ②
- ①あえていうなら文字分割
- ③係り受け解析
- ④翻訳
- 3.4.2 ②
- ①文を単語に分割すること
- ③品詞のつながりを用いた統計モデル
- ④周辺の単語から注目単語を予測すること
- 3.4.3 ①
- ②品詞のつながりを用いた統計モデル
- ③学習アルゴリズムの一つであり自然言語特有のものではない
- ④情報圧縮アルゴリズムの一つであり自然言語特有のものではない
- 3.4.4 ③
\begin{align} P(barks|dog)&=\frac{P(barks, dog)}{P(dog)}\\ &=\frac{\frac{1}{20}}{1}\\ &=\frac{1}{20} \end{align}
- 3.4.5 ③
- $\frac{6}{10}=60$%