応用基礎としてのデータサイエンス AI×データ活用の実践 (データサイエンス入門シリーズ)
解答が公開されてますが
解説がないのと誤っている箇所もあるようなので解説付きで解きました
1 データサイエンス基礎
1.1 データ駆動型社会とデータ分析の進め方
- 1.1.1 ③ Society 4.0
- 解答は④になってますが、③Society 4.0のはず
- Society4.0とは1990年代以降の情報社会
- そのさきにある未来がこれからのSociety5.0
- 1.1.2 ④ 自然演繹
- 仮説検証、知識発見、原因究明、判断支援、計画策定、活動代替がデータサイエンスの活動
- 1.1.3 ①②③④
- 「⑤ 先入観を駆使し物事を即断する能力」は必要ではなくむしろ先入観を排してデータから判断するのがデータサイエンス
- 1.1.4 ②③④
- 全体のデザインを意識する必要がある作業はできない
- 1.1.5 ①②③④
- ① スーパーシティ法、③ スマートシティ官民連携プラットフォーム、⑤ データサイエンティスト育成 は明記あり
- ② テキストに明示はないが、Society5.0を意識した改正がなされている
1.2 データの記述
-
1.2.1 平均10, 分散$\frac{70}{3}$ が選択肢にないがこのはず
- 平均
\begin{align} x_1+\cdots+x_5&をAとおく\\ \frac{A}{5}&=8 より\\ A&=40 \\ (新たな)平均&=\frac{A+20}{6} \\ &=10 \\ \therefore 平均&=10 \end{align}
- 分散
\begin{align} (新たな)分散&=\frac{(x_1-10)^2+\cdots+(x_5-10)^2+(20-10)^2}{6} \\ &=\frac{(x_1^2+\cdots+x_5^2)-2\cdot10A+5\cdot10^2+100}{6} \\ ここで&\\ (元の)分散&=\frac{(x_1-8)^2+\cdots+(x_5-8)^2}{5}=4 \\ (x_1^2+\cdots+x_5^2)-16A+5\cdot64&=20 \\ (x_1^2+\cdots+x_5^2)&=640-320+20=340 なので、\\ (新たな)分散&=\frac{340-800+500+100}{6} \\ &=\frac{70}{3}\\ \therefore 分散&=\frac{70}{3} \end{align}
- 実際に値を入れて計算しても、ChatGPT o1miniでもこの解答なので間違いないはず
- 平均
-
1.2.2 ①
- 標準得点の性質より、
\begin{align} \sum_{i=1}^n z_i&=0 \\ \sum_{i=1}^n z_i^2&=n \\ \end{align}
- ここで、得点aの標準得点を$z_a$, 得点bの標準得点を$z_b$とすると、
\begin{align} \sum_{i=1}^n z_i&=z_a(n-1)+z_b=0 \\ z_a&=-\frac{z_b}{n-1} \\ \end{align}
- また、
\begin{align} \sum_{i=1}^n z_i^2&=z_a^2(n-1)+z_b^2=n \\ \frac{z_b^2}{(n-1)^2}(n-1)+z_b^2&=n \\ z_n^2+(n-1)z_n^2&=n(n-1) \\ z_n^2&=n-1\\ z_n&=\sqrt{n-1} \qquad(z_n > 0のため) \end{align}
-
1.2.3 ③ 4.481
- 着目しているのが1等に対するその他の死亡のORなので、
死亡 生存 その他 1368 508 1等 122 203 \begin{align} OR=\frac{\frac{1368}{508}}{\frac{122}{203}}≒4.481 \end{align}
-
1.2.4 ? 当てはまるものがなさそう
- ①とはなっているが
\begin{align} \phi_{xy}&=\sqrt{\frac{\chi^2_{xy}}{N}} \\ C_{xy}&=\sqrt{\frac{\chi^2_{xy}}{N+\chi_{xy}^2}} \\ T_{xy}&=\sqrt{\frac{\chi^2_{xy}}{N\sqrt{(n-1)(m-1)}}} \\ より\\ \frac{\phi_{xy}}{C_{xy}}&=\sqrt{\frac{\frac{\chi^2_{xy}}{N}}{\frac{\chi^2_{xy}}{N+\chi_{xy}^2}}} \\ &=\sqrt{\frac{N+\chi_{xy}^2}{N}}\ge 0\\ \therefore C_{xy}\le\phi_{xy} \\ \frac{C_{xy}}{T_{xy}}&=\sqrt{\frac{\frac{\chi^2_{xy}}{N+\chi_{xy}^2}}{\frac{\chi^2_{xy}}{N\sqrt{(n-1)(m-1)}}}}\\ &=\sqrt{\frac{N\sqrt{(n-1)(m-1)}}{N+\chi^2_{xy}}}\\ 簡単に&2\times2表の場合\\ &=\sqrt{\frac{N}{N+\chi^2_{xy}}}\le0 \\ \therefore C_{xy}\le T_{xy}\\ なので①は成り立たないはず - ② 分割表の大きさによりスケールが変わるので誤り - ③ 名義尺度つまり質的変数同士の指標であり、誤り - ④ 成り立たない \end{align}
-
1.2.5 ③
- 解答は①となってますが③では?
- 定義のままですが
\begin{align} F&=\frac{2}{\frac{1}{精度}+\frac{1}{再現率}}\\ &=\frac{2\times精度\times再現率}{精度+再現率}\\ &=\frac{2\times \frac{TP}{TP+FP}\times\frac{TP}{TP+FN}}{\frac{TP}{TP+FP}+\frac{TP}{TP+FN}}\\ &=\frac{2\times TP\times TP}{TP(TP+FN)+TP(TP+FP)}\\ &=\frac{2TP}{2TP+FN+FP} \end{align}
1.3 データの可視化
- 1.3.1 ②
- 散布図が正しい
- 1.3.2 ③
- 「練習問題の解答」の解説の通り
- 1.3.3 ①
- ②単位の異なる折れ線グラフで比較しているのが不適切
- ③推移を表すグラフで特定期間を伸ばしたり縮めたりするのは不適切
- ④推移をヒストグラフで表すのは不適切
- 1.3.4 ④
- ①完全に同数かはわからないがグラフの幅がほぼ同じなので同数に近い値とわかる
- ②左下と右上のグラフの大きさから読みとれる
- ③左上のグラフの大きさから読み取れる
- ④「練習問題の解答」の解説の通り
- 1.3.5 ②
- ①人工衛星から発信される電波を受信して現在地や時刻などを取得する衛星測位システム
- ③第5世代移動通信システムの略称で、高速・大容量、低遅延、多数接続といった特徴を持つ次世代通信規格
- ④NASAが火星に送り届けた火星探査車
1.4 データ分析の手法
-
1.4.1 ④ IとIIのみ正しい
- I 正しい
-0.12+0.48\times5=2.28
- II 正しい
なので回帰式から求められる平均値よりも多い
-0.12+0.48\times10=4.68
- III 正しくない
- 決定係数などが示されておらず、回帰式のみからは読み取れない
- I 正しい
-
1.4.2
- (1) ③
- 占有面積$x_1$の係数が0.12であり0.12万円つまり1200円増える
- (2) ②
3.08+0.12\times25-0.05\times20+0.05\times0=5.08万円つまり50,800円
- (1) ③
-
1.4.3 ①
- 「練習問題の解答」の解説の通り
-
1.4.4 ④
- 支持度=$\frac{60}{10000}=0.006=0.6%$
- 確信度=$\frac{60}{300}=0.2$
- リフト値=$\frac{0.2}{\frac{100}{10000}}=20$
- ①支持度だけでは言えない
- ②③確信度だけでは言えない
- ⑤リフト値が1より大きい
-
1.4.5 ④
- 距離行列は下記となり、最近隣法なので
- 距離1{A, C}
- 距離2{A, C, E}
- 距離3{A, C, E}, {B, D}
- よってAと同じクラスターになるのはCとE
A B C D E A - B 6 - C 1 7 - D 9 3 10 - E 2 4 3 7 - - 距離行列は下記となり、最近隣法なので
1.5 数学基礎
-
1.5.1 ⑤ 160
\begin{align} f(x)&=(x^2+1)^5 \\ f'(x)&=5(x^2+1)^4\times2x\\ &=10x(x^2+1)^4\\ f'(1)&=160 \end{align}
-
1.5.2 ④
\operatorname{log}(2+3)=\operatorname{log}5
-
1.5.3 ②
- 2から6番目の要素のみ取り出すので②
\begin{align} &(0, 1, 1, 1, 1, 1, 1, 0)\cdot(a_1, a_2, a_3, a_4, a_5, a_6, a_7)\\ &=a_2+a_3+a_4+a_5+a_6 \end{align}
-
1.5.4 ①
\begin{align} \mathbf{A}&=\begin{bmatrix} a_{11} & a_{12} \\ \vdots &\vdots\\ a_{18, 1} & a_{18,2} \end{bmatrix}\\ b&=\begin{bmatrix} 1 \\ -1 \end{bmatrix}\\ とすれば\\ \mathbf{Ab}&=\begin{bmatrix} a_{11}-a_{12}\\ \vdots\\ a_{18, 1}-a_{18, 2} \end{bmatrix}\\ つまり&各チームの得失点差となる \end{align}
-
1.5.5 ③
\begin{align} P(赤赤)&=P(黄黄)=P(青青)=\frac{2}{6}\times\frac{1}{5}=\frac{1}{15}\\ &これが3通りあるから\\ \frac{1}{15}\times3&=\frac{1}{5} \end{align}
-
1.5.6 ④
- 独立なので
\begin{align} P(X=1, Y=1)&=P(X)P(Y)\\ &=\frac{1}{2}\times\frac{1}{2}\\ &=\frac{1}{4} \end{align}