■0.はじめに
以下の資格試験を受験しました。
合否の結果は2023年2月上旬にならないとわかりませんが、試験終了後に合否結果なしのスコアレポートがもらえます。
合格基準は非公開なので確実なことは言えませんが...正解率が80%超えたので多分大丈夫!と思いたいw
(2023/2/5追記)
無事合格してました!
本記事では、試験内容、私が行った試験対策をご紹介したいと思います。
また、記事の最後に受験の過程で得た自身の知識の整理、定着化を狙って作成したメモを共有します。
今後、本資格取得を目指している方のお役に立てれば幸いです。
■1.データサイエンティスト検定 リテラシーレベルとは?
アシスタント・データサイエンティスト(見習いレベル:★)と数理・データサイエンス教育強化拠点コンソーシアムが公開している数理・データサイエンス・AI(リテラシーレベル)におけるモデルカリキュラムを総合し、実務能力と知識を有することを証明する試験です。
データサイエンティスト検定 リテラシーレベルとは?
アシスタント・データサイエンティスト(見習いレベル:★)の上位レベルには以下の3つが定義されていますが、試験が行われているのは2022年12月現在ではリテラシーレベルのみです。
- シニア・データサイエンティスト(業界を代表するレベル:★★★★)
- フル・データサイエンティスト(棟梁レベル:★★★)
- アソシエート・データサイエンティスト(独り立ちレベル:★★)
■試験概要
- 試験名:データサイエンティスト検定 リテラシ―レベル
- 受験条件:なし
- 出題形式:CBT四肢択一式90問90分
- 再受験規約:同一試験日程内、再受験不可
- 試験実施日程:2022年11月15日(火) - 2022年12月5日(月)
- 会場:共通会場
- 受験料:11,000円(一般)、5,500円(学生) いずれも税込
- 試験範囲:スキルチェックリストの3カテゴリ(データサイエンス力、データエンジニアリング力、ビジネス力)の★1(見習いレベル)相当と数理・データサイエンス・AI(リテラシーレベル)におけるモデルカリキュラムを総合した範囲
- その他詳細は公式参照
私がこれまで受けてきた資格試験では見なかった形式なんですが、試験期間が決められていてその中で1回だけ受験可能という形式になっています。
春と秋の1年2回実施のようですが、私の受けた2022年秋で3回目と歴史の浅い試験ですので、ここは今後変わってくる可能性もありそうですね。
受験会場は、他の資格試験でも使われるCBTテストセンターから選択できます。
■2.私が行った試験対策
▼受験前のスペック
- データサイエンティストとしての業務経験なし
- データベース周りの業務経験は豊富
- JDLA Deep Learning For GENERAL(G検定)取得済
- (相当昔ですが)情報処理技術者試験の基本情報、応用情報レベルの資格取得済
- ここ数年プライベートでデータ分析・可視化を行っている
▼勉強方法
1.主教材を読み込む
公式サイトで紹介されていた参考書を購入しました。
主教材:最短突破データサイエンティスト検定(リテラシーレベル)公式リファレンスブック 第2版
- 一度細かいところまでしっかりと読み込む
- 後述する模擬試験などで自身で不足していると認識した個所をピンポイントで読み直す
- 最後にさっと読み返し、気になった個所を再読み込み
- 理解が足りないと感じた個所は書き出すことで知識の整理・定着化を図った
ちなみに、本書購入時に誤記が多いという口コミが多く、実際にそう感じました。
正誤表が見れる状態での購読をお勧めします。
2.模擬試験を解く
以下の1、2を2回、3を1回解き、間違えた個所や解説を読んで理解が浅いと感じた個所について主教材やWebで検索して理解を深めました。
- 1.主教材掲載の模擬試験45問
書籍では答えのみですが、サポートページから解説がダウンロードできます。
- 2.サポートページからダウンロードできる模擬試験90問
こちらは書籍購入者限定となっていて、ダウンロード時にパスを入力する必要があります。
公式サイトで紹介されていた問題集です。
分野別の問題が合計100問強、総仕上げ問題90問といった構成でした。
■3.受験した感想
- 想定していたよりも難しかった
特に前半は初めて見聞きする用語もあったりで、かなり戸惑いました。
ですが、問題が進むにつれ模擬試験で見かけた問題も出てくるようになり、難しい問題が続いたことで切れがちな集中力を保ち続ける力も試されているのかなと感じました。
- 試験時間が短い
90分で90問ということで単純計算では1問1分しか掛けられない計算になりますが、問題文の分量が多い問題もあって、思っていたよりも時間が掛かった印象でした。
私の場合は模擬試験と同じような問題では即答できたのもあり、60分ちょいで終えることができましたが、ちょっと考えて悩む問題はチェックしておいて後回しにして、取り合えず一通り回答できる時間を確保した方がよさそうでした。
- 浅く、広く求められる知識
これは受験時というよりは学習時に感じたことなんですが、データサイエンティストに求めている知識全般を浅く、広く求めているのかなと感じました。
AIの領域はG検定、セキュリティ領域など別分野だけど身につけておくべき基本的知識については情報処理技術者試験といった具合に複数の試験で求められる知識が必要で、範囲としては広いんですが、それほど深い知識は求められない、そんな風に私は捉えました。
そして、私自身、データサイエンティストとしての業務経験はないので信憑性はあれですが、この資格を取得出来たらデータサイエンティストの見習いとしては十分務まるんじゃないかなと実際に受験した際に出た問題を見て感じましたかね。
■4.学習メモ
データサイエンス力
■データサイエンス力
DS1:順列や組合せの式 nPr, nCr を理解し、適切に使い分けることができる
- 順列:複数の異なるものを並べる並べ方
n個の異なるものの中からr個を選んで出来る順列の数
^{}_nP_r = \frac{n!}{(n - r)!} = n \times (n - 1) \times ... \times (n - r + 1)
- 組み合わせ:複数の異なるものから一定数を選ぶ選び方
n個の異なるものの中からr個を選んで出来る組み合わせの数
^{}_nC_r = \frac{n!}{r!(n - r)!} = \frac{^{}_nP_r}{r!}
DS2:確率に関する基本的な概念の意味を説明できる(確率、条件付き確率、期待値、独立など)
DS3:平均、中央値、最頻値の算出方法の違いを説明できる
DS4:与えられたデータにおける分散、標準偏差、四分位、パーセンタイルを理解し、目的に応じて適切に使い分けることができる
- 分散と標準偏差はどちらも「データのバラツキ」を示す代表値であり、データ全体の広がりを確認することができる
- 分散とは「各データと平均値との差の2乗の平均」であり、以下の式で算出される。
s^2 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})}{n}
- 標準偏差は「分散の平方根を取った値」である。
s = \sqrt{s^2}
DS5:母(集団)平均と標本平均、不偏分散と標本分散がそれぞれ異なることを説明できる
- 不偏分散
- 標本平均を利用することによる分散の過小評価を修正した分散であり、母分散の推定値として用いられる
DS6:標準正規分布の平均と分散の値を知っている
- 標準正規分布は平均が0、分散が1の正規分布である。
DS7:相関関係と因果関係の違いを説明できる
DS8:名義尺度、順序尺度、間隔尺度、比例尺度の違いを説明できる
- 量的データ:数値自体に意味があり、足し算、引き算ができるデータ
- 比例尺度:絶対的なゼロ点を持つ。身長、値段、販売数など。
- 間隔尺度:絶対的なゼロ点を持たない。倍率の計算は行えない。西暦、温度、偏差値など。
- 質的データ:分類や種類を区分するラベルとしてのデータ
- 順序尺度:大小の比較のみ可能なデータ。間隔が明確でないため、平均値は意味を持たない。等級、満足度など
- 名義尺度:内容を区別するためだけに数値が与えられているデータ。例えば「子どもを0、成人を1」など。等号で比較可能である。
DS9:ピアソンの相関係数の分母と分子を説明できる
- 相関係数
- 2つの変数が直線でモデル化できるような線形の関係性の強さを示す指標である
- 相関係数は-1~1までの実数値を取る
- 1、-1に近いほど強い相関があるという
DS10:5つ以上の代表的な確率分布を説明できる
離散型確率分布
サイコロの目や1日のメールの件数のように、取り得る値が隣り合う数字の間には値が存在しない場合の確率分布のことを言う。
- ベルヌーイ分布
- 「成功か失敗か」「表か裏か」「勝ちか負けか」のように2種類のみの結果しか得られないような実験、試行(ベルヌーイ試行)の結果を0と1で表した分布を指す
- 二項分布
- 結果が成功か失敗のいずれかである試行(ベルヌーイ試行と呼ばれる)を独立に n 回行ったときの成功回数を確率変数とする離散確率分布である
- ポアソン分布
- ある時間間隔で発生する事象の回数を表すもので、稀な現象を表現できる
連続型確率分布
取り得る値が重さや温度などのように連続した値をとる場合の確率分布のことを言う。
- 正規分布
- 平均・中央値・最頻値が一致する確率分布
- 指数分布
- ランダムなイベント(事象)の発生間隔を表す確率分布
- カイ二乗分布
- 互いに独立な標準正規分布に従う確率分布の2乗和が従う確率分布
DS11:二項分布は試行回数が増えていくとどのような分布に近似されるかを知っている
DS12:変数が量的、質的どちらの場合でも関係の強さを算出できる
DS13:指数関数とlog関数の関係を理解し、片対数グラフ、両対数グラフ、対数化されていないグラフを適切に使い分けることができる
指数関数と対数関数の関係
2^3 = 8 \\
これを対数関数で表現すると以下になる。
\log_2 8 = 3
対数グラフ
- 対数グラフは、様々な桁数のデータをざっくりと確認・比較したいときに便利である
片対数グラフ
- 対数目盛りがx軸・y軸のどちらかに付いているものを片対数グラフという
- yとxが指数関数の関係にある際に使い勝手の良いグラフ
両対数グラフ
- 対数目盛りがx軸・y軸の両方に付いているものを両対数グラフという
- yとxが累乗関数の関係にある際に使い勝手の良いグラフ
DS14:ベイズの定理を説明できる
DS19:ベクトルの内積に関する計算方法を理解し、線形式をベクトルの内積で表現できる
DS20:行列同士、および行列とベクトルの計算方法を正しく理解し、複数の線形式を行列の積で表現できる
DS21:逆行列の定義、および逆行列を求めることにより行列表記された連立方程式が解けることを理解している
- ある正方行列Aに対してXA = I(単位行列)またはAX = Iとなる行列Xのことを逆行列と呼ぶ
DS22:固有ベクトルおよび固有値の意味を理解している
DS23:微分により計算する導関数が傾きを求めるための式であることを理解している
- 微分係数
- 関数 y=f(x) において、特定の点 (a,f(a)) における瞬間の変化率(すなわち接線の傾き)のことをいう
- f'(a)と表す
関数 f(x) の x=a における微分係数は以下のように表せる。
f'(a) = \lim_{b \to a} \frac{f(b)-f(a)}{b - a}
また、x の変化量を h とおくと、微分係数は以下のようにも表せる。
f'(a) = \lim_{h \to 0} \frac{f(a + h)-f(a)}{h}
DS29:ニュース記事などで統計情報に接したときに、数字やグラフの持つメッセージを理解できる
-
インフォデミック
- 不正確な情報やデマの拡散によって社会的な動揺が引き起こされること
-
エビデンスベースト
- 日本語で「根拠に基づいた」という意味
- 個人の勘や思い込みではなく、事実やデータをベースに判断しようという考え方
DS57:重回帰分析において偏回帰係数と標準偏回帰係数、重相関係数について説明できる
- 偏回帰係数
- 回帰式の中に現れる傾きを表す係数のことで重みとも呼ばれる
- 標準偏回帰係数
- 目的変数と各説明変数を平均0、標準偏差1に標準化してから実行した重回帰分析から得られる回帰係数のこと
- これを用いることで各説明変数の目的変数に対する影響度を直接比較できるようになる
- 重相関係数
- 目的変数の実測値と予測値の相関係数のこと
- 0から1の値を取る
- 1に近いほど相関が高く、予測精度が高いことを意味する
DS60:線形回帰分析は量的な変数を予測し、ロジスティック回帰分析は二値の質的な変数を予測する手法であることを説明できる
- ロジスティック回帰分析
- 0あるいは1の生じる確率をシグモイド関数で表現したモデルである
- 0/1の2値の予測に対応した分析手法である
DS70:ROC曲線、AUC(Area under the curve)、を用いてモデルの精度を評価できる
DS71:混同行列(正誤分布のクロス表)、Accuracy、Precision、Recall、F値、macro平均、micro平均、重み付き平均といった評価尺度を理解し、精度を評価できる
- 混同行列:予測と実績のクラスラベルの組合せを集計した表
実績:正例 | 実績:負例 | |
---|---|---|
予測:正例 | TP:正例と予測して実際に正例 | FP:正例と予測したが実際は負例 |
予測:負例 | FN:負例と予測したが実際は正例 | TN:負例と予測して実際に負例 |
- 正解率:Accuracy
- 正例、負例を問わず、予測と実績が一致したデータの割合を示す
- (TP + TN) / (TP + FP + FN + TN)
- 適合率:Precision
- 正例(負例)と予測したデータの内、実際に正例(負例)の割合を示す
- TP / (TP + FP) または FN / (FN + TN)
- 再現率:Recall
- 実際の正例(負例)の内、正例(負例)と予測したものの割合を示す
- TP / (TP + FN) または TN / (TN + FP)
- F値:F-Value
- 適合率と再現率の調和平均
- 2 * 適合率 * 再現率 / (適合率 + 再現率)
- 適合率と再現率はトレードオフの関係にある(どちらかを高くするともう一方は低くなる)
- 適合率と再現率両方の指標がバランスの良い値になることを目指すときに重視する指標
DS72:RMSE(Root Mean Square Error)、MAE(Mean Absolute Error)、MAPE(Mean Absolute Percentage Error)、決定係数といった評価尺度を理解し、精度を評価できる
回帰モデルの評価指標
- RMSE(Root Mean Squared Error):平均平方二乗誤差
- 誤差の二乗平均を求めるという性質上、予測を大きく外すと値が大きくなる
- 大きく外すことが許容できない問題設定に有用
- 外れ値に大きく影響を受ける可能性があるため、外れ値の除去が必要
- MAE(Mean Absolute Error):平均絶対誤差
- 絶対値の平均なので外れ値の影響を受けにくい
- MAPE(Mean Absolute Percentage Error):平均絶対誤差率
- 誤差率を測る
- 実測値と予測値の誤差率で評価するため、RMSE、MAEに比べてスケールが異なるデータの誤差を比較しやすくなる
- 決定係数
- モデルの当てはまりの良さを示す
DS78:第1種の過誤、第2種の過誤、p値、有意水準の意味を説明できる
- 有意水準
- 帰無仮説を棄却する水準のこと
- 慣例的に5%か1%が利用される
- p値
- 有意水準を超えていないか判断する指標
- p値が有意水準よりも小さい場合、帰無仮説を棄却し、対立仮説が採択される
- 標本データから計算した値よりも極端な統計値が観測される確率のこと
- 第1種の過誤
- 帰無仮説が正しいにも関わらず、それ棄却してしまう過ち
- 第2種の過誤
- 帰無仮説が誤りにも関わらず、それを棄却できない過ち
- 検定力
- 第2種の過誤をβとした場合、1 - β のことを呼ぶ
DS79:片側検定と両側検定の違いを説明できる
DS80:検定する対象となるデータの対応の有無を考慮した上で適切な検定手法(t検定, z検定など)を選択し、適用できる
DS117:標本誤差およびサンプリングバイアス、およびそれぞれの違いについて説明できる
- 標本誤差
- 標本によって得られる推計値の正確さを表すための指標
- 標本のサンプルサイズが大きくなると標本誤差の値が小さくなり信頼性が高くなる
- サンプリングバイアス
- 母集団の特徴が反映されないようなサンプリングによる偏りのことをいう
DS118:実験計画法の基本的な3原則(局所管理化、反復、無作為化)について説明できる
- 実験計画法
- 必要なデータを効率よく取るために計画し、適切な解析方法を与えることを目的とする統計学の応用分野である
- 基本原則
- 局所管理化:影響を調べる要因以外のすべての要因を可能な限り一定にする
- 反復:実験ごとの偶然のバラツキ(誤差)の影響を除くために同条件で反復する
- 無作為化(ランダム化):以上でも制御できない可能性のある要因の影響を除き、偏りを小さくするために条件を無作為化する
DS155:不必要な誇張をしないための軸表現の基礎を理解できている(コラムチャートのY軸の基準点は「0」からを原則とし軸を切らないなど)
DS156:強調表現がもたらす効果と、明らかに不適切な強調表現を理解している(計量データに対しては位置やサイズ表現が色表現よりも効果的など)
DS189:機械学習における大域的(global)な説明(モデル単位の各変数の寄与度など)と局所的(local)な説明(予測するレコード単位の各変数の寄与度など)の違いを理解している
- モデルの大域的な説明とは
- 複雑な機械学習モデルを、可読性の高いモデルで置き換えて説明すること
DS191:時系列データの場合は、時間軸で学習データとテストデータに分割する理由を理解している
- 時系列データを学習するときには、それに応じた学習データとテストデータに分割させるための考え方が必要になる
- 具体的には、データを時系列に沿って分割した上で、学習データはテストデータよりも未来のデータを含まないようにすることが必要となる
DS201:ニューラルネットワークの基本的な考え方を理解し、出力される「ダイアグラム」の入力層、隠れ層、出力層の概要と、活性化関数の重要性を理解している
- 1つのパーセプトロンは入力値に対して重み付け総和を計算する部分と、出力値を決定する活性化関数から構成される
DS233:自然言語処理を用いて解けるタスクを理解し、各タスクの入出力を説明できる(GLUEタスクや固有表現抽出、機械翻訳など)
- GLUE:General language Understanding Evaluation
- 自然言語処理モデルによる言語理解タスクの精度を評価するためのベンチマーク(評価基準)
DS247:画像のデジタル表現の仕組みと代表的な画像フォーマットを知っている
-
PNG形式はフルカラー(約1677万色)を表現することができ、色数の多い画像も色数の少ない画像も表現可能なファイル形式
-
JPG形式はフルカラー(約1677万色)を表現することができ、色数の多い画像を効率よく圧縮することが可能な形式。非可逆圧縮形式であるため、保存を繰り返すたびに画質が劣化するが、PNG形式に比べるとファイルサイズが小さい
-
WebM
- Googleが開発しているオープンでロイヤリティフリーな動画のコンテナフォーマット
DS265:条件Xと事象Yの関係性を信頼度、支持度、リフト値を用いて評価できる
- リフト値
- バスケット分析における重要な指標の一つであり、ある商品xの購買が他の商品yの購買とどの程度相関しているかを示す指標である
- 「xが買われたときにyも買われる確率」を「全体でyが買われる確率」で割った値
- バスケット分析
- 実際の顧客の購買行動のデータをもとに、合わせて購買される確率の高い商品の組み合わせを予測する分析
データエンジニアリング力
■データエンジニアリング力
DE1:オープンデータを収集して活用する分析システムの要件を整理できる
- オープンデータの定義
- 営利目的か非営利目的かを問わず二次利用が可能
- 機械判読に適している
- 無償で利用可能
DE54:正規化手法(第一正規化~第三正規化)を用いてテーブルを正規化できる
- 第一正規化
- 繰り返される項目がない
- レコード単位の情報になっている
- 第二正規化
- 第一正規化の条件を満たしている
- 部分関数従属がない
- 第三正規化
- 第二正規化の条件を満たしている
- 推移関数従属がない
- 部分関数従属
- 候補キーが複数カラムで構成されている際に、非キー属性のカラムが候補キーの一部に関数従属している関係性のこと
- 推移関数従属
- 非キー属性のカラムAが非キー属性のカラムBに関数従属している関係性のこと
DE63:HadoopやSparkの分散技術の基本的な仕組みと構成を理解している
DE87:数十万レコードのデータに対して、ランダムまたは一定間隔にデータを抽出できる
- サンプリング処理
- 全データ(母集団)の中から一部のデータ(標本データ)を抽出すること
- 主な方法
- 単純無作為サンプリング
- 系統サンプリング
- 3人おきや5人おきな一定間隔で抽出する
- 層別サンプリング
- 母集団をあらかじめいくつかのグループに分けて、それぞれの中から抽出する
- 集落サンプリング
- 母集団を小集団(クラスタ)に分け、クラスタを無作為抽出し、抽出したクラスタにおいて全数調査する
- 多段サンプリング
- 母集団をいくつかのグループに分け、そこから無作為にグループを選び、さらにそこからランダムにサンプルを抽出する
DE131:セキュリティの3要素(機密性、完全性、可用性) について具体的な事例を用いて説明できる
セキュリティの3要素
3要素の頭文字から情報セキュリティのCIAと呼ばれる
- 機密性(Confidentiality)
- 認可された認証ユーザーだけがデータにアクセスできることを保証する
- 対策例:パスワード認証、アクセス権限制御、暗号化
- 完全性(Integrity)
- データが不正に改ざんされておらず、正確で完全であることを保証する
- 対策例:電子署名、ハッシュ関数
- 可用性(Availability)
- データに対してアクセスを許可されたユーザが要求したときに、いつでも利用可能であることを保証する
- 対策例:システムの二重化、データバックアップ
DE133:マルウェアなどによる深刻なリスクの種類(消失・漏洩・サービスの停止など)を理解している
DE140:暗号化されていないデータは、不正取得された際に容易に不正利用される恐れがあることを理解し、データの機密度合いに応じてソフトウェアを使用した暗号化と復号ができる
- 共通鍵暗号方式
- 暗号化鍵と複合鍵が同一な暗号化方式
- データの送信者と受信者の間で一つの共通鍵が必要になる
- 同じ送信者と受信者が何回もやり取りする際に有用
- 送信先が多人数の場合には向かない(送信先分の鍵の管理が必要になり大変)
- 公開鍵暗号方式
- 暗号化と復号で別々の鍵を用いて、一方を公開鍵として公開し、一方は秘密鍵として送信者本人が保管しておく
- 秘密鍵で暗号化されたデータは公開鍵で復号可能
- 公開鍵で暗号化されたデータは秘密鍵で復号可能
- 不特定の送信先に暗号化した通信を行う際に有用
- 暗号化と復号で別々の鍵を用いて、一方を公開鍵として公開し、一方は秘密鍵として送信者本人が保管しておく
DE141:なりすましや改ざんされた文書でないことを証明するために、電子署名が用いられることを理解している
-
電子署名
- 対象のデータが作成者本人によって作成されたもので、改ざんされていないことをチェックするための仕組み
-
電子署名を実現する動作の流れ
- 1.送信者は送信するデータをハッシュ関数でハッシュ値に変換する
- 2.送信者はハッシュ値を秘密鍵で暗号化する
- この暗号化データが電子署名となる
- 3.受信者はデータと電子署名を受信する
- 4.受信者は添付されていた電子署名を送信者の公開鍵を用いて復号してハッシュ値を取得する
- 送信者の公開鍵で復号できることにより送信者を確認できる
- 5.受信者は受信したデータと同じハッシュ関数を用いてハッシュ値を取得する
- 6.上記4.で取得したハッシュ値と5.で取得したハッシュ値が一致するかチェックする
- 一致すればデータが改ざんされていないことを確認できる
-
公開鍵認証基盤(PKI:Public Key Infrastructure)
- 送信者と送信者の公開鍵の関係を保証し、送信者が信頼できる人物や組織であることを証明するための仕組み
- 利用者からの申請時に、信頼できる人物・組織であるかを審査する
- 利用者は、PKIの認証局に登録された利用者情報と公開鍵を信用してデータ通信を行う
DE142:公開鍵暗号化方式において、受信者の公開鍵で暗号化されたデータを復号化するためには受信者の秘密鍵が必要であることを知っている
DE143:ハッシュ関数を用いて、データの改ざんを検出できる
- ハッシュ関数は改ざんを検出する方法であって、改ざんを防止する手法ではない点に注意が必要
ビジネス力
■ビジネス力
BIZ4:現場に出向いてヒアリングするなど、一次情報に接することの重要性を理解している
- 一次情報
- 自身で収集したアンケートやヒアリング結果など、実際にデータ収集、体験した情報のこと
- 二次情報
- 他者が執筆した書籍や論文に掲載された調査結果など、他者から得た情報や一次情報をもとに編集された情報のこと
- 三次情報
- 噂話のような情報源がわからない情報のこと
BIZ10:データを取り扱う人間として相応しい倫理を身に着けている(データのねつ造、改ざん、盗用を行わないなど)
- ELSI
- 倫理的・法的・社会的課題(Ethical, Legal and Social Issues)の頭文字をとったもの。新たに開発された技術を社会で実用化するうえで生じる「技術以外の課題」を指す言葉である。
BIZ14:直近の個人情報に関する法令(個人情報保護法、EU一般データ保護規則:GDPRなど)や、匿名加工情報の概要を理解し、守るべきポイントを説明できる
- GDPR:General Data Protection Regulation(EU一般データ保護規則)
- 2018年施行
- EU域内の居住者が適用対象
- 個人データの識別、セキュリティ確保の方法、透明性要件、漏洩の検知と報告方法など、厳格で細かい要件が定められている
- CCPA:California Consumer Act(カリフォルニア州消費者プライバシー法)
- 2020年から適用開始
- プライバシー保護という観点ではGDPRに近い法令
- 米国各州でも同様の法案が可決されていく流れになっている
- 日本では?
- 2022年に改正個人情報保護法が施行された
- 改正個人情報保護法における情報分類
- 個人情報
- 生存する個人に関する情報
- 特定の個人を識別できるもの、あるいは個人識別符号が含まれるもののこと
- 例:氏名、住所、指紋、顔画像データ、マイナンバー、移動履歴、購買履歴など
- 個人情報の一部に、さらに厳格に扱うべき要配慮個人情報がある
- 本人に対する不当な差別・偏見その他の不利益が生じないように、取扱いについて特に配慮を要する一定の個人情報を意味する
- 仮名加工情報
- 個人情報を他の情報と照合しない限り、個人識別できないように加工したもの
- 復元は可能
- 匿名加工情報
- 個人情報を、個人識別不可能、復元不可能にしたもの
- 個人関連情報
- 上記以外の生存に関する個人情報のこと(IPアドレス、Cookieなど)
- 個人情報
BIZ25:データや事象の重複に気づくことができる
- MECE(ミーシー):
- 漏れなく重複なくという意味
- 論理的思考(ロジカルシンキング)の最も基本的な考え方の1つ
- 以下の頭文字を取ったもの
- Mutually(お互いに)
- Exclusive(重複せず)
- Collectively(全体的に)
- Exhaustive(漏れがない)
BIZ36:データの出自や情報の引用元に対する信頼性を適切に判断し、レポートに記載できる
BIZ57:主に担当する事業領域であれば、取り扱う課題領域に対して基本的な課題の枠組みが理解できる(調達活動の5フォースでの整理、CRM課題のRFMでの整理など)
- 5フォース分析
- 自社の競争優位を探るために用いられる手法
- 自社がさらされている脅威を5つに分類する
- 新規参入者の脅威
- 売り手の交渉力
- 買い手の交渉力
- 代替品や代替サービスの脅威
- 既存企業同士の競争
BIZ80:ビジネス観点で仮説を持ってデータをみることの重要性と、仮に仮説と異なる結果となった場合にも、それが重大な知見である可能性を理解している
BIZ94:結果、改善の度合いをモニタリングする重要性を理解している
その他
その他:
-
集落抽出法
- 人や世帯、事業所を調査するにあたって、調査区を設定して調査区のリストをつくり、単純無作為又は系統抽出法などにより調査区を選び出し、その調査区に所在する世帯や事業所などをすべて調べる方法(すべて調べない場合もある)
- この抽出法は、各集落間のばらつきが小さければ、どの集落を選択しても結果に大きな振れが出ないので精度は高くなる
-
データ同化
- 主に地球科学の分野において数値モデルの再現性を高めるために行われる作業である。
- 簡単に言えば、モデルに実際の観測値を入力してより現実に近い結果が出るようにすることを指す。
- シミュレーションは現実世界をモデル化して行われるので、その結果と現実世界の間にはどうしてもずれが出てくるが、シミュレーションを実際の観測データとつきあわせ、シミュレーションの軌道を修正して「確からしさ」を高めることが行われており、それをデータ同化と呼ぶ。
-
層化抽出法
- 部分母集団が互いに大きく異なるとき、各部分母集団(層)毎にサンプルを抽出することに意味がある。
- 層化とは、母集団を相対的に同質なグループに分けるプロセスであり、サンプリングの前に行われる。
- 層は相互排他的である。すなわち母集団の要素はいずれか1つの層にのみ属する。
- 各層からの抽出は無作為あるいは機械的に行われる。
- 層化抽出法はしばしば標本誤差を減らし、サンプルの質を高める。
-
マテリアルズインフォマティクス
- 統計分析などを活用したインフォマティクス(情報科学)の手法により、材料開発を高効率化する取り組み
- ビッグデータ、AI、機械学習などといったデジタル技術の進展により、膨大な数の実験や論文を解析して材料の製造方法を予測するなど、材料開発の効率を向上させる取り組みを指す
-
オプトイン
- 事業者がユーザーに広告メールを送信する前に許可を取ること。また、ユーザーが事業者に許可の意思を示すことを指す
-
オプトアウト
- ユーザーに許可を取ることなく、宣伝広告をメールなどの方法で送りつけること。
- また、宣伝広告の受け取りを、ユーザーが拒否する意思を示すこと。
-
合成関数
- 2つの関数を順番に適用したもの
- 2つの関数 f(x)、g(x)に対して,f(g(x))のことを,f(x)とg(x)の合成関数と言う
例えば
f(x) = x^2 \\
g(x) = (x + 2)
の場合、
f(g(x)) = f(x + 2) = (x + 2)^2
となる
- 合成関数の微分
- かたまりで微分したもの(=f'(g(x)) * かたまりの微分(=g'(x))とみなせる
例えば
y = (x^2 + 3x + 1)^4
の場合にその微分は
f(x) = x^4 \\
g(x) = (x^2 + 3x + 1)
とすると
y' = 4(x^2 + 3x + 1)^3(2x + 3)
となる
- 行列式
- 正方行列に対して定義される量で、歴史的には行列が表す一次方程式の可解性を判定する指標として導入された。
二次正方行列の行列式
\begin{vmatrix}
a & b \\
c & d
\end{vmatrix}
= ad -bc
- ボロノイ図
- ある距離空間上の任意の位置に配置された複数個の点(母点)に対して、同一距離空間上の他の点がどの母点に近いかによって領域分けされた図のこと