先日、統計検定「データサイエンス発展」に合格できたので、勉強過程で作成したメモを公開。
※あくまで自分メモのため見やすさは重視してない点、および範囲が広いので全てを網羅出来ていない点についてはご了承を。
前段の試験である統計検定「データサイエンス基礎」の勉強あとは、こちら。
下記の内容が難しいと感じたら、先にこちらを受けて肩慣らしするのも良いかも。
試験の概要
内容は、「数理、情報、統計、倫理・AIに関する大学教養レベルの内容」
なんとなく、
統計検定2級+基本情報+G検定
の、それぞれ一部が浅く出てくるというイメージ。
範囲が広いので、それなりに難しい。
60分で30問程度。
出題範囲に該当する内容は、概ね下記で公開してくれている資料で勉強可能。
基本的には、上記教材での勉強必須。
個人的には、倫理や法律周りが、普段常に意識しているわけではないので覚えるのに苦戦した。
(試験抜きにして大切な内容のため、これを機に勉強できて良かった。)
体系的にカチっと学びたい場合は、教養としてのデータサイエンスなども読むと良い模様。
(自分は時間がなく読めなかった…)
学習あと
こちら(上記サイト)の内容を大変参考にさせて頂いております。
社会におけるデータ・AI利活用
- 技術のブレークスルー(データサイエンスが注目された要因)
- ハードウェアの向上(CPU、GPU、メモリ、インターネット、エッジの進歩)
- ムーアの法則(=半導体の集積密度は2年で2倍となる)
- 最適化技術の向上
- データ量の増加(紙媒体の電子化、インターネットの普及)
- ハードウェアの向上(CPU、GPU、メモリ、インターネット、エッジの進歩)
- ビッグデータの特性(3V)
- Volume(ボリューム:量)
- Variety(バラエティ:多様性)
- Velocity(ベロシティ:速度)
- Society 5.0
- サイバー空間とフィジカル空間を高度に融合させたシステムにより、経済発展と社会課題の解決を両立する人間社会
- 生じる新たな社会問題:バイアス、プライバシー、AIの悪用など
- AI時代に対応できる公共政策や法案を提案できる人材が必要になる
- AIをブラックボックス化せずに多くの人が基本を理解しなければならない
- データを起点としたものの見方
- 人間は直感的な速い思考と熟慮する遅い思考を使い分けて意思決定する
- 速い思考=直感、遅い思考=計算など集中力が必要なもの
- 速い思考は、社会問題を考える際には妨げになることがある
- 先入観にとらわれ実態を無視する危険性
- データを起点としたものの見方により、社会の実態に即した意思決定ができるようになる(データ駆動型社会)
- データ元の種類
- リサーチデータ(国勢調査やe-Statなど)
- 観測データ(天体観測、気象観測など)
- 実験データ:原因の効果測定のために同一条件下で複数サンプルを比較
- 偶然実験状況になっているケースを「自然実験」と呼ぶ。
- 行動ログデータ(インターネット行動ログやGPSデータなど)
- マシンログデータ(機械に設置したセンサーなど)
- セキュリティ分野でもマシンログの異常検知による攻撃監視が試みられている
- データの所有者
- 1次データ:自社で集めたデータ
- 自由度が高く競合は手に入らないため、他社との差を生み出す貴重な情報
- 2次データ:気象情報など公開されたデータ
- 自由度は低く競合も手に入るが、企業単体では収集できない情報量と範囲
- 1次データ:自社で集めたデータ
- データ・AIの活用領域の広がり
- 研究開発
- マーケティング(購買、販売、調達、サービス)
- 消費動向・生産動向の把握
- 全国のスーパーマーケットから収集した日用品の売上・価格データを用いて消費者同行の分析を実施(内閣府2018)
- POSデータから消費者心理指標や生産動向把握をナウキャスティングする試み(経済産業省)
- 製造と物流(不良品検知、在庫予測など)
- 活動代替(ロボット、自動運転など)
- 新規生成(ディープフェイクなど)
- 文化活動
- データの一次分析
- 基礎統計量(平均、最小、最大、分散など)、欠損、偏りを調べる
- データ可視化
- データ利活用のための技術
- 予測
- クラスタリング
- ルールベース:人の手によってルールを記述。
- 最適化
- 連続最適化:微分可能な関数が対象
- 離散最適化:組み合わせなど微分不可能な関数が対象
- シミュレーション
- データ同化:実データから得られた観測値とつきあわせて、シミュレーションを軌道修正する
- ビッグデータとAI
- 特化型AIと汎用AI
- 特化型AI:あるタスクの処理に特化したAI
- 汎用AI:様々なタスクの処理に対応できるAI(現代ではまだ模索段階)
- データ処理ではAIが人間を上回るが、未知の状況への対応などは難しい
- 自動機械学習(AutoML=Automated Machine Learning):機械学習のモデル構築を自動化する。
- 特化型AIと汎用AI
- AI等を活用した新しいビジネスモデル
- 深層学習(ディープラーニング):ニューラールネットワークを多層にしたモデル。
- 深層生成モデル:疑似データを生成
- 敵対的生成ネットワーク(GAN)
- 強化学習:ロボットがどのようなポリシーがよいか経験によって獲得
- 転移学習:別のタスクで訓練したモデルを転用
- 透明性と説明責任:ブラックボックス化したAIを鵜呑みせず解釈性に重きをおく
- シェアリングエコノミー:個人の資産を他人にも利用してもらう
- フェデレーテッドラーニング:ビッグデータを一箇所に集めず分散した状態のまま訓練する
- 社会と倫理
- AIに道徳的な意思決定をさせる
- 適切に技術と社会を融合させる
データ・AI 利活用における留意事項
- ELSI
- 倫理的(Ethical)
- 法的(Legal)
- 社会的(Social)
- 含意(Implications)あるいは事柄(Issues)
AIの社会受容に向けて、AIのアウトプット・挙動の責任の所在などの議論が必要となる。
※ 科学研究は善悪から切り離された客観的存在ともいえるが、かといって、予想外に引き起こされてしまう問題が許されるとは言えない。
- データの倫理
- 捏造、改ざん、盗用などの禁止
- データの保護
- 個人情報とプライバシーの問題
- 個人情報:名前、住所、マイナンバー、免許番号など
- その他の個人の情報:本籍、人種、年齢、家族構成、勤務先、所得、メールアドレス、購買履歴など
- データサイエンス・AIで起こりうる論点
- 統計的差別
- 統計処理が妥当であり、合理的に判断している場合でも、結果として差別や不平等が肯定され、継続されうること
- データバイアス
- そもそもデータに隔たりがあること
- アルゴリズムバイアス
- データにバイアスがあったがゆえに、機械学習の学習結果にバイアスが生じること
- 統計的差別
- データサイエンス時代の諸概念
- 忘れられる権利:インターネット時代のデジタルデータに関して、削除、アクセス遮断によりプライバシーが保護されることを求める権利
- デジタルデータがネット上に出回ると消す手段がない
- EUなど一部の国では法制度化済み
- 日本では「インターネット法」に関連して議論がはじまり検討中(2022年現在)
- 法整備だけでなく技術的に消せるようになる必要がある
- 説明に基づく同意:個人情報・データ収集の際に提供を求める
- どのようなデータを提供してもらうのか
- 何に使うか、いつまで使うか
- 誰と共有するか
- データを提供することのメリット・デメリット
- オプトイン/オプトアウト
- ユーザー自らに関する情報を利用される、または情報を受け取る際に、許諾「する」ことを表明してもらうのがオプトイン。反対に、許諾「しない」ことを表明してもらうのがオプトアウト。
- ルール・規則の例
- GDPR(欧州一般データ保護規則)
- EUでの個人情報保護関連規則を一元化
- 説明に基づく同意は、目的・基幹を必要な範囲に限り、わかりやすく、いつでも撤回できるように
- 手続きは「オプトイン」で設計
- AI等で不利な判定が出る場合、異議申し立ての権利を確保
- 人間中心のAI社会原則
- 内閣府 統合イノベーション戦略推進会議 決定
- 人間中心の原則、プライバシー確保、セキュリティ確保、公平性、説明責任、透明性
- GDPR(欧州一般データ保護規則)
- 技術の提供者が行うべきこと
- Accountability:誰が責任を追うのかを説明できること
- Trust:過去の類似例を示し、妥当性や公平性に納得してもらうこと
- 忘れられる権利:インターネット時代のデジタルデータに関して、削除、アクセス遮断によりプライバシーが保護されることを求める権利
- データを守る上での留意事項
- 情報管理三原則
- 機密性:権限を持つ者だけがデータへアクセス可能とする(入室制限やPCへのログイン、ID/パスワード設定など)
- 完全性:データに誤り・改ざんがないことを保証する(データ改変の履歴を遡れるようにするなど)
- 可用性:データをいつでも安全に利用できる(攻撃への防御、HW障害のための冗長化など)
- 匿名化:特定の個人を識別できる情報を取り除く
- 連結可能匿名化:連続性のある仮IDを発行(連結表をもつ)
- 連結不可能匿名化:連結表を持たない、仮IDすら持たない
- 組み合わさることで匿名化が削がれるケースに留意する必要がある(前提にする必要がある)
- どのレコードも他の少なくともk-1個のレコードと一致するとき「k-匿名性をもつ」という
- 暗号化とパスワード
- 悪意のある攻撃への対処
- データの持ち出しや紛失による流出(暗号化、そもそも保存しない・持ち出さないルールづくりなどが有効?)
- サーバー脆弱性への攻撃(IPS/IDSなどが有効?)
- アカウント乗っ取り(データ変更時にアラートやメール通知などが有効?)
- スパイウェア・マルウェア(セキュリティソフトで定期検査などが有効?)
- 情報管理三原則
データリテラシー
- データを読む
- 拡張表現に騙されず、統計情報を正しく読む
- 軸のスケール:基準線がゼロでなく、ある区間を拡大したグラフの場合、視覚的には大幅に増加(減少)したように見えることもあるため留意。
- 色:カテゴリ分けに色を使っているときなど、実際はフラットな要素の中で、色の主張が強いもの(例えば真っ赤)に目を奪われないように留意。(色はもっと戦略的な使い方をする)
- 傾向線:散布図等で傾向線が引かれている場合、(どうしても線に目が行き)判断が左右されてしまうことがあるため、まずは線を引かずに素の状態(分布)で見てみる。
- 分析でよく用いられる表の種類
- 分割表:項目間の組み合わせのデータ数をまとめたもの
- クロス集計:項目間の組み合わせので統計量(平均など)をまとめたもの
- データに打ち切りや脱落が含まれていないか留意する
- データ抽出方法(分析前に、どのように集められたデータなのか?誰が?などを確認しておく)
- 無作為抽出:ランダムに抽出
- 層別抽出:属性に分け、それぞれから必要数抽出(属性間の隔たりを避ける)
- 多段抽出:ランダムにグループ分けを繰り返し行い十分に小さくなったら、そのグループ内でランダムに抽出(例:都道府県をランダムに選び、その中から地域をランダムに選び、その地域からランダムに人を抽出)
- 拡張表現に騙されず、統計情報を正しく読む
- データを説明する
- 不適切なグラフ表現とならないよう注意
- 棒グラフは、3Dにしない(奥行きに騙される)
- 円グラフは、カテゴリを2-5にする。
- データの比較
- 条件を揃える(例:20代男性で絞る)
- チャートジャンクを避ける。
- 「チャートジャンク」は、グラフを構成する視覚要素のうち、情報の理解には不要な要素。過度な装飾により理解が妨げられるもの。
- 不適切なグラフ表現とならないよう注意
数理基礎
※この分野は、統計検定2級などでは出てこない範囲なので別途学習が必要。
- 逆関数
y = f(x)に対して、x=g(y)となる関数g - 対数変換の使いどころ
- 正規分布に近づけて計算しやすくする(株価、雨量など) → 何かと計算しやすくなる
- 回帰分析における最尤推定では、対数関数は単調増加のため、対数をとってから最大化しても、元の関数を最大化したときと同じ解が得られる
- 関数 y=f(x)
- y軸方向にみてグラフが重ならいものが、関数
- 関数の連続性:各点でちゃんとつながっている
- 関数の極限性:xをaに限りなく近づけたときにf(x)がある値αへ近づく場合にαが極限値
- xをaに限りなく近づけたときに、f(x)が限りなく大きくなる場合は「f(x)は正の無限大に発散する」という(逆は負の無限大)
- 三角関数
- tanθ = sinθ / cosθ
- 機械学習で主要な関数
- シグモイド関数
f(x) = 1/(1+exp(-x)) - ロジスティック損失関数
log f(x) = -log(1+exp(-x)) - ロジット関数 ※シグモイド関数の逆関数
log(x/(1-x))
- シグモイド関数
- 微分の例
- (x^2)' = 2x
- (x^3)' = 3x^2
- (1/x)' = (x^(-1))' = -x^(-2)
- (√x)' = x^(1/2) = (1/2)x^(-1/2)
- (e^x)' = e^x
- (logx)' = 1 / x
- (a^x)' = (log a)a^x
- (|x|)' =
- x > 0 のとき1
- x < 0 のとき-1
- x = 0では微分係数は存在しない
- 微分の使いみち
- f’(a)は、f(x)におけるx=aでの接線を求める
- f(x) = 0を解くことに用いる
- 不定積分
∫(x^n)dx = 1/(n+1)x^(n+1) + c - ベクトルの直行性:ベクトル間の内積が0
- 行列の種類
* 正方行列:n × nの行列を、n次の正方行列とよぶ
* 対角行列:すべての非対角成分が0である正方行列
* 単位行列:対角成分がすべて1の対角行列、Iで表す - 逆行列:n次の正方行列Aに対して、AX=XA=Iを満たすXが、Aの逆行列
* Aの逆行列が存在するとき、Aは正則であるという
* 零行列Oの逆行列は存在しない
* 単位行列Iの逆行列はIそのもの
* 逆行列A^(-1)の逆行列はA
* 逆行列を用いると、線形方程式の解を計算できる- Ax=bの解は、x=A^(-1)b
- ベクトルのノルム: ||x|| = √ = √(x1^2 + x2^2 + … + xn^2)
- ||x|| ≧ 0
- ||x|| = 0ならば x=0
デジタル情報とコンピュータの仕組み
※コンピュータ内での「データ表現や保持の仕方」について一通り学んでおく必要がありそう。
イメージしにくい内容は、図解されているページや教科書などで理解すると良いかも。
- 情報量と単位
- 1bit
- 1B = 8bit
- 1KB = 1024B
- 1MB = 1024KB
- 1GB = 1024MB
- 1TB(テラバイト) = 1024GB
- 1PB(ペタバイト) = 1024TB
- 1EB(エクサバイト) = 1024PB
※1024 = 2の10乗。
- 情報のデジタル化(標本化と量子化)
- 標本化:アナログな情報を一定間隔で取得(サンプリング)
- この間隔をサンプリング周期、その逆数をサンプリング周波数
- サンプリング周波数は元の波の周波数の2倍以上になる様に設定する
- 量子化:サンプリングしたデータの「値」をデジタル化
- 代表的なデジタル変換手法はPCM(記録方法により、LPCMやDPCM、ADPCMなどがある)
- 標本化:アナログな情報を一定間隔で取得(サンプリング)
- 文字の表現
- 文字コード:文字を2進数または16進数で表現
- 1バイトで表現:アルファベットや数字など(ASCIIなど)
- 2バイト以上で表現:漢字など(S-JIS、UTF-8など)
- 文字コード:文字を2進数または16進数で表現
- データ表現
- 大きく2つに分けられる
- 構造化データ(表形式)
- csvなどで記録されるデータが該当
- 非構造化データ(単純に表現できないデータ)
- テキスト、画像、音声、動画など
- 構造化データ(表形式)
- 画像における標本化と量子化
- 標本化:縦×横一定間隔(ピクセル)で区切った値をサンプリング
- 量子化:色調を数値化
- 白黒画像であれば0 or 1
- カラー画像であれば、RGB方式が代表的
- R,G,Bそれぞれ256階調で表現する場合、1ピクセルあたり8bit×3色=24ビット
- 大きく2つに分けられる
アルゴリズム基礎
※下のような基本的なアルゴリズムについて、フローチャートを読み解いてそれが何か分かる、反対にフローチャートを書ける程度にしておくと良さそう(たぶん)。
- アルゴリズムの基本構造
- 順次、選択、反復
この3つの構造で任意プログラムは表現できる(構造化定理)
- 順次、選択、反復
- 探索アルゴリズム
- 線形探索
- 先頭から順番にキーを比較
- 二分探索
- あらかじめデータを並べておき(小さい順など)、探索範囲を半分ずつ狭めながらキーを比較
- 他にも有名なものとしては、ハッシュ表による探索やグラフ探索。
- 線形探索
- ソート(整列)アルゴリズム
- バブルソート(交換法)
- 隣り合わせのデータを比較して交換を繰り返す
- 他に有名なものとしては、クイックソート、マージソート、選択ソートや挿入ソート。
- バブルソート(交換法)
データ構造とプログラミング基礎(主に Python)
※ある程度、普段からプログラミング(python)に触れていれば多分問題なし。
反対にあまり経験がない人は、少々触れてから試験に望んだほうが良い。
基本情報処理試験などのプログラミングに近い感じかな?
(最近の出題は知らないけど、多分)
データハンドリング
- DBMS(データベース管理システム)の機能
- 一貫性(例:データ更新時の排他制御=同時更新による矛盾を防ぐ)
- 整合性(例:データの正規化)
- 独立性(例:3層スキーマアーキテクチャ)
- 機密保護(例:データに対するユーザのアクセス権限を管理する)
- 障害対策(例:ディスクの二重化など)
- データクレンジング
- 名寄せ: 表記ゆれの統一
- カテゴリをバイナリに変換
- 欠損値の補完、除去
- 外れ値・異常値の除去
- その性質(偶発的なものか傾向があるものか)を理解して行う
- 離散グラフ: 項目の繋がりをエッジで表現
- 隣接リスト: 注目している頂点(キー)と接続している頂点のリスト(値)の組=行列で表現
- キー・バリュー形式: キーとバリュー(値)の組によるデータ形式
- 隣接リスト: 注目している頂点(キー)と接続している頂点のリスト(値)の組=行列で表現
データ取得とオープンデータ
- オープンデータ憲章
- https://www.mofa.go.jp/mofaj/gaiko/page23_000044.html
- 「オープンデータは、この世界的な動きの中心に位置」し、ガバナンス改善、イノベーションを進化させていくためにあるべき的な内容
- 機械判読:人手を介さずにPCがデータを判別し再利用できること
- 機械判別の適正の段階
- 1段階目:オープンライセンス(PDF、画像)
- 2段階目:編集可能(word,excel,powerpoint)
- 3段階目:SWを問わないフォーマット(csv)
- 4段階目:外部からリンクが可能(RDFXML)
- 5段階目:外部へのリンクがある(外部リンクのあるRDFXML)
- 機械判別の適正の段階
- Open Knowledge International(OKI):オープンデータの価値を社会に開放することで、社会課題解決を目指すNPO
- OKI オープンデータの定義
- 利用、アクセスできる
- 再利用、再配布ができる
- 誰でも使える
- 二次利用時のルール
- 利用規約で確認(出典の記載や、編集・加工時のルール、営利目的での利用可否など)
- (参考)電子行政オープンデータ戦略では、積極的なデータ公開、機械判読可能で二次利用が容易な形式での公開、営利・非営利目的問わず活用を促進することなどが原則として定められている。
- 各種オープデータ
- e-stat:人口推計など様々なデータを管理する政府統計ポータルサイト
- DATA.GO.JP:各府省の保有データを利用できるデータカタログサイト
確率と確率分布
統計検定2級の範囲を一通り確認しておく。
- 確率の種類
- 先験的確率(組み合わせ確率): ある事象の事象の数を、起こりうる全ての事象の数で割った確率
- 経験的確率: 実験や観測を繰り返して求めた確率
- 公理論的確率:確率の意味を議論せず、ある公理系を満たすもの
- 同時分布と周辺分布
- 同時分布: 異なる確率変数が同時に起こる確率(X, Yの全ペアに対しての確率の分布)
- 周辺分布: 一方の確率変数の全事象が生じたときの確率(Xの確率の分布)
- 独立性
- P(A ∧ B) = P(A) P(B)が成り立つとき、事象AとBは互いに独立
- 同様に、P(B|A) = P(B)、P(A|B) = P(A) も成り立つ
- ベイズの定理
- P(B|A) = (P(B)P(A|B))/P(A)
- P(A) = ΣP(Bk)P(A|Bk)
- 確率分布
- ベルヌーイ分布(表が出る確率pのコインをn回投げた際の表の出る回数の確率分布)
- nCkp^k(1-p)^k
- 期待値はnp、分散はnp(1-p)
- ポアソン分布(二項分布でnが十分大きく確率pが非常に小さいとき)
- 期待値も分散もλ
- 離散一様分布
- 期待値は(N+1)/2、分散は(N^2-1)/12
- 連続一様分布
- 期待値は(a+b)/2、分散は(b-a)^2/12
- 正規分布
- 期待値はμ、分散はσ^2
- ベルヌーイ分布(表が出る確率pのコインをn回投げた際の表の出る回数の確率分布)
統計的推測
統計検定2級の範囲を一通り確認しておく。
- 尺度
- 名義尺度: 他と区別するための分類子のようなもの(男女、血液型)
- 使える統計量:頻度、最頻値
- 順序尺度:順序や大小に意味はあるが間隔に意味がないもの(1位,2位など)
- 使える統計量:中央値、パーセンタイル
- 間隔尺度:目盛りが等間隔(気温、知能指数)
- 平均値、標準偏差、相関係数
- 比例尺度:原点があり、間隔や比に意味がある(身長、速度、値段)
- 変動係数
- 名義尺度: 他と区別するための分類子のようなもの(男女、血液型)
※比例尺度と間隔尺度の見分け方
温度など「0」がありうる場合は「間隔尺度」
身長など「0」がありえない(本当に無い)場合は「比例尺度」
100円を1.5倍して150円になる、等、比をとることができる場合は「比例尺度」
- 独立同一分布: 標本が、他の標本の値に関係なく独立に得られること
- 相関
- 相関係数: Sxy/(SxSy) ※Sxy:共分散、Sx、Sy:x,yの標準偏差
- 交絡要因と擬似相関
- 因果のない2変数の相関が高くなることを擬似相関という
- それら2変数へ影響を与えている第三の要因を交絡因子とよぶ
- 母数(パラメータ):母集団の特性を表す値
- 母平均、母分散
- 推定
- 点推定: 母平均や母分散などを1つの値で推定する
- モーメント法: 単純に、母平均μを推定するのに標本平均を、母分散を推定するのに標本分散(S^2)を用いる
- 区間推定 :母平均や母分散の信頼区間を求める(95%が主流)
- 母分散σが既知の場合、母集団が正規分布であると仮定し95%信頼区間を用いると、標本平均±1.96√(σ^2/n)
- 母分散が未知の場合、t分布を用い自由度(n-1)の統計検定量t、および標本平均、不偏分散から求める
- 点推定: 母平均や母分散などを1つの値で推定する
- バイアス分散分解
- バイアスは、モデルの予測値と真値のずれ
- 分散(バリアンス)は、訓練データの影響を受けてどれくらいバラついているか(過学習)
- 二乗誤差MSEはバイアスと分散へ分解することができる
- 仮説検定
- p値が有意水準よりも小さければ、帰無仮説は棄却され、対立仮説を採用できる
- 第1種の過誤(α):実際は帰無仮説が正しいが、棄却してしまう
- 第2種の過誤(β):実際は対立仮説が正しいが、帰無仮説が棄却されない
- 検出力(1-β):帰無仮説が正しくない時に、正しく棄却できる確率
- 検定の例
- 1群のt検定(平均値がμ0と等しいか)
- 2群の平均値の差の検定
- 群間の対応のない検定
- 群間の母分散が等しいと仮定出来る場合は、スチューデントのt検定
- 群間の母分散が等しいことを仮定出来ない場合は、ウェルチのt検定
- 群間の対応のある検定
- 群間の対応のない検定
- 2つの群間で分散が等しいかの検定(F検定)
- クロス表でカテゴリ間の独立を検定(カイ2乗検定)
種々のデータ解析
時系列データ解析
- 移動平均:平滑化して傾向変動を取り出す
- 注目点の前後k個(計2k+1)のデータの平均を計算する(K=2k+1は項数とよぶ)
- または、注目点の前k個、後k個を使用して計算するケースもある。
- 周期:時系列が一定の間隔で同じような変動を繰り返す期間
- 季節調整
- 特定の周期(21時間、1週間=7日、12ヶ月など)で現れる季節成分を除去して、本質的な動きに着目する
- y = トレンド + 季節成分 + ノイズ の形に分解する
- トレンド:時系列変化の傾向
- ノイズ:取り出したい情報以外の不要な情報
テキスト解析
- コーパス:収集されたテキストデータのサンプル集合
- 分かち書き:単語分割(分割される要素をトークンとよぶ)
- 形態素:言語として意味を持つ表現要素の最小単位
- 名詞、動詞、形容詞、副詞など文法的役割を示すクラスを表す
- 形態素を表すタグを品詞(POS: Part of Speech)タグとよぶ
- 形態素解析:テキストを分かち書きして、形態素を付与する
- 辞書を参照する
- 単語辞書:単語の品詞、読みや活用形を定義
- 連接可能性辞書:連接可能な2つの単語または品詞・活用のタイプを定義
- ユーザ定義辞書:独自の固有名詞など(未定義語)を登録する
- 辞書を参照する
- n-gram:n=1, 2, 3文字などの単位で頻度を数える
- 単語の区切りを見つけるのに形態素解析の考え方を応用
- 意味や文脈に応じて漢字を選択する必要がある(あらかじめ決めた規則に基づき優先度を計算する方法や、単語の共起関係などを基に決定する方法など)
- 文書単語行列:複数のテキストを単語の出現頻度で表現
- なるべく重要と考えられる単語を用いる(助詞などは必要か、高頻度で現れる単語は必要か、極端に頻度の低い単語は必要か)
- tf-idf:単語の出現頻度(tf)にその単語を含むテキスト数の逆数をかけ合わせた値。単純な出現頻度ではなく、テキストにおけるその単語の重要度を示す値となる。
- コサイン類似度:テキスト間の類似度を2つのベクトル(テキスト)がなす角度で表現
画像解析
- 物体認識:画像上の物体の名前(ラベル)を特定
- 動作認識:人間が行っている動作を特定
- Viola-Jones法 Harr-like特徴量による顔画像検出
- 白黒の矩形領域を組み合わせてできたパターンを顔に当てはめ一致度を計算
- 入力画像のサイズを変えながら、学習したモデルをあらゆる場所に当てはめることで、顔っぽい領域を見つけていく
- ImageNet: 画像認識向け大規模データセット
- AlexNet:ILSVRC2012でトロント大学が考案
- CNN:畳み込みニューラルネットワーク
- 畳み込み層:様々なフィルタでの畳み込み演算(特徴を取り出す)
- プーリング層:画像を小さくする(max pooling、average pooling)
- 様々な画像処理タスク
- 複数物体認識
- 矩形領域検出
- 領域セグメンテーション
- 個体別領域セグメンテーション
- UCF101:101種類の動作認識を行うデータセット
データ活用実践
機械学習タスクの一連の流れ、基本的な知識が問われるイメージ。
- 機械学習の流れ
- タスクの特定(分類、回帰、クラスタリングなど)
- 分析に必要なデータの確認、対象となるデータの収集
- データの前処理、機械学習による分析
- データ分析結果の共有、課題解決に向けた提案
- データの前処理
- データクレンジング
- カテゴリ値の数値変換
- 標準化:入力(出力)が正規分布に従うと仮定し、平均0、分散1に変換
- 正規化:入力(出力)の最小値〜最大値を0〜1へ変換
- 外れ値に引っ張られるので注意する
- 教師あり学習の各種タスク
- 売上予測
- 罹患(りかん)予測(診断結果等を学習)
- 成約予測
- 離反予測
- 教師なし学習の各種タスク
- クラスタリング
- 異常検知
- レコメンデーション
- データ生成
- クラスタリング
- データの類似度に基づく方法(k-means)
- 確率密度推定に基づく方法(混合正規分布によるクラスタリング)
- 混合正規分布(GMM):複数の正規分布の和で表現
- 異常検知
- 訓練データが十分あれば教師あり学習が可能だが、一般に異常データは少ないため、教師なし学習を適用する
- 典型的なアプローチとしては、確率密度推定に基づく方法がある
- 確率密度推定の結果から、しきい値を超える値を異常とみなす
おわりに
統計検定「データサイエンス発展」は、範囲が広くなかなか大変な試験ではあるが、それゆえDSに関する一定の知識があることを示せるはずなので、チャレンジの価値はあると思う。
データサイエンスをこれから始めてみたい人にとっては、網羅的に知識を習得できるのでオススメ。
既にデータサイエンスを実践している人にとっても、復習&知識の補強にもってこい。