線形代数
〇4月25日 ~行列04
ベクトル…大きさ+向き
スカラー…大きさ
行列 …連立方程式をシンプルに表現するための手段
連立方程式の係数のみを取り出したもの
〇4月26日 ~行列09
行列の計算…連立方程式の計算と同様
…連立方程式を解くためには、特定の行列の掛け算をしてあげれば実現可能
(行基本変形)
逆行列…逆数の働きをする行列、行列の割り算をしているのと同様
…A-(Aインバース)と呼ぶ
…単位行列(1.0.0.1みたいなもの)に変換する行列
単位行列…掛け算をすると、同じ行列が結果として得られる行列
逆行列の求め方…ガウスの掃き出し法
〇4月27日 ~固有値②
逆行列…(-1)インバースと呼ぶ
逆行列が存在しない条件…解が一つに定まらない場合 つまり
…a:b = c:d、つまり ad=bc つまり
…行列を二つのベクトルに置き換えて考えると平行四辺形の面積が0の場合
※3次元、4次元と次元が増えた場合にも同様のことが言える
ベクトルの性質(線形性)…同じものの中に一つでも同じものがあれば0
…一つでも掛け算されたら全体が掛け算される
…一つでも足し算されたら全体が足し算される
…ベクトルの1要素をひっくり返したら全体がマイナスとなる
…一つのベクトルは複数のベクトルに展開できる
正方行列の計算…3次式の計算は2次式の計算に変換可能
固有ベクトル、固有値…とあるベクトルに行列をかけたときに、特定のスカラをかけた場合におなじベクトルにて表現できるもの。定数倍になるもの。
〇4月29日 ~固有値7
固有値…特定の数値として計算で求められる
固有ベクトル…とあるものの定数倍、というところまでしか求められない
固有値分解…AV=VΛ、A=VΛV⁻1、複数のAを掛け算する際にはVの逆行列と行列がかけ合わさって、Λの会場の計算のみとなり計算がしやすくなる。
分散…一つの項目の散らばり具合
共分散…二つのデータ系列の傾向の違い。正で似た傾向、負で逆の傾向、ゼロで無関係
〇4月30日 ~固有値12、 確率・統計1~23
特異値分解…
T(転地)…行列の行と列をひっくり返したもの
MM⒯を固有値分解すれば、その左差異ベクトルと特異値の2乗が求められる
固有値分解、もしくは、特異値分解は、画像解析の分野では、データアッシュする技術として活用されている。うまく近似する手段の一つ。
特異値分解を使えば、画像同士が似ている画像であることをPCでも判定することが可能。単純に特異値分解で圧縮した画像同士のデータだけでは、同じ画像かどうかはわからない。なぜならデータが異なるから。ただし、特異値を比較して大きな項目が似ていたら、同じ画像であることを判断できるかもしれない。(画像の教師なし学習に使えるかもしれない)
集合…S={a,b,c,d,e,f,g…}
aS… a はSの「要素」のうちの一つに含まれている(最小の単位にであることを表す)
和集合…AまたはB A∪B AカップB
共通部分(積集合ではない!!)…AかつB、A∩B、AキャップB
絶対補(補とはそれ以外)…U\A=A上バー(A以外の部分の全て)、A自身の否定とも
相対補…B\A(Bの中のA以外の部分)
確率
頻度確率(客観確率)…何度もやってみれば確率を確認することが出来るもの
ベイズ確率(主観確率)…確立を信念の度合いとして表現、全数調査が出来ないようなもの
…インフルエンザの確率が80%です、など。
P(A)=n(A)/n(U) A=accident, U=universe, P=probability, n=number
P(A|B)=P(A∩B)/P(B)、雨が降っている条件下で交通事故にあう確率、Uをどこに置くのか、が問題。条件付確率
独立な事象の同時確率については計算が楽、
記述統計…母集団全体の性質をデータから見出す
推測統計…一部の抽出された標本のデータから母集団全体の性質を推測する統計学
確率変数…事象と結びつけられた数値、自称そのものを指すこともある
確率分布…事象の発生する確率の分布、李産地であれば表に示せる
期待値=シグマ、もしくはインテグラルによって値を求めることもできる
分散…二乗してしまっているので次元が高くなってしまっている
標準偏差(小文字のシグマ=σ)…次元が変わらないようにルートにしてあげる
確率分布
ベルヌーイ分布…コイントスのイメージ
マルチヌーイ分布(カテゴリー分布、カテゴリカル分布)…さいころを転がすイメージ
二項分布…ベルヌーイ分布の一部
ガウス分布…釣り鐘型の連続分布、サンプル数が多くなったら、だいたいはこの型にになるため、全く分からない場合には、ガウス分布に当てはめてやる場合が多い。正規分する(面積を合成する)と1になるように著精された関数となっている
推定…点推定と区間推定の2種類がある。点推定は庭訓地などの1一つの値、区間推定は、平均値などの存在する範囲を推定する事
※機械学習を使っていく中では、「推定」という考え方を使うことは少ない
推定量(estimator)Θシータ…パラメータを推定するために利用する数値の計算方法や計算式のこと。推定関数ともいう
推定値(estimate)Θハット、シータハット…実際に施行を行った結果から計算した値
標本平均…母集団から取り出した標本の平均値
一致性…サンプル数が大きくなれば、母集団の値に近くなる
不偏性…サンプル数がいくらであっても、その期待値は母集団の値と同様。
E=期待値、θ=推定量、θハット=推定値
E(θハット)=θ
標本分散…一致性は未アスが、不偏性は満たさない!
…つまり、母集団の標準分散と一部の標本の標本分散は一致しない
不偏分散…n/n-1を標本分散にかけてあげることで、母分散の値に近づけている
…平均値からの差を取っているため、サンプルの値は完全に自由に選べるわけでなく、n-1個選んだ場合には既に最後のサンプルの値は決まっている。だから、1/n-1で割ってあげることとする。
…ただし、少数のデータしか取れない場合にはこの不偏分散の差が大きくなるが、サンプル数が大きくなった場合には、1/nも1/n-1もほぼ同じなのであまり影響はなくなってくる。
増えた量が同じなのに気づきが違う…変化量/母数が違うから。増加比率が重要。
情報のわかりやすさを人間の感覚は「比率」で比べているのではないか、という気づき
自己情報量…対数の底が2の時、単位はビット(bit)
…対数の底がネイピア(e)の時、単位はナット(nat)自然対数=natural
I(x)=-log(P(x))=log(W(x))
情報の増え方を感じる割合=対数、というのが感覚的にすっきりする
シャノンエントロピ…自己情報量の期待値、微分エントロピ?
H(x)=E(I(x))=-E(log(P(x))=-Σ(P(x)log(P(x)))
カルバック・ライブラー ダイバージェンス
…同じ事象、確率変数における異なる確率分布P,Qの違いを表す
交差エントロピー…KLDを使って表現することが可能に
機械学習レポート
〇5月2日 ~ML_05_04_ハンズオン(住宅価格予測)
各種モデルに関しては別途
学習用データ…train
検証用データ…testを付す
ハットは推定データのみにつける、実データと混合しないため
パラメータの構築方法
平均二乗誤差(MSE)
…データとモデル出力の二乗誤差、パラメータのみによって決まる数値
最小二乗法
…平均二乗誤差を最小にするパラメータを探すこと。勾配が0になる点を求める。
ライブラリを使えば、平均二乗誤差などはfitとライブラリを読み出すだけで実現できてしまうが、実際に裏で何が行われているかを知ることが重要である。
〇5月3日
回帰、非線形回帰
基底関数=変数
非線形回帰モデルでは、多項式(何乗の関数)とガウス型基底(自然対数)を用いる
ガウス型基底ではHjによってバンド幅が変わる
正則化…罰則が1次のもの(L1ノルム)はLASSSO回帰
罰則が2次のもの(L2ノルム)はRidge回帰
Lasso回帰では円と誤差関数の接点を求める。「縮小推定」と呼ばれている。
Ridge回帰では正方形と誤差関数との接点を求める「スパース推定」と呼ばれている。YもしくはXの切片が0になるので、変数が簡易化されていい。
ロジスティック回帰…回帰と名前がついているけど、分類に関するアルゴリズム。2項分類。シグモイド関数を使う。単調増加関数。0~1の値を取る。目的変数が0なら死亡、1なら生存(タイタニックモデルの場合)など決める。
σ(x)=1/1+exp(-ax)で表現されパラメータaが大きくなると階段みたいになる。Aを小さくすると、傾きが緩やかな関数となる。
シグモイド関数の微分はシグモイド関数自体で表現が可能
ロジスティック回帰ではベルヌーイ分布を活用する。
ベルヌーイ分布…片方は1、もう片方は1-pで離散確率分布のこと
生成されるデータはパラメータ(p)の値によって異なる。
P=py(1-p)1-p
最尤(サイユウ)推定…統計学において与えられたデータからそれが従う確率分布の母数を点推定する方法のことを言う
同時確率…確率変数が独立であると仮定できるため、掛け算にて求めることが可能となる
尤度関数…データを固定しパラメータを変化させることで最適なパラメータを求める手法
…このパラメータを最大化する推定方法を尤度推定という
尤度関数を微分してパラメータの傾きを知りたいが、wの掛け算による関数となっているため、対数を取ってあげて掛け算にした状態で計算をしてあげる。対数を取っても、尤度関数の最大値が同じになる点は証明されている。(証明は割愛)
勾配降下法…パラメータを逐次更新していく手法。
…1回の更新ですべてのデータを載せると、メモリ上、リソースが不足することがあるため、確率的勾配降下法という手法により解決を目指している。
確率的勾配降下法(SGD)…全てのデータではなく、更新データを一つまたは少数のみ見る
…ロジスティック回帰の場合、モデルとしてシグモイド関数を使用するため、値が大きくなれば目的関数も必ず大きくなるため、この関数がしばしば活用される。これが3次関数など、山や谷がいくつもある関数である場合には、SGDはあまり役に立たない。
モデルの検証方法
真陽性
偽陰性(モデルが間違って陰性だと判断)…ほんとに異常かどうかのチェックが必要
偽陽性(モデルが誤って陽性だと判断)…異常なものを異常でないとスルーしてしまう
真陰性
正解率…〇だったわりあい、真陽性
再現率…実際の正しい値の中で、何%を正しいと判定できたか。
自信がないやつは一応陽性にしておいて、あとでチェックする時などに使う。
誤りが多くても抜け漏れがないようにしたい場合に、この値を重要視する
(がんなのに、誤ってがんじゃないとスルーしてしまうような場合)
(追加でデータの再検証をする必要がある)
適合率…アルゴリズムが正と選んだものの中で、本当に正しかったものの割合。
自信があるやつだけ陽性とする。
(スパムでないメールはスパムとしてほしくないので、自信のあるものだけをスパムと判断するようなアルゴリズム)
F値…再現率と適合率はどちらも高いほうがいいが、双方はトレードオフの関係にあるため、双方の調和平均を取った値のこと。F値が高ければ高いほど、再現率と適合率の双方の値が大きいことを意味する。
タイタニック号のハンズオン
…ロジステック回帰のnumpyによる実装は動画のなかでは実施しないが、実際の試験の際には問われるため、コードの確認は必要。アルゴリズムのところのみをしっかり理解していればOK。ビジュアライズの方法についてはあまり問われない。
…Skitlearnのモデルを活用すれば簡単に値の計算をすることは可能であるが、各データの確率を算出する手法についても算出できるようにしておかないと、結果の説明が出来なくなる。
…等級と性別のデータを足して新たな変数を作成してみると、結果の次元を下げることが出来るし、わかりやすい解説が出来た。
主成分分析…次元削減の手法の一つ。要因の説明レベルを落とさずに、次元のみを減らしたい。
…情報の量を分散の大きさととらえれば、線形返還後の変数の分散が最大となる射影軸を探せばよい。
ラグランジュ関数…盲的カンストラグランジュ乗数に制約条件を計算したもの。これはいわゆる傾きが0になる点を求めているのと同じである。
ラグランジュ関数を微分…行列の2時形式の微分と同じ。これは固有値と固有ベクトルと同じである。分散を最大にするベクトルは、固有値固有ベクトルと同じである。
Vaar(X)aj = λaj
寄与率…圧縮した結果、どれだけ情報が削られたかをしるための値。分散を全て足し合わせたもの。全体の情報の中、どれくらいの情報をもっているのか、を調べる。
寄与率の計算…第一主成分のみのデータを使うことはほとんどないので、第二主成分・第三主成分・第四主成分を足し合わせることでどれくらいの割合の情報量を持っているかを調べることをいう。この値の大きさでどれだけ寄与、しているあがわかる。
累積寄与率という課題も大事。
説明する時には、「分散共分散の…」といっても理解してもらえないので、この主成分分析などを活用して、この二つの値でどれくらいの事象を説明できているんですよ、みたいな考え方を出来るようにする必要がある。上司説明や営業の際には特に大事。
KNN(K近傍方)…教師有学習。正解ラベルのあるデータと、計測したいデータの距離が近いK個のデータの中で多数決を取り、多いほうの正解ラベルを採用する手法。Kの個数は事前にパラメータとして設定してあげる必要がある。
Kmeans…教師なし学習。K個のグループにクラスタリング(分類)する手法。任意のK個の点を取りそれを中心として距離の平均が近い値達をグループ化。その後、できたグループの中心地K個を新たな中心として、再度各データとの距離を取り、これを繰り返すことによって最終的に安定した箇所を見るける手法。Kのパラメータ選びが重要であるため、ランダムではなく離れた場所に置くように設定するKmeans++という手法も昨今注目されている。