機械学習エンジニアの木村です。AI(人工知能)への注目度が高まっています。AIは、あなたを幸せにするのでしょうか?
「幸せな人生とは、探して見つかるものではなく、自分で作っていくものです」
You do not find the happy life. You make it.
幸せな人生を作って行きたいならば、利用しない手は、ないでしょう。ただ、仕組みをわかってないと、使いこなす事は、出来ないでしょう。そのため、仕組みを理解する為の支援をさせて頂きます。
☝️ まずは、AI(人工知能)に注目してみます。
人工知能(Artificial Intelligence、AI)とは、人間の知能を模倣した機械の知能のことです。AIの研究は、1950年代に始まり、1997年には、IBMのコンピューター「ディープ・ブルー」が世界チャンピオンのチェスプレイヤーを破り、AIの可能性を世界に示しました。機械学習とは、大量のデータからパターンを学習する技術です。
機械学習のモデルは、アルゴリズムに基づいて学習し、未知のデータに対して予測や判断を行うための数学的な表現です。モデルは訓練データから学習し、その学習結果を用いて新しいデータに対する予測や意思決定を行います。
AIの代表的な技術
◆機械学習
データから学習することで、新しいデータに対しても予測や判断ができるようになる能力です。例えば、教師あり学習では過去のデータからパターンを学び、未知のデータに対して予測を行います。
◆自然言語処理
人間の言語を理解し、生成する能力です。これにより、文章の要約や翻訳、質問応答などが実現されます。例えば、文章の中からキーワードを抽出したり、文章を生成したりします。
◆コンピュータービジョン
画像や動画を理解する能力です。物体認識、画像分類、顔認識などがこれに該当します。例えば、画像から物体を検知したり、顔を認識したりします。
◆ロボティクス
物理的な世界を操作する能力です。ロボットが自律的に動作し、環境に応じて適切な行動を取ることができます。例えば、自動運転車や産業用ロボットがこれに該当します。
活用されている分野
製造業では、
生産ラインの自動化や品質管理において、AIが効果的に活用されています。製造プロセスの最適化や異常検知などにAIのアルゴリズムが応用されています。
金融では、
詐欺の検出や投資の判断において、AIが貢献しています。不正行為のパターンを学習し、リアルタイムで取引を監視することで、金融取引のセキュリティを向上させています。
医療では、
診断や治療の支援において、AIが有用です。医療画像の解析や患者データのマイニングによって、早期の病気の発見や個別化された治療法の提案が可能となっています。
交通では、
交通状況の予測や自動運転技術の開発において、AIが活躍しています。リアルタイムなデータ解析に基づいた交通制御や、車両が自律的に走行する技術などが含まれます。
武器開発では、
AIは、自律型兵器システムの開発に利用されています。これらの兵器は、AIによって搭載されたセンサーやアルゴリズムによって目標を特定し、攻撃を行う能力を持っています。例えば、ドローンやロボット兵器がこれに該当します。
☝️ 次にアーキテクチャについて、考えて見たいと思います。
機械学習では、なぜ、モデルを作成するのか?
機械学習においてモデルを作成する主な目的は、データからパターンや関係性を抽出し、未知のデータに対する予測や意思決定を行うためです。
予測
モデルは、新しいデータに対して予測を行うために使用されます。これは、例えば未来の売上予測、顧客の行動予測、画像認識、音声認識など、様々な応用があります。
分類や回帰のタスク
モデルは、データを異なるクラスに分類する分類タスクや、数値を予測する回帰タスクに使用されます。例えば、メールがスパムかどうかを分類するモデルや、住宅価格を予測するモデルなどがあります。
異常検知
モデルは、通常のデータのパターンを学習し、それに基づいて異常や異常な振る舞いを検出するために使用されます。セキュリティ分野などで異常検知が利用されます。
特徴の理解
モデルは、データの中で重要な特徴やパターンを抽出し、その理解を提供する役割も果たします。これにより、ビジネスや科学の意思決定がサポートされます。
最適化
モデルは、特定の目標を最適化するために使用されることがあります。例えば、製造プロセスの最適化、広告キャンペーンの効果的な配信などが挙げられます。
モデルは、トレーニングデータから学習し、その学習を元に未知のデータに対して一般化された予測を行うことが期待されます。モデルの作成は、問題に応じて異なるアルゴリズムや手法を選択し、トレーニングデータを用いてそのパラメータを調整するプロセスです。
モデルの作成(例:アイスクリームの売り上げを予測)
+---------------------+ +---------------------+ +---------------------+
| ①問題の定式化 ②データの準備 ③データの集合と統合
|
| 🎯 📊 🔀
|
+-----------+---------+ +---------------------+ +---------------------+
①気温と売り上げの関係をモデル化
②過去のデータセットから気温とアイスクリームの売り上げデータを取得
③データをトレーニングデータセットとテストデータセットに分割
|
v
+----------------------------------------------------------------+
| データの可視化と分析
| 📈
| 散布図や統計的手法を使用してデータの傾向や関係性を観察
+----------------------------------------------------------------+
|
v
+----------------------------------------------------------------+
| 特徴量エンジニアリング
| 🛠️
| 特徴量を適切に選択し、必要に応じて変換や生成を行う
+----------------------------------------------------------------+
|
v
+----------------------------------------------------------------+
| モデルトレーニング
| 🤖
| 選択した機械学習モデルをトレーニングデータに適用し学習させる
+----------------------------------------------------------------+
|
v
+----------------------------------------------------------------+
| モデル評価
| 📊
| テストデータでモデルの性能を評価
+----------------------------------------------------------------+
|
v
+----------------------------------------------------------------+
| 本番環境の準備:予測の実行
| 🚀
| 新しい気温データが与えられたときに、モデルを使用してアイスクリームの売り上げを予測
+----------------------------------------------------------------+
機械学習と生成AI(Generative AI)の違い
機械学習 (Machine Learning)
機械学習で用いられるアルゴリズムは、大きく分けて「教師あり学習」「教師なし学習」「強化学習」の3つに分類されます。
教師あり学習では、
すでに正解が存在するデータセットを与えることで、モデルが正解に近づくように学習を行います。例えば、画像データから犬と猫を分類するモデルを学習させる場合、犬と猫の画像データと、その画像が犬か猫かの正解ラベルを与えることで、モデルは犬と猫の特徴を学習していきます。
教師なし学習では、
正解が存在しないデータセットを与えることで、モデルがデータの中から特徴を抽出するように学習を行います。例えば、顧客の購買データから顧客をセグメントするモデルを学習させる場合、顧客の性別、年齢、居住地などのデータを与えることで、モデルは顧客の共通の特徴を学習していきます。
強化学習では、
モデルが試行錯誤を繰り返すことで、最適な行動を学習します。例えば、自動運転の車が障害物を回避するために、車のカメラから取得した画像から障害物の位置を推測し、障害物を回避するように行動を制御するモデルを学習させる場合、車は実際に走行しながら、障害物を回避できた行動と回避できなかった行動を学習していきます。
生成AI (Generative AI)
生成AIは、新しいデータやコンテンツを生成することが主な目的となる技術や手法を指します。生成AIは、ディープラーニングの一分野である生成モデル(Generative Models)が含まれます。
生成AI(Generative AI)は、機械学習の一分野で、新しいデータやコンテンツを生成するためのアルゴリズムやモデルを指します。これらのモデルは、学習データから学習し、元のデータとは異なるが自然な形で新しいデータを生成することができます。生成AIは、様々なアプリケーションやクリエイティブな活動に利用されています。
画像生成
- GAN(Generative Adversarial Network) GANは、生成器(Generator)と識別器(Discriminator)と呼ばれる2つのネットワークが対抗的な関係で学習し合う仕組みです。生成器は本物のデータに似たデータを生成し、識別器はそれが本物かどうかを判別します。これにより、高品質な画像が生成されることがあります。
テキスト生成
- 言語モデル GPT(Generative Pre-trained Transformer)などの言語モデルは、大量のテキストデータから学習し、文章や文章の一部を生成することができます。これを利用して文章の自動生成や文章の補完が行われます。
音声生成
- WaveGAN 音声合成において、WaveGANは生成的なアプローチを採用して、自然な音声を生成することが可能です。これは、音声波形を直接生成するモデルです。
クリエイティブなアート
- ディープドリーム ニューラルネットワークが学習した特徴を利用して、夢幻的で幻想的なアートを生成する手法です。画像の特定の特徴を強調して拡大することで、独自のクリエイティブな成果物が生まれます。
生成AIはクリエイティブなアプリケーションやデザイン、アート、データ拡張など様々な分野で活用され、新しいアイディアやコンテンツの生成に寄与しています。
生成AI(Generative AI)は、機械学習の一分野で、新しいデータやコンテンツを生成するためのアルゴリズムやモデルを指します。生成AIは、入力データから学習し、その学習に基づいて新しいデータやコンテンツを生成することができます。これにより、人間の創造性に近いタスクを遂行する能力が向上します。
生成AIの代表的な手法やモデル
生成敵対的ネットワーク(GAN, Generative Adversarial Network)
- GANは、2つのネットワーク、ジェネレータとディスクリミネータ、が相互に競い合いながら学習します。ジェネレータは本物のデータに似たデータを生成し、ディスクリミネータはそれを本物と区別するための学習を行います。この競争により、生成されたデータはより本物に近づきます。
変分オートエンコーダ(VAE, Variational Autoencoder)
- VAEは、潜在空間(latent space)と呼ばれる特定の表現を学習し、それを使用して新しいデータを生成します。VAEは確率的な構造を持ち、生成されるデータのバリエーションを考慮することができます。
リカレントニューラルネットワーク(RNN, Recurrent Neural Network)
- RNNは、系列データや文章の生成に利用されます。過去の情報を保持し、新しいデータを文脈に基づいて生成することができます。
つまり、機械学習はデータから学習して予測や分類を行う一般的なフレームワークを指し、生成AIは新しいデータやコンテンツを生成するための特定の手法や技術を指します。ただし、生成AIの手法もデータから学習する側面があり、
その境界は時折曖昧になります。
☝️ そのため、もう少し、深掘りして見ましょう。
機械学習アルゴリズム
機械学習は、コンピュータプログラムがデータから学習し、その学習結果を元に新しいデータを予測したり、意思決定したりする手法の総称です。
教師あり学習 (Supervised Learning)
正解ラベルが付与された訓練データを使用して、モデルをトレーニングし、新しいデータに対して予測を行います。例としては分類や回帰があります。
教師なし学習 (Unsupervised Learning)
正解ラベルがないデータセットから構造を抽出します。例としてはクラスタリングや次元削減があります。
強化学習 (Reinforcement Learning)
エージェントが環境と相互作用し、報酬を最大化するために学習します。例としてはゲームプレイやロボットの制御があります。
正解ラベル(Ground Truth)は、
機械学習やデータ分析の文脈で使用される用語で、モデルの予測と比較するための真実の値または正確なラベルを指します。正解ラベルは、教師あり学習の訓練データや評価データにおいて、各データポイントに対して予測されるべき正しいクラスや値を示します。
分類(Classification)
例えば、手書き数字の認識の場合、各数字には正解ラベルがあります。数字が「0」か「1」かなどのクラスに分類される場合、それぞれの手書き数字には正解ラベルが付与されています。
回帰(Regression)
住宅価格予測の場合、正解ラベルは各住宅の実際の価格です。モデルが予測した価格と正解ラベルを比較して、予測の精度を評価することができます。
クラスタリング(Clustering)
クラスタリングの場合、正解ラベルが存在するかどうかによって、教師ありと教師なしのクラスタリングが分かれます。正解ラベルが存在する場合、教師ありクラスタリングとなります。
正解ラベルはモデルの評価や性能の測定に利用され、モデルがどれだけ正確に予測できるかを評価するための基準として重要です。
教師あり学習 (Supervised Learning)
教師あり学習は、正解ラベルが付いたデータを用いてモデルを訓練し、未知のデータに対する予測を行う機械学習の手法です。
◆ロジスティック回帰 (Logistic Regression)
- 2クラス分類に使用される。
- 線形モデルを用いて、入力特徴とクラスの関係をモデル化する。
2クラス分類(二項分類)に使用される統計的な手法。確率を出力し、0.5を閾値にして分類を行います。例えば、メールがスパムか否かの判定や、顧客が製品を購買する確率の推定などに利用されます。
◆デシジョンフォレスト (Decision Forest)
- アンサンブル学習の一形態であり、複数の決定木を組み合わせる。
- 分類や回帰に使用され、過学習への耐性がある。
アンサンブル学習の一形態で、複数の決定木を組み合わせて分類や回帰を行います。個々の決定木が弱学習器であり、まとめることで強力なモデルを構築できます。
◆デシジョンジャングル (Decision Jungle)
- デシジョンフォレストの一種で、大規模なデータセットに対応できる。
- 複数の決定木のアンサンブルであり、高い精度が期待される。
デシジョンフォレストの一種で、大規模なデータセットに対応できるように拡張された手法。非線形な関係性をモデリングするのに適しています。
◆ブーストデシジョンツリー (Boosted Decision Trees)
- 弱い学習器を組み合わせて強力なモデルを構築する手法。
- 前の学習器の誤りを次の学習器が修正する形で学習が進む。
弱い学習器(浅い決定木など)を組み合わせて、強力なモデルを構築します。反復的にモデルを改善することで、高い性能が期待されます。
◆ニューラルネットワーク (Neural Networks)
- ニューロンの結合構造を模倣して学習するモデル。
- 隠れ層を持つ深層学習は、非線形な関係性をモデル化するのに適している。
ニューロンの結合構造を模倣して学習するモデル。多層の隠れ層を持つ深層学習モデルも含まれます。画像認識、音声認識、自然言語処理など幅広いタスクに適用可能。
◆SVM(サポートベクターマシン) (Support Vector Machines)
- 線形および非線形の分類や回帰に使用される。
- ハードマージンやソフトマージンなどがあり、データを分割する境界を見つける。
線形および非線形の分類や回帰に使用される手法。データを高次元の特徴空間に写像し、その空間で最適な境界を見つけます。データの分布を最適に分離する境界を見つけ、未知のデータに対する決定を行います。
教師なし学習 (Unsupervised Learning)
教師なし学習(Unsupervised Learning)は、ラベルのないデータセットからパターンや構造を見つけ出す機械学習のアプローチです。つまり、アルゴリズムはデータセット内の構造や相関を抽出し、パターンを発見することが目的とされます。
◆クラスタリング (Clustering)
クラスタリングは、データを類似性に基づいてグループに分割する手法です。似たようなデータが同じクラスタに所属するようにクラスタリングアルゴリズムはデータを自動的にグループ分けします。代表的なクラスタリング手法には以下があります。
- k-平均法 (k-Means) データをk個のクラスタに分割する手法。
- 階層クラスタリング (Hierarchical Clustering) クラスタを階層的に組み合わせる手法。
◆次元削減 (Dimensionality Reduction)
次元削減は、データセットの特徴量の数を減らすことで、データを理解しやすくし、可視化や処理の効率向上を図る手法です。
- 主成分分析 (Principal Component Analysis, PCA) データの分散が最大となる新しい軸(主成分)を見つけ、次元を削減する手法。
- t-分布確率的近傍埋め込み (t-Distributed Stochastic Neighbor Embedding, t-SNE) データポイントの間の類似性を保ちつつ、高次元データを2次元または3次元に圧縮する手法。
◆異常検知 (Anomaly Detection)
異常検知は、通常のデータとは異なるパターンを持つ異常なデータを検出する手法です。
- k-近傍法 (k-Nearest Neighbors, k-NN) データポイントの周りに最も近いk個のデータポイントを見て異常度を計算する手法。
生成モデル (Generative Models)
生成モデルは、与えられたデータセットから新しいデータを生成することができる手法です。代表的な生成モデルには GAN (Generative Adversarial Network) や VAE (Variational Autoencoder) があります。
教師なし学習は、特にラベルのないデータに対して有用であり、データセットの構造を理解し、隠れたパターンを見つけるのに役立ちます。
強化学習 (Reinforcement Learning)
強化学習は、エージェントが環境と対話しながら、与えられたタスクに対して最適な行動を学習する機械学習の分野です。
Q学習 (Q-Learning)
Q学習は、エージェントが状態と行動のペアに関連づけられたQ値を学習する手法です。エージェントは環境内を行動し、その結果として得られる報酬をもとに最適な行動を学習します。Q値は状態と行動のペアに対して与えられる行動の価値を表します。エージェントはQ値を更新することで、最適な行動を選択するように学習します。
◆ゲーム
Q学習はエージェントがゲーム内でどのように行動するかを学習するのに使用されます。これは、ゲーム内の状態や報酬に基づいて最適な行動を選択するためです。
◆ロボット制御
ロボットの制御や自動車の制御など、エージェントが行動を選択して環境に影響を与える問題にQ学習が利用されます。エージェントは報酬を最大化するような行動を学習します。
◆交通制御
交通シミュレーションや交通制御において、Q学習は信号の最適な制御戦略を見つけるのに応用されます。エージェントは異なる行動(信号の制御変更など)に対して報酬を受け取り、最終的には最適な交通フローを学習します。
◆リソース管理
ネットワークやデータセンターなどのリソース管理において、Q学習は異なる状態や負荷に対して最適なリソース割り当てを学習するのに利用されます。これにより、システムの性能が最適化されます。
◆制御システム
Q学習は、様々な制御システムに適用され、システムのパフォーマンスを向上させます。例えば、エネルギー管理、生産ライン制御、倉庫ロボットの調整などが挙げられます。
強化学習は、試行錯誤と報酬信号を通じてエージェントが最適な方策(行動の戦略)を学習する手法を提供します。
要素
エージェント(Agent)
- 学習する主体。行動を選択し、環境との相互作用を通じて学習します。
環境(Environment)
- エージェントが存在するコンテキスト。エージェントの行動に対する反応として、報酬信号が提供されます。
行動(Action)
- エージェントが取ることができる行動の選択肢。これらの行動が環境に影響を与えます。
報酬(Reward)
- エージェントがある行動をとったときに得られる数値。目標は、総報酬を最大化する方策を学習することです。
方策(Policy)
- エージェントがある状態で取るべき行動を定義する戦略。方策は、状態空間から行動空間へのマッピングとして定義されます。
価値関数(Value Function)
- 各状態や状態と行動の組み合わせに対して、将来の報酬の期待値を評価する関数。状態価値関数や行動価値関数があります。
課題
偏り(Bias)
学習データに偏りがあると、モデルの予測結果もその偏りを反映する可能性があります。これはまるで、アイスクリームの店で特定のフレーバー(例えば、バニラ)が他のフレーバーよりも圧倒的に人気であるかのような状況です。お店が主にそのフレーバーに焦点を当てている場合、他の美味しいフレーバー(例えば、抹茶)が見過ごされ、売り上げが下がる可能性があります。同様に、学習データが特定のクラスに偏っていると、モデルもその傾向に従ってしまい、他のクラスの重要性が低く評価され、予測のバリエーションや品質が損なわれる可能性があります。データセット全体のバランスを取ることが重要です。
説明可能性(explainability)
AIがどのように意思決定したのかを説明することが難しい場合があります。特に深層学習モデルはブラックボックスとされることがあり、まるで魔法のように結果が出ることがあります。これは、お菓子の店での売り上げが急に下がるケースを考えてみましょう。店舗オーナーはAIを導入してアイスクリームの新しいフレーバーを提案しましたが、具体的な理由や背後にあるメカニズムが理解できないため、スタッフや顧客は納得せず、新しいフレーバーの導入に反対する可能性があります。透明性がないため、なぜその新しいフレーバーが選ばれたのか、どのようにして提案されたのかを説明することができないため、信頼性や説得力が失われ、売り上げが下がる可能性があります。
偏り(Bias)
モデルが訓練データの特定の側面に対して傾いていることを指します。これは、過去のデータセットやモデル訓練の方法に起因する可能性があります。
-
影響
-
公平性の喪失 偏りがあると、モデルは特定のグループや属性に対して不公平な予測を行う可能性があります。これは社会的な偏りを強化する可能性があります。
-
予測の信頼性低下 偏りがあると、モデルの一般化性能が低下し、新しいデータに対する予測が信頼できなくなる可能性があります。
-
説明可能性(Explainability)
モデルがどのように意思決定を行うのかを理解しやすく説明できる程度を指します。
-
影響
-
信頼性の向上 モデルが説明可能であれば、ユーザーやステークホルダーはモデルの意思決定プロセスを理解し、信頼できると感じやすくなります。
-
不正確な予測の特定 説明可能性が高いモデルでは、誤った予測が行われる理由を特定しやすくなります。これはモデルの修正や改善に役立ちます。
-
偏りの対処
- トレーニングデータのバイアスを減少させるために、多様なデータセットを使用する。
- モデルの評価時に偏りを検出し、調整するためのメトリクスを導入する。
- フェアネスに関するガイドラインや規制を導入し、公正性を保つ。
説明可能性の向上
- モデルアーキテクチャを選択する際に、説明可能なモデルを選ぶ。
- モデルの意思決定プロセスを可視化する手法や手段を導入する。
- 局所的な説明(個々の予測に対する説明)やグローバルな説明(全体のモデルに対する説明)を提供する手法を利用する。
例えば、これをAzure MLで対応する場合
Responsible AI(RAI)ダッシュボードを構成します。
-
Fairness(公平性)の評価と特定
- アクション まず、モデルの予測結果に対する公平性を評価し、特に異なるグループや属性に対する偏りを特定します。
- 手順 Fairnessの評価は、予測の結果を異なるサブグループ(例:性別、人種など)に分割し、それぞれのサブグループにおける予測のパフォーマンスを評価します。
-
説明可能性の向上
- アクション モデルの予測がどのように行われているかを理解しやすくするために、モデルの説明可能性を向上させます。
- 手順 SHAP (SHapley Additive exPlanations) や LIME(Local Interpretable Model-agnostic Explanations)などの手法を使用して、個々の予測やモデル全体の解釈可能な情報を得ます。
-
RAI ダッシュボードの構築
- アクション 構築したモデルに対する公平性と説明可能性の結果を統合し、RAI ダッシュボードを構築します。
- 手順 Azure Machine Learning ワークスペースの Responsible AI 機能を使用して、公平性と説明可能性の結果を統合し、ダッシュボードを構築します。これにより、モデルの使用者がモデルの挙動をモニタリングし、必要に応じて調整できるようになります。
これらのアクションを順に実行することで、Responsible AI ダッシュボードを構築し、異なるモデルの予測結果に合わせて変更する特徴を特定するための基盤を築くことができます。
混同行列(Confusion Matrix)
分類モデルの性能を評価するための表です。分類問題では、モデルが予測したクラスと実際のクラスとの関係を示します。混同行列には4つの要素が含まれます。
真陽性(True Positive, TP)
モデルが正しくクラスを正と予測したサンプルの数。
真陰性(True Negative, TN)
モデルが正しくクラスを負と予測したサンプルの数。
偽陽性(False Positive, FP)
モデルが実際は負であるにもかかわらず、正と予測したサンプルの数。
偽陰性(False Negative, FN)
モデルが実際は正であるにもかかわらず、負と予測したサンプルの数。
これらの要素を組み合わせて、混同行列が作成されます。
| | 予測陰性 (Predicted Negative) | 予測陽性 (Predicted Positive) |
|-----------------------------|-------------------------------|-------------------------------|
| 実際陰性 (Actual Negative) | TN | FP |
| 実際陽性 (Actual Positive) | FN | TP |
混同行列を用いることで、モデルの性能を以下の指標で評価できます。
-
正確度(Accuracy)
(TP + TN) / (TP + TN + FP + FN)
正確度は、モデルが正しく予測したサンプルの割合を示します。
例).
正解 コロナ陽性90個のPositive(P)とコロナ陰性不正解 80個のNegative(N)サンプルがある。モデルの予測 85個のコロナ陽性Pを正しく、75個のコロナ陰性Nを正しく予測。
正確度 = (85 + 75) / (90 + 80) = 160 / 170 ≈ 0.9412 (約94.12%)
この場合、モデルは約94.12%の正確度を示しています。
-
適合率(Precision)
TP / (TP + FP)
適合率は、モデルがPositiveと予測したものの中で、実際にPositiveだった割合を示します。
例).
モデルの予測 85個のPositive(P)と15個のNegative(N)。そのうち、80個が実際にPで、5個が実際にN。
適合率 = 80 / (85) ≈ 0.9412 (約94.12%)
この場合、モデルは約94.12%の適合率を示しています。つまり、モデルがPositiveと予測した中で約94.12%が実際にPositiveであると言えます。
-
再現率(Recall)
TP / (TP + FN)
再現率は、実際にPositiveなサンプルのうち、モデルが正しくPositiveと予測した割合を示します。
例).
実際のPositive(P) 90個。モデルの予測 85個がPositiveと予測され、残りの5個がNegativeと予測された。
再現率 = 85 / (90) ≈ 0.9444 (約94.44%)
この場合、モデルは約94.44%の再現率を示しています。つまり、実際のPositiveなサンプルのうち約94.44%がモデルによって正しくPositiveと予測されました。
-
F1スコア 2 *
(Precision * Recall) / (Precision + Recall)
F1スコアは、適合率と再現率の調和平均です。適合率と再現率のバランスを示します。
例).
適合率 = 0.9412, 再現率 = 0.9444
F1スコア = 2 * (0.9412 * 0.9444) / (0.9412 + 0.9444) ≈ 0.9428 (約94.28%)
この場合、モデルのF1スコアは約94.28%となります。F1スコアが高いほど、適合率と再現率の両方が良好であることを示しています。
これらの指標を通じて、モデルがどれだけ正確で、どの程度のサンプルを正しく特定できるかを評価することができます。
モデルの挙動を理解し、改善のための戦略を考える際に有用です。特に誤分類の傾向や偏りを把握するのに役立ちます。
つまり、機械学習の課題であるデータの 「偏り、説明可能性」 を改善するのに役立ちます。
XGBoost(eXtreme Gradient Boosting)
勾配ブースティングを用いたアンサンブル学習アルゴリズムです。決定木(Decision Tree)を基にしており、複数の決定木を組み合わせて強力なモデルを構築します。
ここでは、決定木とXGBoostの例を用いて、天気を予測するシンプルなケースを考えてみましょう。
決定木の例
天気と外出の関係のデータがあるとします。
天気 | 温度 | 湿度 | 外出 |
---|---|---|---|
晴れ | 30℃ | 60% | 外出する |
雨 | 18℃ | 90% | 外出しない |
曇り | 25℃ | 75% | 外出する |
雨 | 15℃ | 80% | 外出しない |
このデータを元に、決定木を構築すると、次のようになります。
if 天気 == "晴れ":
if 温度 > 28℃:
外出する
else:
外出しない
elif 天気 == "雨":
外出しない
elif 天気 == "曇り":
外出する
XGBoostの例
XGBoostが構築したモデルは、各特徴量の重要度を考慮して予測を行います。たとえば、「晴れ」や「雨」が外出の予測にどれくらい寄与しているかを考慮します。XGBoostの内部では、多くのハイパーパラメータや正則化が行われ、決定木の過学習を抑制し、高い予測性能を実現しています。
同じデータセットを使用して、XGBoostを使って予測モデルを構築すると、複数の決定木が組み合わさります。XGBoostでは、これらの決定木を「弱学習器」として利用します。弱学習器は単体では性能が低いモデルであり、ランダムに予測するよりもわずかに良い程度の性能しか持っていません。しかし、アンサンブル学習では、これらの弱学習器を組み合わせることで、強力なモデルを構築することができます。
気温が28度であり、雨でも興味があるイベントがある場合は外出するという条件を考慮した弱学習器(決定木)
if 気温 == 28℃:
if 天気 == "雨" and 興味があるイベント:
外出する
else:
外出しない
else:
他の条件に従って予測(他の弱学習器も考慮)
この決定木は、気温が28度で、かつ雨でも興味があるイベントがある場合は外出するという条件を追加しています。これがアンサンブル学習の一部として使用されることで、モデル全体の予測性能が向上することが期待されます。
機械学習を活用するためには、AWS(Amazon Web Services)やAzure(Microsoft Azure)などのクラウドプロバイダが提供するサービスを利用することが出来ます。
AWS (Amazon Web Services)
Amazon SageMaker
- フルマネージドな機械学習サービス。
- モデルの構築、トレーニング、デプロイを容易に行うことができます。
- 様々なアルゴリズムやフレームワークをサポート。
Amazon Comprehend
- テキストの自然言語処理(NLP)に特化したサービス。
- 感情分析、キーフレーズ抽出、トピックモデリングなどが可能。
Amazon Rekognition
- 画像およびビデオの分析を提供するサービス。
- 顔認識、オブジェクト検出、テキスト検出など。
Azure (Microsoft Azure)
Azure Machine Learning
- フルマネージドな機械学習サービス。
- モデルのトレーニング、デプロイ、モニタリングが可能。
- 自動機械学習(AutoML)もサポート。
Azure Cognitive Services
- 画像認識、音声認識、自然言語処理など複数のAIサービスが統合されたプラットフォーム。
- Vision、Speech、Language、DecisionなどのAPIが提供されている。
Azure Databricks
- Apache Spark ベースの分析プラットフォーム。データの前処理や分析に利用される。
これらのサービスを使用することで、機械学習モデルの構築からデプロイまでを効率的に行うことができます。