目次
ML モデリングの概要
ML モデルに関する A-E ブック
ステップ 1: 問題定義
ステップ 2: データ収集
ステップ 3: モデルの選択
ステップ 4: データの学習
ステップ 5: モデルのデプロイ
近年のML と AI アプリケーションは、間違いなく指数関数的な速度で成長しています。 このため、ML モデルと、それらを現実世界のシナリオで最新の状態に保つ方法について知ることが重要になります。 結局のところ、誰も取り残されたいとは思いません。
ML モデルとは
この ML モデルの定義はさまざまですが、基本的には、データを入力として受け取り、学習し、それに応じてトレーニングしてパターンを見つけ、学習に基づいて予測を行うモデル として説明できます。 面白そうですね。
ML モデルとは何かがわかったので、ML モデルが実際にどのように作成され、トレーニングされるかを見てみましょう。
ステップ 1: 解決する必要がある問題または実行する必要があるタスクを理解するという、最も基本的かつ本質的なタスクから始めます。 次に、データを取得し、モデルから必要な出力の種類を理解することを続けます。 ここでは、次のような質問に対する回答を収集します。
私たちの主な目的は何ですか?
どのような入力データが必要で、それが利用可能か?
モデルが使用される実際のシナリオは何ですか?
また、モデルはすでに与えられているデータでトレーニングされ、それに応じた予測を行うことも理解する必要があります。 ただし、日々のシナリオでは、データは変更される可能性があるため、モデルを頻繁に適応させ、最新の状態に保つ必要があります。
ステップ 2: 何をする必要があり、どのデータが必要かがわかったので、そのデータを取得して準備するという実際の作業を開始します。 モデルの精度と信頼性を決定する上で重要な役割を果たすため、高品質のデータを収集することは非常に重要です。
収集されたデータは、データ クリーニングと呼ばれるプロセスを経て、悪いリンゴを除外する必要があります。 面倒な作業のように聞こえるかもしれませんが、モデルの精度を確保するための非常に重要なステップです。 データのクリーニングには、いくつかの手順が含まれます。
モデルにとって役に立たない、不要、重複、または冗長なデータ フィールドを削除します。
データの転送中、または測定や入力中に発生する可能性のある構造エラーを修正します。
場合によってはモデルの精度に影響を与える可能性があるため、不要な外れ値を削除します。
データセット内の空のフィールドまたは欠損値の処理。 過去の経験に基づいて、それらを削除するか、何らかの価値を追加します。
ステップ 3: ここで、要件に基づいて、ニーズに最適なモデルを決定します。 モデルの選択は、数値データ、画像データ、音声データなど、処理されるデータによって異なります。 クラスタリング、回帰、分類、予測など、さまざまなアルゴリズムから選択します。
ステップ 4: 必要なものがすべて揃ったので、収集したデータを使用してモデルをトレーニングします。 より高いレベルの精度を達成できるように、モデルのトレーニングとテストを繰り返します。 データはトレーニング セットとテスト セットに分割され、モデルの検証に使用されます。
このステップでは、より高いレベルの精度と精度を達成しようとします。 場合によっては、目的の結果が得られない場合は、モデルにオーバーフィッティングまたはアンダーフィッティングの問題がある可能性があります。 この場合、モデルは、必要なレベルの精度が得られるまで再トレーニングおよび変更されます。
ステップ 5: これが最後のステップです。モデルを現実の世界で使用して予測を行う準備が整いました。
私たちのモデルが現実世界に出て、ライブデータを処理し、外出先で予測を行うようになったので、間違った結果や不十分な予測が見られるようになるかもしれません。 その背後にある理由を知りたいですか? これをよりよく理解するために、次のブログまでお付き合いください :)
それまでの間、私と私のチームが本番環境で ML モデルの観察と改善に取り組んでいるオープンソース プロジェクトをチェックしていただき、スターを付けてサポートを示してください ⭐: https://github.com/uptrain-ai/uptrain