データ、分析、AI の魅力的な世界に飛び込みたいと決心したとしても、どこから始めればよいのかわかりません。理解する必要があるテクノロジーや習得する必要があるツールをすべて見るだけで、目がくらむようなことがあります。最初にどのようなデータ サイエンスの手順を実行しますか?
幸いなことに、最初のデータ分析プロジェクト計画を立てるのは、思っているほど難しくありません。Dataikuのような、あらゆる背景や専門レベルの人々に力を与えるように設計されたツールから始めることは役に立ちますが、最初にデータサイエンスプロセス自体を理解する必要があります。データを活用しAIを使って高い成果を上げるには、何よりもまず、データ分析プロジェクトの基本的なステップとフェーズを学習し、ローデータの準備から機械学習モデルの構築、そして最終的には本番稼働化に至るまで、それらに従っていくことが重要です。
→詳細を読む:適切なAIプロジェクトに取り組み、最適なROIを実現する
以下は、このエキサイティングな分析とAI(生成AIを含む)の時代における、データ分析プロジェクト計画の基本的な手順に従ったデータプロジェクトの定義に関する、私たちの見解です。これらの7つのデータサイエンスのステップは、それぞれの固有のプロジェクトからビジネス価値を確実に実現し、エラーのリスクを軽減するのに役立ちます。
ステップ 1: ビジネスを理解する
データプロジェクトが含まれるビジネスやアクティビティーを理解することは、そのプロジェクトを確実に成功させ、健全なデータ分析プロジェクトの最初の段階を確実に進めるための鍵となります。プロジェクトを設計から本番稼働まで進めるために連携する必要があるさまざまな関係者にモチベーションを与えるには、プロジェクトが組織の明確なニーズに応えるものでなければなりません。データについて考える前に、(単なるスプレッドシートの使用という枠を超え)データを使用することであなたが改善しようとしている対象のプロセスやビジネスを担当している人々にアプローチして話をしてください。次に、タイムラインと具体的なKPIを定義します。計画とプロセスは退屈に思えるかもしれませんが、最終的には、データへの取り組みを開始するための重要な最初のステップです。
個人的なプロジェクトに取り組んでいる場合、またはデータセットやAPIをいじっているという場合、この手順は無関係に見えるかもしれません。そうではありません。クールなオープンデータセットをダウンロードするだけでは十分ではありません。モチベーション、方向性、目的を持つためには、データを使って何をしたいのかという明確な目的を特定する必要があります。それはすなわち、答えるべき具体的な課題、構築すべきデータプロダクトなどです。
ステップ 2: データを取得する
目標を把握したら、データ分析プロジェクトの第2フェーズであるデータの検索を開始します。できるだけ多くのデータソースからのデータを混合および結合することがデータプロジェクトを優れたものにするため、可能な限り広範囲に目を向けてください
使用可能なデータを取得する方法は次のとおりです。
データベースに接続する: データチームやITチームに利用可能なデータを問い合わせるか、プライベートデータベースを開いて調査を開始し、会社が収集している情報を理解します。
Dataikuのプロジェクトダッシュボードには、既存のデータベースへの接続など、新しいデータセットを作成するためのいくつかのオプションが用意されています。
APIを使用する: あなたの会社が使用しているすべてのツールと、彼らが収集しているデータへのAPIについて考えてみましょう。メールの開封やクリックの統計、営業チームがPipedriveやSalesforceに入力した情報、誰かが送信したサポートチケットなどを使用できるように、これらすべてを設定する作業を行う必要があります。プログラマーでない場合は、Dataikuのプラグインを活用し外部データを取り込む方法が豊富にあります。
オープンデータを探す: インターネットには、追加情報を追加して手持ちのデータを充実させるためのデータセットが豊富にあります。たとえば、国勢調査データは、ユーザーが住んでいる地区の平均収益を追加するのに役立ちます。また、OpenStreetMapは、特定の通りにあるコーヒーショップの数を示すことができます。多くの国には(米国のdata.govのような)オープンデータプラットフォームがあります。
ステップ 3: データを探索してクレンジングする
データサイエンスの次のステップは、通常、データプロジェクトに費やす時間の最大80%がかかるデータ準備のプロセスです。
データを取得したら、データ分析プロジェクトの3番目のフェーズでの作業を開始します。何が得られるのか、そして元の目標を達成するためにすべてをどのように結び付けることができるのか、掘り下げて確認しましょう。最初の分析についてメモを取り始め、ビジネス担当者、ITチーム、またはその他のグループに質問して、すべての変数の意味を理解してください。
次のステップ(そしてこれまでで最も恐ろしいステップ)は、データのクレンジングです。たとえば、国情報があるにもかかわらず、スペルが異なっていたり、データが欠落していたりすることにおそらく気づいたでしょう。すべての列を調べて、データが均一でクリーンであることを確認します。
スプレッドシートでは分からないこと: Dataikuを使用すると、データのクリーン度を包括的に把握できるため、モデルを構築する前に注意が必要なデータポイントを見つけることができます。
これはおそらく、データ分析プロジェクトの中で最も長く、最も面倒なステップです。少しの間は苦しいかもしれませんが、最終目標に集中し続ける限り、必ず乗り越えられます。これを簡単にするために、DataikuのAI Prepare(近日公開予定)を使用すると、これまで以上に幅広いスキルを持つ人が、データに対して実行したい内容を入力するだけで、本番環境に対応したデータ変換を構築できます。これにより、何を行う必要があるかを知ることと、エンタープライズデータベースやクラウド環境でそれを実行することとの間の最後の障壁が打開されます。
最後に、データ準備において見落としてはならない非常に重要な要素の1つは、データとプロジェクトがデータプライバシー規制に準拠していることを確認することです。個人データのプライバシーと保護は、ユーザー、組織、議員にとっても同様に優先事項となっており、データジャーニーの最初からそれを考慮する必要があります。プライバシーに準拠したプロジェクトを実行するには、すべてのデータの取り組み、ソース、データセットを1つの場所またはツールに集中させてガバナンスを促進する必要があります。次に、個人データや機密データを含むデータセットやプロジェクトを明確にタグ付けする必要があるため、別の方法で扱う必要があります。
ステップ 4: データセットをエンリッチ化する
クリーンなデータが得られたら、次はそれを操作して、データから最大限の価値を引き出します。プロジェクトにおけるデータエンリッチのためのフェーズを開始するには、さまざまなソースとグループログをすべて結合して、データを重要な特徴量に絞り込む必要があります。その一例は、次のような時間ベースの特徴量を作成してデータをエンリッチ化することです。
- (月、時間、曜日、週など)の抽出
- 日付列間の差異の計算
- 祝日のフラグ付け
データを強化するもう1つの方法は、データセットを結合することです。つまり、基本的には、1つのデータセットまたはタブから列を参照データセットへと抽出します。これはあらゆる分析の重要な要素ですが、ソースが豊富にある場合はすぐに悪夢になる可能性があります。幸いなことに、Dataikuなどの一部のツールを使用すると、特定の微調整された基準に基づいてデータを簡単に取得したり、データセットを結合したりすることで、簡素化されたプロセスを通じてデータをブレンドできます。
データを収集、準備、操作するときは、意図しないバイアスやその他の望ましくないパターンがデータに挿入されないように特に注意する必要があります。実際、機械学習モデルやAIアルゴリズムの構築に使用されるデータは、多くの場合、外界を表現したものであるため、特定のグループや個人に対して大きく偏っている可能性があります。バイアスのあるデータに基づいてモデルをトレーニングすると、反復的なバイアスは修正すべきものではなく、再現すべき決定であると解釈されます。DataikuとDatabricksが行った調査によると、AIリーダーの55%が、AIに関する懸念は正当であり、AIの将来について興奮するよりも不安を抱いていると報告していることはおそらく驚くべきことではありません。
このため、データ操作プロセスの重要な部分は、使用されるデータセットが、偏った、不当な、または不公平な出力につながる可能性のあるバイアスを再現または強化していないことを確認することです。機械学習モデルの意思決定プロセスを考慮し、それを解釈できることは、今日、データサイエンティストにとって、最初にモデルを構築できることと同じかそれ以上に重要な資質となっています。
ステップ 5: 役立つビジュアライゼーションを構築する
優れたデータセットが得られたら、グラフを作成して調査を開始しましょう。大量のデータを扱う場合、視覚化はデータを探索してそこで得られた洞察を伝達するための最良の方法であり、データ分析プロジェクトの次のフェーズです。
Dataikuの強力な視覚化ツールは、モデルの出力に対するまったく新しいビューを提供し、プロセス内で洞察をより共有しやすくします。
ここで難しいのは、いつでもグラフを掘り下げて、特定の洞察について誰かが持つであろう質問に答えることができるかということです。そんなときにデータの準備が役に立ちます。あなたは、データについて手の中にあるように知っています。これがプロジェクトの最終ステップである場合は、APIとプラグインを使用して、エンドユーザーに必要な情報を提供できるようにすることが重要です。
グラフは、データセットを強化し、より興味深い特徴量を開発するもう1つの方法でもあります。たとえば、データポイントを地図上に配置する際には、特定の国や都市よりも特定の地理的ゾーンの方がわかりやすいことに気づくかもしれません。
ステップ 6: 予測を立てる
データサイエンスの次のステップであるデータプロジェクトのフェーズ6からが本当の楽しみの始まりです。機械学習アルゴリズムは、さらに一歩進んで洞察を取得し、将来の傾向を予測するのに役立ちます。
クラスタリングアルゴリズム(教師なしとも呼ばれる)を使用すると、グラフや統計では区別できなかったデータの傾向を明らかにするモデルを構築できます。これらは、同様のイベントのグループ(またはクラスター)を作成し、これらの結果においてどの特徴量が決定的であるかを多かれ少なかれ明示的に表現します。
さらに進んだデータサイエンティストは、教師ありアルゴリズムを使用して将来の傾向を予測できます。過去のデータを分析することで、過去の傾向に影響を与えた特徴量を見つけ出し、それを予測の構築に使用します。この最後のステップは、単に知識を得るだけでなく、まったく新しい製品やプロセスの構築につながる可能性があります。
モデルの学習を追跡する: 機械学習機能を活用し、モデルが予測に使用している係数をリアルタイムで把握します。
たとえあなた自身や組織の個人データへの取り組みがまだ十分に進んでいないとしても、関係者全員が最終的に何が得られるのかを理解できるようにプロセスを理解することが重要です。
最後に、プロジェクトから真の価値を引き出すためには、予測モデルをそのまま置いておいていけません。本番稼働化する必要があります。本番稼働化とは、単に組織全体で使用する機械学習モデルをデプロイすることを意味します。運用化は、組織にとっても、データサイエンスの取り組みのメリットを最大限に実感するためにも不可欠です。
ステップ 7: 繰り返し、繰り返し、繰り返し
ビジネスプロジェクトの主な目標は、その有効性をできるだけ早く証明して、プロジェクト作業を正当化することです。データプロジェクトについても同様です。データのクレンジングとエンリッチ化の時間を短縮することで、プロジェクトを最後まで素早く進めて最初の結果を得ることができます。これはデータ分析プロジェクトを完了するための最終フェーズであり、データライフサイクル全体にとって重要なフェーズです。
機械学習に関して人々が犯す最大の間違いの1つは、モデルが構築され、稼働すると、それは無期限に正常に機能し続けると考えることです。それどころか、モデルは継続的に改善され、新しいデータが供給されなければ、実際には時間の経過とともに品質が低下します。
皮肉なことに、最初のデータ プロジェクトを正常に完了するには、モデルが完全に「完成」することは決してないことを認識する必要があります。モデルを有用かつ正確に保つためには、常に再評価、再トレーニングし、新しい特徴量を開発する必要があります。分析とデータサイエンスのこれらの基本的な手順から何か得られるものがあるとすれば、それは、データサイエンティストの仕事は実際には決して終わらないということですが、それがデータを扱う作業をさらに魅力的なものにしているということです。
理論を実践する準備はできていますか?
データプロジェクトを完了するための基本をすべて習得したら、AIと高度な分析の優れたユースケースを特定する専門家になりましょう。最高のROIを実現する適切なAIプロジェクトに取り組む方法を学ぶために、EBOOKをダウンロードください。
原文: 7 Fundamental Steps to Complete a Data Analytics Project