はじめに
こんにちは、私は製造業でデータサイエンティストとして働いているYuTut(ゆうたっと)と申します!今回は、私の現在の職務内容について説明したいと思います。具体的な会社名や製品名は伏せますが、データサイエンスの現場でどのような業務が行われているのか、具体的なイメージを持っていただければと思います。
データ収集
実際に現場に出向き、現場のユーザー方(お客様または自社内)に実証実験を依頼することでデータを収集します。具体的には、特定の製品を使用してもらい、その結果をデータとして収集します。このデータ収集は、製品開発、製品のパフォーマンスを評価・改善するための重要な情報源となります。
データの前処理と抽出
収集したデータは、DB(データベース)に保存されます。その後、PythonとSQLを使用して、このDBからデータを抽出します。抽出したデータは、前処理とクリーニングを行い、分析しやすい形に整形します。
探索的データ分析と特徴量エンジニアリング
データが整形されたら、次に探索的データ分析を行います。これには、データの分布、相関、異常値の検出などを調査し、データ可視化ツールを使用して、データの特性を視覚的に理解します。さらに、データから新しい特徴量を生成する特徴量エンジニアリングを行います。これは、機械学習モデルのパフォーマンスを向上させるための重要なステップです。
モデル開発と選択
特徴量エンジニアリングの後は、予測モデリング、機械学習、ディープラーニングの技術を使用して、検知アルゴリズムを開発します。複数のモデルを訓練し、交差検証を使用して最適なモデルを選択します。
モデルの評価と結果の解釈
モデルが選択されたら、そのパフォーマンスを評価し、必要に応じてハイパーパラメータを調整します。そして、モデルの結果を解釈し、ダッシュボードやチャートを作成して結果を視覚化します。これにより、技術的な背景がない人(経営層、部統括マネージャー、営業)でも、私たちが何をやっているのか、何が達成されたのかを理解できます。
外注会社との連携
最後に、私は外注会社と連携して、プロダクトへの統合、バージョン管理、DBの管理などを行います。このプロセスでは、外注会社とのコミュニケーションを円滑に行い、プロジェクトの進行を管理します。
おわりに
以上が私の主な業務内容です。これらの業務を通じて、私は製品の検知アルゴリズムの開発に貢献しています。データサイエンスは広範で深い分野ですが、私の経験が皆さんの学びの一助となれば幸いです。