はじめに
- LIGTHzアドベントカレンダー 2022の19日目の記事です。
- この記事は個人の感想です。
- この記事で触れる『データサイエンス』は、データの特徴量を分析し、特徴量の振る舞いを
把握するまでの一連の取り組みを指します。 - データサイエンスや機械学習モデリングの検討プロセスに対する、私個人の理解や自戒を
箇条書きにしています。
信号処理の基本的な設計プロセス
・信号処理では、まず
・路面と車両
・大気と航行ロケット
・観測/撮像と姿勢変更
・加工材と工作機械
などの間で起きうるシステムと物理現象の相互作用のメカニズムを仮説します。
・次に仮説されたメカニズムをモデルとして用い、シミュレーションを行い、モデルの出力から
相互作用で発生しうる物理事象の予測などを行います。
・最後に予測した物理事象と実測された物理事象の突合せを行い、不整合やずれの要因を分析して
分析結果をモデルへ反映する事で、モデルの精度を向上させます。
信号処理エンジニアがデータサイエンスに取り組むモチベーション
設計システムと自然現象の相互作用を理解する取り組みと理解しています。(=相手のある仕事)
・発生条件が別々の業務ドメインや技術ドメインに散在する性能課題に対し、
要因と中間事象の組合せを推定したい
・発生メカニズムの複雑な性能課題に対し、要因候補を洗い出したい
(『風が吹けば桶屋が儲かる』の様にイベント間の因果を見通しずらい時、
要因候補の仮説を立てるために使いたい)
・類似の相互作用と性能課題が起きうるユースケースへ、設計済みの信号処理システムを横展開したい
補足: データ『サイエンス』というwordingに含まれるニュアンス
・『サイエンス』は、『as is』(自然現象)の理解を目的としている
・主体が自然現象なので、『to be』の概念は存在しない
・要求の達成を目指す『エンジニアリング』とは目的意識や主体が異なる
Science | ↔ | Engineering |
---|---|---|
long-term(長期) | short-term(短期) | |
idealism(理想的) | compromise(妥協的) | |
certainly(確実さ) | risk management(リスク管理) | |
perfection(完璧さ) | adequacy(適切さ) | |
generality(一般性) | specificity(特異性) | |
separation(分離) | amalgramation(融合) | |
unification(単一性) | diversity(多様性) | |
originality(独自性) | best practice(最善) | |
fomality(形式) | intuition(直観) | |
correctness(正確さ) | dependability(信頼性) |
(典拠: Tony Hoare, man of Science
http://drj11.files.wordpress.com/2009/07/tony_hoare_science_and_engineering.ppt)
信号処理分野でデータ『サイエンス』を扱う難しさ
- 信号処理と『モデル』の定義が違う
・信号処理でのモデルは、『入力を出力へ変換する処理のメカニズム』を指す
・データサイエンスでのモデルは、『統計に従い分析対象データを分類する分類基準』
(=特徴量の振る舞い=統計モデル)を指す
(※参考: 要求工学におけるモデルは『やりたい事を実現するための機能の組合せ』を指す) - 特徴量の振る舞いを把握するまで、モデル仮説構築やデータ分類方法の決定ができない
(=データドリブン) - 特徴量の振る舞いを把握するまで、データ分類結果の使い方を決める事もできない
- ゆえに、値域や定義域を合目的に切り出す事が困難である
(いわゆる『やってみないと分からない』) - 因果関係は特徴量の振る舞いから直接的に識別されるのではなく、
相関関係に対するベイズ推論などの適用で間接的に推定される - 統計に基づく推論よりドメイン知識に基づく因果関係の推論を用いた方がいい結果
の出る場合もあるため、注意が必要である
特徴量の振る舞いとはデータの分類基準の事
- 設計者は、
『入力データ(分類対象)』、『出力データ(分類結果)』、『統計モデルの種類(分類手段)』
を設定する事(=教師データの設定)により、『間接的に』特徴量の振る舞い、
すなわち分類基準を設計する事ができる - システムの外部環境や運用条件が変動した時、『特徴量の振る舞い』も変わるため、
データの分類基準も変わる - 設計者の持つデータの分類基準を説明できる『特徴量の振る舞い』が見つからない場合もあるため、
この場合は設計のアプローチを見直す必要がある - 設計者は外部環境や運用条件の変動毎に、
『入力データ(分類対象)』、『出力データ(分類結果)』、
『仮説される統計モデル(分類手段)』の組合せを調節する必要がある
まとめ
- 信号処理とデータサイエンス(機械学習)とでは定義域や値域の決め方がかなり異なる(合目的か実体に合わせるスタイルか)
- データサイエンスでは定義域や値域を合目的に設定する前に、特徴量の振る舞いを把握する必要がある
今後の予定
・特徴量の要件定義における実務課題と対策を取り上げていきます
・実際の機械学習システムにおけるデータ分析事例を取り上げていきます
最後に
弊社では、自動車・機械産業のお客様に向けたソリューション開発エンジニアを絶賛採用中(2022/12時点)です
https://www.wantedly.com/projects/1181162
参考
- The Science of Computing and the Engineering of Software, Tony Hoare※, 1 July 2009
http://drj11.files.wordpress.com/2009/07/tony_hoare_science_and_engineering.ppt
※Tony Hoare: クイックソートの考案者 - 深層学習技術と信号処理・通信系アルゴリズム―概観と展望―, 和田山 正
https://www.ieice.org/ess/sita/forum/article/2018/201807311720.pdf - ディープラーニング・機械学習のための信号処理(Matlab社youtube動画)
https://www.youtube.com/watch?v=XG8lA_QlKgM - 閉ループ制御システムに対する異常シナリオ分析のための情報検索, 小口 一浩
https://www.juse.jp/sqip/symposium/2021/timetable/files/B2-2_ronbun.pdf