はじめに:「データサイエンス=Python」という勘違い
「AI・データサイエンスの勉強法」と聞くと、多くの方はPythonやR言語、あるいは高度な統計学の専門書を思い浮かべるかもしれません。
しかし、私が所属する非ITの中小製造業において、それらの知識はスタートラインにすら立てない無力なものでした。
どんなに優秀なAIモデルを構築しても、入力されるデータが「嘘」であれば、出力される結果も「ゴミ(Garbage Out)」になります。私がデータ活用を学ぶ上で最も効果的だった勉強法は、プログラミングではなく「品質管理(QC検定)の学習」であり、そこから得た知見を活かした「現場への国語の授業」でした。
本記事では、1人部署の生産管理担当である私が、絶望的なデータスラム街をいかにして浄化し、データサイエンスの土台を作ったかという泥臭い実録を共有します。
第1章:検査データが「0」に収束する最恐ホラー
私が会社のデータ管理に強烈な危機感を抱いた原点は、「パソコンが少し使えるから」という理由で頼まれた、職長の年度末の活動報告用グラフ作成でした。
そこで目にしたのは、集計すればするほど現場の実態と乖離していく「感覚で書かれた日報」の数々。さらに背筋が凍ったのは、自社の検査部が作成し、元受けに提出している品質データの実態です。
彼らは公差(基準値からのズレ)のプラスとマイナスを、そのまま単純に足して「平均(アベレージ)」を出していました。
データサイエンスや統計学の基礎を少しでもかじっていれば、これがどれほど恐ろしいことか分かるはずです。プラス5の不良とマイナス5の不良が混ざっていても、平均すればゼロになります。ばらつきを正しく評価するには、絶対値をとるか(平均絶対誤差)、
$$ \frac{1}{n} \sum_{i=1}^{n} |x_i - \mu| $$
あるいは2乗して分散を求めるのが鉄板です。
$$ \frac{1}{n} \sum_{i=1}^{n} (x_i - \mu)^2 $$
私は検査部にこの正しい計算手法を伝えました。しかし、長年の組織の文化は変わりませんでした。
「正しい数式を知っていること」と「組織のデータを正しくすること」は全くの別物です。人間の心理や組織の癖を理解しなければ、データは永遠に嘘をつき続ける。そう悟った私は、自らの持ち場である「日報データ」の統制へと舵を切りました。
第2章:毎日4人分の時間が消失する謎ルール
現場の日報では、1日の規定作業時間である「460分」に合わせて作業実績を提出してもらいます。しかし私が直面したのは、毎日22人中およそ4人分(約30時間以上)の時間が虚空に消えているというホラー現象でした。
現場を観察し、QC的な「事実に基づく現状把握」を進めると、長年染み付いた異常なローカルルールの正体が判明しました。
「無人で動く機械の稼働時間を、一律5分で計上する」という謎文化です。
なぜそんなことをするのか?
実は「段取り」や「調整」といった時間は、会社から『改善(削減)項目』として睨まれていました。しかし実際には、癖のある金型や生産頻度の少ない難しい案件を押し付けられている熟練の職長や中堅層ほど、当然セットアップに時間がかかります。
彼らは「自分たちの作業が遅いと思われたくない」という心理から、段取り時間を過少申告し、その帳尻を合わせるために機械稼働時間を極端に圧縮して「460分」を作っていたのです。
人間が嘘をつく心理を取り除かなければ、正しい稼働率など永遠に分析できません。
第3章:最強の前処理は「現場への国語の授業」だった
私はExcelの関数を駆使してシステムを作る前に、まずは「項目の認識の共通化」から始めました。データサイエンスでいう「オントロジー(概念体系)の構築」です。
現場のおじちゃん達は、「段取り」「調整」「清掃」「点検」「計画保全」といった作業区分の“境目”を誰も正しく理解しておらず、各自の感覚でバラバラに入力していました。言葉の定義がブレているデータは、AIにとって猛毒です。
私は部署会議に乗り込み、現場との議論(国語の授業)を行いました。
ここでQCの知識が活きます。私は辞書的な正しさを押し付けるのではなく、「実際の言葉の意味と違っていても、多数派の認識ならば『うちの会社ではこういう意味だ』と定義する」というアプローチをとりました。現場のコンセンサスを最優先することで反発を抑え込み、言葉の揺れを統一したのです。
さらに、「いきなり全項目を正しく分けろ」とは要求せず、「まずは合計時間(460分)だけは嘘偽りなく徹底して合わせる」というスモールステップを踏みました。
おわりに:真のデータサイエンスは「データの品質」から
現在、私たちの現場のデータは少しずつ「真実(ファクト)」に近づいています。
人間と機械の稼働時間の完全な分離など、外注システムが機能せずに結局Excelで現場を回しているという未解決の課題はまだ山積みです。
しかし、言葉の定義が揃い、現場の入力から「嘘をつく理由」が消えつつある今、ようやく私たちのデータは「分析可能な状態」になり始めました。
高度なAIツールにデータを放り込む前に、現場のデータがどうやって作られているか(あるいは殺されているか)を見に行くこと。そして、QCの思考をもってデータの品質を源流から管理すること。
会社が毎年数万円払っている外部の講習会よりも、私が自ら学んだ「QC検定」の知識と「国語の授業」こそが、非IT企業における最強のデータサイエンス勉強法だったと確信しています。