More than 1 year has passed since last update.

Qiita Engineer Festa20242024年7月17日まで開催中！

@yaskitie

IBM Process Mining Use Tips

Posted at 2024-07-11

1. はじめに

業務で IBM Process Mining(以下 IPM) に触れる機会があったため、その忘備録として記録したものを共有する。

Process Mining とは

「プロセスマイニング」とは、企業において従業員が行うさまざまな業務活動のログを取得し分析、業務プロセスを可視化することで、現状を把握して業務改善に活用する手法である。

2. よく出てくる用語

ケース: ある対象の処理を追ったものの単位。
- e.g. 会社で PC を購入する際に次のような社内プロセスがあるとする:
  - 購入申請 → 購入承認 → 注文書発注 → オーダー確認 → 受領書作成 → 請求書作成
- この一連の処理を経る、識別できる単位のことを「ケース」という。つまり、「XX月YY日にZZという PC を購入するケース」 のように、一意に識別できるものとなる。
- 通常多数のケースが存在し、それらを総合的あるいは局所的に分析するのがプロセスマイニングである。
アクティビティ: 上記の例で、社内プロセスにあたる一つ一つの処理(購入申請、注文書発注 etc)
イベントデータ: システムにロードするデータ

3. データの Transform & Load

IPM によるプロセスマイニングを行う上で、最も大変な作業の一つがデータの加工・整形処理である。
以下にデータロード時、加工時の制約を挙げる。

データロード時の制約
IPM へのデータロードは、カラム構成を決定した上で CSV ファイルとして行う必要がある。
また、一度にロードできる CSV ファイルのサイズ上限は 300MB である。
データ加工時の制約
上記制約のため、データロード後に表示・分析したいメトリック/KPI に応じて、複数の元データを一つの CSV ファイルとしてまとめる必要がある。
ここでは考慮が必要ないくつかのパターンを紹介する。

上記制約により、経験上特筆すべきと判断した点を紹介する。
今回は、python3 の環境で、pandas というデータ処理ライブラリを使用した。

3.1 イベントデータの CSV ファイルサイズをできるだけ小さくするべく、必要最低限のカラムに絞る。

import pandas as pd

df = pd.read_csv("path_to_csv")
df = df[["REQUIRED_COL_1", "REQUIRED_COL_2", "REQUIRED_COL_3"]] # 必要なカラムのみピックアップ

3.2 テーブル結合時の処理

以下の説明では、テーブル A とテーブル B から生成したイベントデータを用いる。

テーブル A

A_ID	Col1
1	data1_1
2	data1_2
3	data1_3
4	data1_4

テーブル B

B_ID	A_ID	Col2
1	1	data2_1
2	2	data2_2
3	3	data2_3
4	3	data2_4

パターン 1: join 後の NaN のハンドリング

A と B を Left Join

import pandas as pd

df_A = pd.read_csv("path_to_csv_a")
df_B = pd.read_csv("path_to_csv_b")

df = df_A.merge(df_B, how='left', on=['A_ID'])

A_ID	Col1	B_ID	Col2
1	data1_1	1	data2_1
2	data1_2	2	data2_2
3	data1_3	3	data2_3
3	data1_3	4	data2_4
4	data1_4	NaN	NaN

イベントデータに NaN が含まれる場合、IPM へのロード時にエラーが発生するため、適切な値で埋める必要がある。

df = df.fillna({'B_ID': 0, 'Col2': ''})

パターン 2: 子テーブル(テーブル B)の対応するレコード数をイベントデータに含める

4. 拡張フィルター

既存のフィルター機能で実現できない条件や複雑な条件に対して、JavaScript を使用したカスタムフィルターを作成することで、より高度なフィルタリングを行うことができる。
詳細はこちらを参照。

例) DIVISION_CODE=ICEを含むケースを抽出するフィルター

var filter = {
  keepTrace: function (trace) {
    for (var k = 0; k < trace.size(); k++) {
      var event = trace.get(k);
      var divisionCode = event.getStringCustomAttributeValue("DIVISION_CODE");
      if (divisionCode.indexOf("ICE") >= 0) return true;
    }
    return false;
  },
};

4.1 注意点

getStringCustomAttributeValue関数で指定するカラムは、データ・マッピングにおいて対象カラムをマッピングしておく必要がある。(カスタム(オプション) > テキスト)

5. コンポーネント(ダッシュボード)作成

主要なコンポーネント（カード、グラフ etc）を作成する上での基本的な測定指標の設定方法についてまとめる。

5.1 カウント(ケース単位で何かの数を合計する系)

ケースごとに、DIMENSION_NAME(e.g. PURCHASE_REQUISITION_NUM) 数をカウントする

測定指標: `count(casedistinct(PURCHASE_REQUISITION_NUM))`

ケースごとに何かの値をカウントする際には、casedistinct が使える。

コンポーネント全体の設定

5.2 アクティビティ間リードタイム(スループット)

アクティビティ「購入申請作成」から「購入申請承認・注文書作成」までの平均スループットを計算する場合

測定指標: `avg(pathtime)`

コンポーネント全体の設定

6. その他

6.1 ユーザー権限と機能

ユーザーの組織への追加

新規作成したカスタム・プロセスを利用させたいユーザーは、そのプロセスに割り当てられた組織に所属する必要がある。
以下の手順でユーザーを組織に追加することができる。

管理 > 組織 に移動する。
該当組織が選択されている状態で、追加したいユーザーを選択し、招待をクリックする。

参照モデル(BPMN ファイル)の追加権限

適合性チェックを行う際など、参照モデルを利用する場合、それをあらかじめ追加(アップロード)しておく必要がある。
やり方はこちらを参照。

注意点

参照モデルの追加は、対象となるプロジェクトの所有者のみが行える。
プロジェクトの所有者の設定方法は以下の通り。

管理 > 利用者 に移動する。
所有者に設定したいユーザーの編集ボタンをクリックする。
プロジェクトおよびコンポーネント を選択し、オーナーの変更 をクリックする。
「コンポーネントの新規所有者を選択してください」という欄にユーザー名を入力して、続行をクリックする。

各ユーザー権限(アナリティクス/ビジネス)でできることのまとめ

メニュー	サブカテゴリ		利用者	管理者
プロセス	モデル	統計の表示、関係の表示	○	○
		フィルターの設定	×	○
		適合分析	×	○
	BPMN	-	×	○
	統計情報	-	×	○
	比較機能	-	×	○
	リソースマッピング	-	×	○
	管理	-	×	○
アナリティクス	自分が作成したダッシュボード	作成	○	○
		編集	○	○
		共有	○	○
		表示	○	○
		設定	△(言語設定のみ)	○
		削除	○	○
	他アカウントが作成したダッシュボード	編集	×	○
		共有	×	×
		表示	○	○
		設定	△(言語設定のみ)	○
		削除	×	×
管理			×	○

You get articles that match your needs
You can efficiently read back useful information
You can use dark theme

What you can do with signing up

IBM Process Mining Use Tips

1. はじめに

Process Mining とは

2. よく出てくる用語

3. データの Transform & Load

3.1 イベントデータの CSV ファイルサイズをできるだけ小さくするべく、必要最低限のカラムに絞る。

3.2 テーブル結合時の処理

テーブル A

テーブル B

パターン 1: join 後の NaN のハンドリング

パターン 2: 子テーブル(テーブル B)の対応するレコード数をイベントデータに含める

4. 拡張フィルター

4.1 注意点

5. コンポーネント(ダッシュボード)作成

5.1 カウント(ケース単位で何かの数を合計する系)

測定指標: count(casedistinct(PURCHASE_REQUISITION_NUM))

コンポーネント全体の設定

5.2 アクティビティ間リードタイム(スループット)

測定指標: avg(pathtime)

コンポーネント全体の設定

6. その他

6.1 ユーザー権限と機能

ユーザーの組織への追加

参照モデル(BPMN ファイル)の追加権限

注意点

各ユーザー権限(アナリティクス/ビジネス)でできることのまとめ

測定指標: `count(casedistinct(PURCHASE_REQUISITION_NUM))`

測定指標: `avg(pathtime)`