はじめに
Lookout for Metricsというサービスを触ってみる機会がありましたので学んだことを記載します。
サービスの概要
Lookout for Metricsとは、AWSが提供する機械学習を利用した異常検出サービスになります。
ビジネスデータや運用データの中から異常を検出(異常検知)し、その原因を迅速に特定するのに役立つサービスになります。
前提
・AWSアカウントがあること
・Lookout for Metricsとのデータ連携にはS3を利用
・データ形式はCSV
※後述しますが、状況によって多額の費用が発生する可能性があるため、設定する値については十分注意してください。
やること
・異常検知させるデータを作成する
・S3のバケットを作成し、データをアップする
・BacktestモードでLookout for Metricsを設定する
データの作成
使用するデータについてはAWSの公式でもサンプルがあります。
以下のサイトからloyalty.csvをダウンロードして使用することも可能です。
今回は自作したデータを使ってみます。
なおデータを作成する際には以下の要件がありますので注意してください。
バックテストに使用されるトレーニング データとテスト データの比率は、トレーニング 70%、テスト 30% です
バックテストに必要な最小データ量は、データ収集の間隔によって次のように異なります。
5 分間隔– 約 1 日分のデータ。
10 分間隔– 1.9 日分のデータ。
1 時間間隔– 11.8 日分のデータ。
1 日間隔– 285 日間のデータ。
1日間隔でデータを作成する場合は、最低でも285日分のデータが必要でかつ、Backtestモードでは約200日分はトレーニング(学習)として使用され、残りの85日分で異常検知が行われるということになります。
つまりBacktestモードで異常検知させたい場合は、データの後半30%に異常検知させる値を含める必要があることになります。
上記を踏まえたうえで、今回は以下のようなデータを作成しました。
・Timestamp(日)、Product(製品)、Number(数)の行を作成
・日数は1000日分程度を用意
・製品(product)の異常な数(number)を検知させる
ここでは12/31の製品Aの数で通常とは違う数値(異常)が出ていることを検知するようにデータを作成しています。
・データ形式はCSVにします
S3バケットの作成
上記で作成したデータをS3にアップロードします。
AWSコンソールにログインし、S3でバケットを作成します
ここでは「test-bucket-l4m-20240719」という名前で作成しています。
他はデフォルトのまま「バケットを作成」を押下します。
作成したバケットを選択し、アップロードから先程作成したCSVファイルを選択しアップロードします。
Lookout for Metricsの設定
検索窓で「Amazon Lookout for Metrics」と検索します。
「Create Detector」を選択します。
detectorの設定画面に変わるので任意の「Detector name」を入力します。
Intervalを選択します。ここでは1日間隔のデータで作成していますので「1 day intervals」を選択し「Create」を押下します。
次にdatasetを設定します。
「Add a dataset」を押下します。
ここでは以下の用に入力します
Name:任意の名前
Timezone :Asia/Tokyoを選択
Datasource :S3を選択
Detector mode:Backtestを選択
Historical data:S3のURIからコピーしたものを貼り付けてください
「Detect format settings」を押下します
Formatの画面が出ますがデフォルトのままで大丈夫です。
「Next」を押下します。
「Map field」sの画面では以下を設定します。
Measures:Numberを選択します
Dimensions:Productを選択します
Measuresとは異常検出を行う際の分析対象となる数値データになります。
時間に基づくデータポイントであり、異常が発生した際に検出の対象となります。
Dimensionsとは異常検出を行う際にデータを細分化するための属性やカテゴリです。Dimensionsは、Measures(測定値)と組み合わせることで、特定のデータポイントに関する分析を可能にします。
※ Lookout for Metricsの費用はメトリクス数で計算されます。
メトリクス数は「Measures×Dimensions」で計算されます。
そのため、Measuresの数やDimensionsの数が増えると費用が膨大になる可能性がありますので注意してください。
なお最初の月は100メトリクス分の無料枠があるようです。
AWS 無料利用枠
Lookout for Metrics は無料で開始できます。サービスの使用を開始すると、最初の月には 100 のメトリクスを分析するまで料金はかかりません。
設定を続けます。
Timestamp:Timestampを選択
Format では「Enter a timestamp format Timestamp format」を選択し
「yyyy-MM-dd」と入力します
今回はMeasuresはNumberの1つ、DimensionsはA,B,Cの3つとなります。
値を入力すると見積もりをしてくれます。
問題なければ「Next」を押下します。
確認画面になりますので内容を確認し問題なければ
「Save and Activate」を押下します。
内容を確認し問題なければ「confirm」と入力しActivateを押下します。
検出器をアクティブ化するとコストが発生し始めます。
Detectorのステータスが「Activating backtest...」から
「 Backtest in progress」になり
「 Backtest complete」となれば解析完了です。
確認
作成したDetectorを選択し「Anomalies」を押下すると検知結果が確認できます。
どのディメンションでエラーを検知しているか、検知したエラーのメトリックのグラフが確認できます。
今回はCというディメンションで異常を検知しているのがわかります。
またグラフでは異常は青色で表示されます。
ここでは7/24の22:00にcountが1003となっていることが異常として検知されているのがわかります。
まとめ
Backtestモードに続いてcontinuousモードを記事にしましたが、continuousモードではS3のフォルダ構成をインターバルに合わせる必要があることを知らず、DetectorがなかなかActiveにならず苦労しました。
なお、データ解析を1日インターバルにした場合は、設定やデータに問題がなくてもDetectorがActiveになるまでに48時間ぐらいかかりました。