はじめに
インフォマティカが提供する、 CDI(Cloud Data Integration)の『インテリジェント構造モデル』を使って、Excelからデータを取得するためのガイドです。
※2024/4 時点の情報を元にしています。
Excelはデータの宝庫。でも、活用できてる?
Excelは自由にフォーマットを決めてデータを管理できる反面、その自由度が故にデータが非構造・非定型になってしまい、属人的なフォーマットに依存し、再利用が困難になる場面がよくあります。
データ管理に使われる事もよくあるため、重要データの宝庫でもありますが、それらをいかに効率的に利用するか、他の格納されているデータとどうやって合わせて活用するかが課題となっています。
インテリジェント構造モデルの利点
CDIでは、インテリジェント構造モデル(以下、ISD)と呼ばれる、インフォマティカのAIである「CLAIRE」を使った構造解析のモデルを利用することで、複雑なExcelフォーマットから自動的に構造データを抽出することができます。
ISD は、遺伝的アルゴリズムを使用して、ファイル内のパターンの認識を自動化します。さらに固有表現認識 (NER)や自然言語理解(NLU)のメカニズムも取り入れて、精度向上をしています。
なお解析対象はExcelだけでなく、JSON、XML、ORC、Avro、Parquet、PDFフォームフィールド内のデータ、Microsoft Wordテーブル内のデータ、XSD、COBOLコピーブックなどの構造解析にも対応しています。
データ抽出のステップ
通常のETLのマッピングと比べると、ソース(抽出元データ)の設定等が違うため、注意が必要です。
以下に、概念図とその4つのステップを作成しましたので、ご確認ください。
- ①インテリジェント構造モデルの作成
- ②Excelの配置されたパスのフラットファイルを作成し、マッピングにてソースとして読み込み
- ③構造パーサーによるExcelの構造解析
- ④結果の出力
また、今回に利用するExcelは、下記のような単純なデータ構造となっています。
なお、もっと複雑で複数テーブルが定義されているようなExcelの場合でも、対応が可能となっております。
1. インテリジェント構造モデルの作成
1-2 データ統合において、『新規』から『コンポーネント』を選択し、『インテリジェント構造モデル』を選択
1-3 インテリジェント構造モデル 作成画面において、①任意の名称とプロジェクト配置を選択し、②構造モデルを読み取るためのサンプルとなるExcelファイルの選択、③『構造の検出』をクリック。そうすると④のように、構造モデルが自動的に選択されるので、保存します。
2. Excelの配置されたパスのフラットファイルを作成し、マッピングにてソースとして読み込み
2-1 任意のストレージ等に、実際のExcelが配置されているパスを記載したフラットファイルを配置します。"FILEPATH"と言うヘッダーに対して、レコードに、実際のExcelが配置されているパスを記載します。
下記の例は同じSecure AgentのWindows上にExcelが配置されている場合を想定していますが、ファイルサーバー、AWS S3等のオブジェクトストレージの場合は、それらのパスを記載してください。
2-2 マッピングを作成するために、上で配置したパスのフラットファイルへアクセスするための接続を、『管理者』メニュー - 『接続』から新規作成し、保存します。
2-3 『データ統合』メニューの『新規』より、『マッピング』-『マッピング』を選択
2-5 マッピングに任意の名前と、配置するプロジェクトを選択
2-6 『ソース』より、先ほど作成した接続を選択し、配置したフラットファイルを選択
3. 構造パーサーによるExcelの構造解析
3-1 左側の変換部品一覧から、『構造パーサー』を選択し、ドラッグ・アンド・ドロップ
3-2 『構造パーサー』を選択し、プロパティの『構造パーサー』から、『選択』をクリック
3-3 一覧から先程に作成したインテリジェント構造モデルを選択
3-4 『ソース』から『構造パーサー』に連携をドラッグ・アンド・ドロップ
3-5 『構造パーサー』の『フィールドマッピング』において、受信フィールド"FILEPATH"から、構造パーサー入力フィールド"FilePath"にドラッグ・アンド・ドロップ
3-6 出力フィールドから、element内に、Excelからの項目が表示されているのを確認できます。
4. 結果の出力
4-1 『ターゲット』に対して、構造パーサーから矢印をドラッグ・アンド・ドロップ
4-2 『出力グループの選択』の画面が表示されるので、『element』を選択します
4-3 その後、『ターゲット』- 『受信フィールド』から、elementとして取得できたExcelのフィールドが反映されているのを確認
4-4 任意のターゲットに出力を実施します。今回の場合は、新規のCSVファイルとして出力していますが、DB・各種ファイルフォーマット等を自由に選んでいただけます。そして、マッピングを実行します。
4-5 出力結果の確認
CSVファイルとして出力した結果の確認。
まとめ
今回は、『インテリジェント構造モデル』を使って、Excelからデータを取得するためのアーキテクチャ概念と、その実際のステップを見て頂きました。今回はかなりベーシックな内容でしたが、応用することで皆様が活用されているExcelをさらに効率的にかつ広範囲のメンバーで利活用することができます。ぜひ試してみてください。
手順については、下記のYoutube動画も参考になるので、日本語の翻訳字幕を活用して、ステップの流れを確認頂くとスムーズに実践できるかと思います。
参考資料
マニュアル : インテリジェント構造モデル
マニュアル : インテリジェント構造モデルの改良
マニュアル : 構造パーサートランスフォーメーション
ナレッジベース : HOW TO: Create an Excel Source Using Intelligent Structure Discovery in IICS
※動画は、Youtubeの字幕設定で日本語等に翻訳できますので、その機能を活用ください
動画 : How to Handle Intelligent Structure Model Excel Columns and Create Excel Source
※ExcelからIntelligent Structure Discoveryを使ったデータ取得
動画 : Intelligent Structure Discovery in CDI - Implementation and Use Cases
※Excel等の非構造データを読み取るIntelligent Structure Discovery解説 Long版
動画 : Introduction to Intelligent Structure Models (ISM) ※Excel等の非構造データを読み取るIntelligent Structure Discovery解説 Short版
ブログ : 参考 データカタログでExcelのメタデータを可視化した場合の見え方