4
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

More than 1 year has passed since last update.

【初級編】Alteryx Designerを使ったデータ収集についてわかりやすく解説してみた

Last updated at Posted at 2023-06-07

はじめに

読者の皆様はExcelで大量のデータ集計をする場合、
以下の点に悩まされた事はありませんか?

・ファイルサイズ
・データソース間のデータ収集、および結合
・処理のエラーハンドリング
・データ更新タイミングでの再集計
・集計結果の外部ツール連携

データソースの種類が多岐に渡ることで集計処理に時間が掛かるという課題を抱えている方は多いようです。

こういったケースの場合、
Alteryx Designer に置き換える事で作業の効率化・省力化を図る事が可能になります。

この記事では、
データソースからのデータ収集をAlteryx Designer ではどのように設定するかについて勉強していきます。

データ入力ツール

image.png
「データ入力」ツールは、ファイルやデータベースからデータを読み込む際に使用するツールになります。

サポートの対象となっているファイル種類やデータベース種類については、Alteryx Documentation に記載されていますのでご確認ください。

今回は、よく使われる以下のファイルについてみていきましょう。

・CSVファイル
・Excelファイル
・データベース接続(Amazon Redshift、Oracle、PostgreSQLなど)

CSVファイル

CSVファイルについては、以下のいずれかの方法で指定が可能となっています。

・データ入力ツールをキャンバスにドラッグし、
 表示された画面の「ファイルまたはデータベースを接続」を押下して「ファイル」タブを選択。
 その後、対象ファイルを指定する。
・対象のファイルを選択し、直接キャンバスにドラッグする。

CSVファイルを読み込み対象として指定すると以下の内容を指定することが可能になります。
image.png

1. レコード制限:
 ファイル内のデータを何行目まで読み込むかを指定します。
 指定しない場合、すべてのデータが読み込み対象となります。
2. ファイル形式:
 読み込む対象のファイルの拡張子を指定します。
 デフォルト値は、読み込み対象ファイルの拡張子。
3. サブディレクトリを検索:
 指定したディレクトリ直下のファイルだけではなく、
 有効化(ON)することでその配下にあるフォルダ内のファイルも読み込み対象することが可能です。
4. ファイル名をフィールドとして出力する:
 読み込む対象のファイル情報をデータ内に含めることが可能です。
5. 区切り記号:
 ファイル内のデータの区切り文字を指定します。
6. 先頭行にフィールド名を含める
 ファイル内の先頭行にフィールド名(項目名)がある場合に有効化(ON)します。
7. フィールド長
 フィールド(項目)の最大文字数を指定します。
 デフォルトは、254
8. データインポートの開始行
 データの読み込みを開始する行を指定します。
 デフォルトは、1
9. 次の区切り記号を無視する
 指定した区切り文字については、その文字を区切り文字として読み込まないことが可能です。
 デフォルトは、必ず以下のいずれかを設定。
 ・引用符(")
 ・一重引用符(')
 ・自動
 ・なし
10. 読み込みエラーを警告といて扱う
 通常エラーとして認識されるものを警告として扱うことが可能です。
11. コードページ
 読み込み対象のファイルの文字コードを指定します。
 指定した文字コードと実ファイルの文字コードが異なる場合、文字化けが発生しますので注意。
12. 共有書き込みアクセスを許可する
 処理中のファイルで読み込みを可能とする場合に指定します。

Excelファイル

Excelファイルについては、以下のいずれかの方法で指定が可能となっています。

・データ入力ツールをキャンバスにドラッグし、
 表示された画面の「ファイルまたはデータベースを接続」を押下して「ファイル」タブを選択。
 その後、対象ファイルを指定する。
・対象のファイルを選択し、直接キャンバスにドラッグする。

Excelファイルを読み込み対象として指定すると以下の内容を指定することが可能になります。
image.png

1. レコード制限:
 ファイル内のデータを何行目まで読み込むかを指定します。
 指定しない場合、すべてのデータが読み込み対象となります。
2. ファイル形式:
 読み込む対象のファイルの拡張子を指定します。
 デフォルト値は、読み込み対象ファイルの拡張子。
3. テーブルまたはクエリ:
 読み込む対象のシートを指定します。
4. サブディレクトリを検索:
 指定したディレクトリ直下のファイルだけではなく、
 有効化(ON)することでその配下にあるフォルダ内のファイルも読み込み対象することが可能です。
5. ファイル名をフィールドとして出力する:
 読み込む対象のファイル情報をデータ内に含めることが可能です。
6. 先頭行にフィールド名を含める
 ファイル内の先頭行にフィールド名(項目名)がある場合に有効化(ON)します。
7. データインポートの開始行
 データの読み込みを開始する行を指定します。
 デフォルトは、1

データベース接続

データベース接続については、以下の方法で指定が可能となっています。

①データ入力ツールをキャンバスにドラッグし、
 表示された画面の「ファイルまたはデータベースを接続」を押下して「データソース」タブを選択。

 データベースの一覧から対象のデータベースへ接続するドライバーを選択。
image.png

③接続するデータソース名、ユーザ名、パスワード名を指定する。
image.png

④接続が完了した場合、
 ビジュアルクエリビルダ等から、抽出する対象のテーブルおよび項目を指定が可能です。
image.png

ワークフロー作成(イメージ)

実際にAlteryx Designer上で対象ツールを使用したワークフローを作成していきたいと思います。

①配置
入出力カテゴリからデータ入力ツールを選択し、キャンバスエリアにドラッグし配置します。

image.png

②設定
データ入力ツールの「ファイルまたはデータベースを接続」より対象ファイルを選択します。

image.png

※対象のファイルを選択し、直接キャンバスにドラッグすることでも可能です。
image.png

・注意点
複数のファイルを一度の設定で読み込む場合、データ入力ツールの「ファイルまたはデータベースを接続」より、対象ファイルの指定でワイルドカード(*)を使用することで可能となっています。

こちらの設定をする場合、データ形式(項目数や項目順)がすべてのファイルで一致していることが前提条件となります。

③実行

ワークフロー上にサンプルデータが取り込まれていることが結果ウィンドウにて確認できます。
image.png

おわりに

ここでは、データソースからのデータ収集をAlteryx Designer ではどのように設定するかについて説明しました。

今回の内容は以下のタグでツール毎に紹介していますので、よければ他のツールについてもご参照いただければ幸いです。

仲間募集

NTTデータ テクノロジーコンサルティング事業本部 では、以下の職種を募集しています。
1. クラウド技術を活用したデータ分析プラットフォームの開発・構築(ITアーキテクト/クラウドエンジニア) クラウド/プラットフォーム技術の知見に基づき、DWH、BI、ETL領域におけるソリューション開発を推進します。
https://enterprise-aiiot.nttdata.com/recruitment/career_sp/cloud_engineer
2. データサイエンス領域(データサイエンティスト/データアナリスト) データ活用/情報処理/AI/BI/統計学などの情報科学を活用し、よりデータサイエンスの観点から、データ分析プロジェクトのリーダーとしてお客様のDX/デジタルサクセスを推進します。

https://enterprise-aiiot.nttdata.com/recruitment/career_sp/datascientist

3.お客様のAI活用の成功を推進するAIサクセスマネージャー DataRobotをはじめとしたAIソリューションやサービスを使って、 お客様のAIプロジェクトを成功させ、ビジネス価値を創出するための活動を実施し、 お客様内でのAI活用を拡大、NTTデータが提供するAIソリューションの利用継続を推進していただく人材を募集しています。

https://nttdata.jposting.net/u/job.phtml?job_code=804

4.DX/デジタルサクセスを推進するデータサイエンティスト《管理職/管理職候補》 データ分析プロジェクトのリーダとして、正確な課題の把握、適切な評価指標の設定、分析計画策定や適切な分析手法や技術の評価・選定といったデータ活用の具現化、高度化を行い分析結果の見える化・お客様の納得感醸成を行うことで、ビジネス成果・価値を出すアクションへとつなげることができるデータサイエンティスト人材を募集しています。

https://nttdata.jposting.net/u/job.phtml?job_code=898

ソリューション紹介

Trusted Data Foundationについて ~データ資産を分析活用するための環境をオールインワンで提供するソリューション~

https://enterprise-aiiot.nttdata.com/tdf/

最新のクラウド技術を採用して弊社が独自に設計したリファレンスアーキテクチャ(Datalake+DWH+AI/BI)を顧客要件に合わせてカスタマイズして提供します。
可視化、機械学習、DeepLearningなどデータ資産を分析活用するための環境がオールインワンで用意されており、これまでとは別次元の量と質のデータを用いてアジリティ高くDX推進を実現できます。

TDFⓇ-AM(Trusted Data Foundation - Analytics Managed Service)について ~データ活用基盤の段階的な拡張支援(Quick Start) と保守運用のマネジメント(Analytics Managed)をご提供することでお客様のDXを成功に導く、データ活用プラットフォームサービス~

https://enterprise-aiiot.nttdata.com/service/tdf/tdf_am

TDFⓇ-AMは、データ活用をQuickに始めることができ、データ活用の成熟度に応じて段階的に環境を拡張します。プラットフォームの保守運用はNTTデータが一括で実施し、お客様は成果創出に専念することが可能です。また、日々最新のテクノロジーをキャッチアップし、常に活用しやすい環境を提供します。なお、ご要望に応じて上流のコンサルティングフェーズからAI/BIなどのデータ活用支援に至るまで、End to Endで課題解決に向けて伴走することも可能です。

NTTデータとTableauについて ビジュアル分析プラットフォームのTableauと2014年にパートナー契約を締結し、自社の経営ダッシュボード基盤への採用や独自のコンピテンシーセンターの設置などの取り組みを進めてきました。さらに2019年度にはSalesforceとワンストップでのサービスを提供開始するなど、積極的にビジネスを展開しています。

これまでPartner of the Year, Japanを4年連続で受賞しており、2021年にはアジア太平洋地域で最もビジネスに貢献したパートナーとして表彰されました。
また、2020年度からは、Tableauを活用したデータ活用促進のコンサルティングや導入サービスの他、AI活用やデータマネジメント整備など、お客さまの企業全体のデータ活用民主化を成功させるためのノウハウ・方法論を体系化した「デジタルサクセス」プログラムを提供開始しています。

https://enterprise-aiiot.nttdata.com/service/tableau

NTTデータとAlteryxについて Alteryxは、業務ユーザーからIT部門まで誰でも使えるセルフサービス分析プラットフォームです。 Alteryx導入の豊富な実績を持つNTTデータは、最高位にあたるAlteryx Premiumパートナーとしてお客さまをご支援します。

導入時のプロフェッショナル支援など独自メニューを整備し、特定の業種によらない多くのお客さまに、Alteryxを活用したサービスの強化・拡充を提供します。

https://enterprise-aiiot.nttdata.com/service/alteryx

NTTデータとDataRobotについて DataRobotは、包括的なAIライフサイクルプラットフォームです。 NTTデータはDataRobot社と戦略的資本業務提携を行い、経験豊富なデータサイエンティストがAI・データ活用を起点にお客様のビジネスにおける価値創出をご支援します。

https://enterprise-aiiot.nttdata.com/service/datarobot

NTTデータとInformaticaについて データ連携や処理方式を専門領域として10年以上取り組んできたプロ集団であるNTTデータは、データマネジメント領域でグローバルでの高い評価を得ているInformatica社とパートナーシップを結び、サービス強化を推進しています。

https://enterprise-aiiot.nttdata.com/service/informatica

NTTデータとSnowflakeについて NTTデータでは、Snowflake Inc.とソリューションパートナー契約を締結し、クラウド・データプラットフォーム「Snowflake」の導入・構築、および活用支援を開始しています。 NTTデータではこれまでも、独自ノウハウに基づき、ビッグデータ・AIなど領域に係る市場競争力のあるさまざまなソリューションパートナーとともにエコシステムを形成し、お客さまのビジネス変革を導いてきました。 Snowflakeは、これら先端テクノロジーとのエコシステムの形成に強みがあり、NTTデータはこれらを組み合わせることでお客さまに最適なインテグレーションをご提供いたします。

https://enterprise-aiiot.nttdata.com/service/snowflake

タグ:Alteryx

4
0
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
4
0

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?