Teradata Vantage - Vantage Analytics Library[2022/9/22時点]の翻訳です。
(リリース番号 : 2.1.1 | リリース日 : January 2022)
この記事はVantageアナリティクスライブラリ シリーズのコンテンツです。
概要
テキストフィールド解析は、文字データを調べ、そのデータが数値型、日付、時刻、タイムスタンプ、または文字データとしてデータベースに格納できるかどうかを判断します。
前提条件
・Teradata Vantageインスタンスにアクセスできること。
・Vantage アナリティクス・ライブラリがインストールされていること。
Vantage アナリティクス・ライブラリのインストールについて、既にVantageを導入頂いているお客様はTeradataサポートサービスにお問い合わせください。
Vantage Express (評価版)やクラウドサービスのDIYでご利用頂く場合はTeradata Dounloadからダウンロードし利用可能です。
Vantage アナリティクス・ライブラリのインストール手順は「Vantageアナリティクス・ライブラリのインストール」の記事に従い行います。
データの準備
サンプルデータの入手とデータベースへの格納方法
こちらの「チュートリアル用のサンプルデータを用意する」を参照ください。
実行方法
SQLから実行する場合の例
CALL td_analyze (
'textfieldanalyzer', /* 分析手法 */
'
database = QID; /* データベース名 */
tablename = Superstore; /* テーブル名 */
columns = Category,Sub_Category; /* カラムリスト */
outputdatabase = QID; /* 出力データベース名 */
outputtablename = out_table; /* 出力テーブル名 */
'
);
結果テーブル1 (データの組み合わせパターン)
select * from out_table sample 10;
出力結果
Category | Sub_Category |
---|---|
Office Supplies | Paper |
Technology | Accessories |
Technology | Accessories |
Furniture | Furnishings |
Office Supplies | Envelopes |
Office Supplies | Binders |
Office Supplies | Paper |
Furniture | Furnishings |
Office Supplies | Paper |
Office Supplies | Binders |
出力結果の説明
出力結果は指定されたカラム値が格納される
結果テーブル2 (分析結果レポート)
select * from out_table_rpt;
出力結果
Column Name | Initial Database Type | Min Max Type | Sample Type | Numeric Test Type | Translatable To Latin | Total Unicode Count |
---|---|---|---|---|---|---|
Category | VARCHAR(128) CHARACTER SET UNICODE | VARCHAR(15) CHARACTER SET UNICODE | VARCHAR(15) CHARACTER SET UNICODE | VARCHAR(15) CHARACTER SET UNICODE | NA | NA |
Sub_Category | VARCHAR(128) CHARACTER SET UNICODE | VARCHAR(11) CHARACTER SET UNICODE | VARCHAR(11) CHARACTER SET UNICODE | VARCHAR(11) CHARACTER SET UNICODE | NA | NA |
出力結果の説明
カラム名 | データタイプ | 説明 |
---|---|---|
Column Name | VARCHAR(128) | カラム名 |
Initial Database Type | VARCHAR(128) | 元データタイプ |
Min Max Type | VARCHAR(128) | 最小/最大値の推定データタイプ |
Sample Type | VARCHAR(128) | サンプル値の推定データタイプ |
Numeric Test Type | VARCHAR(128) | 数値型の推定データタイプ |
Translatable To Latin | VARCHAR(20) | LAIN文字に変換可能な文字数 |
Total Unicode Count | VARCHAR(20) | UNICODE文字に変換可能な文字数 |
おわりに
サンプルコードはSQL関数から掲載し順次Pythonコードも掲載していく予定です。
警告
この本書はTeradata Vantageドキュメンテーションよりトピックに必要な情報を抜粋したものです。掲載内容の正確性・完全性・信頼性・最新性を保証するものではございません。正確な内容については、原本をご参照下さい。
また、修正が必要な箇所や、ご要望についてはコメントをよろしくお願いします。