LoginSignup
8
2

More than 1 year has passed since last update.

テキストフィールド分析 (Text Field Analysis)

Posted at

Teradata Vantage - Vantage Analytics Library[2022/9/22時点]の翻訳です。
(リリース番号 : 2.1.1 | リリース日 : January 2022)

この記事はVantageアナリティクスライブラリ シリーズのコンテンツです。

概要

テキストフィールド解析は、文字データを調べ、そのデータが数値型、日付、時刻、タイムスタンプ、または文字データとしてデータベースに格納できるかどうかを判断します。

前提条件

・Teradata Vantageインスタンスにアクセスできること。
・Vantage アナリティクス・ライブラリがインストールされていること。

Vantage アナリティクス・ライブラリのインストールについて、既にVantageを導入頂いているお客様はTeradataサポートサービスにお問い合わせください。
Vantage Express (評価版)やクラウドサービスのDIYでご利用頂く場合はTeradata Dounloadからダウンロードし利用可能です。
Vantage アナリティクス・ライブラリのインストール手順は「Vantageアナリティクス・ライブラリのインストール」の記事に従い行います。

データの準備

サンプルデータの入手とデータベースへの格納方法

こちらの「チュートリアル用のサンプルデータを用意する」を参照ください。

実行方法

SQLから実行する場合の例

CALL td_analyze (
  'textfieldanalyzer',                     /* 分析手法 */
  '
  database        = QID;                   /* データベース名 */
  tablename       = Superstore;            /* テーブル名 */
  columns         = Category,Sub_Category; /* カラムリスト */
  outputdatabase  = QID;                   /* 出力データベース名 */
  outputtablename = out_table;             /* 出力テーブル名 */
  '
);

結果テーブル1 (データの組み合わせパターン)

out_table
select * from out_table sample 10;

出力結果

Category Sub_Category
Office Supplies Paper
Technology Accessories
Technology Accessories
Furniture Furnishings
Office Supplies Envelopes
Office Supplies Binders
Office Supplies Paper
Furniture Furnishings
Office Supplies Paper
Office Supplies Binders

出力結果の説明

出力結果は指定されたカラム値が格納される

結果テーブル2 (分析結果レポート)

out_table_rpt
select * from out_table_rpt;

出力結果

Column Name Initial Database Type Min Max Type Sample Type Numeric Test Type Translatable To Latin Total Unicode Count
Category VARCHAR(128) CHARACTER SET UNICODE VARCHAR(15) CHARACTER SET UNICODE VARCHAR(15) CHARACTER SET UNICODE VARCHAR(15) CHARACTER SET UNICODE NA NA
Sub_Category VARCHAR(128) CHARACTER SET UNICODE VARCHAR(11) CHARACTER SET UNICODE VARCHAR(11) CHARACTER SET UNICODE VARCHAR(11) CHARACTER SET UNICODE NA NA

出力結果の説明

カラム名 データタイプ 説明
Column Name VARCHAR(128) カラム名
Initial Database Type VARCHAR(128) 元データタイプ
Min Max Type VARCHAR(128) 最小/最大値の推定データタイプ
Sample Type VARCHAR(128) サンプル値の推定データタイプ
Numeric Test Type VARCHAR(128) 数値型の推定データタイプ
Translatable To Latin VARCHAR(20) LAIN文字に変換可能な文字数
Total Unicode Count VARCHAR(20) UNICODE文字に変換可能な文字数

おわりに

サンプルコードはSQL関数から掲載し順次Pythonコードも掲載していく予定です。

警告
この本書はTeradata Vantageドキュメンテーションよりトピックに必要な情報を抜粋したものです。掲載内容の正確性・完全性・信頼性・最新性を保証するものではございません。正確な内容については、原本をご参照下さい。
また、修正が必要な箇所や、ご要望についてはコメントをよろしくお願いします。

Teradata Vantageへのお問合せ

Teradata Vantage へのお問合せ

8
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
8
2