Embulkプラグインのまとめページです。
以前Fluentdのバッチ版Embulk(エンバルク)のまとめ に掲載していたプラグインに関する記事を別ページにしました。
プラグインの一覧は、公式なものがList of Plugins by Category にあります。
こちらのページは、GitHubのスターの多い順ダウンロード数が多い順に並ぶようになっています。
本ページは各プラグインをできるだけ用途別に分類したり、作者の方が作成したプラグインの解説ページなどのURLを追記しています。
組み込みプラグインの説明
embulk本体を入れると利用できるプラグインの解説です。
様々なプラグイン(0.4.0)以降
Embulk 0.4.0リリースで、プラグイン構造が代わり新しいgemは、Embulk-{Input|Output|Filter|Parser|Formatter}-XXXという名前で作成するようになりました。ここに記載しているGemは2015年2月16日以降にEmbulk-{Input|Output|Filter}-XXXとなっているプラグインを記載したものです
ここに記載しているプラグインはembulk本体とは別にプラグインの導入が必要です。
インストールは次のように行います。
embulk gem install プラグイン名
またembulk gem search
コマンドでプラグインを探すこともできます。
embulk gem search embulk-filter -r
2015-05-30 18:20:50.064 +0900: Embulk v0.6.10
*** REMOTE GEMS ***
embulk-filter-eval (0.1.0)
embulk-filter-speedometer (0.2.2)
Inputプラグイン
RDBMS & NoSQL
- Embulk(エンバルク) データベースプラグイン覚書も参照ください。
- embulk-input-mysql MySQLのテーブルからデータを取得するJDBCプラグイン
- embulk-input-postgresql PostgreSQLのテーブルからデータを取得するJDBCプラグイン
- embulk-input-jdbc JDBC用プラグイン Oracleなど接続用 Oracleは使えるはずDB2は要書き換え。 SQLite3は??
-
embulk-input-sql カスタムなSQL文を使ってデータを取得するプラグイン
embulk-input-jdbc v0.4.0 で同等機能が実装されました - embulk-input-presto 分散SQLエンジンPrestoからデータを読み出すプラグイン
- embulk-input-vertica カラム型データベースverticaからデータを取得するプラグイン
- embulk-input-aster Asterからデータを取得するプラグイン
- embulk-input-redis NoSQL Redisからの読込み
- embulk-input-mongodb NoSQL MongoDBからの読み込み
- embulk-input-rediskeys 指定したキーでRedisからデータを取得するプラグイン
- embulk-input-clickhouse ClickHouseからデータを取得するプラグイン
クラウドサービス
- embulk-input-redshift Amazonの提供するデータウェアハウスRedShiftからデータを取得するプラグイン
- embulk-input-s3 Amazon S3からデータを取得するインプットプラグイン
- embulk-input-gcs Google クラウドストレージからデータを読み出すプラグイン 解説 補足
- embulk-input-dynamodb Amazonが提供するNoSQL DynamoDBからデータを読み出すプラグイン
-
embulk-input-sfdc Sales Forceからデータを読み出すプラグイン(Obsolete) - embulk-input-marketo マーケティングオートメーションサービスmarketoからデータを読み出すプラグイン
- embulk-input-google_spreadsheets Google Spreadsheetのデータを読み出すプラグイン (使用例)
- embulk-input-azure_blob_storage Microsoft AzureのBLOB ストレージからデータを吸い出すEmbulkのinputプラグイン
- embulk-input-healthplanet タニタの体重計の蓄積するサイトHealth Planetからデータを出力するプラグイン (解説)
- embulk-input-zendesk カスタマサービスのためのクラウドサービスZendeskから情報を取得するプラグイン (解説)
- embulk-input-googlespreadsheet Google Spreadsheetのデータを読み出すプラグイン(Ruby版)
- embulk-input-td トレジャーデータから情報を取得するプラグイン
- embulk-input-google_analytics ウェブ解析システム Google analyticsからデータを読み出すプラグイン
- embulk-input-soracom_harvest SORACOM Harvestからデータを取得するプラグイン (解説)
- embulk-input-teradata テラデータからデータを取得するプラグイン
- embulk-input-bigquery Google Bigqueryからデータを出力するプラグイン (解説)
- embulk-input-yelp ローカルビジネスレビューサイトYelpのデータを取得するプラグイン
- embulk-input-lkqd ビデオ広告プラットフォーム LKQDからデータを取得するプラグイン
- embulk-input-bigquery_extract_files Big Queryでクエリを実行した結果をGCSに格納し、そこからデータを読み出すプラグイン
- embulk-input-search_analytics Search Consoleからデータを取得するプラグイン
- embulk-input-yahoo_ads Yahooプロモーション広告 からデータを取得するプラグイン
- embulk-input-spotx 動画広告配信プラットフォームのSpotXからデータを取得するプラグイン
- embulk-input-athena Amazon Athenaからデータを取得するプラグイン
- embulk-input-datastore Cloud Datastoreからデータを取得するプラグイン (解説)
- embulk-input-travis travisからデータを取得するプラグイン
- embulk-input-facebook_ads_insights Facebook広告の出稿結果レポートを取得するプラグイン
- embulk-input-kintone Kintoneのアプリレコードを取得するプラグイン
- embulk-input-mixpanel mixpanelからデータを出力するプラグイン
- embulk-input-firestoreGoogleのCloud Firestoreからデータを取得するプラグイン
- embulk-input-sendgrid Embulk input plugin for SendGrid stats
- embulk-input-salesforce_bulk Salesforce Bulk API の一括クエリ結果を取得するプラグイン
- embulk-input-gmail Gmailからデータを取得するプラグイン
- embulk-input-cloudwatch_logs Cloudwatchのログを取得するプラグイン
- embulk-input-big-query-async A fork of original embulk-input-big-query plugin that uses async method to fetch really large amounts of rows.
- embulk-input-zendesk_guide Zendesk Guideの「この記事は役に立ちましたか?」ボタンの押された回数とかをAPIから取ってくるEmbulkのinputプラグイン
- embulk-input-github_graphql GitHubからGraphQLを使ってデータを出力するプラグイン
コマンド連携
- embulk-input-command コマンドの実行結果を入力できる。例えばPythonのpandasとの連携が可能。
- embulk-input-script Loads records from Script. (input-commandとの違いがよくわからない)
ダミーデータ生成
- embulk-input-random テストやベンチマークのためにダミーデータを作るプラグイン (解説embulk-plugin-input-randomを作った)
- embulk-input-apache-dummy-log apacheのcombined形式のログデータを生成するプラグイン
- embulk-input-randomj テストやベンチマークのためにダミーデータを作るプラグイン(Java実装)
その他
- embulk-input-slack-history ChatシステムSlackからデータを取得するプラグイン
- embulk-plugin-input-jstat JavaVMの統計情報(jstat)を読み込むプラグイン
- embulk-input-pcapng-files WireSharkなどでパケットキャプチャをした際のPcapNg形式で保存されたファイルの読込み 解説
- embulk-input-http HTTP経由でコンテンツを取得するためのプラグイン 解説
- embulk-input-filesplit 単一のファイルを複数のタスクに分割するプラグイン、一つのファイルのデータを並列でDBにインサートする際などに利用する。
- embulk-input-remote scpで複数のホストから指定したパスにあるファイル読み込むプラグイン 解説
- embulk-input-ftp FTPサーバにあるファイルを取得するためのプラグイン
- embulk-input-jira プロジェクト管理ツールJIRAのデータを取得するためのプラグイン
- embulk-input-riak_cs オープンソースストレージRiak CSからデータを読み込むプラグイン
- embulk-input-hdfs HDFS(Hadoop Distributed File System)からデータを読み込むプラグイン
- embulk-input-twitterarchive twitterのアーカイブを読み出すプラグイン
- embulk-input-slack_message ChatシステムSlackからデータを取得するプラグイン(embulk-input-slack-historyインスパイア版)
- embulk-input-sftp SFTPでデータを取得するプラグイン
- embulk-input-sequence シーケンス番号を生成するプラグイン
- embulk-input-elasticsearch 全文検索システムelasticsearchからデータを取得するプラグイン
- embulk-input-inline 設定ファイルにインラインで入力データを定義できるプラグイン
- embulk-input-swift OpenStackのオブジェクトストレージSwiftからデータを取得するプラグイン
- embulk-input-redash OSSのダッシュボードRe:dash
- embulk-input-parquet_hadoop HadoopファイルシステムからParquet形式のデータを読み出すプラグイン
- embulk-input-filename ファイル名を先頭につけるプラグイン? GitLab
- embulk-input-sitemap XMLサイトマップからデータを取得するプラグイン
- embulk-input-splunk
- embulk-input-druginfo_interview_form Loads records from Druginfo Interview Form. (所定のPDFのファイルからデータを取得するプラグインっぽい)
- embulk-input-cassandra 分散データベースApache Cassandraからデータを取得するプラグイン
- embulk-input-prometheus Load from prometheus time series data.
- embulk-input-pubsub Google Cloud Pub/Sub input plugin for Embulk.
- embulk-input-union 複数のデータソースを union して inputにするプラグイン(解説)
- embulk-input-rethinkdbNoSQLRethinkDBからデータを取得するプラグイン
- embulk-input-sparql データウェアハウス等にオープンデータを取り込むためのモジュール解説 解説その2
- embulk-input-stripe インターネット向け決済インフラStripeからデータを取得するプラグイン
- embulk-input-spanner GoogleのフルマネージドリレーショナルデータベースCloud Spannerからデータを取得するプラグイン
Outputプラグイン
RDBMS
- Embulk(エンバルク) データベースプラグイン覚書も参照ください。
- embulk-output-mysql MySQLのテーブルへデータを出力するJDBCプラグイン
- embulk-output-postgresql PostgreSQLのテーブルへデータを出力するJDBCプラグイン
- embulk-output-postgres-json PostgreSQLのJSONカラムへデータを出力するプラグイン
- embulk-output-oracle Oracleへ出力するプラグイン
- embulk-output-jdbc JDBC用プラグイン(Oracle接続等に利用)DB2は要書き換え。 SQLite3は??
- embulk-output-sqlite3 SQLite3にデータを登録するプラグイン他のRDBプラグインとは別物です
- embulk-output-postgres-udf PostgreSQLのユーザー定義関数を実行するプラグイン
- embulk-output-vertica カラム型データベースvertticaにデータを出力するプラグイン (解説)
- embulk-output-groonga 全文検索システムGroongaにデータを出力するプラグイン (解説)
クラウドサービス
- embulk-output-redshift Amazonの提供するデータウェアハウスRedShiftへデータを出力するプラグイン
- embulk-output-gcs Google Cloud Storageへデータを出力するプラグイン
- embulk-output-s3 Amazon S3へデータを出力するプラグイン
- embulk-output-bigquery Google BigQueryへデータを出力するプラグイン ※ バージョン3.0からプラグインがJavaからRubyに変わり設定も色々変わっています。公式のドキュメントをよく読んでください。 変更点 Partitioned Table
- embulk-output-td トレジャーデータのサービスでデータを出力するプラグイン
- embulk-output-salesforce Sales Forceへデータを出力するプラグイン (解説)
- embulk-output-google_spreadsheets Google Spreadsheetsへデータを出力するプラグイン
- embulk-output-azure_blob_storage Microsoft AzureのBLOB ストレージへデータを出力するプラグイン
- embulk-output-mailchimp メール配信サービス、mailchimpへデータを出力するプラグイン (参考資料)
- embulk-output-s3_per_record Amazon S3上に、1行、1S3オブジェクトとしてデータを出力するプラグイン
- embulk-output-dynamodb Amazon DynamoDBへデータを出力するプラグイン
- embulk-output-analytics_cloud Salesforceの提供するクラウドサービスAnalytic CLoudにデータを出力するプラグイン (使い方)
- embulk-output-documentdb Azure DocumentDB(NoSQL)にデータを出力するプラグイン
- embulk-output-azuresearch Azure Searchへデータを出力するプラグイン
- embulk-output-teradata テラデータへデータを出力するプラグイン
- embulk-output-slack_file_upload output fileからslackにアップロードするプラグイン
- embulk-output-wendelin wendelin?データを出力するプラグイン
- embulk-output-zendesk_users Zendeskのユーザ情報を更新するプラグイン
- embulk-output-google_analytics Google Analyticsへデータを出力するプラグイン
- embulk-output-google_sheets_ruby Google Spreadsheetsへデータを出力するプラグイン(Ruby版)
- embulk-output-pixela Pixelaにデータを出力するプラグイン(解説)
- embulk-output-embulk_output_domo Domoにデータを出力するプラグイン
-
embulk-output-snowflake snowflakeにデータを出力するプラグイン
注意 Gemになっているものとtrocco製は別ものです。参考0.2.0からtrocco版がgemとして提供されるようになりました。(2020-11-18) - embulk-output-kintone サイボウズkintoneにデータを出力するプラグイン
- embulk-input-kafka Apache Kafka からデータを取得するプラグイン
- embulk-output-gcs_streaming embulk outputでGCSアップロードのときにローカルストレージを使わずに出力するプラグイン
NoSQL等
- embulk-output-redis NoSQL Redisへの書き込み
- embulk-output-aerospike NoSQLデータベースAerospikeにデータを出力するプラグイン
- embulk-output-rediskeys 指定したキーを使って、Redisへデータを出力するプラグイン
- embulk-output-mongodb mongodbにデータを出力するプラグイン
- mongodb_nest Dumps records to Mongodb with subdocument
- embulk-output-cassandra Apache Cassandraにデータを出力するプラグイン
コマンド連携
- embulk-output-command外部コマンドを実行して、その標準入力に出力データを書き出す。既存のコマンドラインツールとの連携や、Java/Ruby以外の言語でプラグインを書きたい用途に
elasticsearch
elasticsearchのバージョンによって利用できるプラグインが異なります。こちらの記事を参照してください。
- embulk-output-elasticsearch
- embulk-output-elasticsearch_ruby
- embulk-output-elasticsearch_using_url
- embulk-output-elasticsearch5
その他
- embulk-output-trafodion SQL on Hadoop 用ソフトウェアApache trafodionにデータを出力するプラグイン
- embulk-output-parquet Hadoop用カラムナストレージ「Parquet」用出力プラグイン S3を保存先に指定することもできる(0.4.0~) (使用例)
- embulk-output-hdfs HDFS(Hadoop Distributed File System)へデータを出力するプラグイン
- embulk-output-influxdb 時系列データベースInfluxDBへデータを出力するプラグイン 解説
- embulk-output-bigobject 解析用?DB、BigObjectへデータを出力するプラグイン
- embulk-output-maprfs MapR FSにデータを出力するプラグイン
- embulk-output-swift OpenStackのオブジェクトストレージSwiftへデータを出力するプラグイン
- embulk-output-ftp FTP(FTPS)で、データを出力するプラグイン
- embulk-output-solr 全文検索システムSolrにデータを出力するプラグイン (解説)
- embulk-output-fluentd Fluentdにデータを出力するプラグイン (要Java8)
- embulk-output-key_to_redis 一意なキーをredisに登録するプラグイン。embulk-filter-key_in_redisと組み合わせて利用する。
- embulk-output-orc カラムナーストレージORCにデータを出力するプラグイン
- embulk-output-aster TeradataのAsterデータベースにデータを出力するプラグイン
- embulk-output-s3_parquet S3上にParquet形式でデータを保存するプラグイン。書き出し先をS3に限定して AWS で使える認証を全てサポート
- embulk-output-s3-compatible embulk-output-s3のフォーク(詳細不明)
- embulk-output-multi 複数の出力先に出力するプラグイン(解説)
- embulk-output-kafka Apache Kafkaにデータを出力するプラグイン
- embulk-output-s3v2 aws-sdk-java-v2 を使ってAWS S3上にデータを出力するプラグイン
Filterプラグイン
- embulk-filter-speedometer 処理速度を計測するためのプラグイン
- embulk-filter-eval filterプラグイン内でRubyのコードを実行するプラグイン 解説
- embulk-filter-column カラムを削るプラグイン (使い方)
- embulk-filter-insert 指定した場所にホスト名などのカラム追加するプラグイン 解説
embulk-filter-select_column 指定したカラムのみ出力するプラグイン- embulk-filter-row所定の条件に合致するローのみ抽出するプラグイン (使い方)
- embulk-filter-rearrange 一行のデータを複数行に再構成するプラグイン
- embulk-filter-kuromoji Java製形態素解析器 kuromojiを使ったfilterプラグイン
- embulk-filter-expand_json JsonPath を使ってデータを抽出するプラグイン、 (利用例)
-
embulk-filter-flatten_json Jsonデータを平坦化するプラグイン。例えば
{"address":{"zip_code":"123-4567"}}
を{"address.zip_code":"123-4567"}
に平坦化する、 (利用例) - embulk-filter-join_file jsonなどで記述されたマスタデータを参照し、対応する値を生成するプラグイン。都道府県コードから都道府県名を生成する等 (利用例)
- embulk-filter-stdout 標準出力にデータを出力するプラグイン
- embulk-filter-json_key JSONのカラムに所定の値を追加したり、逆に削除したりするプラグイン、 (利用例)
- embulk-filter-hash 任意の列をMD5やSHA-256等のアルゴリズムでハッシュ化するプラグイン [解説]、 [利用例] [アルゴリズム比較]
- embulk-filter-split カラム内のデータを、指定した区切り文字で複数行に変換するためのプラグイン [利用例]
- embulk-filter-unique カラムを指定して同じエントリをドロップするプラグイン(Ruby)
- embulk-filter-distinct カラムを指定して同じエントリをドロップするプラグイン(Java)
- embulk-filter-script Rubyのスクリプトを実行できるフィルタプラグイン
- embulk-filter-to_json レコード全体を単一のJSON形式のデータ(文字列型・JSON型)に変換するフィルタプラグイン
- embulk-filter-add_time 時刻のカラムを追加するプラグイン
- embulk-filter-ruby_proc rubyのコードを実行できるプラグイン、[解説]
- embulk-filter-encrypt カラムをAESで暗号化するプラグイン
- embulk-filter-query_string http://.../?query_key=query_valのようなクエリ文字列を、カラムに分解するプラグイン
- embulk-filter-url_encode URLエンコードするプラグイン
- embulk-filter-to_csv CSV formatterのフィルタ版
- embulk-filter-timestamp_hs JavaのSimpleDateFormatを使い高速に時刻をパースするプラグイン (解説)
- embulk-filter-crawler 渡されたURLにクロールするフィルタプラグイン
- embulk-filter-pherialize PHPでシリアライズされた文字列を展開するフィルタプラグイン
- embulk-filter-timestamp_format 文字列で記述された、日付のフォーマットを別のフォーマットに変更するフィルタプラグイン
- embulk-filter-typecast 別の型に変換するフィルタプラグイン
- embulk-filter-split_column 一つのカラムを複数のカラムに再構成するプラグイン
- embulk-filter-forcepoint_converter forcepointのためのフィルタプラグイン
- embulk-filter-mysql MySQLを使ったフィルタプラグイン(カラムの値を使ってジョインをする)
- embulk-filter-rename_with_gsub 正規表現でカラム名を一括修正するプラグイン
- embulk-filter-script_ruby Rubyでかけるフィルタプラグイン
- embulk-filter-jsoncolumn
-
embulk-filter-base58
base58エンコーディング・デコーディングをするプラグイン - embulk-filter-concat 二つの絡むを結合したカラムを作成するプラグイン (使い方)
- embulk-filter-icu4j ひらがな・カタカナ変換や半角カナ・全角カナ変換などの文字列変換を行うプラグイン
- embulk-filter-null_string ""や"\N"をNULLに変換するプラグイン
- embulk-filter-calc 簡単な四則演算( (id + 10) * 200)やsin/等の関数で計算をすることができるプラグイン
- embulk-filter-base64 Base64エンコード・デコードするプラグイン (解説 )
- embulk-filter-reverse_geocoding 緯度経度(度分秒/世界測地系)から都道府県名、市区町村名、ジオハッシュ(5桁)を生成するフィルタープラグイン(日本のみ) (解説)
- embulk-filter-google_translate_api Google翻訳APIを使って、テキストをソース言語からターゲット言語に翻訳するプラグイン
- embulk-filter-google_natural_language_api Google Natural Language Apiを利用したフィルタプラグイン
- embulk-filter-mask 値を*でマスクするプラグイン。JSON Pathにも対応 (解説)
- embulk-filter-google_vision_api Google Cloud Vision APIを使ったフィルタプラグイン
- embulk-filter-azure_computer_vision_api Microsoft Azure Computer Vision APIを利用したフィルタプラグイン
- embulk-filter-azure_translator_api クラウドベースの翻訳機能Microsoft Translator テキスト APIを利用したフィルタプラグイン
- embulk-filter-protobuf protobuf messageとJSONを相互変換できるフィルタプラグイン
- embulk-filter-amazon_rekognition 深層学習に基づくイメージ認識サービスAmazon Rekognitionを利用するフィルタプラグイン
- embulk-filter-azure_text_analytics Microsoft AzureのText Analytics を利用したプラグイン
- embulk-filter-calcite Apache Calciteを使いSQLのようにフィルタを記述できるプラグイン
- embulk-filter-affix データの型をみて、カラム名に接頭または接尾に所定の文字を追加するプラグイン (解説)
- embulk-filter-unpivot(解説)
- embulk-filter-copy filter plugin に渡ってきたデータを copy して、そのデータを input として別の embulk を実行する plugin (解説)
- embulk-filter-json_csv2arrayofobjects JSONの中にあるCSVデータを配列オブジェクトに変換するプラグイン
- embulk-filter-key_in_redis Redisに登録された一意なキーを参照し、重複レコードを除外するプラグイン。embulk-output-key_to_redisと組み合わせて利用する。
- embulk-filter-json_key_joiner jsonカラムに所定の値を追加するプラグイン
- embulk-filter-strip_html_tags 所定のカラムからHTMLのタグを除去するプラグイン
- embulk-filter-gsub 文字列を正規表現を使って置き換えするプラグイン
- embulk-filter-murmur2_partitioner KafkaのDefaultPartitionerと同じロジックでpartition番号を算出してカラムに付与するプラグイン
- embulk-filter-expand_csv_array CSVカラムをもったレコードを展開するプラグイン
- embulk-filter-decrypt 暗号化された文字列を復号するプラグイン
- embulk-filter-convert_unicode_sequence_to_string Convert Unicode Sequence To String
- embulk-filter-unnest JSONとして表現されるArrayをフラット化(展開)するプラグイン (解説)
- embulk-filter-pseudo カラムを暗号化するプラグイン(だとおもう)
- embulk-filter-capture
Parserプラグイン
- embulk-parser-pcapng WireSharkなどでパケットキャプチャをした際のPcapNg形式で保存されたファイルの読込みパーサプラグイン版
- embulk-parser-xml XMLのデータをパースするプラグイン
- embulk-parser-json JSONのデータをパースするプラグイン
- embulk-parser-fluent-s3-log fluent-plugin-s3の出力ログをパースするプラグイン
- embulk-parser-jsonl 1行につき1つのJSONというフォーマットを読み込むためのプラグイン 解説
- embulk-parser-jdbc-schema-csv CSVパーサ拡張プラグイン 解説
- embulk-parser-apache-log apache(NCSA)のcommonと、combinedログをパースするプラグイン (embulk-parser-apache-custom-logの方が高機能です)
- embulk-parser-roo-excel Microsoft Excelのxlsx形式のファイルを読み込むプラグイン
- embulk-parser-query-string クエリ文字列(key1=val1&key2=val2)の形式のデータをパースするプラグイン
- embulk-parser-msgpack messagepackのデータをパースするプラグイン
- embulk-parser-ltsv ltsvをパースするプラグイン
- embulk-parser-regex 正規表現で行をparseするParser Plugin (解説)
- embulk-parser-apache-custom-log apache(NCSA)のログをパースするプラグイン、カスタムフォーマットにも対応
- embulk-parser-poi_excel Excel(xlsx形式だけでなく、xls形式のデータもパースできる)パーサープラグイン 使い方
- embulk-parser-none なにもしないパーサープラグイン
- embulk-parser-grok grokを利用した汎用的パーサープラグイン (解説)
- embulk-parser-xpath XML/XHTMLをxpathでパースするプラグイン
- embulk-parser-sisimai Sisimaiを利用してバウンスメールを解析するためのプラグイン
- embulk-parser-fluentd_out_file fluentd out_file形式のデータをパースするプラグイン
- embulk-parser-avro Apache Avro形式で保存されたデータをパースするプラグイン
- embulk-parser-script_ruby パース部分をスクリプト言語Rubyで記述できるプラグイン
- embulk-parser-xml2 巨大なXMLファイルを効率良くパースできるプラグイン (解説)
- embulk-parser-jsonpath JSONPathを使ってJSON形式のデータをパースするプラグイン
- embulk-parser-unpack 固定長データをパースするプラグイン
-
embulk-filter-expand_json_array JSONの
[1,2,3]
のようなカラムを複数の展開するプラグイン - embulk-parser-csv_with_default_value パースに失敗した際に、デフォルト値を設定できるCSVパーサプラグインの拡張
- embulk-parser-apache_error_log Apacheのエラーログをパースするプラグイン
- embulk-parser-fixed 固定長データをパースするプラグイン
- embulk-parser-csv_guessable 実行時にguessをして動的にcolumnsを作成するプラグイン、頻繁にカラムが変る場合に便利 (解説)
- embulk-parser-firebase_avro Google-BigqueryからAVRO形式で出力されたFirebaseのデータをパースするプラグイン
- embulk-parser-joni_regexp fluentdで利用している正規表現ライブラリと互換性のあるOnigurumaを使った正規表現パーサープラグイン
- embulk-parser-mysqldump_tab mysqldump で出力したtsvをパースするプラグイン
- embulk-parser-xpath2 XMLをXPathで指定してパースするプラグイン(Scala)
- embulk-parser-none-bin parser-noneのtextファイルじゃなくてバイナリとしてよみこんでbase64エンコードして後ろに流す?プラグイン GitLab
- embulk-parser-twitter_ads_stats Twitter広告の統計情報データをパースするプラグイン
- embulk-parser-csv_with_schema_file スキーマを指定できるCSVパーサプラグイン
- embulk-parser-header_based_csv CSVをパースするとき、ファイルのヘッダー名とコンフィグファイルのカラム名が完全一致しているか調べるCSVパーサープラグイン拡張
- embulk-parser-squid_clf_log Squidのログをパースするプラグイン
- embulk-parser-variable_length_bytes マルチバイト文字を含むレコードをバイト長指定でparseするEmbulkプラグインを書いた。
- embulk-parser-flexml 属性にxpathを利用できるXMLパーサプラグイン
Formatterプラグイン
- embulk-formatter-jsonl レコードの内容をjsonl(1 json 1行)の形式に整形するプラグイン
- embulk-formatter-poi_excel Excel(xls,xlsx)形式のデータに変換するプラグイン
- embulk-formatter-markdown_table Markdownのテーブルフォーマットに整形するプラグイン
- embulk-formatter-html_table HTMLのtable形式に整形するプラグイン
- embulk-formatter-single_value フォーマットせずに単一のカラムだけ出力するプラグイン、embulk-parser-noneのフォーマッターバージョン
- embulk-formatter-geojson geojson形式にフォーマットするプラグイン
- embulk-formatter-sprintf sprintf(Java String#format)を使ってデータをフォーマットするプラグイン
- embulk-formatter-avro データシリアライゼーションツールAvro形式のデータを出力するプラグイン
- embulk-formatter-fast_jsonl レコードの内容をjsonl(1 json 1行)の形式に整形するプラグインの高速版
-
embulk-formatter-mysql_xml Embulk formatter plugin to output value for MySQL's
LOAD XML
statement
Decoderプラグイン
- embulk-decoder-commons-compress Apache Common Compress Decoderを使ってbz2,xz,zip,tarなどを展開するデコーダ 試しに使ってみた
- embulk-decoder-lz4 lz4を伸張するデコーダ
- embulk-decoder-remove_nonstandard_utf8_bytes 壊れたUTF-8エンコーディングの含まれる文字列を除去するデコーダ
- embulk-decoder-lzo lzo圧縮を伸張するプラグイン
- embulk-decoder-command コマンドを実行できるデコーダー
- embulk-decoder-unzip
Executorプラグイン
- embulk-executor-mapreduce EmbulkのタスクをHadoop上で実行するためのプラグイン
Encoderプラグイン
- embulk-encoder-xz XZ形式でファイルを圧縮するためのプラグイン
- embulk-encoder-commons-compress bzip2等でファイルを圧縮するためのプラグイン
- embulk-encoder-encrypted_zip 暗号化zipファイルを作るデコーダ (解説)
- embulk-encoder-pgp_encryption PGPG(GPG)の公開鍵使って暗号化ファイルを作るプラグイン (解説)
- embulk-encoder-lz4 lz4形式でデータを圧縮するプラグイン
- embulk-encoder-command コマンドを実行できるエンコーダー
- embulk-encoder-zip zip暗号化をするプラグイン
番外編CData
0.3.2以前のプラグイン
様々なプラグイン(0.3.2)以前を参照してください。
その他
最新のパッケージをrubygemsで検索する方法
Search embulk packages in Rubygems