自分向けデータに関する情報まとめです。
随時追記します。
ファイル形式(ストレージ)
列指向
Apache Parquet(アパッチ・パーケット)
https://parquet.apache.org/
行指向
Apache Avro(アパッチ・アブロ)
https://avro.apache.org/
他
Protocol Buffers(プロトコル・バッファ)
https://protobuf.dev/
データフォーマット(インメモリ)
列指向
Apache Arrow(アパッチ・アロー)
https://arrow.apache.org/
行指向
データ型とIFの定義
Apache Thrift(アパッチ・スリフト)
https://thrift.apache.org/
OpenAPI Specification(オープン・エーピーアイ)/Swagger (スワッガー)
https://swagger.io/specification/
GraphQL (グラフキューエル)
https://graphql.org/
WSDL
メタデータ管理・データカタログ
Apache Atlas(アパッチ・アトラス)
https://atlas.apache.org/
OpenMetadata(オープンメタデータ)
https://open-metadata.org/
DataHub(データハブ)
https://datahubproject.io/
ETL・ワークフロー・パイプライン・ルーティングなど
Apache Nifi(アパッチ・ナイファイ)
https://nifi.apache.org/
Apache AirFlow(アパッチ・エアーフロー)
https://airflow.apache.org/
Apache Beam(アパッチ・ビーム)
https://beam.apache.org/
Apache Camel(アパッチ・キャメル)
https://camel.apache.org/
メッセージングシステム
Apache Kafka(アパッチ・カフカ)
https://kafka.apache.org/
Apache Kafka Streams
https://kafka.apache.org/documentation/streams/
Apache Samza(アパッチ・?)
https://samza.apache.org/
Apache Storm(アパッチ・ストーム)
https://storm.apache.org/
Apache Pulsar(アパッチ・パルサー)
https://pulsar.apache.org/
Apache Flink(アパッチ・フリンク)
https://flink.apache.org/
分散処理システム(ストレージ)
Apache Hadoop(アパッチ・ハドゥープ)
https://hadoop.apache.org/
Apache Hive(アパッチ・ハイブ)
https://hive.apache.org/
Apache Sqoop(アパッチ・?)
https://sqoop.apache.org/
Apache Ranger(アパッチ・レンジャー)
https://ranger.apache.org/
Apache Sentry(アパッチ・セントリー)
https://sentry.apache.org/
分散処理システム(インメモリ)
Apache Spark
https://spark.apache.org/
Apache Spark Streaming
https://spark.apache.org/docs/latest/streaming-programming-guide.html
分散型SQLクエリエンジン
Apache Drill(アパッチ・ドリル)
https://drill.apache.org/
分散型ログ収集
Apache Flume(アパッチ・フルーム)
https://flume.apache.org/
分散型分析エンジン
Apache Kylin(アパッチ・キーリン)
https://kylin.apache.org/