はじめに
データエンジニアリングの世界では、Spark、Kafka、dbt、Airflow…と数多くのOSSが使われています。しかし、それぞれの「持ち主」がどの企業かを意識したことはあるでしょうか?
OSSは「無料で使えるソフトウェア」である一方、その裏には企業の明確なビジネス戦略が存在します。この記事では、データ基盤を中心とした主要OSSとその保持企業の関係を一覧で整理し、「なぜ企業はOSSを持つのか」というビジネス構造を5分で俯瞰できるようまとめました。
対象読者: データエンジニアリングに携わり始めた方、OSSの全体像を把握したい方
本記事の情報は2026年4月時点のものです。ライセンスや企業動向は変化が速いため、最新情報は各公式サイトをご確認ください。
企業がOSSを「持つ」6つのメリット
企業がOSSプロジェクトを保持・主導する理由は、単なる社会貢献ではありません。明確なビジネス上のメリットがあります。
| # | メリット | ポイント |
|---|---|---|
| 1 | デファクトスタンダードの獲得 | 無料で広めて技術標準を自社主導で作れる |
| 2 | コミュニティによるR&D | 世界中の開発者がバグ報告・機能提案・PRを提供してくれる |
| 3 | 採用競争力 | 「○○を作った会社」というブランドが優秀なエンジニアを引きつける |
| 4 | ロードマップのコントロール | コアメンテナーが社内にいれば技術の方向性を支配できる |
| 5 | 自然な有料版への導線 | 「OSS版は自運用、マネージド版は我々が提供」という差別化が容易 |
| 6 | 善意のロックイン | OSSだから他でも動くと言いつつ、商用版の体験を圧倒的に良くできる |
ただし、リスクもあります。クラウドベンダーがOSSをそのままマネージドサービス化する「ただ乗り問題」です。AWSがElasticsearchをフォークしてOpenSearchを作った事例や、RedisをフォークしてValkeyを立ち上げた事例がよく知られています。これに対抗するため、多くの企業がライセンス変更に踏み切っています(後述)。
主要OSS × 保持企業マップ
データ処理・分析基盤
| OSS | 保持企業 | 開発元 | 商用版 |
|---|---|---|---|
| Apache Spark | Databricks | UC Berkeley AMPLab | Databricks Runtime |
| Apache Kafka | Confluent | Confluent Cloud | |
| Apache Flink | Confluent(注力中) | TU Berlin | Confluent Cloud for Flink |
| Apache Airflow | Astronomer | Airbnb | Astronomer Cloud |
| Apache Iceberg | コミュニティ主導 | Apple | 各社対応1 |
| Delta Lake | Databricks | Databricks | Databricks Lakehouse |
| Apache Hudi | Onehouse | Uber | Onehouse Cloud |
| Trino(旧PrestoSQL) | Starburst | Starburst Enterprise | |
| dbt Core | dbt Labs | dbt Labs | dbt Cloud |
| Apache Arrow | Voltron Data | Wes McKinney | — |
| Polars | Polars Inc. | Ritchie Vink | Polars Cloud |
データベース・ストレージ
| OSS | 保持企業 | 開発元 | 商用版 |
|---|---|---|---|
| PostgreSQL | コミュニティ主導 | UC Berkeley | EDB / Supabase / Neon 等 |
| MySQL | Oracle | MySQL AB → Sun → Oracle | MySQL Enterprise |
| MariaDB | MariaDB Corp | MySQL フォーク | MariaDB Enterprise |
| MongoDB | MongoDB Inc. | MongoDB Inc. | MongoDB Atlas |
| Redis | Redis Ltd. | Salvatore Sanfilippo | Redis Cloud |
| Elasticsearch | Elastic | Elastic | Elastic Cloud |
| OpenSearch | AWS | ES フォーク | Amazon OpenSearch Service |
| ClickHouse | ClickHouse Inc. | Yandex | ClickHouse Cloud |
| CockroachDB | Cockroach Labs | Cockroach Labs | CockroachDB Dedicated |
| TiDB | PingCAP | PingCAP | TiDB Cloud |
オーケストレーション・データ品質
| OSS | 保持企業 | 商用版 |
|---|---|---|
| Dagster | Dagster Labs(旧Elementl) | Dagster Cloud |
| Prefect | Prefect | Prefect Cloud |
| Great Expectations | GX | GX Cloud |
| OpenLineage | Astronomer 主導 | — |
ML / AI
| OSS | 保持企業 | 商用版 |
|---|---|---|
| PyTorch | Meta | — |
| TensorFlow | Vertex AI | |
| MLflow | Databricks | Databricks MLflow |
| Kubeflow | Vertex AI Pipelines | |
| Ray | Anyscale(UC Berkeley発) | Anyscale Platform |
| LangChain | LangChain Inc. | LangSmith |
| Hugging Face Transformers | Hugging Face | HF Enterprise Hub |
2025-2026年の注目トレンド
テーブルフォーマットはIcebergに収束
データレイクハウスのテーブルフォーマットは、事実上 Apache Iceberg に収束しつつあります。2025年の調査では、実務者の78.6%がIcebergを利用しているという結果が出ています。
Databricksは Delta Lake を推進しつつも、Iceberg v3 によって Delta と Iceberg 間のデータ互換性を実現しました。データの書き換えなしにフォーマット間を行き来できるようになったことで、「どのフォーマットを選ぶか」という問いの重要性は薄れつつあります。
さらに2026年は「ストリーミングファーストなレイクハウス」が注目されており、ConfluentのTableflowのようにストリーム処理からIcebergテーブルへ直接書き込む仕組みが広がっています。
ライセンス戦争の最新動向
クラウドベンダーのただ乗りに対抗するため、多くのOSS企業がライセンスを変更してきました。しかし最近は揺り戻しも起きています。
| 企業 | 変更の流れ | 備考 |
|---|---|---|
| HashiCorp | MPL 2.0 → BSL(2023年) | 2025年にIBMが64億ドルで買収 |
| MongoDB | AGPL → SSPL(2018年) | クラウド対策の先駆け |
| Redis | BSD → RSAL+SSPL → AGPLv3追加(2025年) | Redis 8でオープンソースに回帰 |
| Elastic | Apache 2.0 → SSPL → AGPL(2024年) | OpenSearchフォークへの対抗後、AGPL復帰 |
特にRedisは、2024年にBSDからRSAL+SSPLに変更した結果、AWSがValkeyフォークを立ち上げるきっかけとなりました。その後Redis 8でAGPLv3を追加し、オープンソースライセンスに回帰しています。ライセンスの選択はコミュニティとの関係に直結する判断です。
PostgreSQLのコミュニティ主導という特殊性
PostgreSQLは特定の企業に支配されない、コミュニティ主導の代表例です。だからこそ Supabase、Neon、Tembo など多数のスタートアップがPostgreSQLベースで起業できています。一方で、ロードマップをコントロールする単一企業がいないため、商用データベースのような素早い機能追加は難しい面もあります。
OSSビジネスの共通パターン
多くのOSS企業は、以下のフローでビジネスを構築しています。
一言でまとめると、「無料で配って、標準を握って、その上で課金する」のがOSSビジネスの本質です。OSSの保持企業を知ることは、技術選定の際に「このプロジェクトは今後も継続的に投資されるか?」を判断する材料にもなります。
まとめ
この記事では、データ基盤を中心とした主要OSSとその保持企業を一覧で整理しました。
- 企業がOSSを持つ理由は「標準化 → コミュニティ拡大 → 商用化」というビジネスモデルに直結している
- テーブルフォーマットはIcebergへの収束が進み、Iceberg v3でフォーマット間の壁が低くなった
- ライセンス戦争では揺り戻しも発生しており、RedisやElasticがオープンソースに回帰している
OSSを「使う側」だけでなく「誰が持っているか」の視点を持つと、技術選定やキャリア選択の解像度が一段上がるはずです。
-
Snowflake / Databricks / AWS がそれぞれ独自にIceberg対応を提供しています。 ↩