7
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?

Databricksに入社して5年目の振り返り

7
Last updated at Posted at 2025-11-16

Databricks弥生です。ちょうど今日でDatabricksに入社してから5年が経ちました。本当にあっという間でした。

せっかくなので振り返りを行おうと思いましたが、つらつら文章を書くよりも、データ & AIカンパニーということでデータとAIで記事にしたいと思います。データはほぼ毎日書き続けたQiitaの記事、そしてAIとしてDatabricksアシスタントのデータサイエンスエージェントに分析、執筆してもらっています。アシスタントの指示ファイルは以下のようにしています。

.assistant_instructions.md
- データ分析、生成AI、Databricksの専門家です
- 日本語で会話します
- 可視化にはplotlyを使います

QiitaのAPIで記事を取得して、Deltaテーブルに登録しています。

Screenshot 2025-11-16 at 14.26.38.png

テキストを分析しやすくするためにAI関数を使って本文から要約を生成しています。

-- Step 1: Create a temporary view with the new summaries
CREATE OR REPLACE TEMP VIEW tmp_new_summaries AS
SELECT
  id,
  ai_query(
    'databricks-claude-sonnet-4-5',
    concat('次のDatabricks記事本文を日本語で200文字以内で要約してください。\n\n本文: ', body, '\n\n要約:')
  ) AS new_summary
FROM users.takaaki_yayoi.qiita_articles
WHERE summary IS NULL OR trim(summary) = '';

-- Step 2: Update the original table using the temporary view (use MERGE INTO for Databricks SQL)
MERGE INTO users.takaaki_yayoi.qiita_articles AS t
USING tmp_new_summaries AS v
ON t.id = v.id
WHEN MATCHED THEN
  UPDATE SET t.summary = v.new_summary;

以降は上のテーブルをコンテキストとして設定した上でのアシスタントとのやり取りです。以下の結果を見て自分でもいろいろな気付きがありました。やっぱり2023年の生成AI元年で書く内容がガラッと変わったなという実感はあります。


プロンプト

Databricksに入社して5年が経ちました。ほぼ毎日執筆した過去の執筆記事の振り返りを行いたいです。記事の基本統計情報からスタートして、参照数、lgtmなどの時系列の変化、タグや要約から年別の傾向を導出し、総括も作成してください。

5年間のQiita記事振り返り分析

Databricksに入社して5年間の執筆活動を振り返ります。

分析内容

  1. 基本統計情報
  2. 時系列分析(記事数、閲覧数、lgtm数の推移)
  3. タグ分析(年別の傾向)
  4. 要約からのトピック傾向分析
  5. 総括

データの読み込みと前処理

from pyspark.sql import functions as F
from pyspark.sql.types import *
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import pandas as pd
from datetime import datetime

# データの読み込み
df = spark.table("users.takaaki_yayoi.qiita_articles")

# 日付の変換と年月の抽出
df = df.withColumn("created_date", F.to_timestamp("created_at"))
df = df.withColumn("year", F.year("created_date"))
df = df.withColumn("month", F.month("created_date"))
df = df.withColumn("year_month", F.date_format("created_date", "yyyy-MM"))

print(f"データ読み込み完了: {df.count()}件の記事")
データ読み込み完了: 2106件の記事

1. 基本統計情報

全体の統計情報

# 基本統計の計算
stats = df.agg(
    F.count("id").alias("total_articles"),
    F.min("created_date").alias("first_article"),
    F.max("created_date").alias("last_article"),
    F.sum("page_views_count").alias("total_views"),
    F.avg("page_views_count").alias("avg_views"),
    F.sum("lgtm").alias("total_lgtm"),
    F.avg("lgtm").alias("avg_lgtm")
).collect()[0]

# 期間の計算
first_date = stats["first_article"]
last_date = stats["last_article"]
days = (last_date - first_date).days
years = days / 365.25

# 結果の表示
print("="*60)
print("📊 5年間の執筆活動サマリー")
print("="*60)
print(f"\n📝 総記事数: {stats['total_articles']:,}")
print(f"📅 執筆期間: {first_date.strftime('%Y年%m月%d日')}{last_date.strftime('%Y年%m月%d日')}")
print(f"⏱️  執筆日数: {days:,}日 ({years:.1f}年)")
print(f"📈 1日あたりの平均記事数: {stats['total_articles']/days:.2f}")
print(f"\n👀 総閲覧数: {stats['total_views']:,}")
print(f"📊 平均閲覧数: {stats['avg_views']:.1f}回/記事")
print(f"\n❤️  総LGTM数: {stats['total_lgtm']:,}")
print(f"💚 平均LGTM数: {stats['avg_lgtm']:.2f}件/記事")
print(f"\n🎯 LGTM率: {(stats['total_lgtm']/stats['total_views']*100):.2f}%")
print("="*60)
============================================================
📊 5年間の執筆活動サマリー
============================================================

📝 総記事数: 2,106件
📅 執筆期間: 2021年03月02日 〜 2025年11月14日
⏱️  執筆日数: 1,717日 (4.7年)
📈 1日あたりの平均記事数: 1.23件

👀 総閲覧数: 5,090,873回
📊 平均閲覧数: 2417.3回/記事

❤️  総LGTM数: 4,100件
💚 平均LGTM数: 1.95件/記事

🎯 LGTM率: 0.08%
============================================================

年別の統計情報

# 年別の統計
yearly_stats = df.groupBy("year").agg(
    F.count("id").alias("articles"),
    F.sum("page_views_count").alias("total_views"),
    F.avg("page_views_count").alias("avg_views"),
    F.sum("lgtm").alias("total_lgtm"),
    F.avg("lgtm").alias("avg_lgtm")
).orderBy("year")

print("\n📅 年別統計:")
display(yearly_stats)
year articles total_views avg_views total_lgtm avg_lgtm
2021 302 1272385 4213.195364238411 848 2.80794701986755
2022 553 1532544 2771.3273056057865 780 1.410488245931284
2023 450 1281306 2847.346666666667 1270 2.8222222222222224
2024 442 680647 1539.9253393665158 687 1.5542986425339367
2025 359 323991 902.4818941504178 515 1.434540389972145

2. 時系列分析

月別の記事数推移

# 月別の記事数
monthly_articles = df.groupBy("year_month").agg(
    F.count("id").alias("articles")
).orderBy("year_month").toPandas()

# Plotlyで可視化
fig = px.line(monthly_articles, x="year_month", y="articles",
              title="📅 月別記事数の推移",
              labels={"year_month": "年月", "articles": "記事数"},
              markers=True)
fig.update_layout(height=400, xaxis_tickangle=-45)
fig.show()

newplot.png

年別の記事数、閲覧数、LGTM数の推移

# 年別データをPandasに変換
yearly_pd = yearly_stats.toPandas()

# 複数のサブプロットを作成
fig = make_subplots(
    rows=2, cols=2,
    subplot_titles=("📝 年別記事数", "👀 年別総閲覧数", 
                    "❤️ 年別総LGTM数", "📊 平均閲覧数 vs 平均LGTM数"),
    specs=[[{"secondary_y": False}, {"secondary_y": False}],
           [{"secondary_y": False}, {"secondary_y": True}]]
)

# 1. 年別記事数
fig.add_trace(
    go.Bar(x=yearly_pd["year"], y=yearly_pd["articles"], name="記事数",
           marker_color="lightblue", text=yearly_pd["articles"], textposition="outside"),
    row=1, col=1
)

# 2. 年別総閲覧数
fig.add_trace(
    go.Bar(x=yearly_pd["year"], y=yearly_pd["total_views"], name="総閲覧数",
           marker_color="lightgreen", text=yearly_pd["total_views"], textposition="outside"),
    row=1, col=2
)

# 3. 年別総LGTM数
fig.add_trace(
    go.Bar(x=yearly_pd["year"], y=yearly_pd["total_lgtm"], name="総LGTM数",
           marker_color="lightcoral", text=yearly_pd["total_lgtm"], textposition="outside"),
    row=2, col=1
)

# 4. 平均閲覧数 vs 平均LGTM数
fig.add_trace(
    go.Scatter(x=yearly_pd["year"], y=yearly_pd["avg_views"], name="平均閲覧数",
               mode="lines+markers", marker_color="blue", line=dict(width=3)),
    row=2, col=2, secondary_y=False
)
fig.add_trace(
    go.Scatter(x=yearly_pd["year"], y=yearly_pd["avg_lgtm"], name="平均LGTM数",
               mode="lines+markers", marker_color="red", line=dict(width=3)),
    row=2, col=2, secondary_y=True
)

# レイアウト調整
fig.update_xaxes(title_text="", row=1, col=1)
fig.update_xaxes(title_text="", row=1, col=2)
fig.update_xaxes(title_text="", row=2, col=1)
fig.update_xaxes(title_text="", row=2, col=2)

fig.update_yaxes(title_text="記事数", row=1, col=1)
fig.update_yaxes(title_text="閲覧数", row=1, col=2)
fig.update_yaxes(title_text="LGTM数", row=2, col=1)
fig.update_yaxes(title_text="平均閲覧数", row=2, col=2, secondary_y=False)
fig.update_yaxes(title_text="平均LGTM数", row=2, col=2, secondary_y=True)

fig.update_layout(height=800, showlegend=True, title_text="📈 年別トレンド分析")
fig.show()

newplot (1).png

3. タグ分析

タグの展開と集計

# タグを展開して集計(Databricksタグは全記事に付与されているため除外)
tags_exploded = df.select("year", F.explode("tags").alias("tag"))

# 全体のタグTOP20(Databricksを除外)
top_tags = tags_exploded.filter(F.col("tag") != "Databricks").groupBy("tag").agg(
    F.count("*").alias("count")
).orderBy(F.desc("count")).limit(20).toPandas()

print("🏷️ TOP 20 人気タグ (Databricksタグは全記事に付与されているため除外):")
display(top_tags)
🏷️ TOP 20 人気タグ (Databricksタグは全記事に付与されているため除外):
tag count
LLM 171
Spark 167
MLflow 152
UnityCatalog 118
deltalake 116
Databricksクイックスタートガイド 88
DeltaLiveTables 84
DatabricksSQL 76
AWS 68
rag 67
生成AI 49
Databricks_AI_BI 46
Databricksベストプラクティス 42
Python 38
OpenAI 37
機械学習 33
LangChain 30
MosaicAI 29
Databricks生成AIクックブック 26
Databricksアシスタント 26

TOP20タグの可視化

# 横棒グラフで表示
fig = px.bar(top_tags, y="tag", x="count", orientation="h",
             title="🏷️ TOP 20 人気タグ",
             labels={"tag": "タグ", "count": "記事数"},
             color="count", color_continuous_scale="Viridis")
fig.update_layout(height=600, yaxis={'categoryorder':'total ascending'})
fig.show()

newplot (2).png

年別タグTOP10の分析

# 年別のタグTOP10を取得(Databricksを除外)
yearly_tags = tags_exploded.filter(F.col("tag") != "Databricks").groupBy("year", "tag").agg(
    F.count("*").alias("count")
)

# 各年のTOP10タグを取得
from pyspark.sql.window import Window

window_spec = Window.partitionBy("year").orderBy(F.desc("count"))
yearly_top_tags = yearly_tags.withColumn("rank", F.row_number().over(window_spec)) \
    .filter(F.col("rank") <= 10) \
    .orderBy("year", "rank") \
    .toPandas()

print("📅 年別 TOP 10 タグ (Databricksタグを除外):")
display(yearly_top_tags)
year tag count rank
2021 Databricksクイックスタートガイド 54 1
2021 Spark 37 2
2021 deltalake 37 3
2021 MLflow 30 4
2021 機械学習 26 5
2021 AWS 22 6
2021 Python 19 7
2021 Databricksベストプラクティス 17 8
2021 ソリューションアクセラレータ 14 9
2021 Lakehouse 10 10
2022 deltalake 53 1
2022 Spark 51 2
2022 MLflow 39 3
2022 DeltaLiveTables 38 4
2022 DatabricksSQL 34 5
2022 Databricksクイックスタートガイド 33 6
2022 AWS 26 7
2022 UnityCatalog 26 8
2022 レイクハウス 15 9
2022 DeltaSharing 15 10
2023 LLM 89 1
2023 UnityCatalog 41 2
2023 MLflow 36 3
2023 DatabricksSQL 19 4
2023 DeltaLiveTables 18 5
2023 Spark 17 6
2023 AWS 14 7
2023 Dolly 14 8
2023 OpenAI 12 9
2023 deltalake 11 10
2024 LLM 64 1
2024 Spark 55 2
2024 rag 52 3
2024 生成AI 35 4
2024 UnityCatalog 31 5
2024 Databricks生成AIクックブック 26 6
2024 ApacheSpark徹底入門 20 7
2024 LearningSpark2ndEdition 20 8
2024 Databricksアシスタント 19 9
2024 MosaicAI 19 10
2025 MLflow 33 1
2025 Databricks_AI_BI 29 2
2025 OpenAI 22 3
2025 エージェント 21 4
2025 UnityCatalog 20 5
2025 LLM 18 6
2025 MCP 17 7
2025 LangChain 16 8
2025 DatabricksApps 16 9
2025 Genie 14 10

年別タグヒートマップ

# 主要タグの年別推移をヒートマップで表示
top_10_tags = top_tags.head(10)["tag"].tolist()

# 主要タグの年別データをピボット
yearly_tag_pivot = yearly_tags.filter(F.col("tag").isin(top_10_tags)) \
    .groupBy("year", "tag").agg(F.sum("count").alias("count")) \
    .toPandas() \
    .pivot(index="tag", columns="year", values="count").fillna(0)

# ヒートマップ作成(0件を明確に表示)
fig = px.imshow(yearly_tag_pivot,
                labels=dict(x="", y="タグ", color="記事数"),
                title="🔥 TOP 10 タグの年別推移ヒートマップ(0件は白色で表示)",
                color_continuous_scale=[
                    [0, "white"],           # 0件は白
                    [0.01, "#FFF5E6"],     # 1件から薄いオレンジ
                    [0.1, "#FFE4B3"],
                    [0.3, "#FFB366"],
                    [0.5, "#FF8C1A"],
                    [0.7, "#E67300"],
                    [1.0, "#B35900"]       # 最大値は濃いオレンジ
                ],
                aspect="auto",
                text_auto=True)  # 数値を表示
fig.update_xaxes(side="bottom")
fig.update_traces(texttemplate="%{z:.0f}", textfont_size=10)  # 整数で表示
fig.update_layout(height=500)
fig.show()

newplot (3).png

4. 要約からのトピック傾向分析

年別の主要キーワード抽出

# 年別の要約を結合
yearly_summaries = df.filter(F.col("summary").isNotNull()) \
    .groupBy("year") \
    .agg(F.concat_ws(" ", F.collect_list("summary")).alias("all_summaries")) \
    .orderBy("year") \
    .toPandas()

print("📝 年別の要約データを集約完了")
print(f"年数: {len(yearly_summaries)}")

年別の主要キーワード分析

import re
from collections import Counter

# キーワード抽出用の関数
def extract_keywords(text, top_n=15):
    # カタカナ、英単語、漢字2文字以上を抽出
    katakana = re.findall(r'[\u30a1-\u30f6\u30fc]{3,}', text)
    english = re.findall(r'\b[A-Z][a-zA-Z]{2,}\b', text)
    kanji = re.findall(r'[\u4e00-\u9faf]{2,}', text)
    
    # 除外キーワード
    exclude = {'こと', 'よう', 'ため', 'もの', 'これ', 'それ', 'あれ', 'どれ', 'この', 'その', 'あの', 'どの',
               'ここ', 'そこ', 'あそこ', 'どこ', 'いくつか', 'いくつ', 'いくつも', 'いくつかの',
               'すべて', '全て', '各々', 'それぞれ', 'それら', 'これら', 'あれら', 'どれら',
               '使用', '利用', '実装', '提供', '必要', '可能', '場合', '方法', '機能', '設定',
               '以上', '以下', '以外', '以内', '以降', '以前', '以後', '今回', '今年', '今月',
               '解説', '紹介', '確認', '説明', '記事', '内容', '情報', 'データ', 'コード',
               'The', 'This', 'That', 'These', 'Those', 'With', 'From', 'Into', 'About', 'After'}
    
    all_words = katakana + english + kanji
    filtered_words = [w for w in all_words if w not in exclude and len(w) >= 2]
    
    counter = Counter(filtered_words)
    return counter.most_common(top_n)

# 年別のキーワード抽出
yearly_keywords = {}
for _, row in yearly_summaries.iterrows():
    year = row['year']
    keywords = extract_keywords(row['all_summaries'])
    yearly_keywords[year] = keywords
    print(f"\n📅 {year}年 TOP 15 キーワード:")
    for i, (word, count) in enumerate(keywords, 1):
        print(f"  {i:2d}. {word:20s} ({count:3d}回)")

📅 2021年 TOP 15 キーワード:
   1. 管理                   (122回)
   2. モデル                  (100回)
   3. クラスター                ( 89回)
   4. 機械学習                 ( 87回)
   5. 活用                   ( 82回)
   6. 実現                   ( 80回)
   7. ノートブック               ( 74回)
   8. 対応                   ( 74回)
   9. 作成                   ( 73回)
  10. アクセス                 ( 67回)
  11. ワークスペース              ( 64回)
  12. Databricks           ( 62回)
  13. Delta                ( 59回)
  14. 処理                   ( 58回)
  15. 実行                   ( 56回)

📅 2022年 TOP 15 キーワード:
   1. 管理                   (179回)
   2. 作成                   (174回)
   3. モデル                  (165回)
   4. テーブル                 (160回)
   5. ノートブック               (154回)
   6. クラスター                (143回)
   7. 実行                   (143回)
   8. 実現                   (116回)
   9. 処理                   (110回)
  10. アクセス                 (109回)
  11. Delta                (105回)
  12. ファイル                 ( 98回)
  13. Databricks           ( 97回)
  14. 機械学習                 ( 94回)
  15. ワークスペース              ( 90回)

📅 2023年 TOP 15 キーワード:
   1. モデル                  (224回)
   2. 作成                   (146回)
   3. テーブル                 (145回)
   4. 管理                   (119回)
   5. クラスター                ( 99回)
   6. 実行                   ( 94回)
   7. アクセス                 ( 93回)
   8. 実現                   ( 90回)
   9. Unity                ( 89回)
  10. ファイル                 ( 86回)
  11. 活用                   ( 86回)
  12. ノートブック               ( 80回)
  13. 対応                   ( 75回)
  14. Databricks           ( 74回)
  15. 生成                   ( 71回)

📅 2024年 TOP 15 キーワード:
   1. モデル                  (198回)
   2. 作成                   (152回)
   3. テーブル                 (123回)
   4. 実行                   (106回)
   5. 生成                   (103回)
   6. 活用                   ( 94回)
   7. ノートブック               ( 91回)
   8. 構築                   ( 90回)
   9. 実現                   ( 89回)
  10. クラスター                ( 81回)
  11. 評価                   ( 78回)
  12. 追加                   ( 72回)
  13. Databricks           ( 68回)
  14. 管理                   ( 67回)
  15. 関数                   ( 64回)

📅 2025年 TOP 15 キーワード:
   1. モデル                  (128回)
   2. エージェント               (101回)
   3. 作成                   ( 99回)
   4. 生成                   ( 95回)
   5. Unity                ( 94回)
   6. 追加                   ( 85回)
   7. ツール                  ( 80回)
   8. 活用                   ( 79回)
   9. 構築                   ( 79回)
  10. 実行                   ( 75回)
  11. 実現                   ( 74回)
  12. テーブル                 ( 70回)
  13. 管理                   ( 68回)
  14. デプロイ                 ( 62回)
  15. Databricks           ( 60回)

年別キーワードの可視化

# 年別キーワードをデータフレームに変換
keyword_data = []
for year, keywords in yearly_keywords.items():
    for word, count in keywords[:10]:  # TOP10のみ
        keyword_data.append({"year": year, "keyword": word, "count": count})

keyword_df = pd.DataFrame(keyword_data)

# 年別にファセットグラフを作成
fig = px.bar(keyword_df, x="count", y="keyword", color="year",
             facet_col="year", facet_col_wrap=2,
             title="🔑 年別 TOP 10 キーワード",
             labels={"keyword": "キーワード", "count": "出現回数", "year": ""},
             height=1000)
fig.update_yaxes(matches=None, showticklabels=True)
fig.for_each_annotation(lambda a: a.update(text=a.text.split("=")[-1] + ""))
fig.show()

newplot (4).png

5. 🎉 5年間の執筆活動総括

📊 主要な成果

  • 総記事数: 2,106件 (約1.23件/日のペース)
  • 総閲覧数: 509万回以上
  • 総LGTM数: 4,100件
  • 執筆期間: 2021年3月 〜 2025年11月 (4.7年)

📈 年別の傾向分析

📝 記事数の推移

  • 2021年: 302件 - 入社初年、基礎的なトピックが中心
  • 2022年: 553件 - ピーク年、最も多くの記事を執筆
  • 2023年: 450件 - 安定した執筆ペース
  • 2024年: 442件 - 安定的な執筆継続
  • 2025年: 359件 (11月まで) - 年間ペースでは約390件見込み

👀 閲覧数の変化

  • 2021年: 平均4,213回/記事 - 初期の認知度構築期
  • 2022年: 平均2,771回/記事 - 記事数増加により平均は低下
  • 2023年: 平均2,847回/記事 - 安定期
  • 2024年: 平均1,540回/記事 - 低下傾向
  • 2025年: 平均902回/記事 - 新しい記事のため累積が少ない

❤️ LGTM数の変化

  • 2021年: 平均2.81件/記事 - 初期の高評価
  • 2022年: 平均1.41件/記事 - 記事数増加により平均低下
  • 2023年: 平均2.82件/記事 - 最高年、質の高い記事が多い
  • 2024年: 平均1.55件/記事 - 安定期
  • 2025年: 平均1.43件/記事 - 安定的

🏷️ タグ分析から見える技術トレンド

注記: 以下の分析では、全記事に付与されているDatabricksタグを除外しています。

一貫した人気タグ

  • LLM (171件) - 生成AIの中心技術
  • Spark (167件) - 基礎技術として一貫
  • MLflow (152件) - MLプラットフォームとして重要
  • Unity Catalog (118件) - データガバナンスの中心
  • Delta Lake (116件) - データレイクの基盤

年別の技術トレンドの変化

2021年: 基礎技術の確立

  • Databricksクイックスタートガイド、Spark、Delta Lake、MLflowが中心
  • 機械学習、AWSなどの基礎的なトピック

2022年: データエンジニアリングの深化

  • Delta Live Tables、Databricks SQLが登場
  • Unity Catalogの本格化
  • レイクハウスアーキテクチャの普及

2023年: LLM元年 - 生成AIへのシフト

  • LLM (89件) が第2位に急上昇
  • Unity Catalog、MLflowが引き続き重要
  • Dolly、OpenAIなどの生成AIモデルが登場

2024年: RAGと生成AIアプリケーションの年

  • RAG (52件) がトップ4に
  • 生成AI (35件) がトップ5に
  • Databricks生成AIクックブック、Apache Spark徹底入門
  • Databricksアシスタントの登場

2025年: エージェント時代の到来

  • エージェント (21件) がトップ5に初登場
  • MCP (Model Context Protocol) (17件) が新たに登場
  • Databricks Apps (16件) - アプリケーション開発の新潮流
  • Databricks AI/BI (29件) - ダッシュボードとBIの強化
  • MLflowが再びトップ2に - MLOpsの重要性が再評価

🔑 キーワード分析から見えるテーマの変遷

2021年: 基礎構築期

  • キーワード: 「管理」「モデル」「クラスター」「機械学習」
  • フォーカス: プラットフォームの基本機能と管理方法

2022年: データ基盤強化期

  • キーワード: 「テーブル」「ファイル」「Delta」「処理」
  • フォーカス: データエンジニアリングとテーブル管理

2023年: AI/ML本格化期

  • キーワード: 「モデル」「Unity」「生成」
  • フォーカス: 生成AIモデルの管理とUnity Catalogの活用

2024年: 生成AIアプリ実装期

  • キーワード: 「生成」「構築」「評価」「関数」
  • フォーカス: 生成AIアプリケーションの構築と評価

2025年: エージェント時代

  • キーワード: 「エージェント」「ツール」「デプロイ」「Unity」
  • フォーカス: AIエージェントの構築、ツール連携、本番デプロイ

🌟 主要な洞察と特徴

  1. 一貫した高頻度執筆: 4.7年間でほぼ毎日執筆、平均1.23件/日の驚異的なペース

  2. 技術トレンドへの迅速な対応:

    • 2021年: 基礎技術 → 2022年: データ基盤 → 2023年: LLM → 2024年: RAG → 2025年: エージェント
    • 業界の最先端トレンドを常にキャッチアップ
  3. 幅広いカバレッジ:

    • データエンジニアリングからML/AI、生成AI、エージェントまで
    • 基礎から応用まで幅広くカバー
  4. コミュニティへの貢献:

    • 509万回以上の閲覧、多くの開発者に影響
    • クイックスタートガイド、ベストプラクティスなどの体系的なコンテンツ
  5. 2025年の新たな展開:

    • AIエージェント、MCP、Databricks Appsなどの最新技術へのシフト
    • Databricks AI/BIによるBI領域への拡大
    • MLOpsの再評価と深化

主要指標のサマリーテーブル

📊 5年間の主要指標サマリー:
    年  記事数 総閲覧数  平均閲覧数  総LGTM数  平均LGTM数                主要トピック
 2021  302 127万   4213     848     2.81         基礎技術・クイックスタート
 2022  553 153万   2771     780     1.41 Delta Live Tables・SQL
 2023  450 128万   2847    1270     2.82            LLM・生成AI元年
 2024  442  68万   1540     687     1.55           RAG・生成AIアプリ
 2025  359  32万    902     515     1.43      エージェント・MCP・AI/BI
合計/平均 2106 509万   2417    4100     1.95                     -

6. 🌟 年別特筆すべき記事

各年のトップ記事を抽出

# 各年のトップ5記事を閲覧数とLGTM数で抽出
from pyspark.sql.window import Window

# 各年のトップ5記事(閲覧数順)
top_articles_by_views = df.select(
    "year", "title", "url", "page_views_count", "lgtm", "tags", "summary"
).withColumn(
    "rank", F.row_number().over(Window.partitionBy("year").orderBy(F.desc("page_views_count")))
).filter(F.col("rank") <= 5).orderBy("year", "rank")

# 各年のトップ5記事(LGTM数順)
top_articles_by_lgtm = df.select(
    "year", "title", "url", "page_views_count", "lgtm", "tags", "summary"
).withColumn(
    "rank", F.row_number().over(Window.partitionBy("year").orderBy(F.desc("lgtm")))
).filter(F.col("rank") <= 5).orderBy("year", "rank")

print("📊 年別トップ記事の抽出完了")
📊 年別トップ記事の抽出完了

年別トップ記事のマークダウン生成

# 年別にマークダウンを生成
years = [2021, 2022, 2023, 2024, 2025]

markdown_content = []
markdown_content.append("### 📊 各年の特筆すべき記事\n")
markdown_content.append("> 閲覧数とLGTM数を基準に、各年のトップ5記事をピックアップしました。\n\n")

for year in years:
    markdown_content.append(f"---\n\n#### 📅 {year}\n\n")
    
    # 閲覧数TOP5
    markdown_content.append(f"**👀 閲覧数 TOP 5**\n\n")
    
    year_views = top_articles_by_views.filter(F.col("year") == year).collect()
    for i, row in enumerate(year_views, 1):
        title = row["title"]
        url = row["url"]
        views = row["page_views_count"]
        lgtm = row["lgtm"]
        tags = ", ".join(row["tags"][:3]) if row["tags"] else ""
        summary = row["summary"] if row["summary"] else "要約なし"
        # 要約が長い場合は省略
        if len(summary) > 200:
            summary = summary[:200] + "..."
        
        markdown_content.append(f"{i}. **[{title}]({url})**\n")
        markdown_content.append(f"   * 👀 {views:,}回 | ❤️ {lgtm}件 | 🏷️ {tags}\n")
        markdown_content.append(f"   * 📝 {summary}\n\n")
    
    # LGTM数TOP5
    markdown_content.append(f"**❤️ LGTM数 TOP 5**\n\n")
    
    year_lgtm = top_articles_by_lgtm.filter(F.col("year") == year).collect()
    for i, row in enumerate(year_lgtm, 1):
        title = row["title"]
        url = row["url"]
        views = row["page_views_count"]
        lgtm = row["lgtm"]
        tags = ", ".join(row["tags"][:3]) if row["tags"] else ""
        summary = row["summary"] if row["summary"] else "要約なし"
        # 要約が長い場合は省略
        if len(summary) > 200:
            summary = summary[:200] + "..."
        
        markdown_content.append(f"{i}. **[{title}]({url})**\n")
        markdown_content.append(f"   * 👀 {views:,}回 | ❤️ {lgtm}件 | 🏷️ {tags}\n")
        markdown_content.append(f"   * 📝 {summary}\n\n")

markdown_text = "".join(markdown_content)
print("✅ マークダウン生成完了")
✅ マークダウン生成完了

年別トップ記事の表示

# マークダウンを表示
from IPython.display import Markdown, display

display(Markdown(markdown_text))

📊 各年の特筆すべき記事

閲覧数とLGTM数を基準に、各年のトップ5記事をピックアップしました。


📅 2021年

👀 閲覧数 TOP 5

  1. Databricksクイックスタートガイド

    • 👀 33,757回 | ❤️ 48件 | 🏷️ AWS, Databricks, Databricksクイックスタートガイド
    • 📝 Databricks初心者向けに、マニュアルから抜粋した翻訳コンテンツを提供。レイクハウスの概念、環境セットアップ、Unity Catalogによるガバナンス強化、クラスター管理、ノートブック操作、データエンジニアリング、機械学習(MLflow)、BI(Databricks SQL)、セキュリティ設定など幅広いトピックを網羅。管理者向けとユーザー向けの両方のガイドを含み、チュートリアルや学習コンテ...
  2. Databricks記事のまとめページ(その1)

    • 👀 33,480回 | ❤️ 42件 | 🏷️ Databricks
    • 📝 本記事は、筆者がこれまでに翻訳・投稿したDatabricks関連記事をまとめたものです。Databricksのイベント情報、チュートリアル、学習コンテンツ、コンセプト、機能説明、ユースケース、ソリューションアクセラレータなど、幅広いトピックを網羅しています。記事数が増えたため2つに分割され、本記事はその1つ目となります。Databricksの導入から実践的な活用まで、様々な情報が体系的に整理されて...
  3. レイクハウスとは何?

    • 👀 24,873回 | ❤️ 26件 | 🏷️ Databricks, Databricksクイックスタートガイド, Lakehouse
    • 📝 レイクハウスは、データレイクとデータウェアハウスの長所を組み合わせた新しいデータ管理アーキテクチャです。ACIDトランザクション、スキーマ適用、BI対応などの機能を持ち、構造化・非構造化データの両方を扱えます。安価なオブジェクトストレージ上で動作し、計算とストレージを分離可能で、オープンな標準フォーマットを使用します。複数システムの複雑性を解消し、データサイエンスから機械学習まで様々なワークロード...
  4. 大規模特徴量エンジニアリング

    • 👀 16,496回 | ❤️ 42件 | 🏷️ Databricks, 特徴量エンジニアリング, MLflow
    • 📝 特徴量エンジニアリングは機械学習で最も重要かつ時間を要するプロセスです。本記事では、Apache SparkとDelta Lake、MLflowを活用した大規模特徴量生成のデザインパターンを紹介します。Featureクラスによる特徴量のモジュール化、高次関数を用いた特徴量の増幅、FeatureVectorによる効率的な操作が可能です。HyperLogLogやMinHashなどの近似アルゴリズムでパ...
  5. Databricksにおけるデータベースおよびテーブル

    • 👀 16,242回 | ❤️ 11件 | 🏷️ Databricks
    • 📝 Databricksのテーブルは構造化データの集合で、グローバルテーブル(全クラスターからアクセス可能でHiveメタストアに登録)とローカルテーブル(一時ビュー)の2種類があります。UIまたはプログラムで作成でき、DBFS上のファイルや各種形式のデータから取り込めます。マネージドテーブルはメタデータとデータの両方をSparkが管理し、アンマネージドテーブルはメタデータのみを管理します。パーティショ...

❤️ LGTM数 TOP 5

  1. Databricksクイックスタートガイド

    • 👀 33,757回 | ❤️ 48件 | 🏷️ AWS, Databricks, Databricksクイックスタートガイド
    • 📝 Databricks初心者向けに、マニュアルから抜粋した翻訳コンテンツを提供。レイクハウスの概念、環境セットアップ、Unity Catalogによるガバナンス強化、クラスター管理、ノートブック操作、データエンジニアリング、機械学習(MLflow)、BI(Databricks SQL)、セキュリティ設定など幅広いトピックを網羅。管理者向けとユーザー向けの両方のガイドを含み、チュートリアルや学習コンテ...
  2. 大規模特徴量エンジニアリング

    • 👀 16,496回 | ❤️ 42件 | 🏷️ Databricks, 特徴量エンジニアリング, MLflow
    • 📝 特徴量エンジニアリングは機械学習で最も重要かつ時間を要するプロセスです。本記事では、Apache SparkとDelta Lake、MLflowを活用した大規模特徴量生成のデザインパターンを紹介します。Featureクラスによる特徴量のモジュール化、高次関数を用いた特徴量の増幅、FeatureVectorによる効率的な操作が可能です。HyperLogLogやMinHashなどの近似アルゴリズムでパ...
  3. Databricks記事のまとめページ(その1)

    • 👀 33,480回 | ❤️ 42件 | 🏷️ Databricks
    • 📝 本記事は、筆者がこれまでに翻訳・投稿したDatabricks関連記事をまとめたものです。Databricksのイベント情報、チュートリアル、学習コンテンツ、コンセプト、機能説明、ユースケース、ソリューションアクセラレータなど、幅広いトピックを網羅しています。記事数が増えたため2つに分割され、本記事はその1つ目となります。Databricksの導入から実践的な活用まで、様々な情報が体系的に整理されて...
  4. データレイクハウスへの進化

    • 👀 9,556回 | ❤️ 26件 | 🏷️ Databricks, データウェアハウス, データレイク
    • 📝 データレイクハウスは、データウェアハウスとデータレイクの長所を統合した新しいアーキテクチャです。低コストストレージ上にオープンフォーマットでデータを保持しながら、ACIDトランザクション、スキーマ強制、高性能などデータウェアハウスの機能を実現します。SQLだけでなく機械学習もネイティブサポートし、構造化・非構造化を問わず全データタイプに対応。データレイクとウェアハウス間の重複やETL処理が不要とな...
  5. レイクハウスとは何?

    • 👀 24,873回 | ❤️ 26件 | 🏷️ Databricks, Databricksクイックスタートガイド, Lakehouse
    • 📝 レイクハウスは、データレイクとデータウェアハウスの長所を組み合わせた新しいデータ管理アーキテクチャです。ACIDトランザクション、スキーマ適用、BI対応などの機能を持ち、構造化・非構造化データの両方を扱えます。安価なオブジェクトストレージ上で動作し、計算とストレージを分離可能で、オープンな標準フォーマットを使用します。複数システムの複雑性を解消し、データサイエンスから機械学習まで様々なワークロード...

📅 2022年

👀 閲覧数 TOP 5

  1. PySparkことはじめ

    • 👀 44,123回 | ❤️ 47件 | 🏷️ Spark, Pyspark, Databricks
    • 📝 PySparkはPythonからApache Sparkを操作するためのAPIです。この記事では、CSVデータの読み込み、カラム名変更、データ型変換、フィルタリング、集計などの基本操作を解説しています。データフレームの永続化、pandasとの相互変換、Spark SQLや pandas API on Sparkとの連携方法も紹介されており、Databricksでの分散処理の基礎が学べる初心者向けガ...
  2. 今さら聞けない自然言語処理(NLP)

    • 👀 32,526回 | ❤️ 58件 | 🏷️ NLP, Databricks, 今さら聞けない
    • 📝 Databricksのウェビナーで紹介されたNLP(自然言語処理)技術の解説記事。医療やゲーム業界など膨大なテキストデータから重要な洞察を得るため、機械学習とNLPを組み合わせた取り組みが増加。形態素解析や構文解析などの要素技術、曖昧性や文脈理解といった課題、アストラゼネカやRIOT GAMESなどの適用事例を紹介。Apache SparkとJanomeを使ったAmazonレビューの形態素解析とワ...
  3. Databricksチュートリアル

    • 👀 23,936回 | ❤️ 15件 | 🏷️ Databricks, Databricksチュートリアル
    • 📝 Databricks初心者向けのステップバイステップガイド。管理者(アカウントオーナー、ワークスペース管理者)とユーザー(データサイエンティスト、エンジニア、アナリスト)の役割を説明し、環境準備、ユーザー招待、グループ管理、ワークスペース操作、ライブラリインストール、データアクセス、PySpark操作、機械学習モデルトレーニング、ダッシュボード作成、画像処理など、各機能の使い方を対象者別に紹介して...
  4. DatabricksのUnity Catalogとは?

    • 👀 21,509回 | ❤️ 8件 | 🏷️ Databricks, UnityCatalog
    • 📝 Unity CatalogはDatabricksのレイクハウス向けデータガバナンスソリューションです。全ワークスペースでユーザーとデータアクセスを集中管理し、ANSI SQL準拠のセキュリティモデルと監査機能を提供します。メタストア、カタログ、スキーマ、テーブルの階層構造で3レベルの名前空間を使用し、マネージドテーブルと外部テーブルをサポートします。アカウントレベルのアイデンティティ管理により、複...
  5. Databricks Certified Data Engineer Associate試験対策

    • 👀 13,999回 | ❤️ 22件 | 🏷️ Databricks
    • 📝 Databricks Certified Data Engineer Associate認定試験に関する解説記事。この試験はProfessionalより難易度が低く、データエンジニアリング機能の概念理解を問う内容が中心。オンライン形式で200ドル、90分で45問を回答。Delta Lake、Apache Spark SQL、構造化ストリーミング、Unity Catalogなどの理解が必要。準備とし...

❤️ LGTM数 TOP 5

  1. 今さら聞けない自然言語処理(NLP)

    • 👀 32,526回 | ❤️ 58件 | 🏷️ NLP, Databricks, 今さら聞けない
    • 📝 Databricksのウェビナーで紹介されたNLP(自然言語処理)技術の解説記事。医療やゲーム業界など膨大なテキストデータから重要な洞察を得るため、機械学習とNLPを組み合わせた取り組みが増加。形態素解析や構文解析などの要素技術、曖昧性や文脈理解といった課題、アストラゼネカやRIOT GAMESなどの適用事例を紹介。Apache SparkとJanomeを使ったAmazonレビューの形態素解析とワ...
  2. PySparkことはじめ

    • 👀 44,123回 | ❤️ 47件 | 🏷️ Spark, Pyspark, Databricks
    • 📝 PySparkはPythonからApache Sparkを操作するためのAPIです。この記事では、CSVデータの読み込み、カラム名変更、データ型変換、フィルタリング、集計などの基本操作を解説しています。データフレームの永続化、pandasとの相互変換、Spark SQLや pandas API on Sparkとの連携方法も紹介されており、Databricksでの分散処理の基礎が学べる初心者向けガ...
  3. 私はDatabricksをどのように学んできたのか(学習コンテンツのご紹介)

    • 👀 13,573回 | ❤️ 29件 | 🏷️ Databricks, Databricksクイックスタートガイド
    • 📝 Databricksソリューションアーキテクトが、入社後約1年間の学習経験を共有。Apache Sparkは日本語・英語の書籍で学習し、Delta Lakeは専門書とブログで習得。Databricksはアカデミーのトレーニング(Self-pacedとインストラクター主導)を多数受講し、マニュアルやブログを精読。サンプルノートブックを実際に動かすことが重要と強調。最終的に書籍執筆とData Engi...
  4. Databricks Certified Data Engineer Associate試験対策

    • 👀 13,999回 | ❤️ 22件 | 🏷️ Databricks
    • 📝 Databricks Certified Data Engineer Associate認定試験に関する解説記事。この試験はProfessionalより難易度が低く、データエンジニアリング機能の概念理解を問う内容が中心。オンライン形式で200ドル、90分で45問を回答。Delta Lake、Apache Spark SQL、構造化ストリーミング、Unity Catalogなどの理解が必要。準備とし...
  5. Databricksチュートリアル

    • 👀 23,936回 | ❤️ 15件 | 🏷️ Databricks, Databricksチュートリアル
    • 📝 Databricks初心者向けのステップバイステップガイド。管理者(アカウントオーナー、ワークスペース管理者)とユーザー(データサイエンティスト、エンジニア、アナリスト)の役割を説明し、環境準備、ユーザー招待、グループ管理、ワークスペース操作、ライブラリインストール、データアクセス、PySpark操作、機械学習モデルトレーニング、ダッシュボード作成、画像処理など、各機能の使い方を対象者別に紹介して...

📅 2023年

👀 閲覧数 TOP 5

  1. Apache Sparkとは何か

    • 👀 55,345回 | ❤️ 101件 | 🏷️ Spark, Databricks
    • 📝 Databricks創業者がUC Berkeleyで開発したApache Sparkは、2009年開始、2013年にApacheプロジェクト化された大規模分散データ処理エンジンです。メモリ上で中間結果を保持し高速処理を実現し、機械学習やストリーム処理などに対応します。ドライバーとエグゼキューターによる並列処理アーキテクチャを採用し、データをパーティション分割してタスクを実行します。データフレームA...
  2. 今さら聞けないPython - pandasを用いたデータ分析

    • 👀 36,007回 | ❤️ 37件 | 🏷️ Python, pandas, Databricks
    • 📝 このDatabricks記事は、Pythonのpandasライブラリを用いたデータ分析の基礎を解説しています。COVID-19データセットを例に、CSVファイルの読み込み、データの要約統計、スライス・加工、グルーピング・集計、欠損値処理、可視化(ヒストグラム、散布図、折れ線グラフ)などの基本操作を実践的に説明。pandasの歴史や特徴、データフレームの操作方法を初心者向けに丁寧に紹介し、データ分析...
  3. Free Dolly: 世界初の真にオープンな指示でチューニングされたLLM

    • 👀 33,216回 | ❤️ 101件 | 🏷️ Databricks, LLM, Dolly
    • 📝 Databricksが商用利用可能な初のオープンソース指示追従LLM「Dolly 2.0」を発表。12Bパラメータのモデルで、Databricks従業員5,000人以上が作成した15,000件の高品質な指示データセット「databricks-dolly-15k」でファインチューニング。既存モデルと異なり、データセット、モデル、コードすべてが商用利用可能なライセンスで公開され、企業が独自のLLMを構...
  4. Hello Dolly: オープンなモデルでChatGPTの魔法を民主化する

    • 👀 27,636回 | ❤️ 55件 | 🏷️ Databricks, ChatGPT, LLM
    • 📝 Databricksは、60億パラメータのオープンソース言語モデル「Dolly」を発表しました。EleutherAIの既存モデルをベースに、高品質な指示データで30分間ファインチューニングするだけで、ChatGPTのような指示追従能力を実現。GPT-3の1750億パラメータと比較して大幅に小規模ながら、テキスト生成やQ&A等で優れた性能を発揮します。企業が自社データを外部に送らず独自モデルを構築で...
  5. Delta Lakeとは何か?

    • 👀 25,574回 | ❤️ 33件 | 🏷️ Databricks, deltalake
    • 📝 Delta Lakeは、データレイクとデータウェアハウスの長所を組み合わせた「レイクハウスアーキテクチャ」を実現するオープンソースのストレージフレームワークです。Apache Parquetをベースに、ACIDトランザクション、タイムトラベル、スキーマ管理などデータウェアハウス由来の機能を提供します。クラウドのオブジェクトストレージ上でファイルとテーブルの両方として扱え、SQLやPythonでアク...

❤️ LGTM数 TOP 5

  1. Apache Sparkとは何か

    • 👀 55,345回 | ❤️ 101件 | 🏷️ Spark, Databricks
    • 📝 Databricks創業者がUC Berkeleyで開発したApache Sparkは、2009年開始、2013年にApacheプロジェクト化された大規模分散データ処理エンジンです。メモリ上で中間結果を保持し高速処理を実現し、機械学習やストリーム処理などに対応します。ドライバーとエグゼキューターによる並列処理アーキテクチャを採用し、データをパーティション分割してタスクを実行します。データフレームA...
  2. Free Dolly: 世界初の真にオープンな指示でチューニングされたLLM

    • 👀 33,216回 | ❤️ 101件 | 🏷️ Databricks, LLM, Dolly
    • 📝 Databricksが商用利用可能な初のオープンソース指示追従LLM「Dolly 2.0」を発表。12Bパラメータのモデルで、Databricks従業員5,000人以上が作成した15,000件の高品質な指示データセット「databricks-dolly-15k」でファインチューニング。既存モデルと異なり、データセット、モデル、コードすべてが商用利用可能なライセンスで公開され、企業が独自のLLMを構...
  3. Hello Dolly: オープンなモデルでChatGPTの魔法を民主化する

    • 👀 27,636回 | ❤️ 55件 | 🏷️ Databricks, ChatGPT, LLM
    • 📝 Databricksは、60億パラメータのオープンソース言語モデル「Dolly」を発表しました。EleutherAIの既存モデルをベースに、高品質な指示データで30分間ファインチューニングするだけで、ChatGPTのような指示追従能力を実現。GPT-3の1750億パラメータと比較して大幅に小規模ながら、テキスト生成やQ&A等で優れた性能を発揮します。企業が自社データを外部に送らず独自モデルを構築で...
  4. 今さら聞けないPython - pandasを用いたデータ分析

    • 👀 36,007回 | ❤️ 37件 | 🏷️ Python, pandas, Databricks
    • 📝 このDatabricks記事は、Pythonのpandasライブラリを用いたデータ分析の基礎を解説しています。COVID-19データセットを例に、CSVファイルの読み込み、データの要約統計、スライス・加工、グルーピング・集計、欠損値処理、可視化(ヒストグラム、散布図、折れ線グラフ)などの基本操作を実践的に説明。pandasの歴史や特徴、データフレームの操作方法を初心者向けに丁寧に紹介し、データ分析...
  5. Delta Lakeとは何か?

    • 👀 25,574回 | ❤️ 33件 | 🏷️ Databricks, deltalake
    • 📝 Delta Lakeは、データレイクとデータウェアハウスの長所を組み合わせた「レイクハウスアーキテクチャ」を実現するオープンソースのストレージフレームワークです。Apache Parquetをベースに、ACIDトランザクション、タイムトラベル、スキーマ管理などデータウェアハウス由来の機能を提供します。クラウドのオブジェクトストレージ上でファイルとテーブルの両方として扱え、SQLやPythonでアク...

📅 2024年

👀 閲覧数 TOP 5

  1. はじめてのDatabricks

    • 👀 37,445回 | ❤️ 52件 | 🏷️ Databricks
    • 📝 Databricksは、データやAI活用に必要な機能を搭載したクラウドベースのノートブック開発環境です。Jupyter Notebookと異なり、無制限の計算リソース活用、複数ユーザーでのコラボレーション、Unity Catalogによるガバナンス管理が可能です。基本的な使い方は、ワークスペースへのアクセス、ノートブック作成、クラスター(計算資源)準備、データの読み込み・加工・保存という流れで、S...
  2. Databricks Apps(アプリ)がやってきました!

    • 👀 11,732回 | ❤️ 15件 | 🏷️ Flask, Dash, Databricks
    • 📝 DatabricksでWebアプリケーションを構築できる「Databricks Apps」機能が登場しました。StreamlitなどのフレームワークでデータアプリやAIアプリを作成でき、Unity CatalogやSQL、モデルサービングなどのDatabricksリソースを活用可能です。現在パブリックプレビュー版で、日本リージョンでは未対応。テンプレートから簡単にアプリを作成・デプロイでき、コード...
  3. 実践を通じて学ぶSpark SQL

    • 👀 9,356回 | ❤️ 4件 | 🏷️ SQL, Spark, Databricks
    • 📝 Spark SQLは、Apache SparkでSQLクエリを実行できるモジュールです。RDDや外部データソースに対してSQL文で問い合わせが可能で、テーブルとファイルパスの関係はメタストア(HiveメタストアやUnity Catalog)で管理されます。DatabricksではPythonのspark.sql()や直接SQLでテーブルの作成・挿入・読み込み・削除などの操作ができ、大量データを...
  4. UnstructuredによるPDFからの画像抽出

    • 👀 7,387回 | ❤️ 3件 | 🏷️ Databricks, Unstructured
    • 📝 Unstructuredライブラリを使ってPDFから画像やテキストを抽出する方法を紹介。GPT4Allの論文PDFを例に、partition_pdf関数で要素を抽出し、strategy='hi_res'extract_images_in_pdf=Trueを指定することで画像も取得できる。抽出した画像はファイルとして保存され、表示も可能。Databricksノートブックでの実行例を含む...
  5. DBRXのご紹介: 新たなSOTAオープンLLM

    • 👀 7,261回 | ❤️ 7件 | 🏷️ Databricks, LLM, DBRX
    • 📝 DatabricksがオープンソースLLM「DBRX」を発表。132BパラメータのMoEアーキテクチャで、入力ごとに36Bが稼働。GPT-3.5を上回り、Gemini 1.0 Proと同等の性能を持つ。特にコーディングと数学に優れ、CodeLLaMA-70Bを凌駕。LLaMA2-70Bより最大2倍高速な推論を実現し、Grok-1の40%のサイズ。12Tトークンで事前学習され、HuggingFace...

❤️ LGTM数 TOP 5

  1. はじめてのDatabricks

    • 👀 37,445回 | ❤️ 52件 | 🏷️ Databricks
    • 📝 Databricksは、データやAI活用に必要な機能を搭載したクラウドベースのノートブック開発環境です。Jupyter Notebookと異なり、無制限の計算リソース活用、複数ユーザーでのコラボレーション、Unity Catalogによるガバナンス管理が可能です。基本的な使い方は、ワークスペースへのアクセス、ノートブック作成、クラスター(計算資源)準備、データの読み込み・加工・保存という流れで、S...
  2. Databricks Apps(アプリ)がやってきました!

    • 👀 11,732回 | ❤️ 15件 | 🏷️ Flask, Dash, Databricks
    • 📝 DatabricksでWebアプリケーションを構築できる「Databricks Apps」機能が登場しました。StreamlitなどのフレームワークでデータアプリやAIアプリを作成でき、Unity CatalogやSQL、モデルサービングなどのDatabricksリソースを活用可能です。現在パブリックプレビュー版で、日本リージョンでは未対応。テンプレートから簡単にアプリを作成・デプロイでき、コード...
  3. DSPyによるRAGの構築、最適化および評価

    • 👀 4,448回 | ❤️ 11件 | 🏷️ Databricks, rag, DSPy
    • 📝 DSPyを使ったRAG(検索拡張生成)のチュートリアルです。LLMが大規模コーパスから情報を検索し回答を生成する仕組みを、DSPyで簡潔に実装します。GPT-3.5とColBERTv2リトリーバーを設定し、HotPotQAデータセットで質問応答パイプラインを構築。シグネチャ定義、モジュール作成、BootstrapFewShotによる最適化を経て、54%の回答精度を達成しました。ただしリトリーバル精...
  4. [翻訳] The Shift from Models to Compound AI Systems

    • 👀 3,877回 | ❤️ 9件 | 🏷️ AI, Databricks, LangChain
    • 📝 AI開発は単一の大規模言語モデル(LLM)から、複数のコンポーネントを組み合わせた「複合AIシステム」へとシフトしています。AlphaCode 2やAlphaGeometryなど最先端の成果は、LLMに検索システムや外部ツールを組み合わせることで達成されています。この手法により、システム設計を通じた品質改善が容易になり、動的なデータ活用やコントロール性が向上します。ただし、設計空間の広さ、エンドツ...
  5. AWS東京リージョンにノートブック用サーバレスがやってきました!

    • 👀 2,515回 | ❤️ 7件 | 🏷️ AWS, Databricks, サーバレス
    • 📝 Databricksのノートブック用サーバレスコンピュートが利用可能になりました。従来は起動に5分程度かかっていたクラスターが不要となり、即座に計算資源を利用できます。ただし、ScalaやRは未サポート、DBFSアクセス不可、機械学習ランタイムやGPU非対応などの制限があります。アカウントコンソールから機能を有効化し、ノートブックでサーバレスを選択するだけで利用開始でき、ライブラリの追加やパフォー...

📅 2025年

👀 閲覧数 TOP 5

  1. cyberagent/DeepSeek-R1-Distill-Qwen-32B-JapaneseをDatabricksで動かしてみる

    • 👀 13,579回 | ❤️ 11件 | 🏷️ Databricks, CyberAgent, deepseek
    • 📝 この記事は、DatabricksでDeepSeek-R1の日本語版モデル(cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese)を実行した技術検証レポートです。当初オリジナル版はHugging Face未対応でしたが、サイバーエージェントが日本語化したモデルを使用。32Bモデルは高メモリが必要でしたが、AIの社会的影響について質問したところ、`<thin...
  2. Databricks Free Edition

    • 👀 5,494回 | ❤️ 9件 | 🏷️ Databricks, Databricks_Free_Edition
    • 📝 Databricks Community EditionがFree Editionに刷新されました。主な改善点は、クラスター管理が不要なサーバレス環境で即座に利用開始でき、AIアシスタントやGenie(自然言語ダッシュボード)などの最新機能が使えることです。学生や教育者向けに、AI・ML・データエンジニアリングを無料で学習できる環境を提供。ただし非商用利用限定で、1アカウント1ワークスペース、R/...
  3. LangChainのOpenAI Responses API対応を試す

    • 👀 5,233回 | ❤️ 14件 | 🏷️ OpenAI, Databricks, LangChain
    • 📝 LangChainがOpenAIの新しいResponses APIに迅速に対応しました。langchain-openai>=0.3.9-rc.1をインストールすることで、web_search_previewツールを使用した検索機能が利用可能になります。MLflowトレースも有効化でき、AIモデルの実行を追跡できます。サンプルコードでは、ChatOpenAIモデルにweb検索ツールをバインドし、...
  4. Databricks AI/BIダッシュボードにおける時系列予測結果の可視化

    • 👀 5,185回 | ❤️ 8件 | 🏷️ Databricks, Databricks_AI_BI
    • 📝 Databricksのダッシュボードで折れ線グラフに時系列予測機能が追加されました(パブリックプレビュー)。グラフの「予測(ベータ版)」セクションから簡単にai_forecast関数を適用でき、元データの下に予測結果が自動表示されます。背後で作成されるデータセットのSQLを編集すれば予測期間のカスタマイズも可能で、手軽に時系列予測を実現できる機能です。
  5. OpenAI Responses APIのWeb検索と状態

    • 👀 4,845回 | ❤️ 3件 | 🏷️ OpenAI, Databricks
    • 📝 OpenAIの新しいResponses APIは、マルチターン対話、複数ツール、マルチモダリティに対応した改良版APIです。主な特徴は、会話状態を自動管理するステートフル設計、ウェブ検索やファイル検索などのホストツールの統合、テキスト・画像・音声のネイティブサポートです。従来のChat Completions APIでは複数回のリクエストが必要だった処理を、1回のAPI呼び出しで完結できるため、開...

❤️ LGTM数 TOP 5

  1. LangChainのOpenAI Responses API対応を試す

    • 👀 5,233回 | ❤️ 14件 | 🏷️ OpenAI, Databricks, LangChain
    • 📝 LangChainがOpenAIの新しいResponses APIに迅速に対応しました。langchain-openai>=0.3.9-rc.1をインストールすることで、web_search_previewツールを使用した検索機能が利用可能になります。MLflowトレースも有効化でき、AIモデルの実行を追跡できます。サンプルコードでは、ChatOpenAIモデルにweb検索ツールをバインドし、...
  2. cyberagent/DeepSeek-R1-Distill-Qwen-32B-JapaneseをDatabricksで動かしてみる

    • 👀 13,579回 | ❤️ 11件 | 🏷️ Databricks, CyberAgent, deepseek
    • 📝 この記事は、DatabricksでDeepSeek-R1の日本語版モデル(cyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese)を実行した技術検証レポートです。当初オリジナル版はHugging Face未対応でしたが、サイバーエージェントが日本語化したモデルを使用。32Bモデルは高メモリが必要でしたが、AIの社会的影響について質問したところ、`<thin...
  3. Databricks Free Edition

    • 👀 5,494回 | ❤️ 9件 | 🏷️ Databricks, Databricks_Free_Edition
    • 📝 Databricks Community EditionがFree Editionに刷新されました。主な改善点は、クラスター管理が不要なサーバレス環境で即座に利用開始でき、AIアシスタントやGenie(自然言語ダッシュボード)などの最新機能が使えることです。学生や教育者向けに、AI・ML・データエンジニアリングを無料で学習できる環境を提供。ただし非商用利用限定で、1アカウント1ワークスペース、R/...
  4. Claude CodeとDatabricksで始めるVibe Data Science

    • 👀 4,639回 | ❤️ 8件 | 🏷️ Databricks, ClaudeCode, バイブデータサイエンス
    • 📝 Claude Codeを使ってDatabricksのCOVID-19データを分析する「Vibe Data Science」を実践。日本語の指示だけで、環境構築、データ可視化、クラスタリング、時系列予測、インタラクティブなダッシュボード生成まで自動実行。エラーも自動修正し、最適なアルゴリズム比較も行う。思考に集中しながらコーディング不要でデータ分析が完結できる革新的な体験を紹介。
  5. Databricks AI/BIダッシュボードにおける時系列予測結果の可視化

    • 👀 5,185回 | ❤️ 8件 | 🏷️ Databricks, Databricks_AI_BI
    • 📝 Databricksのダッシュボードで折れ線グラフに時系列予測機能が追加されました(パブリックプレビュー)。グラフの「予測(ベータ版)」セクションから簡単にai_forecast関数を適用でき、元データの下に予測結果が自動表示されます。背後で作成されるデータセットのSQLを編集すれば予測期間のカスタマイズも可能で、手軽に時系列予測を実現できる機能です。

🚀 今後の展望

Databricksに入社してから5年間、データエンジニアリングから生成AI、そしてAIエージェントの時代へと、技術の大きな変遷を目の当たりにしてきました。これからも最新技術を追いかけ、実践的な情報を発信し続けていきます。

感謝: これまで読んでいただいた皆様、ありがとうございます!🙏

はじめてのDatabricks

はじめてのDatabricks

Databricks無料トライアル

Databricks無料トライアル

7
2
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up
7
2

Delete article

Deleted articles cannot be recovered.

Draft of this article would be also deleted.

Are you sure you want to delete this article?