先日、Qiitaの年次レポートをいただいたので、今年の振り返りをします。なお、昨日で仕事納めですが、年末年始もポチポチ書いていきます。
こちらにも書きましたように、2021年3月から投稿を始めました。
ちなみに昨年の振り返りレポートはこちら。2021年は3月からではありますが、ペースが上がっているような。
ある意味ライフワークと化しているので、できるだけ書き続けたいところです。
前置きが長くなりましたが、今年一年を振り返ってみます。基本マニュアルやブログの翻訳が多いので、オリジナルの記事にフォーカスするようにします。まとめ始めたら思ったより量が多いので、前後編に分けます。
私はDatabricksをどのように学んできたのか(学習コンテンツのご紹介)
投稿日 2022年01月15日
年初のオリジナルは学習コンテンツでした。Databricksに入社して2年が立ちますが、日々勉強の気持ちで取り組んでいます。Databricksは基本2週間に1回のペースで新機能がリリースされるのでそれにキャッチアップしていくのも大変ですが、常に新鮮な学びがあるので楽しいです。
DatabricksのUIが日本語対応しました!
投稿日 2022年01月20日
タイトルからも嬉しさが滲み出ています。これまでは英語のみでしたが、今では数ヶ国語に対応しています。なお、日本語のGUIの翻訳は今は私がやっています。誤訳などありましたら教えてください。
Databricksを使い始めたときに感じる疑問 + ベストプラクティス
投稿日 2022年01月25日
Databricksを使い始めて最初に悩んだのはファイルシステムやデータベースがどうなっているのかでした。その辺りをまとめています。この後追加の記事(ファイルシステム、データベース)も書いています。
Databricks ReposとAWS CodeCommitを連携する
投稿日 2022年02月20日
これも嬉しかったですね。Databricks ReposとはGitとDatabricksワークスペースを同期する機能なのですが。これまではAWS CodeCommitが対応していなかったのですが、このタイミングでサポートされました。日本ではCodeCommit使っているお客様も多いので、喜びの声をいただけました。
Databricksとdbt Cloudの連携
投稿日 2022年02月27日
今年はサードパーティツールとのインテグレーションサポートも数多くありました。dbtもその一つ。
StreamlitからDatabricksでサービングしている機械学習モデルを呼び出す
投稿日 2022年03月04日
Streamlitを使い始めたのもこの頃です。REST APIでサービングされているモデルをどう使うのかを説明するにはGUIが一番直感的でした。
Delta Live Tablesを使い始めると感じる疑問(回答付き)
投稿日 2022年03月07日
この頃はまだDelta Live Tables(DLT)はプレビュー中でしたね。今ではGAになっています。
電子書籍:データブリックス クイックスタートガイドを出版します!
投稿日 2022年03月08日
これも鼻息が荒いタイトル。そういえば、生まれて初めて本を出版したのでした。
Unity Catalogのウォークスルー
投稿日 2022年03月18日
Unity Catalogもこの頃はプレビュー中でした。こちらも今ではGAです。
DatabricksとLabelboxの連携(実践編)
投稿日 2022年04月05日
画像にラベリングができるLabelboxとの連携。
日本語に対してSpark NLPを使う
投稿日 2022年04月08日
Spark NLPを使い始めたのもこの頃ですね。Sparkで自然言語できるなんて、日本語もサポートしているなんて!と興奮したものです。
Databricksでワイン品質予測モデルをトレーニングしてStreamlit Cloudからモデルを呼び出す
投稿日 2022年04月21日
Streamlit好きが伺えます。なお、ワインも好きです。
無料のDatabricks Community EditionでSpark NLPを使って自然言語処理をやってみる
投稿日 2022年04月23日
Spark NLPもお気に入りです。
Databricks SQL CLIを試してみる
投稿日 2022年05月13日
コマンドラインでDatabricksを呼び出してSQLを実行できるCLIもサポートされました。
DatabricksでSparkNLPとMLLibを使って分散トピックモデリングをやってみる(日本語編)
投稿日 2022年05月17日
またSpark NLP。
Databricks PrivateLink構成における設定確認
投稿日 2022年05月21日
一番難易度の高いPrivateLink構成も結構たくさん組みました。
Databricksチュートリアル
投稿日 2022年06月03日
これは結構な力作です。Databricksを使い始めた際に最初に体験すべき流れをステップバイステップで説明するシリーズです。
構造化ストリーミングとDatabricks SQLを組み合わせてリアルタイムダッシュボードを作成してみる
投稿日 2022年06月05日
ストリーミングを活用したリアルタイムデータ処理にも慣れてきたような。
PySparkことはじめ
投稿日 2022年06月10日
アクセス数の多い記事。PySparkに関してはウェビナーもやりたいと考えています。
Databricks Community Editionで画像データを分析してみる
投稿日 2022年06月14日
非構造化データの取り扱いにも慣れてきたような。気のせいかもしれませんが。
Databricks Certified Data Engineer Professionalに合格しました!
投稿日 2022年06月17日
あー、これも嬉しかったです。そろそろ他の資格も取りたいです。
前半は以上となります。
- GUIの日本語対応
- 本を出版
- Spark NLP/Streamlit楽しい
- 資格に合格
後半はこちら。