ポエムじみていてアレですが。
2021年3月3日から投稿をスタートして今日(2022年08月04日)時点で600強の投稿をしているので、ここで振り返ってみました。
Qiita APIを使って投稿データを取得して、簡単に分析してダッシュボードにしてみました。ちなみにDatabricks SQLを使っています。
上位の記事はDatabricksクイックスタートガイドや大規模特徴量エンジニアリングです。
上の上位記事を投稿したときに参照回数やいいねがスパイクしています。
ワードクラウドも作成できます。これはタグなので、あとで本文を形態素解析して見てみたいところです。
以下で理由を書き出してみます。大きく3つありました。
Databricksの存在を知ってもらうため
これが最大の理由です。私がいうのもアレですが、Databricksの日本での認知度はまだまだだと感じています。ウェビナーやトレーニングを行い、ニュースリリースなどを出していますが、データや人工知能、機械学習に関わる方々へのリーチは十分ではないと日々感じています。
そもそも、AWS版、GCP版のDatabricksマニュアルに至っては日本語化されていません(これは我々の責任です。すみません)。なお、Azure版のAzure Databricksのマニュアルは日本語化されています。
私自身、トレーニングやウェビナーの講師を担当しており、その効果は疑うところはありません。ただ、これらはあくまで「フロー型」のコンテンツです。参加しない人は体験することができません(オンデマンド視聴はありますが)。
一方、ネット上の記事であれば、私が寝ている間でも参照していただける可能性があります。だから、ストック型のコンテンツに力を注いでいるのです。
結果として以下のような記事をまとめています。
書いて終わりではなくて、体系的にまとめることで別のメリットがでてきています。これは後で触れます。
Databricksの良さを知ってもらうため
存在を知ってもらえたとしても「何に使えるのか、何が嬉しいのか」が伝わらなければ意味がありません。
記事のベースはマニュアルやブログなどの公開資料の英訳が多いですが、これらのドキュメントでは具体的なユースケースやベストプラクティスがカバーされています。
以下はこれまでに翻訳した記事のほんの一部です。機械学習やAIは実験段階のものではない、具体的にビジネスにこのように適用されているというのを伝えたくてこれらの記事を書いています。
- Apache Spark 3を用いた高精細需要予測
- eコマース向け類似画像レコメンデーションシステムの構築
- ヘルスケアにおける大規模テキストデータへの自然言語処理の適用
- Databricksにおける機械学習による病理画像分析の自動化
- NLPを用いた薬害イベント検知による薬品安全性の改善
- 機械学習の本格運用:デプロイメントからドリフト検知まで
- 今日の機械学習と明日の効率的な機械学習の間のDelta
自分の勉強のため
自分はすでに結構な歳(50目前)です。幸運?なことに、自分のキャリアでは常にコーディングをしてきました。マネージャ経験はありますが、技術から離れなかったことが転じて今のポジションになったのだと考えています。
Databricksの面接を受けている過程で、Sparkの開発者が立ち上げた会社であることを知り、この会社に入りたいと思った次第です。間違いなく死ぬまで勉強しても仕切れないネタがあると思いましたし、実際にそうでした。
特にマニュアルを翻訳して体系的にまとめることで、自分の知識も体系立てて整理することができました。この機能はこの機能につながっているのか、この機能はこういう意図で開発されているのかというのが実際に記事間のリンクを貼っていく中で見えてきます。そして、これらの記事はある意味自分の外部記憶媒体になっていますので、問い合わせを受けてもクイックに情報を引き出せるようになりました。
そして、体系的に記事をまとめていたので、こちらの本を執筆する際にも楽に執筆を行うことができました。
加えて、英語を日本語に翻訳する際、流し読みではできないので内容を深く読むことになり、理解度も高まります。もちろん、英語のリーディングスキルも上がります。その他の学習方法に関してはこちらでも書いています。
このような動機で翻訳や執筆をしていますが、これらの記事が皆様の役に立てば幸いです。