きっかけ
以前の記事でGoogle データアナリティクス プロフェッショナル認定証を取得したことを記載した。 1
こちらは2023年10月に日本リスキリングコンソーシアムによって無料で配布されており、他者との差別化を図るには、更に一つ上を目指しておかねばと考えた。 2
また、リスキリングと言う言葉が流行っているが、業界歴が干支で一回り以上あるITエンジニアが、畑違いの分野であるならまだしも、自身の専門分野に近しい領域であるなら、エントリーレベルで済ますのはいかがなものかと思っていた。
そんな折に上級版が2023年4月に登場していた。
Coursera上の登録者数を見ると2024年12月時点で通常版は約250万人、上級版は約15万人となっており、49ドルにて取得することで明らかな差別化に繋がる、と考えた。
よって、上級とかAdvancedとかいう言葉に弱い私はいそいそと取ることにした。
というか取ったので、(後で清書するにしても)忘れないうちに書き留めておこうと思う。
難易度(全体的)
コース名そのものにも、Courseraの難易度にもAdvanced(上級)レベルとある。
何をもってして上級レベルとするかはその人の経歴、(例えば理系の大卒であるか、現在IT業界に従事しているか)などによるとは思う。
しかし、具体的にどれぐらいの最低限の前提知識が必要かを他の資格試験あたりを参考に説明すると以下となる。
- 統計検定データサイエンス 発展(基礎では物足りない)程度のデータサイエンスに対する造形
- 統計検定2級(仮説検定、線形回帰の話が出てくるので3級では不足)程度の統計学
- Python3エンジニア認定データ分析試験程度のプログラミング能力(というか、このコースは実質的に 100% Python です)
の知識は最低限あった方がよい。というか、ないと理解が出来ない。
下位バージョンのGoogle データアナリティクス プロフェッショナル認定証コースの続き物のノリで行こうとするのは厳しい。
とは言え、本講座は数式の解説はそこそこに
「手で計算するのは大変だから、理論がなんとなく分かったらあとはPythonの関数にぶち込めばOK」
と割り切ってくるので、そこは合理的なアメリカらしくて大変よろしい、と思った。
かなり端折るが一例を上げる。
↓
慣性モーメント(イナーシャ)は次式で表される。
Inertia =
\sum_{i=1}^n \left( X_i - C_k \right)^2
慣性モーメント(イナーシャ)はクラスタ内距離の測定値で、クラスタがモデル内でどれだけコンパクトであるかを示す。
~後略~
↑
みたいな説明があるが、実際にこれを手で計算させることはない。
ひとしきり説明した後、
「あとはPythonで計算すればいい」
# モデルに必要なライブラリをインポートしろ。
from sklearn.cluster import KMeans
# モデルをインスタンス化しろ。
kmeans3 = KMeans(n_clusters=3, random_state=42)
# fit() メソッドを使用して、スケールされたデータを渡せ。
kmeans3.fit(X_scaled)
# このモデルのクラスターの割り当てと慣性をチェックしような。
print('Clusters: ', kmeans3.labels_)
print('Inertia: ', kmeans3.inertia_)
「ほら?出来ただろう?」
というような感じで進む。
本コースはアカデミックな要素をそこそこに、数理統計の知識を前提にどうやって実プロジェクトで使いこなしていくか、”データ分析のやり方を学ぶ” が主眼である。
ただし、(前述したとおりに)幸いにして数式を解かせるようなシロモノではなく、そこはPythonを使って計算させるので、どこで何の関数を適切に使えるかが分かっていればよい。(そう言う意味では難易度ははるかに低い。ネットで調べられるし)
なので、後述するが5, 6章あたりを見て知らない単元を無くしたうえで、サクサクと終わらせるとお金の節約になって大変ヨロシイ、と思われる。
難易度(コース別)
1. Foundations of Data Science
なぜPPDACではないのかは気になったが、PACEフレームワークの話。データアナリストがプロジェクトの中でどう立ち振る舞うか、プロジェクトをどう進めるのか、また、ドキュメントの資料は参考になった。
2. Get Started with Python
正直、初歩的な内容、例えば「文字列はString型である」などのように、ご丁寧に説明してくれる。つまり、Pythonのまったく初心者ではない限り不要。
3. Go Beyond the Numbers Translate Data into Insights
データ視覚化をどのようにすればビジネス関係者に受け入れてもらいやすいか、的なコース。プログラミング的な面白みはないが、探索的データ分析、EDA の実行方法などの手順に関するは聞いていて面白かった。
4. The Power of Statistics
平均値、四分位数など中、高校生で習うようなレベルから始めてくれる。はっきり言ってこのあたりは上級コースとは思えなく酷く退屈である。Week 4, 5あたりになるとようやく信頼区間、仮説検定の話に入ってくれる。このあたりからようやくAdvancedらしくなってくる。
5. Regression Analysis Simplify Complex Data Relationships
Pythonを使った回帰分析に入ってくる。線形回帰法とロジスティック回帰法、および係数の解釈方法をから始まって、分散分析、カイ二乗検定、およびその他の検定などのより高度な統計的な手法が学べる。一番データアナリストらしいコース。
6. The Nuts and Bolts of Machine Learning
機械学習におけるバギング(特に決定木とランダムフォレスト)、etc... とML, AIエンジニア、データサイエンティストっぽくなってくる。「データアナリストになぜ機械学習が必要なのか?」という疑問がついつい湧いてしまうが、「データサイエンティストはデータアナリストの上位職である」とみなされることが多いので「データアナリストとは言え、これぐらいは当たり前に知っておいてね」的に付け足されたと思う。
7. Google Advanced Data Analytics Capstone
履歴書の書き方とかキャリアパスの歩み方など。「米国だとこういう履歴書がウケるのね」とかそれぐらい。コースの最初の方に出てくる演習以外はYouTubeを見る代わりにチラ見するぐらいでよい。
取得したことによる個人的なメリット
実作業に使えるサンプルドキュメント、ソースコードが入手できた
学術的、技術的にはかなり知っている部分が多く、私にとってはその面ではあまり得るものがなあったが、実際に仕事を進めるうえで参考になる資料やソースコードが大量に入手できたのは非常に大きなメリットであった。
一例を挙げるとデータ分析におけるプロジェクト提案書の書き方、サンプルファイルなどは実に参考になった。
また、ソースコードにおいても他の検定試験では実プロジェクトに沿った成果物は得られないが、本コースでは入手することが出来る。
例えば、(かなり簡素化するが)、他の検定試験などで
「サブスクリプションの継続の予測は二値分類であるためロジスティック回帰で予測するのが正しい」
という知識を得たとして
「じゃぁ、それを実際にPython(Excelでもいいのだが)で分析して?」
となった場合に、(学習していないのだから)困ってしまう。
それが、本コースでは(コメントは意訳)
# ロジスティック回帰分析に必要なライブラリをインポートしろ。
import pandas as pd
import seaborn as sns
# データをCSVから読み込め
activity = pd.read_csv("activity.csv")
# 中略
# 次に、分類器を構築し、.fit() 関数を使用してモデルをデータに適合させような。
# 適合したモデルを clf という変数として保存するぞ。
clf = LogisticRegression().fit(X_train,y_train)
# clf オブジェクトの coef_ 属性と intercept_ 属性を使用して、モデルの係数と切片を取得できるぞ。
clf.coef_
clf.intercept_
# ロジスティック回帰とその信頼区間をプロットしろ。
sns.regplot(x="Acc (vertical)", y="LyingDown", data=activity, logistic=True)
と一連のソースコードを提供してくれる。
しかも曲がりなりにもGoogleが提供してくれているソースコードなので、(例えば変数名を適当につけた感が無いので)、読んでて大変好感が持てた。
なので、仮想ラボのJupyter Notebookで実行するのではなく、自前のマシンにPythonをインストールしてソースコードを保存して、現実世界の作業へ活かせるようにしておきたい。
ただし、実際の現場ではこんなに綺麗なデータを扱うことはない(と思う)。(と思う、としてのはすべての現場を知っている訳ではないので)
当然、
# `label` 列に欠損データがある行を削除します
df = df.dropna(subset=['label'])
# 最終行を残して重複行を削除する
data.drop_duplicates(keep='last')
のような初歩的な話から、
# 外れ値の補完
# 各列の 95 パーセンタイルを計算し、それを超える列の値はすべてその値に変更。
for column in ['column1', 'column2', 'column3']:
threshold = df[column].quantile(0.95)
df.loc[df[column] > threshold, column] = threshold
のような話まで出てくるが、これだけでは(当たり前に)すべての現場で適用出来ると思わない。このあたりは資格、試験の限界であり、各人、現場で研鑽を積まれたい。
非日本語圏の人にも分かってもらえるデータ分析の資格をゲットできた
前述したとおり、日本語を母国語とする日本人にとって、当該分野の勉強をしたければ統計検定やその他、DS検定などの方がよい、と思う。
ただし、残念ながらそれらは英語での受験や海外団体との相互認証もないので、海外や外資系の案件を受ける際に優位に働きづらい、と考える。
また、オフショア開発や外国籍のBPさんと面談の中でこちら側の実力を分かってもらいやすい。実力のない取引先と仕事をするより、実力のある取引先と仕事をしたいのはお互い様だろう。
話はやや脱線するが、日本の検定、資格の類は素晴らしいモノが多いのに、多言語対応されてないのが悔やまれる。多言語化対応されていれば日本語を母国語としない技術者も取得しやすいだろうし、そこまでいかなくとも海外取引先にも技術力を理解してもらいやすいのに、と非常に残念でならない。それか、日本語しか対応していなくてもScrum.orgのように「英語を母国語としない者はGoogle翻訳を使って受験しようね」と割り切ってくれた方がはるかに潔い。
法学系であるならまだしも、国境を容易に越えやすいIT系の資格であればなおさらそうであるべきだと思うのだが、そうはなっていないのが一エンジニアとしては不思議に思う。
しかしながら、その逆もまた我々日本人の感覚からすると色々不便であった。海外、主にアメリカの資格で日本の統計検定や数学検定に相当するものを探したが、一つも無かった。どうやらアメリカでは「そう言ったアカデミックな知識は大学で学んで来い」ということらしい。
そう言った意味では大学卒業後も検定や資格などでキャリアを多少なりとも変えることが出来る日本の方がまだ幾ばくかの自由があるのかもしれない。
その他のTips
一部の記事では(他の区分では)、「一週間以内に終わらせれば無料で取得できる」のような記載もあったが、私がやった限り課金しないと証明書が発行されなかったし、「課金しないと証明書の発行はされない」、との記載があった。(画像はChromeで日本語翻訳を使用したものだが実際は英文での記載となっている)
1か月あたり49ドルなので、1ドル150円ぐらいとすると1か月当たり7,500円なので、その金額を課金して、(分からないことはインターネットで調べまくり、頑張って)課題を提出しさえすれば資格の証書を取れることになる。標準履修期間として6か月とあるが、そうすると45,000円ぐらいになるので、正直そこまでのお金をかけてでも取る資格ではない。
なお、ここで言いたいのは、
「このコースで語られている内容(技術的、学問的に)が45,000円分の価値がない」
と言うことではなく、
「45,000円をかけても、おそらく日本では、それに見合った評価を受け取ることは出来ないだろう。なぜなら、日本語版が出てないのと、英語が苦手な日本人の特性も相まって、日本国内での知名度が無いのでからである。また、そもそもこの内容を理解出来る人は既に実務経歴などでその実力が証明可能である。しかしながら、それでも取るのであれば出来るだけ低コストで取るべきである」
ということである。
SNSやスマホゲームを触る代わりにCourseraを立ち上げて1か月ぐらいで終わらせることをお勧めしたい。
と言っても、(ちゃんとやろうとすると)(ズルはいくらでもできるが)無印のGoogle データアナリティクス プロフェッショナル認定証コースほどヌルくはないので、それなりに気合いを入れて終わらせる必要がある。
なので、課金する前にシラバスを見て分からない単語が無いようにして(なんなら勉強して)、爆速で終わらせることをお勧めする。少なくとも課金し続けて勉強しながら取得するものではない、と思う。
こう言った資格は早々に取得してLinkedInやCreadlyあたりにバッジをペタペタと貼って、インターネットの偉い人のように「僕、データサイエンティストを名乗れる資格を一応持っているんですよね」とかなんとか言いながら、実務に専念するべきである、と私は考える。
-
CouseraでGoogle データアナリティクス プロフェッショナル認定証を取得した : https://qiita.com/tatsu_sekine/items/7c4ca419099a1d9b9783 ↩
-
Google 「新規会員様向けに先着 2 万名無料枠の受付を開始:新プログラム登場の Google プロフェッショナル認定証 ( Google Career Certificates ) 」 https://japan-reskilling-consortium.jp/news/169 ↩