Kaggleは、データサイエンティストが様々なデータセットに対し、モデルの精度を競い合うウェブサイトです。ごく最近に公開されたデータセットの1つに"Kaggle ML and Data Science Survey, 2017"というのがあり、Kaggleユーザーを対象としたデータサイエンスに関するアンケート結果が、個人が特定されない形で公開されています。
以前、ドイツでITの仕事に就いたらいくら稼げるのか、という記事をまとめましたが、今回のデータセットを使うと、データサイエンスに興味がある(=Kaggleに参加している)人たちの収入などを国別に見ることができます。ここでは、Kaggleで公開しているノートブックの一部を簡単にまとめました。データサイエンスという観点から、日本とドイツの違いを紐解きたいと思います。
年収分布
このデータセットでは、277人の日本人と、460人のドイツ人が回答に参加しています。有効回答の分布を国別で見ると、以下のようになります。
単位を揃えるため、2国の回答結果を共にUSドル (USD / Year) に変換しています。全体として、ドイツの方が年収が高いようです。ただ、日本のデータでは年収0のデータ割合が多く、この層が平均を下げているのが見て取れます。おそらく、日本の方がKaggleに参加している学生の割合がドイツより多いのでしょう。
年収分布と性別
男女の所得格差を見てみましょう。
回答参加者の女性の割合は、日本だと7.2%、ドイツだと13.3%と、そもそも偏りがあるのですが、どちらの国においても男女の所得格差がうかがえます。
日本の場合は極端に年収に差が出ていますが、年収0の層が特に女性に多いことがこの差を生んでいます。ドイツはワイマール憲法を生んだ国ですし、男女平等という点では間違いなく先進国であるはずですが、それでも2万ドル弱の所得格差があります。
職種
回答に参加している人は、おそらくほぼKaggleに参加している、つまりデータサイエンスに興味がある人ですが、普段はどんな仕事をしているのでしょうか。もしかしたら国ごとの職種の傾向の違いが、上に示したような年収の違いに繋がっているのかもしれません。
アンケート結果によると、日本とドイツの顕著な違いは以下のようにまとめられます。
- 日本の方がエンジニア・ディベロッパー (Engineer/Software Developer or Engineer) の割合がドイツより約2倍高い
- ドイツの方がデータサイエンティスト・統計屋 (Data Scientist/Statistician) の割合が日本より約2倍高い
日本ではまだデータサイエンスを専門に仕事している人が少なく、ソフトウェアエンジニアなどのITの仕事をしている人が、趣味、ないしは転職を志向してKaggleに参加していることが想像されます。
一方ドイツでは、一定数のデータサイエンティストや統計屋など、その筋の専門家が既に育っており、自らのレベルアップのためにKaggleに参加しているように思えます。
では、なぜドイツの方が専門家の割合が多いのでしょうか?もしかしたら、大学などの教育機関がそうした専門家を育てる役割をきちんと果たしているのかもしれません。
就職に大切なこと
もしドイツの教育機関がデータサイエンティストを専門に育てる役割を果たしているなら、学位が就職に大切になっているはずですね。以下では、就職するのに何が大切かに関するアンケート結果を、数値化、標準化し、日本 - ドイツで差を取った結果です。y軸が正なら、日本人がドイツ人よりその項目が就職に大事だと思っていることを表し、y軸が負なら、ドイツ人が日本人よりその項目が就職に大事だと思っていることを表しています。
日本人がビッグデータ (Big Data) を重視しているのも面白いですが、より顕著なのは、ドイツ人は学位 (Degree)を重視し、日本人はKaggleのランキング (Kaggle Ranking)を重視しているということでしょう。
これは、ドイツにはデータサイエンティストになるための教育機関があり、そこで学位を取ることが専門家として、就職に有利になると思われている傍証です。一方、おそらく日本にはそうしたシステムがないため、データサイエンティストとして就職しようとすれば、学位よりも実績、この場合Kaggleのランキングが重視されているのでしょう。
仕事に求めるもの
データサイエンティストとして仕事をする場合、何を仕事に求めますか?日本とドイツで面白い違いが見えたので、最後に紹介します。グラフの見方は先ほどと同じで、y軸が正なら、日本人がドイツ人よりその項目が仕事に大事だと思っていることを表し、y軸が負なら、ドイツ人が日本人よりその項目が仕事に大事だと思っていることを表しています。
給料 (Salary) は、日本だとドイツに比べてさほど大事に思われていないようです。最初に見たように、決して日本の給料は高くないのですが、日本人はお金のために仕事をしないようです。では、日本人が何を大切にしているかというと、最もドイツと差が出たのはLeader Reputation、つまり周りからの評価ですね。なんとなくわかる気はします。
一方ドイツでは、言語 (Languages)、経験 (Experience Level)、部署 (Department) といった、実利的なことに多く票が集まっています。個人主義、実利主義の西洋文化が反映されている気がします。
まとめのまとめ
日本はドイツに比べ、
- 大学などのデータサイエンス分野の教育プログラム
- 女性データサイエンティストの数
- 給料、待遇
という点で遅れているかもしれない。
終わりに
無回答の多いデータセットながら、割と直感的な解析結果が出ました。日本でもドイツでもAIやデータサイエンスはホットな分野で注目度も高いですが、正直、日本のデータサイエンスの現状は、少なくともドイツよりは遅れているのではないかと感じました。このデータセットの回答者の大部分を占めるアメリカ、インドとの比較はしていませんが、おそらく似たような結果が出ると予測できます。
もし日本がAIやデータサイエンスを使って世界でビジネスをしようと思うなら、通常業務にプラスアルファでデータサイエンスを独学で勉強しているITエンジニアに寄りかかるのではなく、大学などの高等教育機関で専門家を育てるシステムが必要なのかもしれません。あるいは、データサイエンティストの給料・待遇を改善し、海外から優秀な人を呼べるようにすることも方法の1つでしょうか。