はじめに
本記事は「Kaggle Advent Calendar 2021」の9日目の記事です。
中国では**「彼を知り己を知れば百戦殆うからず」**という言葉があります。世界中の相手と競うKaggleにおいでは、相手が持つ情報もチェックする必要があるではないかと考えています。中国語圏出身の技術者・研究者がKaggleや国際カンファレンスで活躍されていることをご存知の方が多いと思いますが、この記事では、個人的に結構参考になっている中国語圏でML/Kaggleに関する情報リソースやエコシステムについて、以下3つのジャンルから紹介させていただきます。
- ニュース
- ブログ
- コンペプラットフォーム
※個人の技術分野の都合上、自然言語処理の割合が多めになりますのでご了承ください。
ニュース
Twitterから機械学習に関する情報収集する方がいらっしゃるように、中国版Twitterと呼ばれているWeibo(微博)を多く利用されています。ユーザーは中国本土のみならず、香港や台湾、アジアや欧米その他多くの中国語圏で幅広く利用されています。今回はWeibo(微博)で機械学習に関連する有識者のアカウントから2つ紹介します。
1. 爱可可-爱生活
- https://www.weibo.com/u/1402400261
- 概要: 北京郵電大学の陳光准教授が運営しているデータサイエンスに関するニュースアカウント
- オススメポイント:
- 毎日6~8時(UTC+9)に最近Arxiv上の人気論文のダイジェストが投稿されます。朝食のお供として最適です。
- それぞれの論文の分野に応じて**[CV]や[CL]**などのPrefixがつけられており、興味のない分野の論文をスキップすることも可能。
- 論文のAbstractと論文内の図表も画像として添付されており、論文のポイントやContributionなどすぐ把握することができます。
2. 机器之心Pro
- https://www.weibo.com/u/3996876140
- 概要: 机器之心(北京)科技有限公司が運営しているアカウント
- オススメポイント:
- アカデミックよりインダストリー分野のニュースかトレンドがメインです。
- 中国国内向けのイベントやコンペ情報も多く投稿されています。企業アカウントのため自社開催のセミナー情報もあります。
ブログ
ニュースのほかにも、ブログを読むことでそれらの情報を知ることができます。Twitterと同じように、Weiboは短文しか投稿できないため、情報密度としては比較的低めですが、ブログは長文を載せることができるため、Weiboより情報密度が多いです。また、ニュースだと客観的な情報しか得られないに対し、ブログだと著者個人の感想や考察が記載される場合が多いため、より深い知見が得られる場合があります。今回はその中から2つ紹介します。
3. 夕小瑶的卖萌屋
- https://mp.weixin.qq.com/s/vyKCCjAEbuOxpKOd6zhz3w (購読するにはWeChatアプリから右上のQRコードをスキャンしてフォローする必要があります)
- 概要: 自然言語処理・検索・レコメンデーションなどの分野に特化したWeChatパブリックアカウント(公众号)
- ※Weiboに比べて収益化しやすい点からニュース系のアカウントもWeChatパブリックアカウントとして運営しているものが多いです。
- オススメポイント:
- 海外の有名大学PhDライターが多数在籍中。論文の第一著者自ら作成した解説記事もしばしば。
- 個別の論文解説だけでなく、トピックごとにまとめた論文紹介もあるため、各手法の発展やトレンドを俯瞰的に捉えることができます。
- 特に Contrastive learning と Prompt に関するシリーズ記事はかなりオススメです。
- AI王 〜クイズAI日本一決定戦〜 1位解法で実装したDPRという手法もこのブログ経由で知りました。
4. 科学空间
- https://kexue.fm/
- 概要: bert4kerasの作者蘇剣林さんが運営している個人ブログ
- オススメポイント:
コンペプラットフォーム
日本ではSIGNATURE、ProbSpace、atma、Nishikaなどのコンペサイトがありますが、中国語圏にも同じようなプラットフォームが複数存在しています。
最近では日本企業が中国語圏のコンペに参戦して入賞された事例があります。今回は「BAT」と呼ばれる「百度(バイドゥ)」「阿里巴巴(アリババ )」「騰訊(テンセント)」と中国のテクノロジー業界で大きな影響力を持つ3社が運営しているコンペプラットフォームについて紹介します。
5. Tianchi Big Data Competition
- https://tianchi.aliyun.com/competition/gameList/activeList
- 運営元:阿里巴巴(アリババ )
- 中国語圏でもっとも知名度が高いコンペプラットフォーム。2014年設立してから400回以上のコンペが開催されました。
- Kaggleとの違いとして、一部のコンペでは予選と本選に分かれる場合があります。
- 機械学習コンペのほかにもハッカソンや競プロなどのイベントがあります。
6. Tencent Advertisement Algorithm Competition
- https://algo.qq.com/index.html?lang=en
- 運営元: 騰訊(テンセント)
- 毎年開催する広告に特化したコンペ。今年ではマルチメディア分野の国際会議 ACMMMと共同開催されました。
- 広告やユーザープロファイリングのコンペに関しては世界最高峰レベル。
- 海外チーム向けの「Prize to the Best Overseas Team賞」が設けており、今年は日本からサイバーエージェント AI Labさんが受賞されました。
7. Baidu Language & Intelligence Challenge
- http://lic2021.ccf.org.cn/
- 運営元:百度(バイドゥ)
- 毎年開催するNLPに特化したコンペ。今年では「機械読解」「マルチタスク対話」「知識抽出」3つのコースに分かれています。
- Dialog State Tracking Challenge (DSTC)で優勝したPLATOモデルやLUGEデータセットなどBaidu AIチームの研究成果を試せるのも魅力です。
- 実装ではKaggle Codeと同じような感覚でBaiduのAI Studioを利用可能、一定時間でGPUを無料で利用することができます。
- 公式実装ではBaidu独自で開発しているPaddlePaddleフレームワークを利用しているため慣れるまで少し時間が必要かもしれません。
おわりに
海外のサイトから情報収集するのは少しハードルが高いかもしれませんが、先月日本人の方がKaggleのヒンディー・タミル語の質問応答コンペで2位入賞されたように、言葉に壁が存在していても技術に壁はないと思いますので、本記事が皆様のお役に立てば幸いです。