はじめに
初めまして、みずほリサーチ&テクノロジーズ株式会社 の @fujine です。AIやクラウドの技術研究を主業務としております。
Qiita初投稿になります。どうぞよろしくお願いいたします。
PyConJP2022に参加してきました
先月の2022/10/14-15に、Pythonの国内最大カンファレンスである PyConJP2022 が有明とオンラインでハイブリッド開催されました。
カンファレンスでは、Pythonのコアな話、Webフレームワーク、機械学習、テストなどの各カテゴリにて、多様なトークが多数発表されました。
現地ではトークを視聴する方の他にも、スポンサーブースで交流する方、知り合いと親睦を深める方など多くのPythonユーザーが一堂に会し、会場全体が活気に満ち溢れているのを感じました。
個人的に面白かったトーク
ここからは、私が印象に残ったトークを発表順で紹介させていただきます。
開催からすでに1か月近く経過してしまいましたが、一周回って新たな発見があれば幸いです。
業務改善の面白さ ~毎日更新されるビジュアルコンテンツの差分を わかりやすくするためのプロトタイプを作るまで~
株式会社日本経済新聞社のまりーなさんによる発表です。
日経ビジュアルデータのコンテンツ制作において、変更点のチェック・可視化ツールをPythonで開発した事例を紹介しております。OpenCVによるシンプルな画像処理ながら、ニーズに上手く合致させることで従来の業務負担を大幅に低減できた好事例の1つだと思います。
ニュースコンテンツに限らず、画面のリグレッションテスト等に汎用的に活用できるノウハウだと感じました。
Pythonとアスタリスク 🐍🌟💫🐍🌟💫
にっきーさんによる発表です。
Pythonで使われるアスタリスク(*
と**
)に全振りしており、乗算や累乗、アンパック代入、辞書同士の結合、可変長引数など、アスタリスクの多様性に気付かされる秀逸なトークです。
また、「閑話🍵」という名の休憩スポットが至る所にあり、視聴者を飽きさせないテクニックはさすがの一言。
とても分かりやすいため、Pythonを学び始めたばかりの方や、公式ドキュメントの堅苦しさになかなか馴染めない方にもおススメです!
Python ライブラリ開発における失敗談 〜開発者に選ばれるライブラリを作るために必要なこと〜
池田 大志さんによる発表です。
日本語の自然言語処理ライブラリ nagisa の開発を通じて、ライブラリを広く使ってもらうための様々な気付きや苦労を解説しています。ただやみくもに機能を追加・拡張するのではなく、
- 競合ライブラリと比較して特徴を分析する
- 開発者ファーストを最重視する
という戦略は、ほとんどのライブラリに共通する重要な指針だと感じました。
なお、日本語の自然言語処理ライブラリでは MeCab、SudachiPy、janome、GiNZA などが有名ですが、jaconv やpykakashi など私が初見だったライブラリも紹介されており、 多数の自然言語処理ライブラリを俯瞰するのにも重宝する発表 だと思います。
実践:日本語文章生成 Transformers ライブラリで学ぶ実装の守破離
株式会社日本経済新聞社の石原祥太郎さんによる発表です。
Transfomersを用いた自然言語処理を、
- (守)既存モデルでそのまま推論・生成
- (破)既存モデルのファインチューニング
- (離)事前学習
の3ステップに整理し、性能比較やトレードオフ、考慮事項などを分かりやすく解説しています。
「新型コロナウイルスが感染拡大する前と後で、”コロナ”の周辺単語の分散表現が変化している」という研究 も紹介され、自然言語処理ではアルゴリズムだけでなく分散表現も常にアップデートが必要であることを再認識できました。
Pythonで公的統計APIのオープンデータ活用
株式会社マネーフォワードのRyo YOSHIさんによる発表です。
日本の省庁や地方公共団体が公開している公的統計(人口推計、家計調査、貿易統計などの)オープンデータを活用し、データの取得・抽出方法やビジネス戦略・家計診断などへのユースケースを解説しています。
統計データは多くの可能性・有用性を秘めている一方で、e-Stat政府統計のデータ抽出例を見ると、JSONのネストが深い、メタデータと値の紐づけが必要、欠損も含む等、かなり扱いづらいデータであることも伺えます。使いこなせるようになれば、ビジネス展開の幅がさらに広がると予想されます。
類似トークとして、 Pythonではじめる地理空間情報 では地理空間のオープンデータとその活用事例が紹介されております。
続・絵を読む技術 Pythonで読むイラストの心理戦略
Hirosaji / ひろさじさんによる発表です。
昨年PyConJP2021からの続編で、「絵師が何を伝えようとしているか」という心理戦略を、Pythonによる事例とともに解説しています。
ポーズや表情によるキャラクターの魅力や、配色や塗りによる人物の関係性やストーリーといった感性的な表現をPythonでロジカルに計測・分析する取り組みはとても新鮮で、双方の深い知識が融合した非常に完成度の高いトークでした。
Stable Diffusion のように画像生成AIが近年急速に進化している中、絵師の在り方やAIとの共存に対する考え方にもとても納得感がありました。
発表者のブログにて、質疑応答の内容が紹介されております。
Pandas卒業?大規模データを様々なパッケージで高速処理してみる
拙作ながら、私もデータ分析のテーマで登壇・発表させていただきました。
約13億行のオープンデータを対象に、Pandas / Dask / Vaex / PySpark で代表的なデータ処理を行い、パフォーマンスや実装の容易さなどを比較検証したものです。
データ分析業務やKaggle等のコンペに有益な内容かと思いますので、よろしければ是非ご一読下さい!
まとめ
PyConJP2022で印象に残ったトークを紹介させていただきました。
カンファレンスでの現地発表は初めてだったためとても緊張しましたが、発表や質疑応答を通じて多くのPythonユーザーの方とつながれたと感じました。来年のPyConJP2023でもまた登壇したいと思います。
なお、PyConJP2022の発表資料は以下で公開されています。今回ご紹介できなかったトークが多数掲載されていますので、ぜひご覧ください。
https://pyconjp.connpass.com/event/255827/presentation/
最後に、カンファレンスを企画・運営されたスタッフの皆さん、また私の発表をご視聴いただいた皆さんに、この場を借りてお礼申し上げます。
免責事項
記載内容や掲載資料は個人の見解であり、所属組織を代表するものではありません。