この記事は、LIFULL Advent Calendar 2017の2日目の記事です。
おはようございます。新UX開発部の二宮( @ninomiyt )です。
LIFULLではデータ解析や最適化の用途、もしくはAWS Lambda上の簡易ツール実装用途などでPythonがそれなりに普及してきました。数値計算寄りの(いわゆるデータサイエンティスト的な)メンバーも今はPythonを使うことが多く、コード量としては小規模なプロジェクトが多く、簡単なAPIやバッチ処理の実装までやってもらうこともあります。
そのレビューをやっていく中で、「これ使うともっと簡単に実装できるよね」っていうライブラリがいくつかまとまってきたので紹介します。
click
コマンドラインパーサー用のライブラリで、デコレータを使って関数を簡単にCLI化できます。
標準ライブラリのargparseがありますが、clickではバリデーションの処理もまとめて行うので、圧倒的に楽になると思います。
retry
現実のアプリケーションでは「データの取得に失敗した際に、何度かやり直す」コードを書くことがあると思います。それをデコレータを使って簡単に実現するライブラリです。
requests
httpクライアントを作るためのライブラリです。
Pythonコミュニティ内でも信頼性の高いライブラリとして認識されていて、Pythonの標準ライブラリであるurllibのドキュメントにも「より高水準の HTTP クライアントインターフェイスとしては Requests パッケージ がお奨めです。」と紹介されています。
例えばOauth認証が必要な場合でもrequests-oauthlibなどの似たインターフェイスを目指したライブラリが多くあるので、requestsでは実現できない用途でも類似ライブラリでコードをほとんど変えずにカバーできることも多いです。
Cerberus
これは同僚に教えてもらったもので、入力値のバリデーションを行うためのライブラリです。
辞書の中身やリストの長さ、文字列の正規表現のバリデーション等、単なる型のチェックだけでは難しい箇所もできます。
AWS LambdaとDynamoDBを使ってレコメンドAPIを作るプロジェクトがあったのですが、その際の入力値バリデーションをCerberusで行うとかなり楽になりました。下手にテストコードを増やすより開発者もレビュワーも負担が少ないと思います。
chalice
Flask/bottle風のコードで、AWS Lambda上にREST APIを作れるライブラリです。
デプロイ時にAPI Gatewayも含めて設定してくれたり、一般のサーバー上でもテスト用途で立ち上げられたり、開発時に便利な機能はひととおり揃っているように思いました。
実はapexやZappa等の類似のプロジェクトはいくつかあるのですが、aws公式のライブラリであることや、少なくとも今は他のクラウドサービスに対応する必要がないことからchaliceを使っています。
pandas
データ分析用途で便利なライブラリで、(おそらくR言語由来の)「データフレーム」というテーブル形式でデータを扱う機能などを備えています。
SQLによって様々なデータソースからデータ取得できるなど、ETL的な用途でも役に立ちます。
ただ、API(pandas.DataFrameのメソッド)が個人的に使いづらく、例えばSparkpyやR言語のdplyr/tidyrみたいに分かりやすくできないかと悩んでいます。また、大きなデータフレームに対してassignメソッドを使う時に内部でデータフレームの(deep)copyが行われて、想定以上にメモリが必要だった例も見ました。
なので個人的には「便利でデファクトスタンダードなんだけど、レビュー/実装のときに不安も多い悩ましいライブラリ」という印象です。
まとめ
Pythonには豊富なライブラリがあるため、それらを上手く使えばアルゴリズムの実装に集中する(してもらう)ことができるでしょう。
「こういうライブラリがあれば楽なのに」と思ったときは、awesome-pythonの該当項目を見た後にPyPIで検索するだけでも良いライブラリが見つかることが多いです。
また、今のところ小規模なプロジェクトが多いので、どうしても視点が偏っていたり、「他にもこんなライブラリが便利」などの意見もあると思います。そういう方はコメントをください。
最後になりますが、ひきつづきLIFULL Advent Calendarにもご注目頂けると嬉しいです。