daikikatsuragawa
@daikikatsuragawa

Are you sure you want to delete the question?

If your question is resolved, you may close it.

Leaving a resolved question undeleted may help others!

We hope you find it useful!

panderaのメリットとデメリット

意見交換したいこと

題の通り「panderaのメリットとデメリット」について意見交換をしたいです。

参考までに質問者(@daikikatsuragawa)の過去の紹介記事のリンクも貼っておきます。

個人的にはかなり重宝しているライブラリなのですが、「自分以外の意見も知りたい」という意図で投稿させていただきます。特に、布教するにあたって、デメリットをも把握しておくことは、とても重要だと考えています。ぜひ、よろしくお願いします。

例)

メリット
  • バリデーションによって、データの仕様に基づくデータのみを扱うことになる(堅牢性の向上)
  • スキーマを定義することによって、データの仕様をコードから読み取れる(可読性の向上)
    • 特にデータフレームは各列ごとに異なる仕様を持つため重要
    • 特にデータフレームを利用するプログラミングにおいてドメインに関する記述は重要
  • ◯◯な目的で利用されているプログラミングには向いている(利用しない理由がない)
デメリット
  • ◯◯の用途で利用されているプログラミングには向かない
  • パフォーマンスに影響がある?
    • どれだけ?
  • 導入に壁がある?
    • どのような?
0

印象としては、pandasの利用はデータマイニング用途が多く、エラーが出たら都度書き換えるので、型チェックを行う(すなわち、コードスクリプト自体を管理する)人は少ないような気がします。

1Like

@nkay
ありがとうございます!
おっしゃる通りかと思います。

データマイニング用途

いわゆる書き捨て?のコードを書く際は記述コストもかかってしまうので、「使わない」という判断が懸命そうですね。

コードスクリプト自体を管理する

逆に、おっしゃるような「コードスクリプト自体を管理する」ような人、つまりpandasユーザの中でも、データサイエンス的な知見を実装したプロダクトなどの開発を実施する人にとっては、重要なのかとも感じています🤔

0Like

また、バリデーションに関するパフォーマンスについてもどうなのかと思っています。
どの程度の実運用に耐えうるレベルなのか(パフォーマンスの問題はどれほどなのか)について確認するために、パフォーマンステスト的なことも考えています。

@nkayさんの記事を参考にしています。
https://qiita.com/nkay/items/c6dcfd0b210a525d87fe

0Like

Your answer might help someone💌