15卒業生です。
関係者でもいいよ、とのことでしたのでSFC時代にスクレイピングで怒らたやらかしの顛末をご紹介します。
顛末書
会社口コミサイトのスクレイピングを行った結果を、学内サーバーに置いてデータの授受をした件についてご報告します。
怒られ発生時期
ことが起きたのは、就活の頃でした。
私はSFCに入ってプログラミングを始めたたちでして、就活期といいますと情基礎・オブプロ・ゲープロなどをちょうど取りきって「プログラミング完全に理解した」と調子に乗っている時期でございます。
特に、データ分析を得意としておりまして、スクレイピングという技術でWeb上のデータを収集し、それを分析・ビジュアライズする、ということを研究でも趣味でも行っていた時期でした。
怒られの背景
慶應義塾、とくにSFCというのは「実学の府」を自称しています。
スクレイピングやデータ分析の技術を実際に活用するということが常に頭の片隅にありました。
その当時、前述の通り就活期でしたので「そうだ、就活をサイエンスしよう」と思いつきました。
当時、よく使っていた会社のクチコミサイトがありまして、そのサイトは定量・定性のデータがたくさん溜まっており、いわば「会社の食べログ」でした。
就活生は、有料機能を一定期間無料で使えたということもあり、非常に参考にさせていただいておりました。
これをデータベース化して、レコメンドエンジンを構築しようと決め、そして実装に移しました。
スクレイピングというのは、かなり全能感のある技術です。
Web上のデータを、一般ピープルがぽちぽちコピペしている中、そのデータをすべてぶっこ抜くわけです。とても楽しい。
怒られの原因
そこまでは、悪くなかった。(もしかしたら利用規約的にはダメだったのかも)
しかしながら、調子に乗った私は、それを誰でもアクセスできる権限で学内サーバーにあげました。
もっというと、それをTwitterの公開垢で友人宛にmentionで送ってしまいました。
これをエゴサしていたのが転職サイトの運営者。
その日にDMが来て「消せ、あと私が悪かったですという覚書を書け」と。
覚書の内容
- 私が行ったのは利用規約を超えた行為です。
- このデータを共有したことによる、運営会社の損害は全額支払います。
という、なかなか学生には不安になる内容でした。
認印か実印か、とにかく法的拘束力の高そうな書類を提出させられました。
もちろん、現在まで損害の請求はされていませんが、当時は就活生だったということもあり、随分長い間不安な気持ちにさせられました。
この覚書の効力は、いまだによく理解できていません。
正直言って、いまだに学生に対してかなりパワープレイしてきたなという、嫌な感覚を持っています。
(もちろん、今企業の立場としては、株主や従業員などステークホルダー保護の観点で必要とも考えます)
事実、スクレイピング周りの法律は、他にも先方のサーバー負荷の問題など、非常に微妙なとこがあります。
スクレイピングを日常的に行っているみなさんは、あらためてせめて下記のようなサイトで法的整理を確認し、保守的にスクレイピングをするのが良いでしょう。
スクレイピングは違法?3つの法律問題と対応策を弁護士が5分で解説 | トップコート国際法律事務所
なお、ログイン後でないとアクセスできないページについては、多少配慮してスクレイピングはしておりませんでした。
後日談
今だからごめんなさいな話ですが、個人的にそのスクレイピングデータは使い続け、レコメンドエンジンは大活躍しました(大変、みすぼらしく原始的な実装でしたが)。
軸の無い学生だったので、就活時はレコメンド順に上からESを出し、最終的には3位あたりにレコメンドされた会社に内定・就職しました。
(余談ですが、これはジョハリの窓の盲点の窓にアプローチできたという解釈です)
そういえば、なぜかアカウントもBANされなかったです。
最後に
最終的にはハッピーエンドなのですが、やはり覚書を書かされたときは怖かったです。
皆さんはぜひ、安全にデータやスクリプトを扱った上で、おもしろい分析をしてほしいなと切に願います。