前提知識

「Facebookでは研究し放題だった」と元サイエンティスト──Wall Street Journal報道

一般的なWebサービスの改善サイクル

Webサービスを提供している企業にとって、サービスの改善とは企業活動そのものといってもいいほど重要なものだ。このサービスの改善を行う場合いくつかのフェーズに分けられる

定量データ解析
定性ヒアリング
仮説設定
仮説検証のためのスプリットテスト
検証結果のフィードバック

Webサービスには大量のログやユーザーからのフィードバックが寄せられる。それらをもとに、どのような点を改善すればユーザがより活発になるのだろうかと仮説を立てる。

立てた仮説は検証されなくてはならないので、その仮説を実装し、一部のユーザに先行提供する。この際無作為にユーザの選出を行うのがA/Bテストなどのスプリットテストだ。(無作為でなければ、全体に効果があるとは言えなくなり、仮説検証ではなくなる。)そのフィードバックを分析し、サービスの改善に寄与しそうであれば全体へのサービスインをする。

この繰り返しがサービス改善の常套手段と行ってかまわないだろう。元記事の実験は、この中の「仮説検証」のフェーズとしての実験であろうと推測される。

つまり、「ポジティブな感性語を含むフィードを見たユーザは、ポジティブな投稿をより活発に行う」という仮説を実験を通じて検証しようとしたものであろうということだ。

このA/Bテストはユーザーをモルモット扱いしているのか

ここで卑近な例を見てみよう。

保険の資料請求サイトで、資料請求ボタンが目立たずコンバージョンが伸び悩んでいた。提供会社は資料請求数をのばすために「ボタンをファーストビューに表示する」「ボタンの文字をboldにし、サイズを大きくした」といったA/Bテストを行ったとする。
あるユーザには資料請求ボタンはファーストビューに表示され、あるユーザは表示されない。
結果として、ファーストビューに表示した場合が20%程度コンバージョンレートが増大することがわかり、それを採用した。

これは倫理に悖る行為だろうか。
今現在のWebの「常識」では、このようなA/Bテストは実施されて問題のない行為と考えられているだろう。

では、この例ではどうか

ある保険の資料請求サイトで、検索エンジンからの流入に対してページの最適化実験を行うことにした。リファラー情報として付与されている検索語句に価格に関するものがあれば、安さを強調し、疾病に関する情報があれば、加入時の条件が疾病を伴っても問題ないことを強調するサイトにし、資産運用としての情報があれば、資産価値を強調するページに見せ方をかえるように作り替えた。結果として、それぞれ5%程度の有為な改善が見られたので採用した。

このLPO施策では、リファラー情報を利用している。ユーザーにとって、これは不愉快であろうか。
さらに踏み込んだ例を見てみよう。

ある保険の資料請求サイトで、請求ボタンの文言を最適化するために有名な広告エンジンを導入した。この広告エンジンは、ユーザーの年齢や性別、年収を類推した情報を付与しているため、ぞれぞれのケースごとに適切と思われるクリエイティブを配信したところ、コンバージョンレートが最大で30%増大した。

この３つの例は皆さんにとって許容できるだろうか。

Facebookの実験では何が問題か

Facebookの例では、「ユーザーの投稿したテキスト」に基づいて、「ニュースフィードの表示順序をかえる」ということを「本人の同意なしで」行った。

一方で、Facebookをやっていると自然とわかることとして、（そのようにしていること自体は公開されてもいる）
「投稿のいいね！やコメント数」「ユーザー間の親密度」に基づいて「ユースフィードの表示順序をかえる」ということを「本人の同意なしで」行っている。こちらは問題だろうか。

前者が問題で、後者が問題がないと考える人であれば、論点は「ユーザーが投稿したテキスト」の解析によるコミュニケーションへの介入となる。

これも一つのボーダーラインだろう。アメリカの憲法には「通信の秘密」に関する明記はないが、公開範囲のあるニュースフィードは、ある種の私信と言える。機械的な介入とはいえ、ユーザー投稿のテキスト解析は全体公開のものまでという基準をもうけるのも手だろう。(国内ではそのようなポリシーで運用しているところも多いと思われる。)

そういえば、Gmailの広告も似たような問題があった。

Yahoo!も始めた新メール広告、Gmailでは本文が覗かれまくり!?

プライベートなユーザテキストの解析は、サービス改善にとって鬼門だと言える。

ではどこまでがサービス改善のために許されるのか

非常に難しい。サービスの性質にもよるし、ボーダーラインが決めづらい。
たとえば、次のようなケースは、皆さんはどう考えるだろうか。

あるスタンプ機能付きのグループメッセンジャーアプリで、新製品のスタンプ開発をするために、どのようなスタンプがどのようなユースケースで使われているかを分析したいと考えた。ユーザーには通知せずに、10万件のグループチャット中で参加人数と会話人数と使用されたスタンプの種類、使用後の購入情報を分析した。ユーザーの投稿文字列はいっさい分析の対象には入っていない。これらの分析結果から、グループチャット時に購買行動に結びつきやすいスタンプの種類が判明したので、商品開発に生かし、グループチャット人数ごとに商品ラインナップを最適化した。それによって購買数が5%ほど有為に増大した。

当然のことながら架空のケースである。スタンプはプライベートな通信の内容そのものであるが、ユーザー投稿テキストではない。

では、次のケース：

ある単文つぶやきサイトではすべての投稿がパブリックである。サイトでの収益を最大化するために、つぶやいた内容を分析し、ユーザーにとって興味関心のある事柄を類推するエンジンを開発し、広告商品として販売した。また、興味のベクトルが重なるユーザーをフォロー対象としてレコメンドした。

これはどうだろうか。
パブリックであるが、ユーザーの投稿テキストを分析しているケースである。

見えなくなる倫理規定

今回のケースは、Facebookが公開したので初めて問題として認識されたが、この種の実験はいくらでも行っていることだろう。逆に言えば、わざわざ公開しなければ、誰も気づかないことなのだ。

利用規約には調査目的で利用するというパーミッションはとっており、法的には問題がない。だが、今回の騒ぎによって、研究者も経営者もサービス改善のための実験結果を公開することに対する抵抗は増えてしまっただろう。

今回例にあげたような思考実験を通じて、もう少し明確なボーダーラインが見えてくるとサービス開発者としては他社に出し抜かれることなく、安心して倫理を守ることができてありがたい。

倫理の問題は、個々人の信条の問題であるだけでなく、一企業にとっては、一番上に合わせると厳しすぎて競争力を失うかもしれないし、下に合わせすぎるとレピュテーションリスクが増大したりとなかなか難しい。

個人的には、利用者に「〜〜〜ような実験をして、ーーーと改善しました」と誠意を持って話して、それが伝わるであろう誠実さのラインを大事にしていきたいところだ。

【感情伝染問題】高度に発達したA/Bテストは、ユーザーをモルモットにした実験と区別がつかないのか。【Facebook】