Beer Testでいいじゃないか #テスト

Bots don’t need to pass the Turing test — just the beer test | Venture Beat
Slackの中の人が書いたこの記事を、以下荒削りに解釈します。

Botの評価にはTuring testじゃなくてBeer testがいい

ビアテスト? --> 「この人と一緒に飲みに行きたいか?」
というシンプルな基準のようだった。

このBeer test、響きメインですが、いろんなユーザーインターフェイスの評価に通じるかと妙に納得しました。あるシステムを気持ちよく使ってもらえるか、これを評価するときに、打ち解けて話し合える対象なのか。基準はそれだけでいいのでは、と。
普通の考えでは、それって基準になってないのでは? ○×の指標が0.5足りない…みたいな話になると思う。でも、よく行われる主観評価でも、表面的になっていないだろうか。心の声まで聞けていることは、あまり行えてない気がする。
本当に評価するべきは、好意を抱けるものかどうか。その軸にフォーカスするのが大事、なのかも。

そんな気づきを与えてくれたこの記事、参考までに超訳(?)してみました。
あえてくだけて…

Bot開発における評価のベストプラクティス

わかんないとき、"Help"を頼れること。
DMやmentionに反応できること。対応できないものも「わかんない」と応える。
BotはDMすべきじゃない。
Botはたくさん書き込みそうなときはそれとなくお知らせしておくべき。あと@channelや@hereは使わないほうが。
Botはopt-inできるようにして、emailやDMは避けたほうがいい。新しい人にはBotを使うかどうか選ばせてあげたほうが。
Botはmute/pauseできる方が。
おせっかいなおしゃべりになりそうな前に「いっぱいしゃべるけどいい?」と聞いたほうが。
公開かDMかはよく考えたほうがいい。それとどっちかにしたほうが分かりやすい。
Botとユーザーの会話がうまく行ってない時には、サポートできたらいいね。
ユーザー個別にパーソナライズできたら、もっといいね。
同じ会話には、ランダムに答えよう。

(あなたのbotが)いい感じにならないとしたら:
- そもそも難しいし、NLPの処理だから。
- すごくいい感じに会話させられる技術は他にもいっぱいあるし。
- (botみたいに)人間が自然にやってるようなやり方じゃなくても、すごいサービス作れるから。