趣味で某プラットフォームのデータを集めているのですが、実は自分が集めたデータがどれくらい正確かを調べたことはなかったんです。
ですので、HKT48さんが2018/10/19よりイベントを開始されてたので、そのイベントでの公式累計データを元に、自分のがどれくらい正確か調べました。
ポイントシステム
コメント 1点(公式には1配信についき一人50コメントまで)
無料ギフト 1点(ただし10個同時に使用すると、1.25倍)
課金ギフト 課金額=点数 (ただし10個同時に使用すると、1.25倍)
イベントでの得点はTwitterもしくはFacebookとの連携が必要だそうです。ただし、視聴者側として得られる情報に、Twitter連携しているかいないかはわかりません。(わからんこともないかもしれない)
一日の公式獲得ポイントは午前0時から午前5時までの、放送禁止時間帯での公式発表の前日との差から取得しました。
考えられる傾向
僕が使っている手法は、◯分に一度、配信されているか確認するため、最大◯分間の情報空白が発生します。ですが、高額課金アイテムについては、別途ログが取れるので、それらを活用しているので、課金アイテムについては、取りこぼしはないと思います。逆に、コメントと無料ギフトについては、配信開始から最大◯間の情報空白があります。視聴者は開始早々に手持ちのギフトを全て投げ込む傾向があるため、投入されるギフトは開始時が最も多くなります。この損失が大きく、おそらく総獲得ポイントの10%は減るかと覚悟していました。
次に、イベント期間での得点はTwitter連携を行ったユーザーのギフトだけとなるのですが、パケット側からそれを判断する方法はありません(たぶん)。ですので、この面から見ると、公式に計算される得点より多くの得点を得ていると予想されます。
後者の影響は小さいので、放送開始時の情報空白時間帯でのポイントが得られないことは予想され、最大20%、常に10%程度の差はあると予想しています。
2018/10/24
2018/10/24の1日での公式獲得ポイント(Official Earn point)と、集収データ(Acquired Data)の差をみていきます。
テーブルの右端の差をみると、最大50%のデータ取りそこねがあることがわかります。(100%となっている箇所は、その日に放送してないはずのメンバーが、公式が何のアナウンスもなく獲得データを夜中に変更するために発生します)
傾向を見ると、獲得ポイントが多い=人気メンバー様の放送で大きな差となっています。
逆に、下位の方をみると、僕の予想どおりに10%程度の差となっています。
2018/10/25
2018/10/25での公式獲得ポイント(Official Earn point)と、集収データ(Acquired Data)の差をみていきます。
前日同様に、MIKU_TANAKAさんの差が50%近くあります。
注目すべきは、AKI_TOMONAGAさんで、+159%でした。この日が誕生日でタワーが90本立ってましたが、イベントの公式には半分以下しか記録されていませんでした。おそらくこれは、タワーを投げタワーした方がTwitter連携してなかったのでしょう。非常にもったいないですね。
2018/10/26
MIO_TOMONAGAさんのデータをみるとタワーがほとんど立ってないのに、課金アイテム100万ポイントをきっちりと捕獲しています。
やはり、課金アイテムの優先度は高く送信されているのでしょう。
考察
この2つのデータから、合計が50万ポイントを超えない範囲ないなら、だいたい10%から20%程度の誤差が生じる傾向があります。これは、僕の勘が言っている、最大◯分間の空白期間によるもだと予想されます。これはシステム的にどーしようもないものなので諦めてます。
次に、50万ポイントを超えるレベルになると、誤差が格段に多くなっています。
これは、運営側が、ユーザーに送る情報を絞っていることが原因だと思います。律儀に、全部の情報を与えなくても、描画で画面いっぱいの星を描くことはできるし、超人気配信者が星を投げた人を気にしているとは思えません。ログにも残りませんし。僕が運営側でもそうやって節約します。
常識的に考えて、送るべき情報の優先順位は、 課金アイテム>コメント>>>カウント=星 であるため、放送開始直後の星ラッシュの時には相当情報を絞られていることが考えられます。またwebsocketの速度の限界もあるのかなぁという感じです。
また諸事情があって、情報が地球を1/4周してから取得してます。
websocket最高データレート
代表的な方々の、イベント中の放送開始から3分間を10秒毎に区切って、その間に流れてきたデータの最大値を、放送開始時刻ごとにプロットしてみました。
ちなみに、アイコンの変化、ツイッター連携変化のパケットは捨ててます。
これをみると、昼間の空いてる時間帯では最大300行/10秒程度、夜の混雑時には、250行/10秒程度が限界のようです。
常識的に考えて、夜のほうが圧倒的に視聴者が多いのだから、明らかに制限がかかっていることが読み取れます。
運営側ではないので、仕方がないことなのですが。
まとめ
というわけで、僕が集めているデータは正確ではない場合があることが明らかになりました。
常識的に考えて優先度が低い星のデータはdropさせますよね。
僕が運営側でもそうします。
というわけで、逆に課金データについては大事にしているのではないでしょうか?
タワーに一万円払って、相手に表示されなかったらキレますよね?
僕ならキレます。
なので、課金額と課金ポイントについては正確なんじゃないかなぁという予想が立ちます。
また、イベント時ではない方々の、ロングテール部分に属する方々の放送については、かなり正確に取れてる気がします。