動機
はてなブックマークでこういう「タメになったねぇ~!」って画像ください!!!!!:哲学ニュースnwkがホッテントリになっていた。
記事を読んで、浅学非才な私でも一部の内容に間違いがあることは気付いたが、誤りを指摘しているブクマが少ない印象を受けた。
なぜそのような印象を受けたのかを考えた結果、はてなブックマークはファクトチェックに厳しいという先入観がある気がしたので、この先入観が正しいか検証したい。
TL;DR
ファクトチェックしている:ファクトチェックしていない = 4:6
四捨五入して、おおむね上記の割合だったので正しくなかった。
検証の流れ
- はてなブックマークエントリー情報を取得する
- 取得した情報をMySQLに保存する
- SQLで集計する
はてなブックマークエントリー情報を取得する
集計中に集計対象のデータが更新されないことを担保するために、はてなブックマークエントリー情報取得APIを利用してJSON形式で情報を取得し、ファイルに保存する。
curl https://b.hatena.ne.jp/entry/json/http://blog.livedoor.jp/nwknews/archives/5731190.html | jq '.bookmarks | length' > bookmarks.json
ドキュメントにも記載の通り常に最新のデータが返ってくる訳ではないので、調査時点の最新件数は645件だったがAPI経由では442件しか取得できなかった。
JSON データはキャッシュを利用しているため、実際のエントリーの内容と異なる場合があります。ご了承ください。
最新情報を取得する方法が見つからなかったので、今回は442件を対象に集計する。
取得した情報をMySQLに保存する
jq
コマンドで集計したかったが、クエリの書き方の学習に時間がかかりそうだったので、外部サービスを利用してSQLに変換し、MySQLにINSERTした。
SQLで集計する
集計では以下の4パターンに分類した。
- ファクトチェックをしているらしいエントリー
- 内容が正しいコメント(信頼性の高いソースが見つかった内容は正しいと判断)
- 「ググったら」などファクトチェックをしたことがわかるようなコメント
- ファクトチェックをしているか、してないかわからない・ファクトに関係ないエントリー(感想など)
- ファクトチェックをしていないらしいエントリー
- 誤った内容を前提としたコメント
- 誤った内容を信頼していると受け取れるコメント
- コメントのないエントリー
主観に基づかない分類方法がわからないので止むを得ず主観に基づく。
分類した結果を以下の通り集計する。
No. | 指標 | 計算 |
---|---|---|
① | ブクマ総数 | 442件(調査時点) |
② | 無言ブクマの件数 |
comment カラムがNULL のデータ件数 |
③ | ちゃんとファクトチェックをするブクマカの割合(%) | 分類1のエントリー件数 / (① - ②) * 100 |
④ | ファクトチェックをしていないブクマカの割合(%) | 分類3のエントリー件数 / (① - ②) * 100 |
結果
- ①: 442件
- ②: 380件
- ③: 9件 / 62件 * 100 = 14.5161290323%
- ④: 14件 / 62件 * 100 = 22.5806451613%
その他
62.9032258065%
はネタ・感想・質問・関係のないコメントだった。
感想
- APIのレスポンスがJSONとはいえページング(スライス?)的な事してないのが意外だった
- バズってもエントリーの数が2000件行くことが少ないため、APIでのページングは不要という設計と推測
- はてなブックマークの仕様を気にした事はなかったが、エントリー詳細ページに表示されてるコメント数が正しかったので必要以上に時間をかけてしまった気がする
- 結果的にファクトチェックをしていない人の方が若干多かったが、私の先入観は間違っていたと言えそうだ
- 間違った先入観を払拭できて良かった
- 分類・集計方法が正しいか自信がない、分類学・統計学について学習の必要がありそうだ
- データは「誰のどのようなコメントを私がどう評価したか」がわかるため、コミュニティガイドラインに則って非公開にしておく