はじめに
robots.txtの中身を調べたらQiitaのいろいろランキングのようにいろいろ分析できそうだったのでやってみました。
年度別、残存する投稿件数の推移グラフ
最初の分析はQiitaの投稿件数の年度別推移です。記事の投稿日の年ごとの投稿件数を数えます。
2020年まで右肩上がりに投稿記事数が増えましたが、2021年度の投稿件数が減っています。Qiitaに何があったのでしょうか?
この記事のデータはすべて2022/3/4時点のデータです。分析の途中で1日前に取得したデータと見比べたら数十件の投稿記事が減っていました。自身の記事を削除されたと思いました。過去時点の投稿件数とは一致しません。
年度 | 投稿件数 |
---|---|
2011 | 528 |
2012 | 6,529 |
2013 | 14,969 |
2014 | 37,734 |
2015 | 53,976 |
2016 | 66,866 |
2017 | 70,458 |
2018 | 96,245 |
2019 | 125,729 |
2020 | 142,590 |
2021 | 114,591 |
2021年度の投稿件数114,591は投稿日が2021年の記事総数(2022/3/4時点)です。
最初の記事の投稿日が2011/9/16で2011年度の期間が短いためグラフから省きました。
どのようにしてグラフを作成したか
robots.txtを調べたら記事のURLが投稿日順に並んでいました。
年度別に年始と年末の投稿を見つけてURLの件数を数えました。
投稿者別、投稿記事数ランキング
分析することで初めて見える景色があります。
順位 | 投稿者 | 投稿記事数 |
---|---|---|
1位 | 7of9 | 6,196 |
2位 | kaizen_nagoya | 3,142 |
3位 | ohisama@github | 2,526 |
いろいろな分析データ
他のデータについてもrobots.txtを調べてURLの件数を数えました。
分析項目 | データ |
---|---|
ユーザー総数 | 2,502,520 |
記事を作成したユーザー総数 | 86,346 |
記事総数 | 747,405 |
Organization総数 | 1,537 |
タグ総数 | 73,636 |
質問総数 | 6,003 |
記事を作成したユーザーの割合 | 3.5% |
記事を作成したユーザーの平均記事数 | 8.7 |
スパムユーザーが多いのかもしれませんが、記事を作成したユーザーの割合が低いのが気になりました。
Qiitaのユーザー総数を出すブックマークレット
robots.txtには存在する記事のURLが載っているためユーザー総数を出せませんでしたが、このブックマークレットならユーザー総数を出せます。
javascript: (() => document.location.host === "qiita.com"
? fetch("https://qiita.com/api/v2/users").then((a) => alert("Qiitaのユーザー数は " + a.headers.get("link").match(/page=(\d+)>; rel="last"/u)[1] * 20 + " です"))
: alert("qiita.comで実行してください")
)();
さいごに
Qiita検索でrobots.txtを調べてもあまり記事が出てこなかったことからrobots.txt自体があまり知られていないのではないかと思いました。robots.txtが分析するのに役に立ちます。
以前はQiita User Ranking というサイトでContributionの上位を確認できたそうです。データ量が多くなったせいか、サービスが止まり、分析者にとって冬の時代が来たのかもしれません。
2021年度以降のいろいろランキングが公式から提供されています。ありがたいことです。
データ量の多さにパソコンが悲鳴を上げましたが、分析は楽しかったです。