なんじゃ
Nostr のフォロワーを分析してコミュニティマップを描くサイトを作りました
nostr-tsne https://koteitan.github.io/nostr-tsne/
この図は2024年12月9日時点での、私の選んだ5つのリレー1の中の人のコミュニティマップを描いたものです。
図の黒点1つ1つがひとつのユーザーアカウント(pubkey)です。黒点は結びつき(後述)が強いほど近くに表示されます。
発端
発端は Bluesky で Bluesky のコミュニティマップを描いた Erix さん2,
jaz さん3のグラフを見たことでした。
どうやって書いているんだろうと思って Erix さんに聞いてみると、誰が誰をフォローしているかのフォロワー情報を t-SNE(t分布型確率的近傍埋め込み法)という手法で2次元に落として書いているということでした。
t-SNE
t-SNE(t分布型確率的近傍埋め込み法) は、多次元空間上にあるノードの集まりをそれらの互いの距離情報を使って、2,3次元の低次元に落とすことによって見やすくする手法です。
ノードの集合を N として、その中のノード a, b の距離が実数
\textrm{dist}(a,b)\in \mathbb{R}
で表されるとします。あらゆるノード対に関してこの距離が定義できているとき、t-SNE はその低次元マッピングを描いてくれます。
たとえば MNIST の 8x8 の手書き数字サンプルの自動クラスタリングの課題では、$k$ 番目サンプルの $(x,y)$ 位置のドットの濃さを 0~1 の値を持つ関数 $I_k(x,y)$ で表したとしたとして、サンプル $a$ とサンプル $b$ の距離 $\textrm{dist(a,b)}$ を
\textrm{dist}(a,b) = \sqrt{\sum_{x=0}^7\sum_{y=0}^7 |I_a(x,y)-I_b(x,y)|^2}
で表すことで、下記の二次元埋め込みが得られます。
1つのドットが1つの文字サンプルで、色が同じ文字サンプルは同じ数字であることを表しています。同じ文字ほど近くに描かれていることが分かりますね。
t-SNE の Javascript 実装
t-SNE の実装は、簡単に使えそうな JavaScript ライブラリがあんまりなさそうだったので、t-SNE 本家の論文4の式 1, 4, 5, 12, 13, 7 をそのまま実装しました。
TSNE.init(D, ndimY) の初期化ルーチンが式 1→4→5,
TSNE.step() のステップルーチンが式 12→13→7 に相当します。
tsne.js は t-SNE ライブラリとしてこれ単体で使えます。
ソーシャルグラフで距離関数って?
ではSNSのアカウント同士の距離ってどう定義すればいいのでしょうか。
ここが一番迷って、最初はエルデシュ数?とか考えたんですが、そもそもエルデシュ数の探索自体面倒だなと思って、もっと単純に下記の距離関数で行くことにしました
\textrm{dist}(a,b) = \left\{\begin{align}
1&\mathrm{~if~}a\mathrm{~follows~}b \mathrm{~or~} b\mathrm{~follows~}a\\
10000&\mathrm{~otherwise}
\end{align}
\right.
つまり、どちらかがフォローしてたら距離は1、どちらもフォローしてなければ距離は 10000、という距離関数です。これによって nostr の kind:3 を探索するだけで距離関数が定義できて実装が簡単になりました。
スパム除去のチューニング
SNS 解析で面倒なのがスパム除去です。今回はフォロワー数が 30 以上のアカウントだけを表示してスパムを除去することにしました。
つかいかた
リレー設定
上の四角の箱に、解析したいリレーのリストがあります。
最初からそこそこ面白い絵が出るようなリレーが仕込んでありますが、NIP-07 対応拡張機能をお持ちの場合は自身のリレーを kind:3、または kind:10002、からボタンで読み込むことができますし、下位行区切りで直に箱に書き込むこともできます。
パラメータ設定
ユーザー数と最低フォロワー数を次の行で変えられます。
フォロワー数が最低フォロワー数以上のユーザーをユーザー数だけ集めてくる、という動作になります。リレーがN個ある場合は、それぞれのリレーからユーザー数/Nが集められてきます。
ユーザー探索開始
設定がよければ start ボタンでユーザー探索が始まります。
遅くてしびれを切らした場合は skip ボタンで飛ばしてそこまでの探索だけでグラフを書きます。
t-SNE 計算開始
まず初期化の の画面で少し時間がかかるので少し待ってください。少し待つと黒い点々が現れて動き始めます。
黒い点はこのままずっと動き続けますが、だんだん動きが鈍くなってきて、ある形に収束することが多いです。
グラフをマウスか指でドラッグ・スワイプすることで平行移動ができます。マウスホイールか下のズーム+-ボタンで拡大縮小ができます。
クラスター観察記
真ん中に一番大きな集まりがあります。これがなんの集まりかは一言で言い表しにくいですが、ひとまず英語が離されているので英語圏と呼べると思います。
その他にちょこちょこと小さな集まりがいくつか見えますね。南のはずれにあるのは、日本語圏です(緑の丸)。他の集まりよりも英語圏からずいぶん遠いですね。英語圏から独立しているため、引力が働かないのかなと思います。
その西に少し飛び出しているのは、言語を見る限りはタイ語圏です。タイ語圏は結構英語に食い込んでいますね。
その少し西にあるのは簡体字圏。簡体字圏も日本同様遠いです。
真西にあるのはよくわからなかったのですが、濃い目の bitcoiner クラスタな気がします。同じく北のはずれにあるのもまた別の bitcoiner クラスタです。私には違いがよく分かりません。
やってみて思ったのは、なんのクラスタなのかの判断が結構難しいことでした。リレーごとに偏るかなと思ったのですが、よくわかりませんでした。使用言語ごとやリレーごとに色が変えられれば分かりやすそうですね。
私もまだあんまり試してないので、なんかおもしろいマップが書けたリレーとかあったら教えてください。
(この記事は Nostr Advent Calendar 2024 の 12/9 の記事です)
-
wss://relay.damus.io, wss://nos.lol, wss://yabu.me, wss://nostr.bitcoiner.social, wss://nostr.einundzwanzig.space ↩
-
☯︎ Erix ☯︎, Bluesky, 2023.4.23 ↩
-
Laurens van der Maaten, Geoffrey Hinton, ”Visualizing Data using t-SNE”, Journal of Machine Learning Research, pp.1-48, 2008. ↩