2024年5月29日に重要な出来事が発生しました。それは、Googleのサーチアルゴリズムに関する内部情報が流出したということです。
以下は、その内容が明らかになった記事となります。
Secrets from the Algorithm: Google Search’s Internal Engineering Documentation Has Leaked
では、次にGoogleサーチアルゴリズムはどんな仕組みだったのか分かりやすく解説を残したので、参考になればなと思います。
To decipher Mecanism
1. ドメイン権威
公式見解: Googleは「ドメイン権威」という概念を公式には持っていないとしています。しかし、実際には「siteAuthority」という機能が存在しています。
解説: Googleは公式にはドメイン全体の信頼性や権威を示す指標はないと言っていますが、実際には「siteAuthority」という指標があり、これはドメイン全体の評価に影響を与える可能性があります。つまり、サイト全体の信頼性が検索順位に影響するということです。
2. クリック
公式見解: クリック情報が検索順位に影響しないとされていますが、実際には「Glue」や「NavBoost」というシステムがクリックデータを使用して検索ランキングに影響を与えています。
解説: ユーザーが検索結果をクリックする頻度やパターンが、実際の検索順位に影響を与えるシステムが存在します。たとえば、あるリンクが多くクリックされれば、そのリンクのランキングが上昇する可能性があります。
3. ホスト年齢
公式見解: 新しいサイトが検索結果で不利になることはないとされていますが、「hostAge」という機能により、新しいサイトは検索結果でしばらくの間不利になります。
解説: 新しいウェブサイトは一定期間、検索結果で上位に表示されにくい状態になります。この期間は「サンドボックス」と呼ばれ、新しいサイトが信頼性を確立するまでの期間を示します。
4. Chromeのデータ
公式見解: Google Chromeの利用データは検索結果に影響しないとされていますが、実際にはこのデータが使用されています。
解説: Google Chromeの使用データ(ユーザーがどのサイトを訪れたか、どのくらいの時間滞在したかなど)が検索ランキングに影響を与えています。このデータは、ユーザーの行動をより詳しく分析するために利用されています。
5. アーキテクチャ
システム構成: Googleの検索ランキングシステムは、多くの小さなサービスが連携して構成されています。例として、Trawler(クロール)、Alexandria(インデックス)、Mustang(ランキング)、SuperRoot(クエリ処理)があります。
解説: Googleの検索システムは一つの大きなプログラムではなく、各機能を担当する複数のサービスが協力して動作しています。これにより、システム全体が効率的かつ柔軟に運用されています。
6. リランカー
追加機能: NavBoost、QualityBoost、RealTimeBoostなどの機能があり、検索結果の上位に表示するコンテンツを競わせています。特にNavBoostは強力です。
解説: 検索結果の上位に表示されるコンテンツを決定するための追加機能があり、これらが連携して最適な結果を提供します。NavBoostは特にクリック率に基づいて検索順位を調整します。
7. Pandaアルゴリズム
アルゴリズム: Amit Singhalが主導したPandaアルゴリズムは、ユーザーの行動や外部リンクに基づいてランクを調整します。特許も取得されています。
解説: Pandaアルゴリズムは、ユーザーがどのようにサイトと関わるか(例えば、滞在時間やクリックパターン)や外部からのリンクに基づいて検索順位を調整します。機械学習を使用せず、意図的にシンプルなアプローチをとっています。
8. author属性
公式推奨: GoogleのE-E-A-T(専門性、権威性、信頼性)に従い、author属性がランキングに影響することが確認されました。多くのサイトでauthorメタデータが正しく入力されていないので、改善が必要です。
解説: コンテンツの著者情報がランキングに影響を与えるため、著者情報を正確に入力することが重要です。これにより、信頼性の高いコンテンツが評価されやすくなります。
9. 降格
降格の理由: リンク先のコンテンツとのミスマッチ、ユーザー行動の問題、ユーザー体験(UX)の不備、検索ワードとドメイン名の完全一致、製品レビュー、ポルノなどが原因で検索結果の順位が下がります。
解説: 特定の条件が満たされない場合や不適切なコンテンツは、検索結果での表示順位が下がります。これはユーザー体験を向上させるための措置です。
10. リンクグラフはまだまだ重要
リンクの重み: リンクの質と量により、そのリンクの重みが変わります。重要なコンテンツは迅速にアクセスできるよう高速なストレージに保存されます。
解説: リンクの質が依然として重要であり、良質なリンクが多いコンテンツは優先的に表示されます。重要なコンテンツはより高速なストレージに保存されるため、ユーザーが迅速にアクセスできます。
11. リンクスパムはベロシティ・シグナル重視
スパム検出: 短期間に大量のリンクが作られるとスパムと見なされ、その増加パターンを監視しています。
解説: 短期間で不自然に増加したリンクはスパムとして認識され、適切な対策が取られます。
12. 最新20件のページ更新履歴を保持
更新履歴: ページの評価が高まった後に内容を変更するハックを防ぐために、過去20件の変更履歴を保持しています。
解説: コンテンツの信頼性を維持するため、過去の変更履歴を監視し、評価が高まったページが悪用されないようにしています。
13. ショートコンテンツの独創性を評価
評価: Twitterのような短いコンテンツは、OriginalContentScoreというシステムでオリジナリティを評価しています。
解説: 短いコンテンツでも独自性が評価されるシステムがあり、オリジナルであることが重要視されます。
14. 日付は重要
日時情報: コンテンツの新しさを評価するために、bylineDate、syntacticDate、semanticDateなどの方法で正確な日付情報を取得しています。
解説: コンテンツの新しさは重要であり、正確な日付情報を取得して鮮度を評価します。
15. ビデオサイトは別扱い
ビデオサイト: ページの50%以上がビデオコンテンツである場合、特別な評価を受けます。
解説: ビデオコンテンツが多いサイトは特別な評価基準が適用され、検索結果での表示に影響します。
16. Your Money Your Life (YMYL)
特別扱い: お金や健康に関する情報は、特に厳しく評価されます。
解説: 人生に重大な影響を与える情報は、他の情報よりも厳しい基準で評価されます。これは、ユーザーにとって信頼性の高い情報を提供するためです。
17. ゴールドスタンダード
goldenフィーチャー: 特別に信頼されるコンテンツを示すフィーチャーが存在します。
解説: 特別に信頼されるコンテンツには「golden」という評価が与えられ、検索結果で優遇されます。
18. Embeddingによるトピックチェック
トピックチェック: ページの内容がサイトのテーマに沿っているかどうかをembeddingという技術で確認しています。
解説: サイトのテーマに合ったコンテンツかどうかを自動的に確認し、違和感のある内容がないかチェックします。
19. 零細個人サイトは特別扱い
特別扱い: 資金力のない個人サイトは公平性を保つために優遇される場合があります。
解説: 個人が運営する小規模なサイトは、検索結果で不利にならないように特別な配慮がされることがあります。