めっちゃくちゃ久しぶりの記事です。
弊社のStampはTabisakiの運用を始めたこともあり、SEOに取り組む機会も増えてきました。そんなタイミングで、Googleの検索結果のランキングアルゴリズムが流出したとのことですので海外の記事をベースにAIで内容をまとめました。
ドメイン権威(Domain Authority)
ドメイン権威(Domain Authority、DA)は、SEOの世界で広く使用される指標であり、特定のドメインが検索エンジンの結果ページ(SERP)でどれだけの影響力を持つかを測定するものです。この指標は主にMozが提供しているもので、0から100のスコアで表され、高いスコアほど検索結果でのランキングが高くなる可能性があるとされています。ドメイン権威は以下のような要因に基づいて計算されます。
- リンクプロファイルの質と量: 外部サイトからのリンクの数と質。
- ドメインの年齢: ドメインが存在している期間。
- コンテンツの質: サイト内のコンテンツの質と関連性。
- ソーシャルシグナル: ソーシャルメディアでのシェアや言及。
ドメイン権威は相対的な指標であり、他のサイトと比較してそのドメインがどれだけ強力かを示します。
内部文書から明らかになった事実
Googleの広報担当者は、「ドメイン権威」という指標を使用していないと公言しています。しかし、漏洩した内部文書には「siteAuthority」という属性が存在し、これがQ*ランキングシステムに適用されていることが明らかになりました。
-
siteAuthority: この指標は、
quality_nsr.SiteAuthority
から変換され、Googleのランキングシステムにおいて、特定のドメイン全体の信頼性や権威を評価するために使用されます。
この事実は、Googleが公式には否定しているにもかかわらず、内部ではドメインの権威を評価し、ランキングに影響を与えていることを示しています。
一般的なドメイン権威(Domain Authority)は、SEOの評価指標として広く利用されており、Mozなどのツールによって提供されています。一方で、Googleは公式にはこの指標を使用していないとしていますが、内部文書からは「siteAuthority」として実際に評価が行われていることが明らかになりました。このギャップを理解し、SEO戦略に適切に反映させることが重要です。
クリックデータとポストクリック行動の使用
一般論としてのクリックデータとポストクリック行動
クリックデータとポストクリック行動は、ユーザーが検索エンジンの結果ページ(SERP)でどのように行動するかを示す重要な指標です。これには以下のような要素が含まれます。
- クリック率(CTR): 検索結果がクリックされた回数の割合。高いCTRは、その結果がユーザーにとって関連性が高いことを示します。
- 滞在時間(Dwell Time): ユーザーが検索結果のリンクをクリックしてから、元の検索結果ページに戻るまでの時間。長い滞在時間は、そのページがユーザーにとって有用であることを示します。
- 直帰率(Bounce Rate): ユーザーがページを訪れてすぐに離脱する割合。高い直帰率は、そのページがユーザーの期待に応えていない可能性を示します。
これらのデータは、検索エンジンがページの品質や関連性を評価するために使用されることが多いです。
内部文書から明らかになった事実
Googleの公式発言では、クリックデータやポストクリック行動がランキングに直接影響を与えることはないとされています。しかし、漏洩した内部文書からは以下の事実が明らかになりました。
-
NavBoostモジュール: クリックデータを使用する特定のランキングモジュールが存在します。NavBoostは、ユーザーのクリックデータを利用して検索結果を強化、降格、または調整するシステムです。
-
クリックシグナルの詳細:
- badClicks: 質の低いクリックの数。
- goodClicks: 質の高いクリックの数。
- lastLongestClicks: セッション中に最も長いクリックが発生した結果。
- unsquashedClicks: 新しい形式に移行中のクリックデータ。
- unsquashedImpressions: 同上。
- unsquashedLastLongestClicks: 同上。
-
スコアリングローカル検索結果に基づくロケーションプロミネンス特許: この特許では、クリックログを使用して検索結果を変更する方法が具体的に記載されています。特に、クリックデータが正規化(スコアリング)され、他のシグナルが過剰に影響しないように調整されています。
Googleの公式発言と内部文書の間には、クリックデータとポストクリック行動の使用に関する明確なギャップが存在します。公式にはクリックデータをランキングに直接使用しないとされていますが、内部文書からはクリックデータが重要なランキングシグナルの一部として利用されていることが確認されました。この情報を基に、SEO戦略を調整し、ユーザーのクリック行動を最適化することが求められます。
サンドボックスの存在と実際の機能
一般論としてのサンドボックス
サンドボックスとは、新しいウェブサイトが検索結果で上位にランクインするのを防ぐための一時的なフィルターを指すSEO用語です。これは、スパムサイトがすぐに高いランキングを獲得するのを防ぐために、検索エンジンが新しいサイトに適用する一種の試用期間と考えられています。この期間中、新しいサイトのパフォーマンスや信頼性が評価されます。
Googleの公式発言
Googleの広報担当者は「サンドボックスは存在しない」と繰り返し述べています。John Muellerは「サンドボックスは存在しない」とツイートし、特に新しいウェブサイトが特定の評価期間を経てランキングに影響を受けることはないとしています。
内部文書から明らかになった事実
漏洩した内部文書によると、Googleは実際には新しいウェブサイトに対して評価期間を設けていることが確認されました。
- hostAge属性: PerDocDataモジュールの内部文書には、「hostAge」という属性が存在し、これが「提供時に新たなスパムをサンドボックスに隔離するために使用される」と記載されています。この属性は、特定の期間、サイトのパフォーマンスや信頼性を評価するために使用されます。
サンドボックスの機能
- スパム対策: サンドボックス期間中、新しいサイトはスパムとして分類されるリスクが低減されます。
- 信頼構築期間: 新しいサイトが信頼を築くための時間が与えられ、質の高いコンテンツや信頼できるリンクの獲得を通じて信頼性を証明する機会が提供されます。
まとめ
Googleの公式発言と内部文書の間には、新しいサイトに対する評価期間に関するギャップが存在します。公式にはサンドボックスが存在しないとされていますが、内部文書からは新しいサイトが一定期間評価されるための仕組みがあることが確認されました。
SEO戦略を立てる際には、新しいサイトが最初の数ヶ月間に高いランキングを期待するのではなく、長期的な視点で信頼性とコンテンツ品質を向上させることが重要です。サンドボックス期間中にサイトの信頼を築くための戦略をしっかりと立てることが求められます。
詳細なランキングシステムのアーキテクチャ
2007年のUniversal Searchのアーキテクチャ
2007年に導入されたUniversal Searchのアーキテクチャは、Google検索システムの初期段階を示しています。このシステムは以下のように構成されています。
- スーパー・ルート(Super Root): クエリを受け取り、各種サブシステムに振り分け、最終的な検索結果を統合する役割を果たします。
- フロントエンドWebサーバー(Frontend Web Server): ユーザーからのクエリを受け取り、スーパー・ルートに渡します。
- キャッシュサーバー: 頻繁にアクセスされるデータをキャッシュし、応答速度を向上させます。
-
各種サブシステム:
- Web: ウェブページのインデックスと検索結果を処理。
- Images: 画像検索を担当。
- Local: ローカル検索(地元のビジネスや場所)を処理。
- News: ニュース記事の検索。
- Video: ビデオコンテンツの検索。
- Blogs: ブログ記事の検索。
- Books: 書籍の検索。
- インデックスサービス(Indexing Service): 各サブシステムが利用するインデックスデータを管理。
このアーキテクチャは、異なるタイプのコンテンツを統合して検索結果に表示するための基盤を提供しました。
Retrieval-Augmented GQA Systemのアーキテクチャ
最近のGoogle検索システムは、Retrieval-Augmented Generative Question-Answering(RAG)システムを取り入れています。これは、より高度な検索結果を提供するために設計されたシステムです。
- クローラー(Crawler): ウェブコンテンツを収集し、データベースに格納します。
-
オフラインコンポーネント:
- 言語モデルトレーナー(LM Trainer): 言語モデルをトレーニングします。
- コーパスビルダー(Corpus Builder): トレーニングデータを構築します。
- ドキュメントエンベッダー(Document Embedder): ドキュメントを埋め込みベクトルに変換します。
- インデックスビルダー(Index Builder): インデックスを構築します。
-
オンラインコンポーネント:
- 言語モデルジェネレーター(LM Generator): クエリに応じて言語モデルを生成します。
- コーパスサーバー(Corpus Server): トレーニングデータを格納。
- 埋め込みサーバー(Embedding Server): 埋め込みベクトルを提供。
- インデックスサーバー(Index Server): 検索インデックスを提供。
- 検索フロントエンド(Search Front End): ユーザーのクエリに応じて検索結果を提供します。
Google内の機械学習システムの利用
Googleは、多くの製品やサービスで機械学習システムを活用しています。以下はその主要なシステムの一部です。
- Brain: 機械学習の中心システムで、様々なGoogle製品に応用されています。
- Sibyl: モバイル広告やGoogle TVなどで使用されるシステム。
- Laser: Googleの検索インデックスや翻訳サービスなどで使用されています。
- SAFT: ウェブアンサーやセキュリティシステムに応用されています。
これらのシステムは、Googleの検索結果の品質向上やユーザーエクスペリエンスの向上に寄与しています。
Googleのランキングシステムは、複数のアーキテクチャとシステムから構成されており、各システムが特定の役割を果たしています。これらのシステムは相互に連携し、最終的な検索結果を提供するための複雑なネットワークを形成しています。この理解を基に、SEO戦略を最適化し、Google検索アルゴリズムに適応することが重要です。
Spannerと無限スケーラビリティ
Spannerとは?
Spannerは、Googleが開発したグローバル分散データベースシステムです。このシステムは、従来のデータベースシステムと比べて、以下のような特徴を持っています。
- グローバルな一貫性: 世界中のデータセンターに分散されたデータに対して、一貫性のあるアクセスを提供します。
- 無限のスケーラビリティ: データの量やアクセス数が増加しても、システム全体のパフォーマンスを維持しながら拡張できます。
- 自動シャーディング: データを自動的に分割して保存し、負荷分散を行います。
- 高い可用性: 複数のデータセンターにデータを複製し、障害発生時にもサービスを継続します。
Spannerのアーキテクチャ
Spannerのアーキテクチャは、グローバル規模でのデータ管理とアクセスを実現するために設計されています。主要なコンポーネントは以下の通りです。
- F1: Spannerの上に構築された分散データベースで、Googleの広告システムの基盤として使用されています。
- TrueTime API: 分散システムにおける正確なタイムスタンプを提供し、トランザクションの一貫性を保証します。
- Paxosアルゴリズム: データのレプリケーションと分散トランザクションの管理に使用されます。
Spannerとランキングシステムの関係
漏洩した内部文書によると、GoogleのランキングシステムはSpannerの上に構築されていることが示唆されています。これにより、以下の利点が得られます。
- データの一貫性: 世界中の検索クエリに対して一貫性のあるランキング結果を提供できます。
- リアルタイムデータの処理: ユーザーのクリックデータやポストクリック行動をリアルタイムで収集・分析し、ランキングに反映させることができます。
- スケーラビリティ: 検索クエリの増加や新しいデータの追加に対して、システム全体のパフォーマンスを維持しながら拡張できます。
SEOへの影響
Spannerのような高度なデータベースシステムがランキングアルゴリズムに組み込まれていることは、SEO戦略にも影響を与えます。
- リアルタイムのデータ分析: リアルタイムでユーザーの行動を分析し、迅速に対応する必要があります。
- スケーラブルなコンテンツ戦略: コンテンツを拡充する際にも、システムのパフォーマンスを維持できるように計画を立てることが重要です。
- グローバルなSEO戦略: 世界中のユーザーに対して一貫性のある検索結果を提供するために、グローバルな視点でのSEO戦略を構築します。
SpannerはGoogleのランキングシステムの基盤として機能しており、無限のスケーラビリティと高い一貫性を提供します。これにより、Googleはグローバルな検索クエリに対して一貫性のある高品質な検索結果を提供できます。SEO戦略を立てる際には、これらの技術的な背景を理解し、リアルタイムのデータ分析やグローバルな視点を取り入れることが重要です。
SEO戦略への影響と具体的な対策
リアルタイムデータの重要性
Googleのランキングシステムは、ユーザーのクリックデータやポストクリック行動をリアルタイムで収集・分析し、検索結果に反映させる能力を持っています。これにより、SEO戦略にも以下のような影響があります。
対策1: ユーザーエンゲージメントの向上
ユーザーの行動データがランキングに影響を与えるため、ユーザーエンゲージメントを向上させることが重要です。
- 高品質なコンテンツの作成: ユーザーにとって有益で興味深いコンテンツを提供し、滞在時間を延ばすことを目指します。
- クリックスルー率(CTR)の改善: 魅力的なタイトルとメタディスクリプションを作成し、検索結果からのクリックを増やします。
- 内部リンクの最適化: サイト内で関連コンテンツへのリンクを張り、ユーザーがサイト内で多くのページを訪れるように誘導します。
新しいサイトの信頼構築戦略
新しいサイトは評価期間中に信頼性を築く必要があります。これを「サンドボックス」と呼ばれることもあります。
対策2: 信頼性の向上
新しいサイトが早期に高いランキングを得るためには、信頼性を構築することが不可欠です。
- 質の高いバックリンクの獲得: 高権威なサイトからのリンクを獲得することで、ドメインの信頼性を高めます。
- 継続的なコンテンツ更新: 定期的に新しいコンテンツを追加し、サイトの活気を維持します。
- ユーザーレビューの促進: ユーザーからのポジティブなレビューを集め、サイトの信頼性をアピールします。
スケーラブルなコンテンツ戦略
Googleのランキングシステムは、Spannerのような高度なデータベースシステムに基づいており、無限のスケーラビリティを提供します。
対策3: スケーラブルなコンテンツ戦略
サイトの拡張やトラフィックの増加に対応できるように、スケーラブルなコンテンツ戦略を構築します。
- モジュール化されたコンテンツ構造: コンテンツをモジュール化し、必要に応じて追加や変更が容易な構造にします。
- クラウドベースのインフラストラクチャ: サイトのトラフィックが増加した場合でも対応できるように、クラウドベースのホスティングサービスを利用します。
- データ分析とモニタリング: リアルタイムでデータを分析し、サイトのパフォーマンスを監視して迅速に対応します。
グローバルなSEO戦略
Googleのランキングシステムはグローバル規模で動作し、一貫性のある検索結果を提供します。
対策4: グローバルな視点でのSEO戦略
異なる地域や言語のユーザーに対して最適な検索結果を提供するために、グローバルな視点でSEO戦略を構築します。
- ローカライズされたコンテンツ: 各地域や言語に適したコンテンツを作成し、ローカルSEOを強化します。
- 多言語対応: サイトを多言語に対応させ、異なる言語のユーザーにも利用しやすい環境を提供します。
- 地域別のバックリンク戦略: 各地域の高権威なサイトからバックリンクを獲得し、地域ごとの信頼性を向上させます。
Googleのランキングシステムの技術的な背景を理解し、これに基づいたSEO戦略を構築することが重要です。リアルタイムデータの分析、ユーザーエンゲージメントの向上、新しいサイトの信頼性構築、スケーラブルなコンテンツ戦略、そしてグローバルな視点でのSEO戦略が成功の鍵となります。この情報を基に、効果的なSEO戦略を立て、検索結果での成功を目指しましょう。