Googleのクロールバジェットとは?
まずは用語の確認から。
クロール(crawl)とは、Googleなどの検索エンジンが世界中のサイトを巡回・訪問すること。
クローラー(crawler)とは、Googlebotなどのようにクロールをする検索エンジンのAIのこと。
バジェット(budget)とは、予算のこと。
クロールバジェットとは、Googleが特定のサイトを見に行く回数・ページ数などのことをさします。
サイトの規模や評価が高いと、クロールバジェット(予算)が多くなり、たくさんクロールに来てくれます。
その結果、ページがインデックスされるのが早くなります。
たとえば、あなたのブログには100個のページがあり、Googleの1日あたりのクロールバジェットが100だったとしましょう。
単純計算では、あなたのブログの全ページをGoogleのクローラーが毎日チェックすることができます。
新しい記事を書けば、すぐにGoogleにクロールしてもらえるし、過去の記事を更新した場合も、Googleにすぐに気づいてもらえます。
もし、1日のクロールバジェットが10だったとしたらどうなるでしょう?
100個あるページのうち、10個しかGoogleにチェックしてもらえません。
残りの90個は翌日以降に先延ばしされます。
この状態だと、新しい記事を書いてもGoogleのクローラーが回ってくるのは翌日になってしまったり、過去記事をリライトしてもなかなかインデックスされないということになります。
Googleの公式見解
数千以下の URL 数しか持たないサイトにおいては、ほとんどの場合、クロールは効率的に行われるでしょう
Googleウェブマスター向け公式ブログ
Googlebot のクロール バジェットとは?
一応言っておきますと、サイト内のコンテンツ(URL)が数千以下ならば、クロールバジェットのことは気にしなくても大丈夫だそうです。
このサイトの場合は、記事数は400くらいですが、URLとしては4000くらいあります(たぶん)。
Googleのクロールバジェットを確認しよう
Google Search Consoleから「クロールの統計情報」というものが確認できます。
「1日あたりのクロールされたページ数」を見ると、あなたのサイトにGoogleのクローラーが1日に何回(何ページ)クロールしているか確認できます。
「クロールの統計情報」を使ったことがない人は、以下の記事から利用方法を確認してください。
クロールバジェット(予算)を目一杯使い切るとは限らないので、
「1日あたりのクロールされたページ数」=「クロールバジェット」
とは限りませんが、規模感を把握する参考にはなると思います。
ブログには自動的に生成されたページが存在する
Googlebotのクロール状況を確認する方法でも触れていますが、サイト上には記事数よりも多くのページが存在します。
このサイトの場合、トップページのバリエーションだけでも40ページ以上は存在します。
また、カレンダーページも記事を投稿するたびに増えていきます。
(カレンダーページの機能があるかどうかはサイトの設定にもよりますが)
このように、サイトの機能で自動的に生成されたページのせいで、ブロガーが思っている以上にブログのページ数(URL)は増えていきます。
そのため、ブログで100個の記事を書いたら、実はブログ上の総ページ数は1,000ページくらいになっていたりします。
つまり、100記事のサイトに対して、Googleのクロールバジェットが100だと足りないです。
ブロガーとしては、新しい記事とリライトした過去記事さえGoogleにクロールしてもらえればOKです。
そのため、サイトに1,000ページあるからといって、絶対にクロールバジェットも1,000以上必要というわけではありません。
そうはいっても、クロールバジェットが多いに越したことはないです。
バジェットが多いほうが、本来クロールしてほしい記事にクローラーがやってくる確率は上がりますから。
しかし、クロールバジェットはGoogle側が決める事なので、ブロガーにはどうすることもできません。
ところが、クロールバジェットを増やすのではなく、無駄なページを少なくする方向でならば工夫の余地はあります。
不要なURL(ページ)を削ることで、クローラーが本命のページにたどりく可能性を上げましょう。
ブログの無駄なページとは?
「ページ」ページや、「カレンダー」ページを自動生成されるページとして例にあげました。
念のために言っておくと、これらのページは無駄ではないです。
Googleのクローラーが
トップページ → 「2ページ目」ページ → 記事ページ
トップページ → 「カレンダー」ページ → 記事ページ
のようにサイト内をくまなく巡回するときに「ページページ」や「カレンダーページ」が経由されます。
これによりクロールの精度が上がります。
新しく書いた記事や、過去記事のリライトをGoogleに気づいてもらうためには、「ページページ」や「カレンダーページ」などの「記事の一覧ページ」は重要です。
また、「トップページ」からだけ「本命記事ページ」にリンクが貼られている状態よりも、
「トップページ」「カテゴリーページ」「カレンダーページ」など複数のページから「記事ページ」へリンクが貼られた状態の方がSEO効果が高いです。
(検索順位が上がりやすいです)
そのため、「カテゴリーページ」や「カレンダーページ」などはGoogleにクロールしてもらったほうがうれしいです。
パラメーター付きのURLは無駄なものが多い
では、どういうURLが不要なのか?
Googleクローラーにとって無駄なページというのは、以下のようなものをいいます。
- https://u-ff.com/korona-kannikensakitto-part3/?replytocom=71
- https://u-ff.com/korona-kannikensakitto-part3/?replytocom=81
どちらのURLにアクセスしても
というURLとまったく同じ内容が表示されます。
「?replytocom=xx」の部分は、「URLパラメーター」と呼ばれるものです。
replytocomとは?
上記のURLにアクセスして、ページの一番下の「コメントを書き込む」をクリックすると、
「通りがかりにコメントする」
と表示されます。
上記のURLにアクセスして、ページの一番下の「コメントを書き込む」をクリックすると、
「匿名希望にコメントする」
と表示されます。
既にあるコメントに対して、replytocomを使い、誰にリプライするかを制御しています。
しかし、Googleのクローラーにとっては以下の3つのURLは同じに見えます。
(「コメントを書き込む」をクリックしなければまったく同じ見た目なので)
- https://u-ff.com/korona-kannikensakitto-part3/
- https://u-ff.com/korona-kannikensakitto-part3/?replytocom=71
- https://u-ff.com/korona-kannikensakitto-part3/?replytocom=81
1つ目(replytocomなし)だけクロールされれば、2つ目と3つ目(replytocom付き)はクロールの必要もないし、インデックスの必要もありません。
3つともクロールされてインデックスされたら、「重複したコンテンツ」としてペナルティを受ける可能性すらあります。
replytocomはnoindex
replytocomはWordPressの機能です。
WordPress側の処理でnoindexに設定されています。
そのため、
- https://u-ff.com/korona-kannikensakitto-part3/?replytocom=71
- https://u-ff.com/korona-kannikensakitto-part3/?replytocom=81
これらのURLに対してGoogleは、クロールはするが、インデックスはしません。
「重複したコンテンツ」としてペナルティを受ける可能性はないということですね。
しかし、無駄にクロールが発生するという問題は残ります。
クロールの必要がないページにクローラーが訪れることで、無駄にクロールバジェットが消費されます。
巡回して欲しい本命のページをクローラーが訪れる確率が下がるということです。
まとめ
Googleなどの検索エンジンが「一定期間に何ページクロールしてくれるか」という数字をクロールバジェットといいます。
ブログ上には、作者の意識していないページが大量に存在します。
クロールバジェットに対して、無駄にページが多いと、本命のページをクロールしてもらえないかもしれません。
クロール不要なURLの例として、replytocomを紹介しました。
これはWordPressの機能でしたが、他のブログサービスでも似たような機能があるかもしれません。
(無駄なURLが生成されているかもしれません)
無駄なクロールが発生しているかどうかはGoogle Search Consoleから確認できます。
「クロール済み – インデックス未登録」という箇所を見ると、
「Googleがクロールをしたけど、不要なページだと判断したURL」を知ることができます。
詳しくはまた明日。
このページは移転しました。