「クロール・バジェット(Crawl Budget)」という言葉は聞き慣れないものかもしれません。
しかし、この概念を頭のなかに入れてサイトを構築・運営しておくことは大事です。
特に大規模サイト・システムによって大量のページが生成されるサイトを運営する際には、プラスになります。
なぜなら、Googleのクローラーがサイトの中のコンテンツを、より効率よく回れるようにできるからです。そのため、クロールバジェットを理解して策を打つことは「クロール・オプティマイゼーション(クロール最適化)」とも呼ばれています。
クローラがうまく回ってくれないとどうなるのか?
では、クローラがうまく回ってくれないとどうなるのか、それは
- クローラが回ってくれなければ、そのサイトの情報はGoogleには届かない
- Googleに届かないということはインデックスに載らない、
- すなわち検索結果に表示されない
- ということは、誰かに見つけてもらう可能性が大きく減ってしまう
もしサイトの大部分が「未クロール」のままだったら、非常にもったいないですよね。
…
そこで今回は、AJ KORN氏のBlind Five Year Oldから、クロールバジェットについての記事をご紹介します。
2013年7月29日の記事ということで最新記事ではありません。
最新のGoogleのやり方と同じかどうかは分かりません。バジェット自体は何らかの形で持っていることは固いと思います。
Crawl Optimization: You Are What Googlebot Eats :
https://www.blindfiveyearold.com/crawl-optimization
クロールバジェットとは?
※以下、特に断りのない場合、箇条書き部分は元記事からの引用です。
- クロールバジェットとは、Googleがサイトごとに割り当てている、クローラが回る「時間」と「ページ数」のこと
- 具体的にその数字が明かされているわけではない
- クロールバジェットは、そのサイトの価値で決まる。アルゴリズム的にはPageRank(※訳注:ツールバーのではない)でおおまかに決まる
- そのため、必然的にトップページなどの方からクロールされ、下層ページはクローラが回りづらい
- PageRankの低いページは、それほど頻繁にクローラーがやってこない。
- 逆に「重要だ」と考えているページはできるだけ「フレッシュ」な情報を検索結果に出せるように、頻繁にクローリングしている。
下層ページヘの外部リンクは、クロールバジェットの観点でも重要です。それがオーソリティのあるページ、PageRankの高いページならなおさらです。従って、クローラがなかなか回ってこないページがあれば「トップページなどからリンクする」「外部の価値の高いリンクから直接下層ページにリンクを貼る」などが有効だと言えます。
また、特に「出来立てのサイト」はクローラが回ってこない傾向があるので、Fetch As Google は必須ですね。
ページネーションをした所、トラフィック(アクセス数)が減ってしまった例
下記の図は、GoogleAnalyticsの訪問数のグラフです。「Pagenation」と書いてある所が、サイトの商品紹介のページにページングを仕込んだ時期です。大きくアクセスが減ってしまっているのが分かります。
具体的には、すべての商品を1ページに詰め込んで表示していたものを、数個ごとにページングしたものです。
このデータは元記事のデータですが、これを著者は以下のように分析しています
- ページングを行わないようにしたらアクセスが戻ったので、問題はページングにあることは明らか
- ページングしたトップページは、悪く放っていなかったが、2ページ目以降があまりクロールされなくなってしまっていた
- その結果、アクセス数が減ってしまった
- ページングを無くしたら、もとに戻った
どうしてアクセス数が減ったのかは定かではありませんが、ロングテールでの流入や、2ページ目以降に押しやられた商品名・型番での検索でヒットしなくなってしまったのかもしれません。
これは難しい問題です。ユーザビリティの観点でページングを行ったり、あるはモバイル対応のためにエンドレスページネーションを選ぶこともあるかと思います。そことどうしても相反してしまうかもしれません。
打開策としては「一覧ページ」と「ページングしたページ」両方を作成して、canonical設定をするなどでしょうか。
内部リンクを使って、大事なページはきちんとクロールさせる
このように、クローラは「CrawlBudget」に基づいて、サイト内を巡回します。ライフがゼロになってしまったら、もうそれ以上クロールはしません。なので、大事なページは、早めにクローラに来てもらって、きちんとクロールしてもらうようにすべきです。
そのために「内部リンク」が役立ちます。
現状のサイト内の内部リンク構造を見て「重要度」がどうなっているか知る
ウェブマスターツールを見ると、「検索トラフィック」の中に「内部リンク」という項目があります。
これを開くと、サイトの中で、どのページが内部リンクを多数もらっているかが分かります。
厳密に言うと切りがありませんので、ざっくり
「たくさん内部リンクをもらっているページは「クロールされやすくなっている」
と考えるのがいいです。
…
この一覧の中に、大事なページが入っていなければ要注意です。クローラがうまく回ってこないかもしれません。
その場合は
- トップページからリンクを貼る
- 所属カテゴリのトップページからリンクを貼る
- ウェブマスターツールの内部リンクリストの中で上位に入っているページから、リンクを貼る(ただし、関連性のあるページ同士のみ)
と言った方法で、クローラを呼び込むことをおすすめします。
また、「できるだけ少ないクリックで全ページに到達できるような仕組み」を作ることも重要です。それだけクローラの負担が減ります。クロールバジェットはページ数と時間が大事です。
シンプルなHTMLサイトマップもいいのでは、と元記事には書いてあります。
その他の対策
その他には以下の様な対策が紹介されています。
- Googlebotの動きをウェブマスターツールでチェックし、問題がないか監視する。
- URLパラメータを整理する。無駄に量産しない。同じページなのに別URLとしてGoogleはクロールするので、クロールバジェットを浪費してしまう
- Robots.txtを適切に使い、そもそもクロールする必要がないページはクロールさせない
- HTMLサイトマップを使って、すべてのコンテンツにクローラがアクセスしやすくする
- 内部リンクを最適化する(先ほどの話)
…
クロールバジェットと言う概念自体は、中小規模のサイト運営者にとっては、あまり考えても仕方ないことかもしれません。
ページ数が500を超えたら少し考え始めた方がいいですね(といいつつ、うちのブログとサービスサイト、合わせると1000ページ以上あるのですが、何もしていない…)
ECサイトや、システムで生成される物が多いサイトは、気付かずに大量のページができている可能性があります。その場合はまずは
- サイトの頁数を把握する(ウェブマスターツール、ScreamingFrog、AhrefsのSEOReportなど)
- 1000以上あれば、いくつかの代表的なページをピックアップして、更新日時をチェック。問題がないか探す
- 問題があれば、内部リンクを改善するか、オーソリティのある外部リンクで下層ページに直リンクするなどして、クローラが回りやすいようにする
- 同時に先ほどのような対策を行う
といったことを行ってみてはいかがでしょうか。また
- 動的に生成されるURLはクロールバジェットを食う
- canonicalやリダイレクトの処理自体もクロールバジェットを食っている
ということもあるとのことです。できるだけどちらも使わずスッキリしたサイトにしておきたいですね。
XMLサイトマップを送信していても、それすなわち全ページを頻繁にクローリングしてくれるということではありません。毎日Fetch As Googleを行うのもナンセンスです。
クローラが回りやすい仕組みを入れて、検索エンジンからのファインダビリティを上げてみてはどうでしょうか。
中小企業・小規模事業者の方々に向けて、ウェブの活用やホームページの戦略などについてWebコンサルティング、施策代行実施などを行っている、株式会社ラウンドナップ代表取締役の中山陽平です。中小企業のWeb活用をサポートし、そこからの反響獲得を実現させています。→プロフィール詳細はこちらから