HTML 判定
-
Google 検索のクロール時、Googlebot はファイルの最初の 2 MBだけを読み込むようになりました。 自分のページ及び読み込みファイルが制限に達していないか簡易チェックツールです( by ラウンドナップWebコンサルティング )
※クロールリミットについてのGoogle公式情報はこちら Googlebot がサイトにアクセスする方法
外部ホストの CSS / JS は最初から取得しません。計測対象は入力 URL と同一ホストのみです。
入力 URL:
実際に計測した URL:
-
-
-
| 使用率 | 結果 | バイト数(非圧縮) | URL | ステータス | タイプ |
|---|
Google検索がWebページを評価するまでには、大きく分けて3つのステップがあります。 「クロール(発見と取得)」「インデックス(解析と登録)」「検索結果への表示」です。 まずGooglebotがリンクやサイトマップを手がかりにURLを発見し、取得可能なページを巡回します。 次にページの内容を解析し、検索結果に表示できる状態かどうかを判断したうえで、インデックスへ反映するという流れです。
ここで押さえておきたいのは、ページを公開しただけでは十分ではないという事実です。 サーバーの応答状況、robots.txtの設定、ファイル構造、本文の取得可能性など、複数の条件がそろって初めて安定した評価につながります。 つまり「公開している=Googleに正しく読まれている」とは限りません。
GooglebotはHTML本体だけを見ているわけではありません。 ページ内で参照されるCSS、JavaScriptといったリソースも個別に取得し、それらを組み合わせてページの内容を理解しています。 いわゆる「レンダリング」の工程では、HTMLに記述された外部リソースがそれぞれ独立したファイルとして取得され、ページ解釈の材料となります。
実務上とくに注意すべきなのは、1ページ全体が一括で評価されるのではなく、 「HTML本体」と「各リソース」がそれぞれ独立して取得・評価される点です。 たとえばHTML自体は軽量であっても、特定のCSSやJavaScriptファイルが極端に重い場合、 そのリソースの取得が不完全になり、結果としてページ評価の一部が欠落する可能性があります。 本ツールがリソース単位での確認機能を備えているのは、この問題を検知するためです。
Google Search向けのGooglebotには、取得できるデータ量に明確な上限が設けられています。 サポート対象のファイルについては「先頭から2MBまで」、PDFについては「先頭から64MBまで」がクロール対象です。
ここで見落としがちなのが、容量の判定基準です。 この上限はネットワーク転送時の圧縮後サイズではなく、「非圧縮データ」に対して適用されます。 gzipなどの転送圧縮を使っていると、通信上のファイルサイズは小さく見えるかもしれません。 しかしGooglebotが実際に評価対象とするのは圧縮前のバイト数であり、見かけの転送量と実際の取得容量には差があります。 本ツールが非圧縮バイト数を基準に計測しているのは、Googleの実際の取得条件と整合させるためです。
クロール上限の2MBに達すると、Googlebotはその時点で取得を打ち切ります。 すでに取得した範囲のデータだけがインデックスの検討対象に回され、 2MBを超えた部分に含まれるコンテンツは検索評価に反映されない可能性があります。
厄介なのは、この状態がブラウザ上の見た目では気づきにくい点です。 ユーザーがページを閲覧する分にはすべてのコンテンツが正常に表示されるため、 Googlebotだけが途中までしか読めていないという事態が発生しても、表面上は何の問題もないように見えます。 とくに長文ページ、インラインコードを多用するページ、テンプレートが肥大化したページは、この問題が起こりやすい典型的なパターンです。
本ツールを活用する意義は、公開前後の段階で「実際にGoogleがどこまで読んでいるか」を定量的に把握できる点にあります。 重要な情報が確実にページの先頭側に収まる設計になっているかどうかを確認し、検索上の取りこぼしを防ぐことが重要です。