BOT関連ルール数
-
自分のページが AI 向け検索・参照・学習系 BOT に対して、開放されているかを確認するためのツールです。 入力 URL の robots.txt を取得し、判定を表示します(by ラウンドナップWebコンサルティング)
入力 URL: -
実際に計測した URL: -
-
-
-
-
(未取得)
ここに BOT 分類ごとの判定結果が表示されます。
Webサイトを運営していれば、「robots.txt」という名前を一度は目にしたことがあるのではないでしょうか。
これはサイト運営者がクローラー(BOT)に対して「このページは読み取ってよい」「こちらには来ないでほしい」と方針を伝えるための公開ファイルです。
通常はドメイン直下、たとえば https://example.com/robots.txt に設置し、
User-agent、Allow、Disallow のディレクティブを組み合わせて指定します。
ただし、robots.txt はあくまで「方針の宣言」であり、すべてのBOTを強制的にブロックする仕組みではありません。 機密性の高いページは robots.txt だけに頼らず、認証やアクセス制御などの防御策を併用してください。
robots.txt は書き方のルール自体はシンプルですが、運用時に「何を許可して何をブロックするか」を曖昧なまま書き始めると、 意図しないクロール許可やブロックが発生しがちです。次の手順で設計すると事故を減らせます。
User-agent と Allow / Disallow を記述する。たとえば、OpenAIの検索用BOTには全ページのクロールを許可しつつ、 学習用BOTやSEO調査ツールのアクセスは遮断したい場合は、以下のように記述します。
User-agent: OAI-SearchBot
Allow: /
User-agent: GPTBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
BOTの名前と許可・拒否をセットで定義し、記述後に検証ツールで想定どおりの挙動になっているか確認することが重要です。
AIボットは大きく「検索用」と「学習用」に分かれ、役割が異なります。 検索用BOT(グラウンディング向け)は、ChatGPT Search や Claude Search などで参照される際に使われるため、 これをブロックすると露出機会を失う可能性があります。
一方で学習用BOTは、モデル改善や学習データ収集を目的とします。 独自ノウハウの強いコンテンツ、転載リスクが気になるページ、法務要件があるケースでは、個別に制限する判断が有効です。
実務上は、「公開集客ページは検索系を許可」「独自資産ページは学習系を個別制御」という分離運用が現実的です。
代表的なBOTをカテゴリ別に整理しています。robots.txt の設計時に、どのBOTを許可・制限するか判断するための参照にしてください。
AIツールの検索機能で参照される際に利用されるBOTです。ブロックすると、AI検索経由の表示機会が減る可能性があります。
| BOT名 | 企業 | 概要 |
|---|---|---|
| OAI-SearchBot | OpenAI | ChatGPT Search用のクロール |
| ChatGPT-User | OpenAI | ユーザー操作に応じた参照アクセス |
| Claude-SearchBot | Anthropic | Claude Searchのためのクロール |
| Claude-User | Anthropic | ユーザー操作に応じた参照アクセス |
| PerplexityBot | Perplexity | 検索・回答向けクロール |
| Perplexity-User | Perplexity | ユーザー操作に応じた参照アクセス |
| DuckAssistBot | DuckDuckGo | DuckAssist向けクロール |
モデルのトレーニングや改善に関連するBOTです。学習利用を避けたい場合は、このカテゴリを中心に制御対象を検討します。
| BOT名 | 企業 | 概要 |
|---|---|---|
| GPTBot | OpenAI | モデル改善向けデータ収集 |
| ClaudeBot | Anthropic | モデル改善・安全性向上向け収集 |
| anthropic-ai | Anthropic | AI関連クロール識別子 |
| cohere-ai | Cohere | AI関連クロール識別子 |
| Meta-ExternalAgent | Meta | 外部取得系クローラー識別子 |
SEO分析ツールが使用するクローラーです。運用方針に応じて許可・制限を決めてください。
| BOT名 | 企業 | 概要 |
|---|---|---|
| AhrefsBot | Ahrefs | Ahrefs社のSEOツール |
| MJ12bot | Majestic | Majestic社のSEOツール |
| dotbot / rogerbot | Moz | Moz社のSEOツール |
| JamesBOT | cognitiveSEO | cognitiveSEO社のSEOツール |
| SMTBOT | SimilarWeb | 競合調査ツール |
| SemrushBot | Semrush | Semrush社のSEOツール |
| Screaming Frog | Screaming Frog | サイトクロールツール |
海外検索エンジンのクロール用途です。海外流入の必要性に応じて運用方針を設定します。
| BOT名 | 企業 | 概要 |
|---|---|---|
| Baiduspider | Baidu | Baidu検索クローラ |
| YandexBot | Yandex | Yandex検索クローラ |
| Yeti | Naver | Naver検索クローラ |
| Sogou web spider | Sogou | Sogou検索クローラ |
| 360Spider | Qihoo 360 | 360検索クローラ |
| SeznamBot | Seznam.cz | Seznam検索クローラ |
| PetalBot | Huawei | Petal検索クローラ |
| Exabot | Exalead | Exalead検索クローラ |
魚拓、アーカイブ、監視、調査などの用途で利用されるBOTです。サイトの方針に応じて必要なものだけ許可します。
| BOT名 | 企業 | 概要 |
|---|---|---|
| Megalodon | 株式会社アフィリティー | ウェブ魚拓 |
| ia_archiver | Alexa Internet | Wayback Machine保存可否 |
| CCBot | Common Crawl | 大規模データ収集 |
| grapeshot | Oracle Advertising | コンテンツ解析 |
| ltx71 | ltx71 | セキュリティ調査ツール |
| Mail.RU_Bot | Mail.ru(VK) | リンク調査ツール |
| Updownerbot | updowner.com | 死活監視 |
| BUbiNG | BUbiNG | 研究クローラ |
| Genieo | Somoto | 広告系取得 |
AIクローラーの種類と数は今後も増える見込みです。重要なのは「全部許可」でも「全部ブロック」でもなく、 クローラーの目的とページの性質に応じた分離運用です。
検索経由の露出を確保しつつ、独自コンテンツの学習利用は必要に応じて制御する。 このバランスを保つために、定期的な見直しと検証を継続してください。