AIクローラー(BOT)
アクセス診断・チェッカー

自分のページが AI 向け検索・参照・学習系 BOT に対して、開放されているかを確認するためのツールです。 入力 URL の robots.txt を取得し、判定を表示します(by ラウンドナップWebコンサルティング

同一IPからの投稿数を制限しています

AIクローラー運用ガイド

robots.txtとは何か? AIクローラー時代に知っておくべき基本

Webサイトを運営していれば、「robots.txt」という名前を一度は目にしたことがあるのではないでしょうか。 これはサイト運営者がクローラー(BOT)に対して「このページは読み取ってよい」「こちらには来ないでほしい」と方針を伝えるための公開ファイルです。 通常はドメイン直下、たとえば https://example.com/robots.txt に設置し、 User-agentAllowDisallow のディレクティブを組み合わせて指定します。

ただし、robots.txt はあくまで「方針の宣言」であり、すべてのBOTを強制的にブロックする仕組みではありません。 機密性の高いページは robots.txt だけに頼らず、認証やアクセス制御などの防御策を併用してください。

robots.txtの書き方と設計の進め方

robots.txt は書き方のルール自体はシンプルですが、運用時に「何を許可して何をブロックするか」を曖昧なまま書き始めると、 意図しないクロール許可やブロックが発生しがちです。次の手順で設計すると事故を減らせます。

  1. サイト全体の基本方針を決める(原則許可か、原則制限か)。
  2. BOTごとに User-agentAllow / Disallow を記述する。
  3. 意図したとおりに判定されているかをツールで確認する。

たとえば、OpenAIの検索用BOTには全ページのクロールを許可しつつ、 学習用BOTやSEO調査ツールのアクセスは遮断したい場合は、以下のように記述します。

User-agent: OAI-SearchBot
Allow: /

User-agent: GPTBot
Disallow: /

User-agent: AhrefsBot
Disallow: /

BOTの名前と許可・拒否をセットで定義し、記述後に検証ツールで想定どおりの挙動になっているか確認することが重要です。

AIボットは一律で弾くべきなのか?

AIボットは大きく「検索用」と「学習用」に分かれ、役割が異なります。 検索用BOT(グラウンディング向け)は、ChatGPT Search や Claude Search などで参照される際に使われるため、 これをブロックすると露出機会を失う可能性があります。

一方で学習用BOTは、モデル改善や学習データ収集を目的とします。 独自ノウハウの強いコンテンツ、転載リスクが気になるページ、法務要件があるケースでは、個別に制限する判断が有効です。

実務上は、「公開集客ページは検索系を許可」「独自資産ページは学習系を個別制御」という分離運用が現実的です。

押さえておきたいAIクローラーの種類

代表的なBOTをカテゴリ別に整理しています。robots.txt の設計時に、どのBOTを許可・制限するか判断するための参照にしてください。

AI検索機能に関するBOT

AIツールの検索機能で参照される際に利用されるBOTです。ブロックすると、AI検索経由の表示機会が減る可能性があります。

BOT名企業概要
OAI-SearchBotOpenAIChatGPT Search用のクロール
ChatGPT-UserOpenAIユーザー操作に応じた参照アクセス
Claude-SearchBotAnthropicClaude Searchのためのクロール
Claude-UserAnthropicユーザー操作に応じた参照アクセス
PerplexityBotPerplexity検索・回答向けクロール
Perplexity-UserPerplexityユーザー操作に応じた参照アクセス
DuckAssistBotDuckDuckGoDuckAssist向けクロール

AIモデルの学習用BOT

モデルのトレーニングや改善に関連するBOTです。学習利用を避けたい場合は、このカテゴリを中心に制御対象を検討します。

BOT名企業概要
GPTBotOpenAIモデル改善向けデータ収集
ClaudeBotAnthropicモデル改善・安全性向上向け収集
anthropic-aiAnthropicAI関連クロール識別子
cohere-aiCohereAI関連クロール識別子
Meta-ExternalAgentMeta外部取得系クローラー識別子

SEO調査ツールのBOT

SEO分析ツールが使用するクローラーです。運用方針に応じて許可・制限を決めてください。

BOT名企業概要
AhrefsBotAhrefsAhrefs社のSEOツール
MJ12botMajesticMajestic社のSEOツール
dotbot / rogerbotMozMoz社のSEOツール
JamesBOTcognitiveSEOcognitiveSEO社のSEOツール
SMTBOTSimilarWeb競合調査ツール
SemrushBotSemrushSemrush社のSEOツール
Screaming FrogScreaming Frogサイトクロールツール

海外検索エンジンのクローラー

海外検索エンジンのクロール用途です。海外流入の必要性に応じて運用方針を設定します。

BOT名企業概要
BaiduspiderBaiduBaidu検索クローラ
YandexBotYandexYandex検索クローラ
YetiNaverNaver検索クローラ
Sogou web spiderSogouSogou検索クローラ
360SpiderQihoo 360360検索クローラ
SeznamBotSeznam.czSeznam検索クローラ
PetalBotHuaweiPetal検索クローラ
ExabotExaleadExalead検索クローラ

その他のツール関連BOT

魚拓、アーカイブ、監視、調査などの用途で利用されるBOTです。サイトの方針に応じて必要なものだけ許可します。

BOT名企業概要
Megalodon株式会社アフィリティーウェブ魚拓
ia_archiverAlexa InternetWayback Machine保存可否
CCBotCommon Crawl大規模データ収集
grapeshotOracle Advertisingコンテンツ解析
ltx71ltx71セキュリティ調査ツール
Mail.RU_BotMail.ru(VK)リンク調査ツール
Updownerbotupdowner.com死活監視
BUbiNGBUbiNG研究クローラ
GenieoSomoto広告系取得

まとめ:目的別の分離運用がこれからの標準

AIクローラーの種類と数は今後も増える見込みです。重要なのは「全部許可」でも「全部ブロック」でもなく、 クローラーの目的とページの性質に応じた分離運用です。

検索経由の露出を確保しつつ、独自コンテンツの学習利用は必要に応じて制御する。 このバランスを保つために、定期的な見直しと検証を継続してください。