AIクローラー(BOT)アクセス診断・チェックツール｜ラウンドナップWebコンサルティング

robots.txtとは何か？ AIクローラー時代に知っておくべき基本

Webサイトを運営していれば、「robots.txt」という名前を一度は目にしたことがあるのではないでしょうか。これはサイト運営者がクローラー（BOT）に対して「このページは読み取ってよい」「こちらには来ないでほしい」と方針を伝えるための公開ファイルです。通常はドメイン直下、たとえば https://example.com/robots.txt に設置し、 User-agent、Allow、Disallow のディレクティブを組み合わせて指定します。

ただし、robots.txt はあくまで「方針の宣言」であり、すべてのBOTを強制的にブロックする仕組みではありません。機密性の高いページは robots.txt だけに頼らず、認証やアクセス制御などの防御策を併用してください。

robots.txtの書き方と設計の進め方

robots.txt は書き方のルール自体はシンプルですが、運用時に「何を許可して何をブロックするか」を曖昧なまま書き始めると、意図しないクロール許可やブロックが発生しがちです。次の手順で設計すると事故を減らせます。

サイト全体の基本方針を決める（原則許可か、原則制限か）。
BOTごとに User-agent と Allow / Disallow を記述する。
意図したとおりに判定されているかをツールで確認する。

たとえば、OpenAIの検索用BOTには全ページのクロールを許可しつつ、学習用BOTやSEO調査ツールのアクセスは遮断したい場合は、以下のように記述します。

User-agent: OAI-SearchBot
Allow: /

User-agent: GPTBot
Disallow: /

User-agent: AhrefsBot
Disallow: /

BOTの名前と許可・拒否をセットで定義し、記述後に検証ツールで想定どおりの挙動になっているか確認することが重要です。

AIボットは一律で弾くべきなのか？

AIボットは大きく「検索用」と「学習用」に分かれ、役割が異なります。検索用BOT（グラウンディング向け）は、ChatGPT Search や Claude Search などで参照される際に使われるため、これをブロックすると露出機会を失う可能性があります。

一方で学習用BOTは、モデル改善や学習データ収集を目的とします。独自ノウハウの強いコンテンツ、転載リスクが気になるページ、法務要件があるケースでは、個別に制限する判断が有効です。

実務上は、「公開集客ページは検索系を許可」「独自資産ページは学習系を個別制御」という分離運用が現実的です。

押さえておきたいAIクローラーの種類

代表的なBOTをカテゴリ別に整理しています。robots.txt の設計時に、どのBOTを許可・制限するか判断するための参照にしてください。

AI検索機能に関するBOT

AIツールの検索機能で参照される際に利用されるBOTです。ブロックすると、AI検索経由の表示機会が減る可能性があります。

BOT名	企業	概要
OAI-SearchBot	OpenAI	ChatGPT Search用のクロール
ChatGPT-User	OpenAI	ユーザー操作に応じた参照アクセス
Claude-SearchBot	Anthropic	Claude Searchのためのクロール
Claude-User	Anthropic	ユーザー操作に応じた参照アクセス
PerplexityBot	Perplexity	検索・回答向けクロール
Perplexity-User	Perplexity	ユーザー操作に応じた参照アクセス
DuckAssistBot	DuckDuckGo	DuckAssist向けクロール

AIモデルの学習用BOT

モデルのトレーニングや改善に関連するBOTです。学習利用を避けたい場合は、このカテゴリを中心に制御対象を検討します。 Anthropic については現行の主要識別子（ClaudeBot / Claude-User / Claude-SearchBot）を主対象とし、 anthropic-ai は旧識別子として別枠で確認してください。

BOT名	企業	概要
GPTBot	OpenAI	モデル改善向けデータ収集
ClaudeBot	Anthropic	モデル改善・安全性向上向け収集
cohere-ai	Cohere	AI関連クロール識別子
Meta-ExternalAgent	Meta	外部取得系クローラー識別子

SEO調査ツールのBOT

SEO分析ツールが使用するクローラーです。運用方針に応じて許可・制限を決めてください。

BOT名	企業	概要
AhrefsBot	Ahrefs	Ahrefs社のSEOツール
MJ12bot	Majestic	Majestic社のSEOツール
dotbot / rogerbot	Moz	Moz社のSEOツール
JamesBOT	cognitiveSEO	cognitiveSEO社のSEOツール
SMTBOT	SimilarWeb	競合調査ツール
SemrushBot	Semrush	Semrush社のSEOツール
Screaming Frog	Screaming Frog	サイトクロールツール

海外検索エンジンのクローラー

海外検索エンジンのクロール用途です。海外流入の必要性に応じて運用方針を設定します。

BOT名	企業	概要
Baiduspider	Baidu	Baidu検索クローラ
YandexBot	Yandex	Yandex検索クローラ
Yeti	Naver	Naver検索クローラ
Sogou web spider	Sogou	Sogou検索クローラ
360Spider	Qihoo 360	360検索クローラ
SeznamBot	Seznam.cz	Seznam検索クローラ
PetalBot	Huawei	Petal検索クローラ
Exabot	Exalead	Exalead検索クローラ

その他のツール関連BOT

魚拓、アーカイブ、監視、調査などの用途で利用されるBOTです。サイトの方針に応じて必要なものだけ許可します。

BOT名	企業	概要
Megalodon	株式会社アフィリティー	ウェブ魚拓
ia_archiver	Alexa Internet	Wayback Machine保存可否
anthropic-ai（旧識別子）	Anthropic	旧識別子（互換確認用）
CCBot	Common Crawl	大規模データ収集
grapeshot	Oracle Advertising	コンテンツ解析
ltx71	ltx71	セキュリティ調査ツール
Mail.RU_Bot	Mail.ru（VK）	リンク調査ツール
Updownerbot	updowner.com	死活監視
BUbiNG	BUbiNG	研究クローラ
Genieo	Somoto	広告系取得

まとめ：目的別の分離運用がこれからの標準

AIクローラーの種類と数は今後も増える見込みです。重要なのは「全部許可」でも「全部ブロック」でもなく、クローラーの目的とページの性質に応じた分離運用です。

検索経由の露出を確保しつつ、独自コンテンツの学習利用は必要に応じて制御する。このバランスを保つために、定期的な見直しと検証を継続してください。

AIクローラー(BOT)
アクセス診断・チェッカー

判定結果

BOT関連ルール数

許可BOT数

ブロックBOT数

判定不能

robots.txt

AIクローラー運用ガイド

robots.txtとは何か？ AIクローラー時代に知っておくべき基本

robots.txtの書き方と設計の進め方

AIボットは一律で弾くべきなのか？

押さえておきたいAIクローラーの種類

AI検索機能に関するBOT

AIモデルの学習用BOT

SEO調査ツールのBOT

海外検索エンジンのクローラー

その他のツール関連BOT

まとめ：目的別の分離運用がこれからの標準

AIクローラー(BOT)アクセス診断・チェッカー

判定結果

BOT関連ルール数

許可BOT数

ブロックBOT数

判定不能

robots.txt

AIクローラー運用ガイド

robots.txtとは何か？ AIクローラー時代に知っておくべき基本

robots.txtの書き方と設計の進め方

AIボットは一律で弾くべきなのか？

押さえておきたいAIクローラーの種類

AI検索機能に関するBOT

AIモデルの学習用BOT

SEO調査ツールのBOT

海外検索エンジンのクローラー

その他のツール関連BOT

まとめ：目的別の分離運用がこれからの標準

AIクローラー(BOT)
アクセス診断・チェッカー