robots.txt for AI 爬蟲產生器
勾選允許 / 禁止哪些 AI 爬蟲——GPTBot、ClaudeBot、PerplexityBot、Google-Extended、Bytespider 等 14+ 種,
一鍵產出完整 robots.txt,上傳到網站根目錄即可。
ChatGPT Search 搜尋結果引用用,擋掉等於 ChatGPT 搜不到你
使用者在 ChatGPT 中即時點開你網頁時觸發,擋掉 = 對話中無法引用
Perplexity 搜尋索引用,擋掉等於 Perplexity 搜不到你
Perplexity 對話中即時取頁面內容用
使用者在 Claude 對話中提到網址時即時抓取
OpenAI 拿來訓練 GPT 模型的爬蟲
Anthropic 訓練 Claude 模型用
Anthropic 舊版訓練爬蟲名稱,建議一起設
Google Gemini 訓練爬蟲(注意:擋這個不影響 Google 搜尋排名)
Common Crawl 開放資料集爬蟲,大多 AI 模型訓練的源頭之一
TikTok 母公司的訓練爬蟲,常被回報抓很兇
Apple Intelligence 訓練爬蟲(不影響 Siri 搜尋)
Meta(Facebook / IG)訓練 LLaMA 系列模型用
Cohere AI 訓練爬蟲
# Generated by AHHA — https://ahha.com.tw/tools/robots-txt # ===== AI 搜尋引用爬蟲 ===== User-agent: OAI-SearchBot Allow: / User-agent: ChatGPT-User Allow: / User-agent: PerplexityBot Allow: / User-agent: Perplexity-User Allow: / User-agent: Claude-Web Allow: / # ===== AI 訓練爬蟲 ===== User-agent: GPTBot Allow: / User-agent: ClaudeBot Allow: / User-agent: anthropic-ai Allow: / User-agent: Google-Extended Allow: / User-agent: CCBot Allow: / User-agent: Bytespider Allow: / User-agent: Applebot-Extended Allow: / User-agent: Meta-ExternalAgent Allow: / User-agent: cohere-ai Allow: / # ===== 一般 SEO 爬蟲 ===== User-agent: * Allow: / Disallow: /admin/ Disallow: /api/ Disallow: /dashboard/
為什麼要分別設定 AI 爬蟲?
引用 vs 訓練,差很多
AI 搜尋引用爬蟲(OAI-SearchBot、PerplexityBot)幫你帶 AI 搜尋流量;訓練爬蟲(GPTBot、ClaudeBot)只是把內容學去。兩者該分開設。
擋訓練不影響 SEO
Google-Extended 跟 Googlebot 是兩個獨立 User-agent。擋 Google-Extended = Gemini 不學你;Google 搜尋排名完全不變。
主流公司都遵守
OpenAI、Anthropic、Google、Perplexity 都有公開承諾遵守 robots.txt。設了就生效,不用額外整合 API。
常見問題
robots.txt 是什麼?要放哪?
robots.txt 是放在網站根目錄的純文字檔(URL:https://你的網站.com/robots.txt),告訴爬蟲「哪些路徑可以抓、哪些不可以」。所有正派爬蟲(Google、Bing、OpenAI、Anthropic、Perplexity 等)都會主動讀這個檔,按裡面的規則行動。
我為什麼要特別擋 AI 爬蟲?跟一般 robots.txt 有什麼不同?
一般 robots.txt 只設 User-agent: *,所有爬蟲一視同仁。但 AI 爬蟲有「拿來訓練模型」(GPTBot、ClaudeBot、Google-Extended)和「拿來引用 AI 搜尋結果」(OAI-SearchBot、PerplexityBot)兩種角色,差很多。前者擋掉只是「不被學去」,後者擋掉等於「AI 搜尋找不到你」=失流量。需要對每個爬蟲分別設定。
所有 AI 爬蟲都該擋嗎?
不。一般建議:**AI 搜尋引用爬蟲全部允許**(OAI-SearchBot / PerplexityBot / Claude-Web 等,這些幫你帶 AI 搜尋流量);**AI 訓練爬蟲視內容性質決定**(GPTBot / ClaudeBot / Google-Extended / Bytespider 等,創作密集型網站可考慮擋,純行銷資訊網站擋不擋差不多)。本工具預設「全部允許」,方便起步;想擋訓練爬蟲一鍵切換即可。
擋掉 Google-Extended 會影響 Google 搜尋排名嗎?
不會。Google-Extended 只控制 Google 拿你內容訓練 Gemini 等 AI 模型,跟 Googlebot(搜尋索引爬蟲)是兩個獨立 User-agent。擋 Google-Extended = Gemini 不會學你的內容;Googlebot 仍正常索引、搜尋排名完全不變。Apple 的 Applebot-Extended 同理。
AI 爬蟲真的會遵守 robots.txt 嗎?
OpenAI(GPTBot / OAI-SearchBot / ChatGPT-User)、Anthropic(ClaudeBot / Claude-Web)、Google(Google-Extended)、Perplexity(PerplexityBot)等主流公司**有公開承諾遵守**。Bytespider、CCBot 多數情況也遵守。但 robots.txt 是「君子協定」,沒有強制力,若需要硬性阻擋建議搭配 Cloudflare 或 WAF 規則。
我把 robots.txt 改完,多久會生效?
幾分鐘到幾天。爬蟲下次來訪時會重新讀取 robots.txt,當下生效。但**已經抓過的內容**不會立刻從 AI 模型中移除——OpenAI 等公司有公開政策說會在下個訓練週期排除,實際需要幾個月。如果是緊急狀態,建議同時用 Cloudflare 規則直接擋 User-agent。
為什麼有些 AI 爬蟲名稱長得很像(例如 GPTBot vs ChatGPT-User)?
同一公司會有多個爬蟲做不同事。以 OpenAI 為例:GPTBot = 主動爬資料訓練模型;OAI-SearchBot = 建立 ChatGPT Search 索引;ChatGPT-User = 使用者在對話中即時點開網頁時觸發。三個獨立 User-agent,各別設定 = 各別控制行為。Anthropic 也有 ClaudeBot(訓練)+ Claude-Web(即時取頁)的區分。
產出的 robots.txt 要放哪?
放網站根目錄,URL:https://你的網站.com/robots.txt。必須是純文字檔(content-type: text/plain),不能放成 HTML 頁面或子目錄下。爬蟲不會去找其他位置的 robots.txt。
robots.txt 跟 llms.txt 是同個東西嗎?
不是,但常一起做。**robots.txt**:規則檔,控制「哪些爬蟲可以抓哪些路徑」;**llms.txt**:地圖檔(Markdown 格式),告訴 AI「這網站是做什麼的、有哪些重要內容」。兩個檔案的功能完全互補。建議兩個都做,AHHA 工具集兩個產生器都有。
AHHA 平台會自動處理 robots.txt 嗎?
會。在 AHHA 架站的網站會自動產出 robots.txt 並提供於 /robots.txt,後台可以勾選 AI 爬蟲策略,不用手動寫和維護。30 天免費試用。
是免費的嗎?有限制嗎?
完全免費,無次數限制,無註冊需求。所有運算在你瀏覽器內完成,我們不儲存任何資料。
不想手動維護 robots.txt 和 llms.txt?
AHHA 架站平台自動產出並維護 robots.txt 與 llms.txt,
後台勾選 AI 爬蟲策略即可,內容更新時兩個檔案同步刷新。