完全免費 · 一鍵下載

robots.txt for AI 爬蟲產生器

勾選允許 / 禁止哪些 AI 爬蟲——GPTBot、ClaudeBot、PerplexityBot、Google-Extended、Bytespider 等 14+ 種,一鍵產出完整 robots.txt,上傳到網站根目錄即可。

快速套用
AI 搜尋引用爬蟲
這些爬蟲負責「把你的內容引用到 AI 搜尋結果」。擋掉 = 失去 AI 搜尋流量。建議全部允許。
OAI-SearchBotOpenAI

ChatGPT Search 搜尋結果引用用,擋掉等於 ChatGPT 搜不到你

ChatGPT-UserOpenAI

使用者在 ChatGPT 中即時點開你網頁時觸發,擋掉 = 對話中無法引用

PerplexityBotPerplexity

Perplexity 搜尋索引用,擋掉等於 Perplexity 搜不到你

Perplexity-UserPerplexity

Perplexity 對話中即時取頁面內容用

Claude-WebAnthropic

使用者在 Claude 對話中提到網址時即時抓取

AI 訓練爬蟲
這些爬蟲會把你的內容拿去訓練 AI 模型,不直接帶來流量。要不要擋取決於你對「內容被用於訓練」的態度。
GPTBotOpenAI

OpenAI 拿來訓練 GPT 模型的爬蟲

ClaudeBotAnthropic

Anthropic 訓練 Claude 模型用

anthropic-aiAnthropic

Anthropic 舊版訓練爬蟲名稱,建議一起設

Google-ExtendedGoogle

Google Gemini 訓練爬蟲(注意:擋這個不影響 Google 搜尋排名)

CCBotCommon Crawl

Common Crawl 開放資料集爬蟲,大多 AI 模型訓練的源頭之一

BytespiderByteDance / 字節跳動

TikTok 母公司的訓練爬蟲,常被回報抓很兇

Applebot-ExtendedApple

Apple Intelligence 訓練爬蟲(不影響 Siri 搜尋)

Meta-ExternalAgentMeta

Meta(Facebook / IG)訓練 LLaMA 系列模型用

cohere-aiCohere

Cohere AI 訓練爬蟲

一般 SEO 爬蟲(Googlebot / Bingbot 等)
即時預覽
robots.txt
# Generated by AHHA — https://ahha.com.tw/tools/robots-txt

# ===== AI 搜尋引用爬蟲 =====
User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Perplexity-User
Allow: /

User-agent: Claude-Web
Allow: /

# ===== AI 訓練爬蟲 =====
User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: anthropic-ai
Allow: /

User-agent: Google-Extended
Allow: /

User-agent: CCBot
Allow: /

User-agent: Bytespider
Allow: /

User-agent: Applebot-Extended
Allow: /

User-agent: Meta-ExternalAgent
Allow: /

User-agent: cohere-ai
Allow: /

# ===== 一般 SEO 爬蟲 =====
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /api/
Disallow: /dashboard/
複製內容後存成 robots.txt,上傳到網站根目錄(例:https://your-site.com/robots.txt)。AHHA 平台會自動產出,不用手動維護。

為什麼要分別設定 AI 爬蟲?

引用 vs 訓練,差很多

AI 搜尋引用爬蟲(OAI-SearchBot、PerplexityBot)幫你帶 AI 搜尋流量;訓練爬蟲(GPTBot、ClaudeBot)只是把內容學去。兩者該分開設。

擋訓練不影響 SEO

Google-Extended 跟 Googlebot 是兩個獨立 User-agent。擋 Google-Extended = Gemini 不學你;Google 搜尋排名完全不變。

主流公司都遵守

OpenAI、Anthropic、Google、Perplexity 都有公開承諾遵守 robots.txt。設了就生效,不用額外整合 API。

常見問題

robots.txt 是什麼?要放哪?

robots.txt 是放在網站根目錄的純文字檔(URL:https://你的網站.com/robots.txt),告訴爬蟲「哪些路徑可以抓、哪些不可以」。所有正派爬蟲(Google、Bing、OpenAI、Anthropic、Perplexity 等)都會主動讀這個檔,按裡面的規則行動。

我為什麼要特別擋 AI 爬蟲?跟一般 robots.txt 有什麼不同?

一般 robots.txt 只設 User-agent: *,所有爬蟲一視同仁。但 AI 爬蟲有「拿來訓練模型」(GPTBot、ClaudeBot、Google-Extended)和「拿來引用 AI 搜尋結果」(OAI-SearchBot、PerplexityBot)兩種角色,差很多。前者擋掉只是「不被學去」,後者擋掉等於「AI 搜尋找不到你」=失流量。需要對每個爬蟲分別設定。

所有 AI 爬蟲都該擋嗎?

不。一般建議:**AI 搜尋引用爬蟲全部允許**(OAI-SearchBot / PerplexityBot / Claude-Web 等,這些幫你帶 AI 搜尋流量);**AI 訓練爬蟲視內容性質決定**(GPTBot / ClaudeBot / Google-Extended / Bytespider 等,創作密集型網站可考慮擋,純行銷資訊網站擋不擋差不多)。本工具預設「全部允許」,方便起步;想擋訓練爬蟲一鍵切換即可。

擋掉 Google-Extended 會影響 Google 搜尋排名嗎?

不會。Google-Extended 只控制 Google 拿你內容訓練 Gemini 等 AI 模型,跟 Googlebot(搜尋索引爬蟲)是兩個獨立 User-agent。擋 Google-Extended = Gemini 不會學你的內容;Googlebot 仍正常索引、搜尋排名完全不變。Apple 的 Applebot-Extended 同理。

AI 爬蟲真的會遵守 robots.txt 嗎?

OpenAI(GPTBot / OAI-SearchBot / ChatGPT-User)、Anthropic(ClaudeBot / Claude-Web)、Google(Google-Extended)、Perplexity(PerplexityBot)等主流公司**有公開承諾遵守**。Bytespider、CCBot 多數情況也遵守。但 robots.txt 是「君子協定」,沒有強制力,若需要硬性阻擋建議搭配 Cloudflare 或 WAF 規則。

我把 robots.txt 改完,多久會生效?

幾分鐘到幾天。爬蟲下次來訪時會重新讀取 robots.txt,當下生效。但**已經抓過的內容**不會立刻從 AI 模型中移除——OpenAI 等公司有公開政策說會在下個訓練週期排除,實際需要幾個月。如果是緊急狀態,建議同時用 Cloudflare 規則直接擋 User-agent。

為什麼有些 AI 爬蟲名稱長得很像(例如 GPTBot vs ChatGPT-User)?

同一公司會有多個爬蟲做不同事。以 OpenAI 為例:GPTBot = 主動爬資料訓練模型;OAI-SearchBot = 建立 ChatGPT Search 索引;ChatGPT-User = 使用者在對話中即時點開網頁時觸發。三個獨立 User-agent,各別設定 = 各別控制行為。Anthropic 也有 ClaudeBot(訓練)+ Claude-Web(即時取頁)的區分。

產出的 robots.txt 要放哪?

放網站根目錄,URL:https://你的網站.com/robots.txt。必須是純文字檔(content-type: text/plain),不能放成 HTML 頁面或子目錄下。爬蟲不會去找其他位置的 robots.txt。

robots.txt 跟 llms.txt 是同個東西嗎?

不是,但常一起做。**robots.txt**:規則檔,控制「哪些爬蟲可以抓哪些路徑」;**llms.txt**:地圖檔(Markdown 格式),告訴 AI「這網站是做什麼的、有哪些重要內容」。兩個檔案的功能完全互補。建議兩個都做,AHHA 工具集兩個產生器都有。

AHHA 平台會自動處理 robots.txt 嗎?

會。在 AHHA 架站的網站會自動產出 robots.txt 並提供於 /robots.txt,後台可以勾選 AI 爬蟲策略,不用手動寫和維護。30 天免費試用。

是免費的嗎?有限制嗎?

完全免費,無次數限制,無註冊需求。所有運算在你瀏覽器內完成,我們不儲存任何資料。

不想手動維護 robots.txt 和 llms.txt?

AHHA 架站平台自動產出並維護 robots.txt 與 llms.txt,後台勾選 AI 爬蟲策略即可,內容更新時兩個檔案同步刷新。

30 天免費試用 AHHA →