Question 1

robots.txt 是什麼？要放哪？

Accepted Answer

robots.txt 是放在網站根目錄的純文字檔（URL：https://你的網站.com/robots.txt），告訴爬蟲「哪些路徑可以抓、哪些不可以」。所有正派爬蟲（Google、Bing、OpenAI、Anthropic、Perplexity 等）都會主動讀這個檔，按裡面的規則行動。

Question 2

我為什麼要特別擋 AI 爬蟲？跟一般 robots.txt 有什麼不同？

Accepted Answer

一般 robots.txt 只設 User-agent: *，所有爬蟲一視同仁。但 AI 爬蟲有「拿來訓練模型」（GPTBot、ClaudeBot、Google-Extended）和「拿來引用 AI 搜尋結果」（OAI-SearchBot、PerplexityBot）兩種角色，差很多。前者擋掉只是「不被學去」，後者擋掉等於「AI 搜尋找不到你」=失流量。需要對每個爬蟲分別設定。

Question 3

所有 AI 爬蟲都該擋嗎？

Accepted Answer

不。一般建議：**AI 搜尋引用爬蟲全部允許**（OAI-SearchBot / PerplexityBot / Claude-Web 等，這些幫你帶 AI 搜尋流量）；**AI 訓練爬蟲視內容性質決定**（GPTBot / ClaudeBot / Google-Extended / Bytespider 等，創作密集型網站可考慮擋，純行銷資訊網站擋不擋差不多）。本工具預設「全部允許」，方便起步；想擋訓練爬蟲一鍵切換即可。

Question 4

擋掉 Google-Extended 會影響 Google 搜尋排名嗎？

Accepted Answer

不會。Google-Extended 只控制 Google 拿你內容訓練 Gemini 等 AI 模型，跟 Googlebot（搜尋索引爬蟲）是兩個獨立 User-agent。擋 Google-Extended = Gemini 不會學你的內容；Googlebot 仍正常索引、搜尋排名完全不變。Apple 的 Applebot-Extended 同理。

Question 5

AI 爬蟲真的會遵守 robots.txt 嗎？

Accepted Answer

OpenAI（GPTBot / OAI-SearchBot / ChatGPT-User）、Anthropic（ClaudeBot / Claude-Web）、Google（Google-Extended）、Perplexity（PerplexityBot）等主流公司**有公開承諾遵守**。Bytespider、CCBot 多數情況也遵守。但 robots.txt 是「君子協定」，沒有強制力，若需要硬性阻擋建議搭配 Cloudflare 或 WAF 規則。

Question 6

我把 robots.txt 改完，多久會生效？

Accepted Answer

幾分鐘到幾天。爬蟲下次來訪時會重新讀取 robots.txt，當下生效。但**已經抓過的內容**不會立刻從 AI 模型中移除——OpenAI 等公司有公開政策說會在下個訓練週期排除，實際需要幾個月。如果是緊急狀態，建議同時用 Cloudflare 規則直接擋 User-agent。

Question 7

為什麼有些 AI 爬蟲名稱長得很像（例如 GPTBot vs ChatGPT-User）？

Accepted Answer

同一公司會有多個爬蟲做不同事。以 OpenAI 為例：GPTBot = 主動爬資料訓練模型；OAI-SearchBot = 建立 ChatGPT Search 索引；ChatGPT-User = 使用者在對話中即時點開網頁時觸發。三個獨立 User-agent，各別設定 = 各別控制行為。Anthropic 也有 ClaudeBot（訓練）+ Claude-Web（即時取頁）的區分。

Question 8

產出的 robots.txt 要放哪？

Accepted Answer

放網站根目錄，URL：https://你的網站.com/robots.txt。必須是純文字檔（content-type: text/plain），不能放成 HTML 頁面或子目錄下。爬蟲不會去找其他位置的 robots.txt。

Question 9

robots.txt 跟 llms.txt 是同個東西嗎？

Accepted Answer

不是，但常一起做。**robots.txt**：規則檔，控制「哪些爬蟲可以抓哪些路徑」；**llms.txt**：地圖檔（Markdown 格式），告訴 AI「這網站是做什麼的、有哪些重要內容」。兩個檔案的功能完全互補。建議兩個都做，AHHA 工具集兩個產生器都有。

Question 10

AHHA 平台會自動處理 robots.txt 嗎？

Accepted Answer

會。在 AHHA 架站的網站會自動產出 robots.txt 並提供於 /robots.txt，後台可以勾選 AI 爬蟲策略，不用手動寫和維護。30 天免費試用。

Question 11

是免費的嗎？有限制嗎？

Accepted Answer

完全免費，無次數限制，無註冊需求。所有運算在你瀏覽器內完成，我們不儲存任何資料。

robots.txt for AI 爬蟲產生器

為什麼要分別設定 AI 爬蟲？

引用 vs 訓練，差很多

擋訓練不影響 SEO

主流公司都遵守

常見問題

不想手動維護 robots.txt 和 llms.txt？