robots.txt 產生器
免費線上robots.txt 產生器,無需帳號、不用安裝,完全在瀏覽器中運行。
建立您的 robots.txt
預覽
什麼是 robots.txt?
robots.txt 是一個放在您網站根目錄的文本檔案,用來告訴搜尋引擎爬蟲(如Google Bot、Bing Bot等)哪些頁面可以被爬取,哪些應該被忽略。這對於控制爬蟲行為、保護私人內容和優化網站的爬蟲預算都非常重要。
雖然 robots.txt 不是強制性的規則(惡意爬蟲可能會忽略它),但它是大多數合法爬蟲遵守的標準。配合適當的 robots.txt 設定,您可以更好地管理搜尋引擎如何索引您的網站。
如何使用這個產生器?
第一步:使用快速預設選擇您的需求(允許所有、阻止所有等)或手動建立規則。
第二步:對於每個 User-Agent(爬蟲類型),設定允許和禁止的路徑。例如:允許 /public 但禁止 /admin。
第三步:設定爬蟲延遲和 Sitemap URL(可選)。
第四步:點擊「產生 robots.txt」按鈕,在預覽區查看結果,然後複製或下載檔案,將其上傳到您網站的根目錄。
常見使用場景
阻止搜尋結果中的重複內容:禁止爬取排序、篩選或會話參數相關的URL,減少重複頁面被索引。
保護隱私內容:阻止爬蟲訪問管理面板、使用者帳戶頁面或私人區域。
優化爬蟲預算:對於大型網站,設定爬蟲延遲和禁止路徑以確保爬蟲重點索引重要頁面。
阻止特定爬蟲:如果您想阻止某些AI訓練爬蟲(如GPTBot、Claude-Web等),可以針對性地設定規則。
常見問題
robots.txt 檔案應該放在哪裡?
robots.txt 必須放在您網站的根目錄中。例如,如果您的網站是 https://example.com,那麼 robots.txt 應該位於 https://example.com/robots.txt。
Disallow 和 Allow 有什麼區別?
Disallow 用來禁止爬蟲訪問某個路徑,Allow 用來允許爬蟲訪問某個路徑。例如,「Disallow: /admin」表示不允許爬蟲訪問 /admin 目錄下的所有頁面。
User-Agent 是什麼?
User-Agent 是識別爬蟲的名稱。例如,Googlebot 是 Google 的爬蟲,Bingbot 是 Bing 的爬蟲。使用「*」表示所有爬蟲。您可以為不同的爬蟲設定不同的規則。
Crawl-Delay 有什麼作用?
Crawl-Delay 指定爬蟲在發出兩個連續請求之間應該等待的秒數。這有助於降低您網站的服務器負載。例如,「Crawl-Delay: 2」表示爬蟲應該每 2 秒發出一個請求。
我可以阻止 AI 爬蟲嗎?
可以。常見的 AI 爬蟲包括 GPTBot(OpenAI)、CCBot(Common Crawl)、claude-web(Anthropic)等。使用此產生器的「阻止AI爬蟲」預設,或手動添加這些爬蟲的 User-Agent 並設定 Disallow: / 即可。
robots.txt 對 SEO 有影響嗎?
robots.txt 本身不是排名因素,但配置不當可能會損害 SEO。例如,如果您不小心阻止了所有爬蟲,搜尋引擎將無法索引您的網站。正確使用 robots.txt 可以幫助優化爬蟲預算和提高索引效率。
