您好!欢迎访问否玩代码!
广告位

robots.txt怎么设置对优化好能被爬虫抓取到

栏目: 日期: 浏览:39

robots.txt 最优设置(SEO 优化版)

robots.txt 作用:控制搜索引擎爬虫抓取哪些页面 / 目录,合理设置可节省爬虫配额、避免重复收录、保护隐私、提升收录质量

一、基础语法说明

放在网站根目录https://域名/robots.txt),核心指令:

  1. User-agent: *:对所有搜索引擎爬虫生效

  2. Allow::允许抓取

  3. Disallow::禁止抓取

  4. Sitemap::提交网站地图(必加,大幅优化收录)

  5. 二、通用最优配置(90% 网站直接套用)

  6. 完整版(适合企业站、博客、资讯、商城)

  7. 6. 提交网站地图(SEO核心,替换成你的sitemap地址) Sitemap: https://www.xxx.com/sitemap.xml

  8. # 所有爬虫通用规则

  9. User-agent: *

  10. # 1. 禁止抓取后台、管理目录、隐私目录

  11. Disallow: /admin/


  12. Disallow: /backend/


  13. Disallow: /manage/


  14. Disallow: /login/


  15. Disallow: /register/


  16. Disallow: /member/


  17. Disallow: /user/

  18. # 2. 禁止抓取搜索页、标签页、分页

  19. Disallow: /search/

  20. Disallow: /*?s=

  21. Disallow: /*?q=

  22. Disallow: /*page=

  23. Disallow: /tag/

  24. Sitemap: https://www.fouwan.com/sitemap.xml

三、分场景精细化设置

纯静态博客 / 个人站(最简版)

User-agent: *

 Disallow:/admin/ 

Disallow: /search/ 

Disallow: /*?* 

Allow: / 

Sitemap: https://www.你的域名.com/sitemap.xml

  1. 本文由否玩代码编辑 https://www.fouwan.com