robots.txt怎么设置对优化好能被爬虫抓取到
robots.txt 最优设置(SEO 优化版)
robots.txt 作用:控制搜索引擎爬虫抓取哪些页面 / 目录,合理设置可节省爬虫配额、避免重复收录、保护隐私、提升收录质量。
一、基础语法说明
放在网站根目录(https://域名/robots.txt),核心指令:
User-agent: *:对所有搜索引擎爬虫生效Allow::允许抓取Disallow::禁止抓取Sitemap::提交网站地图(必加,大幅优化收录)二、通用最优配置(90% 网站直接套用)
完整版(适合企业站、博客、资讯、商城)
6. 提交网站地图(SEO核心,替换成你的sitemap地址) Sitemap: https://www.xxx.com/sitemap.xml
# 所有爬虫通用规则
User-agent: *
# 1. 禁止抓取后台、管理目录、隐私目录
Disallow: /admin/
Disallow: /backend/
Disallow: /manage/
Disallow: /login/
Disallow: /register/
Disallow: /member/
Disallow: /user/
# 2. 禁止抓取搜索页、标签页、分页
Disallow: /search/
Disallow: /*?s=
Disallow: /*?q=
Disallow: /*page=
Disallow: /tag/
Sitemap: https://www.fouwan.com/sitemap.xml


