您好!欢迎访问否玩代码!
广告位

网站Robots与Sitemap配置实战:从屏蔽爬虫到地图提交全流程

栏目: 日期: 浏览:134

许多人在建好站点之后, 就将robots.txt以及sitemap搁置在一旁, 其结果是, 搜索引擎抓取了一堆无关紧要的页面, 然而核心内容反倒没有被收录。今天这篇文章直接给出操作步骤, 不会讲任何拖沓多余的话。

Robots.txt到底该怎么写才管用

首先, robots.txt是搜索引擎爬虫进入你网站所看见的最先一份文件, 随后, 它会向爬虫表明哪些内容是能够抓取的、哪些内容不可以进行抓取。然而,存在许多人, 这些人要么是没有去写出robots.txt文件, 要么是将其写错了, 要么是写得过于宽松。

理应采取的正确做法是: 仅仅去屏蔽那些确实真正不需要进行收录的目录。举例来说像后台管理所对应的路径 , 还有临时文件所归属的目录 , 以及翻页参数相关的URL。不能够不管三七二十一全部让其通行 , 也绝对不要采取简单粗暴一刀切的方式而全部予以禁止。

举个例子,WordPress站最常见的配置:

User-agent: *  
Disallow: /wp-admin/  
Disallow: /wp-includes/  
Disallow: /feed/  
Allow: /  
Sitemap: https://你的域名/sitemap.xml

在这儿, 关键之处就在于, 要将Sitemap地址直接写入robots.txt, 以此便于爬虫能够在第一时间发觉。可千万别小瞧这一行, 好多新手恰恰就是遗漏了它, 进而致使地图提交之后, 长时间都不被索引。

此外需要留意, robots.txt不支持将规则用过于复杂的通配符形式来撰写, 因为如此爬虫在进行解析时容易出现错误情况。而正确的做法是要保持简单、明确, 仅屏蔽那些必要的路径。

Sitemap制作提交怎么操作最有效

网站地图可不是随手弄出个XML就往服务器上一放就成, 你要保证它的结构是正确无误的, 它所涵盖的内容是完整无缺的, 它的更新是及时不滞后的。

制作工具建议选用Screaming Frog免费版, 亦或是在线生成器用来扫一遍所有网站的有效URL, 之后进行去重的操作, 再者过滤了带有参数的、可疑的那些接, 还要检查一下有没有404页面不小心加进来, 这一步不少人偷懒, 结果地图中满是错的接, 搜索引擎紧接着直接就降权了。

提交方式分两步走:

第一步,把生成的sitemap.xml放到网站根目录。

第二步, 登陆百度资源平台, 登陆Google Search Console, 在“站点地图”模块, 分别提交这个地址。

慎重留意, 务必要于robots.txt之中也添写sitemap地址, 以此形成双重保障。在提交之后仔细观察状态, 要是呈现出“解析失败”的状况, 很大概率是链接格式或者编码方面出现了问题。认真核查XML头部有没有声明编码, URL是不是采用了绝对路径, 并且最后一条链接之后绝不能有多余空间或者空行呀。

有个坑不少人踩到: 更改网站架构后忘掉把sitemap更新, 提议设定定时任务, 每星期自动再度生成一回, 或者借助插件自动引发刷新。搜索引擎爱看新鲜的sitemap, 搁置三个月未动的内容地图, 收录效率会急剧下滑。

否玩代码编辑 https://www.fouwan.com