Semalt Expert:防止Google爬行旧站点地图的指南

随着网站的发展,您将尽最大努力找到提高其在互联网上的知名度和信誉的方法。有时,我们的网站过去的工作效果仍然落后,这是我们应该注意的地方。

请访问Semalt客户成功经理Max Bell的以下提示,以防止Google抓取旧网站。

几周前,我的一位客户告诉我他有一个电子商务网站。它经历了各种变化:从URL结构到站点地图,所有内容都进行了修改以使站点更加可见。

客户注意到他的Google Search Console中的某些更改,并在那里找到了抓取错误。他观察到,有大量的旧URL和新URL都在生成假流量。但是,其中一些显示“访问被拒绝403”和“未找到404”错误。

我的客户告诉我,他遇到的最大问题是根文件夹中存在一个旧的站点地图。他的网站以前使用过各种Google XML Sitemaps插件,但现在他依靠Yoast的WordPress SEO来制作站点地图。但是,各种旧的站点地图插件给他带来了混乱。它们存在于名为sitemap.xml.gz的根文件夹中。由于他开始使用Yoast插件为所有帖子,页面类别和标签创建站点地图,因此他不再需要这些插件。不幸的是,此人没有将sitemap.xml.gz提交给Google Search Console。他只提交了Yoast网站地图,而Google也在抓取他的旧网站地图。

爬行什么?

该人员未从根文件夹中删除旧站点地图,因此也已将其索引。我回过头来向他解释说,站点地图仅是搜索引擎结果中应爬行内容的建议。您可能认为删除旧的站点地图将阻止Google抓取已失效的URL,但这不是事实。根据我的经验,Google会尝试每天多次索引每个旧的URL,以确保404错误是真实的,并非偶然。

Googlebot可以存储将在您网站的站点地图中找到的旧链接和新链接的内存。它会定期访问您的网站,以确保正确索引每个页面。 Googlebot会尝试评估链接是否有效,以使访问者不会遇到任何问题。

显然,当爬网错误数量增加时,网站管理员会感到困惑。他们所有人都希望在很大程度上减少它。如何通知Google忽略所有旧站点地图?您可以通过杀死所有不需要的奇数站点地图爬网来实现。以前,唯一可行的方法是.htaccess文件。感谢WordPress为我们提供了一些插件。

WordPress网站的根文件夹中有此文件。因此,您只需要访问FTP并启用cPanel中的隐藏文件。转到文件管理器选项,根据您的要求编辑此文件。您不要忘记错误地编辑它会损坏您的网站,因此您应该始终备份所有数据。

将代码段添加到文件后,所有过期的URL都会立即从“抓取错误”中消失。您不应忘记Google希望您保持网站正常运行,从而减少404错误的可能性。