当前位置:首页 > 内容营销 > 正文

避免 SEO 蜘蛛陷阱:如何摆脱困境

避免 SEO 蜘蛛陷阱:如何摆脱困境

以下是 SEO 蜘蛛陷阱的含义,为什么需要避免它,最重要的是,如果您的网站成为受害者,您需要做些什么。...

作为一名 SEO 顾问,我听到了与网站排名有关的各种担忧。 然而,最后要提到的一个,如果有的话,就是“蜘蛛陷阱”。 由于如此关注优质内容、获取链接和创建动态社交网络,网络爬虫的重要性往往被忽视。

解开通常是一个复杂的网络(双关语); 然而,识别和修复蜘蛛陷阱是可能的,也是确保您的网站得到应有关注的必要步骤。

什么是蜘蛛陷阱?

蜘蛛陷阱(或爬虫陷阱)是一组网页,可能有意或无意地用于导致网络爬虫发出无限数量的请求或导致构建不良的爬虫崩溃。

当站点创建的系统产生无限的 URL 或“垃圾”页面时,就会发生这种情况。 这种结构性问题会导致网络爬虫卡在或困在您的“垃圾”页面中。

我们知道这些“蜘蛛”或“机器人”对于抓取我们的网站、索引我们的内容并最终将其展示给我们的目标受众至关重要。 因此,如果一个网站不允许蜘蛛无缝地通过它,蜘蛛将达到其分配的带宽限额并移动到下一个网站。

在这种情况下,该网站将被视为“不太理想”,并会根据竞争对手的排名进行降级。 如果问题很广泛,网站的某些页面可能永远不会出现在 SERP 中,因此永远不会被看到。

蜘蛛陷阱是什么样子的?

常见的蜘蛛陷阱有四种主要类型——每一种看起来都不一样,需要不同的识别方法。 他们包括:

  1. 永无止境的网址:无限不同的网址指向具有重复内容的同一页面。
  2. Mix and Match Trap :相同的信息以无数种不同的方式呈现(例如,数百万种不同的方式来对 1000 种产品的列表进行排序和过滤)。
  3. 日历陷阱:技术上独特的页面,但没有提供有用的信息(例如,未来数千年的事件日历)。
  4. 会话 ID 陷阱:几乎重复的页面存在一些无限的细节差异。

永无止境的网址

是什么原因造成的?

处理永无止境的 URL 陷阱就像那首校园歌曲一样令人讨厌。 它几乎可以隐藏在任何网站中,并且通常是由于相对 URL 格式不正确或服务器端 URL 重写规则结构不合理造成的。

你如何识别它?

在 Web 浏览器中看到此陷阱的结果并不常见,因为它深埋在网站的导航页面中。 但是,要找到它,您需要一个网站爬虫。 如果网站在使用基于爬虫的工具时出现此特定问题,则会发生以下情况:

  • 爬行将暂时正常运行,因为蜘蛛陷阱是不可见的,直到爬行器到达站点上的“垃圾”页面。
  • 在某些时候,已爬取的 URL 列表将开始采用一种奇怪的形式,其中每个新 URL 只是前一个 URL 的扩展版本。
  • 随着抓取的继续,URL 会变得越来越长,因为“它一直在我的朋友身上……”(你明白我的意思)。

例如:

 http://yourdomain.com/yourpage.php
http://yourdomain.com/abcd/yourpage.php
http://yourdomain.com/abcd/abcd/yourpage.php
http://yourdomain.com/abcd/abcd/abcd/yourpage.php
http://yourdomain.com/abcd/abcd/abcd/abcd/yourpage.php
http://yourdomain.com/abcd/abcd/abcd/abcd/abcd/yourpage.php
http://yourdomain.com/abcd/abcd/abcd/abcd/abcd/abcd/yourpage.php
http://yourdomain/abcd/abcd/abcd/abcd/abcd/abcd/abcd/yourpage.php...

你如何解决它?

使用用于定位陷阱的爬虫工具,将功能工具设置为按 URL 长度排序。 执行此操作后,选择最长的 URL,您将找到问题的根源。 在此之后,筛选相关页面的源代码以查找任何进一步的异常是很重要的。

如果您精通编程,则有解决问题的技术解决方案。 禁止 robots.txt 文件中的违规参数或添加服务器端规则以确保 URL 字符串不超过最大限制。

混搭陷阱

是什么原因造成的?

当站点有许多以多种方式排序和过滤的项目时,就会发生此陷阱。

当蜘蛛很明显可以混合、匹配和组合各种过滤器类型时,由于所有可用选项,它将通过一系列过滤器在无限、永无止境的循环中发送。

常见过滤器的使用,例如颜色、尺寸、价格或每页的产品数量,是可能给爬虫带来问题的众多标签中的一部分。

你如何识别它?

寻找拉长的 URL 字符串和各种重复出现的过滤标签。 爬虫工具中永无止境的循环再次成为一个危险信号,突出表明您的网站可能未配置为以 SEO 友好的方式处理分面导航。

请注意这个蜘蛛陷阱如何导致过滤的页面被索引,这可能会削弱网站的排名潜力。

你如何解决它?

这是最难修复的陷阱之一,除了非常无用之外,我的最佳建议是首先不要制造问题。 在设置您的网站时,请尽量限制您提供的过滤器数量。 一些提示包括:

  • 考虑首先在 JavaScript 中实现混合和匹配过滤。
  • 通过使用 robots.txt 阻止过滤器过多的页面来限制陷阱的范围。 执行此操作时要小心确保平衡 - 阻止太多,爬虫将无法再找到您的产品。

日历陷阱

是什么原因造成的?

日历陷阱的发生不是技术疏忽的结果。 相反,它是与时间相关的合法 URL,它作为一个无限的属性可以创建无数的 URL。 正如我们已经知道的那样,这可能会导致重大问题。

你如何识别它?

这是一种相对容易理解、发现和解决的蜘蛛陷阱。 如果您的网站上有一个日历,让查看者可以导航和预订活动,并且它一直延伸到 3016,那么您的网站很可能陷入了日历陷阱。

你如何解决它?

在“超出合理日期”年份使用“noindex,nofollow”元标记作为选项。 或者使用 robots.txt 文件禁止在特定时间范围之外使用任何特定于日期的 URL。 如今,事实证明这有点不常见,因为大多数网站插件和自建网站都已将这些考虑因素内置到其基础架构中。

会话 ID 陷阱

是什么原因造成的?

会话 ID 蜘蛛陷阱在较大的电子商务网站上很常见。 它们嵌入在网站的 URL 中,从根本上用于跟踪客户从页面到页面的购物。

然而,当它们为蜘蛛爬行创建大量链接时,ID 会导致问题。 搜索引擎将一遍又一遍地索引同一个页面,只需对 URL 进行很小的更改。

你如何识别它?

当爬行展开时,注意 URL 字符串中的“jsessionid”、“sid”、“affid”或任何类似的标签,相同的 ID 在蜘蛛可以成功移动到下一个包含 ID 的 URL 字符串的点之外重复出现.

 http://example.com/somepage?jsessionid=E8B8EA9BACDBEBB5EDECF64F1C3868D3
http://example.com/otherpage?jsessionid=E8B8EA9BACDBEBB5EDECF64F1C3868D3
http://example.com/somepage?jsessionid=3B95930229709341E9D8D7C24510E383
http://example.com/otherpage?jsessionid=3B95930229709341E9D8D7C24510E383
http://example.com/somepage?jsessionid=85931DF798FEC39D18400C5A459A9373
http://example.com/otherpage?jsessionid=85931DF798FEC39D18400C5A459A9373

你如何解决它?

要解决此问题,从所有可用的重定向和链接中删除会话 ID 至关重要。

蜘蛛陷阱对您的 SEO 有什么作用?

应该不惜一切代价避免蜘蛛陷阱,因为它会降低您网站被抓取和编入索引的能力,这反过来又会极大地影响您的整体有机可见性和排名。

蜘蛛陷阱的发生原因各不相同,但它们对您的 SEO 都有相同的结果,包括:

  • 迫使搜索引擎将大部分抓取预算浪费在加载无用的、几乎重复的页面上。 结果,搜索引擎通常忙于这个,以至于他们永远不会加载所有可能排名良好的真实页面。
  • 如果陷阱生成的页面是“真实”页面(例如产品页面、博客文章等)的副本,那么这可能会通过稀释链接权益来阻止原始页面的排名。
  • 像 Google Panda 这样的质量排名算法可能会给该网站一个糟糕的分数,因为该网站似乎主要由低质量或重复的页面组成。

所以,你有它:定位和移除蜘蛛陷阱的完整指南。 它们源自多种原因,并且其严重程度各不相同。

然而,它们都被证明是任何网站成功的主要障碍。 在发现自己陷入这个粘性网络之前,请务必进行研究。

注意:本文所表达的观点是作者的观点,并不一定代表卡菲昂及其员工或合作伙伴的观点。

,

最新文章