当前位置:首页 > 内容营销 > 正文

查找和修复索引膨胀的终极指南

查找和修复索引膨胀的终极指南

您可以采取哪些措施来防止索引膨胀,如何在已经发生的情况下进行清理,以及防止搜索引擎进一步将这些页面编入索引。...

什么是索引膨胀?

索引膨胀是当今网站(尤其是电子商务网站)面临的最常见的 SEO 问题之一。

每当 Google 索引不应被索引的页面时,就会发生这种情况。 由于分页问题、将网站的安全和非安全版本编入索引,甚至允许 Google 为您的 WordPress 博客类别、标签和档案编入索引,几乎所有网站都可能发生索引膨胀。

电子商务网站是索引膨胀最常见的罪魁祸首。 大多数电子商务网站都具有过滤器列表或小部件,允许用户快速找到符合其规格的产品。 例如,亚马逊有“平均客户评论”或“最低价格”的过滤器。 但是,一旦用户选择了特定参数,此类过滤器通常会创建新页面。 当谷歌访问一个网站时,它通常会跟踪网页上的所有链接和按钮,包括过滤器,这可能会导致它索引数千个对谷歌或用户没有独特价值的页面。

为什么索引膨胀是一个问题?

索引膨胀对您的网站来说可能是一个巨大的 SEO 问题。 一方面,这会让搜索引擎感到困惑,尤其是当单个产品类别可能有数千种变体时。 当搜索引擎遇到索引膨胀的网站时,他们可能很难理解哪个页面与搜索者最相关,并且可能会提供不相关的结果——这是谷歌不惜一切代价避免的。

索引膨胀也会导致重复内容问题,因为这些页面通常没有独特的内容或元信息。 请记住,这是 Google 关于重复内容的说法:

重复内容通常是指域内或域间的实质性内容块,它们与其他内容完全匹配或明显相似。 大多数情况下,这并不是在起源上具有欺骗性。

尽管重复的内容不是 Google 尝试获取您的理由,但它对您的网站没有任何好处。 事实上,让您的内容和元信息独一无二要好得多,因为 Google 更喜欢显示可为用户提供他们在其他任何地方都找不到的有用内容的页面。 这一切都有助于更好的用户体验。

索引膨胀还会耗尽抓取预算和频率,阻止 Google 抓取您网站的重要页面和部分并将其编入索引。 如果谷歌关注错误的页面,可能会导致排名、流量以及最终转化率的大幅下降。

我如何知道我的网站是否遇到索引膨胀?

如果您怀疑索引膨胀是最近排名下降的罪魁祸首,有一个简单的方法可以找出答案。 索引膨胀的一个迹象是索引页面数量过多——这个数字远高于您认为 Google 应该索引的页面数量。 如果您的指数最近经历了任何波动,您可能会成为受害者。

转到 Google Search Console,然后单击“Google 索引”下的“索引状态”。 你可能会看到这样的事情:

在这个特定的例子中,我们注意到从 4 月底开始索引页面的数量迅速增加。

然而,查找索引膨胀通常不是那么简单,通常需要更多的调查来确定它是否真的发生了。 网站的索引大小最近可能没有任何波动,或者它们可能没有被索引的可疑页面数量。 在这些情况下,您可以通过在 Google 中的网站进行调查。

这是我们为福布斯所做的一个例子:

通过使用 site: 运营商,您可以将搜索完全限制在指定的网站上。 在此示例中,您可以看到 Forbes 中约有 1,300,000 页已被 Google 编入索引。 (需要注意的是,Google Search Console 和 Google.com 中的索引号通常不匹配,但它们很接近。)

因此,既然我们已经进行了 site: 搜索,我们必须遍历 Google 搜索结果的每个页面,以在可能导致索引膨胀的参数或页面中找到一个共同主题。 有时,您可以通过跳到搜索结果的最后一页来加快此过程,因为 Google 通常会将最不相关的结果存储在最后一页。 像这样:

在这种情况下,我们发现了 Google 从 pingdom.com 索引的近一百个页面,其中保存了页面速度测试。 这些页面在 SEO 方面不会为 Pingdom 增加任何价值,因为它们没有唯一的标题、元信息或内容(除了域的页面加载时间统计)。 这些是您希望在 Google 索引中查找的页面类型,因为它们会不必要地增加索引的大小、耗尽搜索引擎抓取资源并混淆搜索引擎。

修复索引膨胀

现在我们已经确定了一些有问题的页面,我们可以防止搜索引擎通过几种不同的方法将这些页面编入索引,从而减少您网站的索引膨胀。 重要的是要注意,虽然有时只能使用这些方法中的一种,但较大的网站可能需要结合使用它们才能可靠地解决问题。

元机器人标签

元机器人标签很容易成为快速减少索引膨胀的更好选择之一,因为它优先于您的 robots.txt、分页和规范化。 元机器人标签可用于明确告诉搜索引擎它们允许和不允许索引哪些页面。 当您遇到不应编入索引的页面类型时,您只需将以下代码添加到标题中:

 < META NAME="ROBOTS" CONTENT="NOINDEX, FOLLOW">

(注意:在某些情况下,这可能需要以编程方式完成。)

通过指定“NOINDEX, FOLLOW”,你告诉搜索引擎他们不应该索引页面,但他们可以自由地跟随该页面上的任何链接。 这确保搜索引擎仍然可以访问您网站的其余部分,而无需索引页面本身。

Robots.txt 文件

您的 robots.txt 文件可用于告诉搜索引擎和其他漫游器它们允许和不允许抓取您网站的哪些区域(或参数)。

如上所示,可以使用“disallow”指令阻止参数和 URL。 但是,请务必注意,当您使用 robots.txt 文件阻止 Google 时,您的网站仍有可能被编入索引。

我们知道你在想什么:“等等,什么? 我认为通过使用‘禁止’谷歌被阻止访问这些页面!”

这几乎是真的。 robots.txt 文件的真正作用是阻止 Google 抓取该页面,但该页面仍有可能被编入索引-特别是如果该页面是从另一个未被您的 robots.txt 文件阻止的网页链接的。 如果您知道这些页面的链接位置,则可以通过将指向该页面的链接设置为“nofollow”来轻松阻止 Google 将它们编入索引。

您可能会发现 Google Search Console 中的 Google 网址删除工具非常有用,一旦采取了适当的措施以确保它们不会再次被重新编制索引,就可以将这些页面从 Google 的索引中删除。

重定向

您的某些索引膨胀可能是由您网站上不再存在的旧网页引起的。 这些可能会解析为 404 错误。 随着时间的推移,谷歌最终会从索引中删除这些页面,但谁知道这需要多长时间? 您可以加快这一过程,并通过 301 将这些旧网页重定向到最相关的页面,让 Google 额外推动从您的索引中删除这些旧网页。 这也将确保您最大限度地减少从这些页面中丢失的链接汁量。

规范化

规范标签用于告诉搜索引擎哪个版本的页面是其索引的首选 URL。 当同一内容有多个 URL 时,它特别有用。 在标题中添加规范标签指示搜索引擎应该索引页面的哪个版本。 只需确保页面的所有版本(包括首选页面)都应指向相同的首选规范 URL。

分页

当您有超过一页的产品类别、博客文章或搜索页面结果时,通常会发生分页。 由于这些页面具有相同的元信息,因此您必须让搜索引擎知道页面之间的关系,以免将它们识别为重复内容。

添加分页标记也会减少这些被索引的页面数量,因为搜索引擎会更好地理解页面之间的关系,并且知道哪些应该被索引或不应该被索引。

在这些页面的标题中添加分页非常简单。 例如,如果您有一个像 http://www.example.com/blog?category=seo&page=2 这样的页面,那么您可以将以下标签添加到您的标题中:

 < link rel="prev" href="http://www.example.com/blog?category=seo&page=1" /> 
< link rel="next" href="http://www.example.com/blog?category=seo&page=3" />

URL 参数工具

Google Search Console 中的 URL 参数工具可用于告诉 Google 您的 URL 参数对页面内容有何作用。 这个工具只影响谷歌的搜索结果,所以只有在以前的方法失败或不可行的选择时才应该真正使用它。 与本文中列出的许多方法一样,您必须非常小心,不要意外排除应该编入索引的 URL 或为参数指定不正确的行为,因为这会对您的 SEO 工作产生负面影响。

在 URL 参数工具中,Google 将您的参数分为两大类 - 主动参数和被动参数。 正如您可能猜到的,主动参数会改变页面上显示的内容,而被动参数对页面上显示的内容(UTM 源、会话 ID 等)没有影响。

多个操作可以与特定的活动参数相关联,例如分页、翻译、排序、缩小和指定。 您还可以指定几个关于目标 URL 和参数值的选项。 如果您还不熟悉该工具,强烈建议您阅读 Google 的文档,以便彻底了解每个操作的作用。

URL 删除工具

有时,Google 的索引可能相当顽固。 即使在尝试了上述一些方法之后,您仍然可以在 Google 的索引中找到不应该存在的页面。 这种情况最常发生在使用 robots.txt 阻止某个页面并且 Google 仍然对其进行索引时,因为它是从您网站上的另一个页面链接到的。 向该链接添加 nofollow 标签可以防止这种情况发生,但即便如此,您可能会发现这些页面并未从 Google 的 SERP 中删除。 令人沮丧,不是吗?

在这种情况下,您可以随时使用 Google Search Console 中的网址删除工具。 使用此工具,您可以请求 Google 从其索引中删除特定网址。 请求通常在被请求的同一天处理,因此如果所有其他方法都失败,这可以快速删除任何不应该被索引的剩余 URL。

需要注意的是,这是一项临时措施; 如果您没有采取任何措施防止这些页面在以后再次被编入索引,那么它们将在以后 Google 抓取您的网站时返回到 Google 的索引中。

修复索引膨胀回顾

您现在拥有的工具和知识不仅可以找到而且可以解决索引膨胀问题。 现在你应该看看你自己的网站,看看它是否有症状。 确定问题后,请使用以下部分或全部方法进行修复:

  • 元机器人标签
  • Robots.txt 文件
  • 301 重定向
  • 规范化
  • 分页
  • URL 参数工具
  • 网址删除工具

无论是通过这些方法的组合还是全部方法,您都应该能够以一种满足他们要求的方式向 Google 展示您的网站,并为您赢得应有的排名。

注意:本文所表达的观点是作者的观点,并不一定代表卡菲昂及其员工或合作伙伴的观点。

,

最新文章