「内容农场」 当之无愧的互联网毒瘤

发布于 2021-10-18  171 次阅读


AI 摘要

自动草稿是指使用计算机程序或软件自动生成文章草稿的过程。使用自动草稿技术可以大大提高写作效率,节约时间和人力成本。这种技术通常基于自然语言处理(NLP)和机器学习算法,将输入的文本转化为完整的文章草稿。自动草稿不仅可以用于写作文章,还可以用于生成各种类型的文档,如报告、新闻稿等。它可以根据用户设定的特定要求和规则,自动选择适合的语言和风格来生成草稿。自动草稿的应用领域很广泛,包括新闻媒体、广告营销、智能客服等。尽管自动草稿技术已经取得了显著的进展,但仍然存在一些挑战,如自然语言理解、语言风格转换等方面的问题。但随着人工智能技术的不断发展,相信自动草稿将会在未来得到更广泛的应用和改进。

在当下的互联网环境中,无论你想打开 Google 搜索什么,占据你第一个搜索结果的往往不是你想要的答案,而是” 小 XXX 网 “,进入网站后,70% 以上的版面被广告所充斥,只有不到 30% 的版面内写着低质量的内容。

什么是内容农场

在维基百科上有关于内容农场的词条

内容农场(英文:content farm)是指为了牟取广告费等商业利益或出于控制舆论、带风向等特殊目的,快速生产大量网络文章来吸引流量的网站。此类网站通常找不到作者、管理者、网站负责人,也不会主动管理产出的内容,对侵权或错误内容投诉的处理也很消极。其产出内容多半都是缺乏原创性且真实性无法保证的内容,且有极高比例是盗用、盗译自他人的原创图文,或由非专业写手胡乱拼凑网络文章而来,因而多半缺乏可靠来源、质量低劣、不具参考价值、传播误导讯息,也经常掺杂大量广告或恶意程序。

在搜索引擎中,这些网站压倒了知乎,CSDN,Bilibili 等老牌网站,尽管上述网站的权重或者流量都压倒性的多余这些农场,但是内容农场们用极高的更新速度欺骗了搜索引擎进行索引,并且可以坐收其成,接入一个 CPM 广告平台,凭借从搜索引擎里引来的廉价流量就可以得到一笔不菲的收入。

image378b1d799439029e.png

为什么搜索引擎会被骗

这里引用一篇知乎回答 浅谈 Google 蜘蛛抓取的工作原理

所有页面都可用于爬行吗?

不。某些页面可能无法用于爬行和索引。让我们仔细看看这些类型的页面:

  • 受密码保护的页面。Googlebot 模拟了匿名用户的行为,该用户没有任何凭据访问受保护的页面。因此,如果页面受到密码保护,它不会被爬行,因为 Googlebot 将无法访问它。,
  • 索引说明排除的页面。这些页面来自 Robots.txt,带有 Noindex 标签、robots 元标签和 X-Robots 标签。
  • 孤儿页面。孤儿页面是网站中任何其他页面中未链接的页面。Googlebot 是一个蜘蛛机器人,这意味着它通过跟踪它找到的所有链接来发现新的页面。如果没有指向页面的链接,则页面将不会被爬行,也不会在搜索中出现。有些页面被限制故意爬行和索引。这些通常是不打算在搜索中显示的页面:具有个人数据、策略、使用条款、页面测试版本、存档页面、内部搜索结果页面等的页面。

    但是,如果您想让您的页面可供爬行并带来流量,请确保您不会保护带有密码、思维链接(内部和外部)的公共页面,并仔细检查索引说明。

抓取预算分配取决于以下因素:

  • 网站人气。网站越受欢迎,谷歌在爬行上愿意花费的爬行点就越多。
  • 更新速率。更新页面的频率越高,您的网站获得的爬行资源就越多。
  • 页数。页面越多,爬行预算就越大。
  • 处理爬行的服务器容量。托管服务器必须能够按时响应爬行器的请求。请注意,爬行预算并非均等地用于每个页面,因为某些页面会消耗更多资源(因为 JavaScript 和 CSS 过重,或者因为 HTML 杂乱无章)。因此,分配的爬行预算可能不足以像您预期的那样快速爬行所有页面。

    除了严重的代码问题外,爬行不良和非理性爬行预算支出的一些最常见的原因是重复内容问题和结构不良的 URL。

而回看这些内容农场,大多数会有大量的内链,几乎没有孤儿页面,且有着常人无法达到的更新速率,这提高了 Googlebot 对他的权重,而用户访问只需要载入网页就可以发现它的实质就是垃圾桶。

「内容农场」 如何毒害互联网

对于创作者

内容创作者们热心撰写文章,却被此类垃圾网站占据本应属于前者的搜索结果位置。创造价值的创作者无法得到应有的报酬,而此类内容农场的经营者却赚的盆满钵满,此类网站对于侵权的处理态度一向暧昧,创作者也无法为自己的内容遭到盗用维权。

对于访问者

此类内容农场大多有着明确的采集方向,比如技术类、养生类文章。如果恰好你的搜索词对上了内容农场的采集方向,比如技术类,则会有半页以上的无用内容,严重干扰了用户应有的访问体验。而对于那些「面向 Stackoverflow 编程」 的新手,无暇在搜索结果中甄别此类网站,直接进入排名靠前的结果,反而为农场主提供了利益,因为 CPM 广告的特性,只要你浏览到了广告且是广告的受众群体,就会给农场主计费,而这份广告费是内容创作者所应得的。

对于互联网

不只是中文互联网,世界互联网都在遭受着内容农场的狂轰滥炸。绝对的利润可以令人不惜犯罪,而此类网站运营的成本相对于它的利润来说微乎其微,所以,内容农场一个又一个的出现,毒害互联网,又有一个一个人了解到他的利润,加入内容农场主的行列,如此往复。

尾声

如果放任此类内容农场发展,虽然作为个人可以通过 AdBlock 规则减少搜索结果中的无用内容,对于我们也许只是浪费时间了,但是对于现在的 10 后呢,一篇低质量的文章可能会严重的干扰他们的三观,更有甚者可能因为此类文章走得更偏,更远。

题外话

已经有半年多没有更新文章了,,,这次属实拖得有点久,虽然有很多点子有了草稿但是想不到如何下手。

下一篇可能会更新关于 IoT 的文章(大概

最后更新于 2024-01-26