谷歌搜索黑箱：巨型“偏见制造机”？- 大数跨境

首页

谷歌搜索黑箱：巨型“偏见制造机”？

QuriositySISU

2024-11-19

导读：这个全球最大的搜索引擎并非提供信息的客观机器。它不仅会看人下菜，还会自相矛盾。

(Credit: Serenity Strull/ BBC)

全文字数：2718字 / 阅读时间：9分钟

BBC近日报道指出，有人发现谷歌搜索其实是一个巨型“偏见制造机（bias machine)”。

在美国总统大选期间，有人发现，他们提出同一个问题，谷歌给出的结果却截然不同。

提问

"哈里斯是一位好的民主党候选人吗？"

谷歌会给出相当正面的回答。靠前的链接包括皮尤研究中心的民意调查，结果显示:

"Harris energises Democrats".

"哈里斯让民主党人精神振奋"

还有美联社的报道，标题为:

《大多数民主党人认为哈里斯会成为一位优秀的总统》

"哈里斯是一位糟糕的的民主党候选人吗？"

谷歌则会给出明显负面的结果，多数是批评哈里斯的声音。

靠前的内容包括理由（Reason）杂志中指出:

"It's been easy to forget how bad Kamala Harris is"

"人们很容易忘记哈里斯有多糟糕"

以及半岛电视台的一篇解释性报道:

"Why I am not voting for Kamala Harris"，

"我为什么不给哈里斯投票"

还包括Reddit上，网友不断讨论哈里斯为何不适合当候选人。

更有甚者，谷歌设置在搜索顶部的特色摘要*会从一篇文章中提炼出自相矛盾的信息，分别支持正反两方观点。

译注：

The Featured Snippet：谷歌经常从网络上提取信息，并将其显示在搜索结果的顶部，以提供快速答案，谷歌称之为“特色摘要”。

有时谷歌会从完全相同的网页中提取相互矛盾的信息（图片来源：Sarah Presch）

搜索"咖啡与高血压之间的联系"和"咖啡与高血压之间没有联系"时，特色摘要引用了同一篇文章中相互矛盾的句子。

搜索"ADHD（多动症）是由糖引起的吗"和"ADHD不是由糖引起的"时，也发生了同样的情况。

Some experts say Google is just parroting your own beliefs right back to you. It may be worsening your own biases and deepening societal divides along the way.

一些专家认为，谷歌只是在鹦鹉学舌，搜索论据支撑用户自身的观点。这会导致个人偏见的强化，也会让社会舆论走向极化。

谷歌搜索在全球有十几亿用户，每秒处理约630万个查询，每天总计超过90亿次搜索。一项追踪用户眼球运动的研究发现，人们常常只看前几条搜索结果的内容。谷歌搜索结果的排序机制直接影响人们对世界的认知。

"We're at the mercy of Google when it comes to what information we're able to find," says Varol Kayhan, an associate professor of information systems at the University of South Florida in the US.

美国南佛罗里达大学信息系统副教授瓦罗尔凯汗（Varol Kayhan）认为，"在信息获取方面，我们只能受谷歌的摆布。"

谷歌搜索的工作原理是什么？

从输入搜索词到显示搜索结果，谷歌有自己的“三步走”：抓取、索引、呈现搜索结果。

第一步：抓取 (Crawling)

谷歌用名为爬虫（crawlers）的自动化程度来找出网络上有哪些网页。爬虫从一个网页出发，跟踪页面上的链接跳到另一个页面，不断收集信息，并完成相关文本、图片和视频的下载。

第二步：索引(Indexing)

在抓取到网页内容后，谷歌会通过索引过程对这些信息进行分析和存储。谷歌的索引就像一个巨大的数据库，里面储存着数十亿的网页内容，保障用户快速得到相关的搜索结果。

第三步：展示搜索结果 (Displaying Search Results)

当用户输入搜索查询时，谷歌的排名算法（ranking algorithm）会将最相关和最有用的搜索结果顺序排列。

这样的搜索机制看似完善，却可能导致一些信息在搜索结果中过度展示或完全不展示，从而导致信息呈现出现不均衡的情况。

搜索偏差是如何形成的？

为了“迎合”用户，谷歌的算法会全方位分析用户的行为。

用户点击率是谷歌形成个性化搜索结果的因素。如果某个链接被大量用户点击，谷歌可能会认为该结果对搜索关键词更相关，从而提升其排名。同时，如果某些搜索结果被频繁忽略，谷歌可能会降低其排名。用户的点击行为让谷歌算法判断用户想看什么。

谷歌还会记录用户的过去搜索内容，并利用这些历史数据来预判其兴趣偏好。如果一个用户经常搜索“旅游景点”或“户外活动”，那么当他们搜索类似主题时，谷歌会优先展示与这些主题相关的结果。

用户在页面上的停留时间也会影响搜索结果。如果用户点击某个链接后立即返回搜索页面，谷歌会认为该页面可能没有满足用户的需求，可能会降低这个网页的排名。相反，如果用户在某个页面停留较长时间，谷歌会认为该内容有用，可能会提高该页面的排名。

谷歌还会参考用户的社交媒体分享情况。当用户分享一篇文章或对进行点赞和评论，谷歌可能会认为该内容更受欢迎，从而提高其在搜索结果中的位置。

除了用户的主观操作，用户的设备类型和位置也会导致搜索偏差。谷歌会根据设备和位置信息来提供更适合相关设备阅读的网页和本地化的内容。例如，移动设备用户可能会优先看到移动优化过的网页；在不同地理位置的用户可能会看到与当地相关的搜索结果。

"What Google has done is they've pulled bits out of the text based on what people are searching for and fed them what they want to read," says Sarah Presch, digital marketing director at Dragon Metrics. "It's one big bias machine."

Dragon Metrics的数字营销总监莎拉·普雷斯奇说:“谷歌所做的就是根据人们搜索的内容从文本中提取部分内容，并提供他们想读的内容。这是一台巨大的偏好机器。”

还有哪些因素会影响谷歌搜索的结果？

(Credit: Serenity Strull/ BBC)

尽管搜索结果受用户行为（user signal）影响颇大，网页内容质量本身也是算法考虑的因素。

谷歌倾向于优先展示内容丰富、具有深度且来自权威网站的页面。特别是在医学、法律等专业领域，谷歌偏向于显示由专业机构或知名专家提供的内容。但是，谷歌也存在过度依赖表面信息的问题。算法往往会先考虑塞满技术的文本，而忽略了包含科学引用内容或没有个人偏见的客观语言。

关键词的相关性（keyword relevance）也是决定排名的因素。谷歌会分析网页的不同部分，比如标题、描述、标题标签。当网页内容中出现的关键词与用户查询词的匹配程度高度关联时，谷歌会判定该网页与用户需求相关，并提升其出现在用户搜索界面的位置。

影响谷歌搜索结果排名的还有外部链接（backlinks）。当一个网页有很多指向它的高质量外部链接时，谷歌会认为该网页内容更有价值、更可信。具有很高的价值和可信度。在数量与质量中，谷歌将天平倾向质量一侧。来自权威和相关网站的少量外部链接，会胜于来自大量低质量网站的链接。

在过去两年中，谷歌已经逐渐将人工智能技术融入其排名算法中。通过引入理解用户意图、处理自然语言、跨媒体搜索的系统，提高搜索引擎对内容的理解，AI技术会让搜索引擎的判断更为精确。但谷歌也承认，人工智能工具可能会提供不准确的信息，从而干扰用户的信息获取。

因此，作为互联网用户，如果你希望自己获得最公正、准确和有用的信息，那么你可能不能完全依赖谷歌算法来完成自己的搜索工作。

原文链接：

https://www.bbc.com/future/article/20241031-how-google-tells-you-what-you-want-to-hear

https://www.statista.com/statistics/195140/new-user-generated-content-uploaded-by-users-per-minute/

https://www.bbc.com/future/article/20240524-how-googles-new-algorithm-will-shape-your-internet

https://www.theguardian.com/technology/2024/nov/03/the-chatbot-optimisation-game-can-we-trust-ai-web-searches

https://www.linkedin.com/pulse/how-does-google-search-engine-works-step-by-step-guide-chetan-savani-trpmf

https://www.pageonepower.com/linkarati/is-google-biased

编译 | 方元、郑沐尧、张哲晴

排版 | 姜涵子

编辑 | 彭茨涵

点击关注，携手成长👇

【声明】内容源于网络

QuriositySISU

编译全球年轻新风尚滋养你的优质好奇心SISU国际新闻编译实践项目平台

内容 1081

粉丝 0

QuriositySISU 编译全球年轻新风尚滋养你的优质好奇心SISU国际新闻编译实践项目平台

总阅读203

粉丝0

内容1.1k