文章来源《一本书读懂ChatGPT》
ChatGPT给传统搜索引擎带来哪些巨大挑战?
在当今人们的日常生活、学习、工作中,搜索引擎起着非常重要的作用,例如,当一个人需要购买手机时,第一反应都是去百度或谷歌上搜索手机型号、性能参数、售价等信息,可以说搜索引擎是信息时代人们重要的信息助手。
ChatGPT出现以后,人们欣喜地发现,相比于谷歌搜索抓取数十亿个网页内容编制索引,然后按照最相关的答案对其进行排名,包含链接列表来让你点击,ChatGPT却直接基于它自己的搜索和信息综合给出单一答案,回复流程更加简便。
ChatGPT的出现使聊天界面式搜索引擎对传统的搜索方式提出了挑战。
此外,ChatGPT的问答机制、数据训练模型、知识搜索能力等,被认为为下一代搜索引擎技术的发展给出了新的发展思路。
ChatGPT与搜索引擎之间有什么区别和联系?
ChatGPT能否改变搜索引擎的发展方向,甚至取代搜索引擎?
本章将从传统搜索引擎技术、ChatGPT与传统搜索引擎的区别、ChatGPT会对搜索引擎产生改变的几个方面进行详细介绍。
一 搜索引擎及其技术架构
互联网上信息浩瀚万千,且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎为用户绘制了一幅一目了然的信息地图,供用户随时查阅。
搜索引擎是互联网发展的最直接的产物,它可以帮助我们从海量的互联网资料中找到我们查询的内容,也是我们日常学习、工作和娱乐不可或缺的查询工具。
到底什么是搜索引擎?
搜索引擎有着怎样的技术架构?
其工作原理是什么?
(一)什么是搜索引擎?
1990年,由加拿大蒙特利尔麦吉尔大学的三名学生艾伦·埃姆蒂奇(Alan Emtage)、彼得·道奇(Peter Deutsch)、比尔·惠兰(Bill Wheelan)发明的Archie(Archie FAQ)被视为搜索引擎的鼻祖。
最初,艾伦·埃姆蒂奇等想到了开发一个可以用文件名查找文件的系统,于是便有了第一个搜索引擎——Archie。
从此以后,搜索引擎开始走进人们的视野之中。
现如今,几乎每个人上网都会使用搜索引擎,搜索引擎已成为人们学习、工作和生活中不可缺少的平台。
所谓搜索引擎,是指根据一定的策略、运用特定的计算机程序从互联网上收集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索的相关信息展示给用户的系统。
简而言之,搜索引擎就是从互联网上收集信息,并为用户提供服务的软件系统。
从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回与用户输入的内容相关的信息列表。
搜索引擎可以说是伴随互联网的发展而产生和发展的,最初的Archie实际上是第一个自动索引互联网上匿名FTP(文件传输协议)网站文件的程序,它和我们今天所使用的真正意义上的搜索引擎还有着很大差距。
尽管如此,Archie的诞生仍然有着跨时代的意义。
Archie有一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。
由于Archie一经推出就深受当时互联网用户的欢迎,受其启发,美国内华达州的系统计算机服务大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ),自此以后,搜索引擎不断发展完善,时至今日搜索引擎大致经历了四代的发展。
第一代搜索引擎——分类目录时代。
分类目录时代的搜索引擎的特点在于它会最终将收集到的信息放在同一个网站中。
该阶段搜索引擎会收集互联网上各个网站的站名、网址、内容提要等信息,并将它们分门别类地编排到一个网站中,用户可以在分类目录中逐级浏览并寻找相关的网站。
1994年Lycos诞生,它作为第一代真正基于互联网的搜索引擎,采用的就是以人工分类目录方式为主,代表厂商是雅虎,特点是人工分类存放网站的各种目录,用户通过多种方式寻找网站,现在也还有这种方式存在,搜狐目录、hao123等就是典型的分类目录时代搜索引擎的代表。
第二代搜索引擎——文本检索时代。
随着网络应用技术的发展,用户开始希望对内容进行查找,也就是利用关键字来查询,由此出现了第二代搜索引擎,一些早期的搜索引擎,如AltaVista、Excite等都是这个时代的代表。
在文本检索时代,搜索引擎建立在网页链接分析技术的基础上,能够覆盖互联网的大量网页内容,使用关键字对网页搜索,搜索引擎可以对用户输入的查询信息进行各种运算,分析网页的重要性后,进而判断其与目标网页内容相关程度的高低,并返回相关度高的网页给用户。
第三代搜索引擎——整合分析时代。
随着网络信息的迅速膨胀,用户希望能快速并且准确地查找到自己所要的信息,搜索引擎进入了整合分析时代,因此出现了第三代搜索引擎。
到了整合分析时代,搜索引擎会通过外部链接的数量来判断一个网站的流行性和重要性,然后再结合网页内容的重要性和相似程度来完善反馈信息的质量,最后还会将反馈回来的海量信息,智能整合成一个门户网站形式的界面,而不是像文本检索时代返回一个没有分类的链接清单。
相比于前两代,第三代搜索引擎更加注重个性化、专业化、智能化,使用自动聚类、分类等人工智能技术,采用区域智能识别及内容分析技术,利用人工介入,实现技术和人工的完美结合,增强了搜索引擎的查询能力。
最早使用这种整合分析的是谷歌,随之而来的是我国的百度,这些整合搜索引擎以其宽广的信息覆盖率和优秀的搜索性能为发展搜索引擎技术开创了崭新的局面。
整合分析不仅使谷歌和百度等商业搜索引擎公司大获成功,引发了全新的互联网运营模式革新,还在当时引起了学术界和其他商业搜索引擎的极度关注。
第四代搜索引擎——用户中心时代。
随着信息多元化的快速发展,用户就需要数据全面、更新及时、分类细致的搜索引擎,这种搜索引擎采用特征提取和文本智能化等策略。
在这种情况下,相比于前三代搜索引擎,更准确有效的第四代搜索引擎出现,也就是我们今天说到的用户中心时代搜索引擎。
以用户为中心就是当用户查询时,需要充分挖掘用户的深层次需求,实现精准化的用户定位和营销,例如,当搜索关键词“手机”时,对于不同职业和不同年龄段的用户来说,他们的需求是不同的。
甚至同一个用户,也会因为时间和场合的不同而有不同的需求。而要通过用户输入的简短关键词来判断用户的真正需求,就需要搜索引擎能够真正了解用户。
搜索引擎可以通过用户搜索时的大量特征,例如,上网的时间、操作习惯、搜索内容等,去逐渐勾勒用户的大致特征,例如,性别、年龄阶段、兴趣爱好等,这些数据就是搜索引擎进行“商业数据挖掘”的巨大宝藏。
(二)搜索引擎的类型
交互式搜索引擎、第三代搜索引擎、第四代搜索引擎、桌面搜索、地址栏搜索、本地搜索、个性化搜索引擎、专家型搜索引擎、购物搜索引擎、自然语言搜索引擎、新闻搜索引擎、MP3搜索引擎、图片搜索引擎……
现如今,各式各样的搜索引擎名称扑面而来,让人眼花缭乱。
乱花渐欲迷人眼,在纷繁复杂的互联网世界中,如何尽快熟悉如此众多类型的搜索引擎,又如何利用各种搜索引擎作为网络营销工具呢?
只有对搜索引擎的种类有一个比较清晰的认识,才能更好地认识到其内在运行原理,选择适合使用的搜索引擎类型。
尽管搜索引擎有各种不同的表现形式和应用领域,但根据工作方式搜索引擎主要可以分为全文搜索引擎、目录索引。
全文检索引擎是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。
这个过程类似于通过字典中的检索字表查字的过程。国内著名的全文搜索引擎有百度,国外则是谷歌。
它们从互联网提取各个网站的信息(以网页的文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
全文检索主要分为按字检索和按词检索两种。
按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。
对于各种不同的语言而言,字有不同的含义,例如,英文中字与词实际上是合一的,而中文中字与词有很大分别。
按词检索是指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。
英文等西方文字由于按照空白切分词,因此,实际上与按字处理类似,添加同义处理也很容易。
中文等东方文字则需要切分字词,以达到按词索引的目的。
关于这方面的问题,是当前全文检索技术尤其是中文全文检索技术中的难点。
全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。
一般来说,全文检索需要具备建立索引和提供查询的基本功能,此外现代的全文检索系统还需要具有方便的用户接口、面向WWW的开发接口、二次应用开发接口等。
功能上,全文检索系统核心具有建立索引、处理查询、返回结果集、增加索引、优化索引结构等功能,外围则由各种不同应用具有的功能组成。
结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等,加上各种外围应用系统等共同构成了全文检索系统。
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。
目录索引中如以关键词搜索,返回的结果和搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。
目录索引虽然有搜索引擎功能,但严格意义上不能称为真正的搜索引擎。
用户完全不需要依靠关键词查询,只是按照分类目录找到所需要的信息。
目录索引中,国内有代表性的是新浪、搜狐、网易分类目录和国外的雅虎网站。
其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。
如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。
目录索引完全依赖手工操作。
用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。
目录索引对网站的要求高,有时即使登录多次也不一定成功。
尤其像雅虎这样的超级索引,登录更是困难。
登录目录索引时则必须将网站放在一个最合适的目录中。目录索引要求手工填写网站信息,还有各种各样的限制。
更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。
除了全文搜索引擎和目录索引以外,还有元搜索引擎,它也是比较常见的搜索引擎类型。
元搜索引擎是一种调用其他独立搜索引擎的搜索引擎,其能对多个独立搜索引擎进行整合、调用并优化结果。
独立搜索引擎主要由网络爬虫、索引、链接分析和排序等部分组成;元搜索引擎由请求提交代理、检索接口代理、结果显示代理三部分组成,不需要维护庞大的索引数据库,也不需要爬取网页。
“元”可以理解为数据的数据,如这篇文章的字数多少、大小多少等信息。
抽象来说,元搜索引擎就是收集和处理搜索引擎的搜索引擎。
具体来说,元搜索引擎就是整合了很多种搜索引擎的数据,同时提供给用户。
元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。
著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具有代表性的是搜星搜索引擎。
在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。
请求提交代理就是将请求分发给独立搜索引擎。
元搜索引擎可以按照用户需求和偏好请求实际需要调用独立搜索引擎,该方式能够有效提升用户查询的准确率和响应效率。
检索接口代理是将查询内容转化成独立搜索引擎能够接受的模式,并且保证不会丢失必需的语义信息。
结果显示代理是元搜索引擎按照用户的需求采用不同的排序方式对结果进行去重排序。
元搜索引擎常用的排序方式有:相关度排序、时间排序、搜索引擎排序等。
元搜索引擎的整体工作流程如下:
首先,用户通过网络访问元搜索引擎并向服务器发出查询,服务器接收到查询内容后,先访问结果数据库,查询近期记录中是否存在相同的查询,如果存在,返回结果。
其次,如果没有,将查询进行处理后分发到多个独立搜索引擎,并集中各搜索引擎的查询结果,结合排序方式对结果进行排序,生成最终结果并返给用户,同时保存现有结果到数据库中,以备下次查询使用。
最后,保存的查询结果有一定的生存期,超过一定时间的记录就会被删除,以保证查询结果的时效性。
除此以外,还有其他非主流搜索引擎形式。例如,集合式搜索引擎,该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,例如,HotBot在2002年底推出的搜索引擎。
门户搜索引擎AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
免费链接列表(FFA)一般指简单的滚动链接条目,少部分有简单的分类目录,不过规模要比雅虎等目录索引小很多。
垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。垂直搜索引擎是针对某个行业的专业搜索引擎,是搜索引擎的细分和延伸,对特定人群、特定领域、特殊需求提供服务。
它的特点是专业、精确和深入。
垂直搜索引擎将搜索范围缩小到极具针对性的具体信息。
垂直搜索引擎的结构与通用搜索系统类似,主要由三部分构成:爬虫、索引、搜索。
但垂直搜索的表现方式与谷歌、百度等搜索引擎在定位、内容、用户等方面存在一定的差异,所以它不是简单的行业搜索引擎。
用户使用通用搜索引擎时,通常是通过关键字进行搜索,该搜索方式一般是语义上的搜索,返回的结果倾向于文章、新闻等,即相关知识。
垂直搜索的关键字搜索是放到一个行业知识的上下文中,返回的结果是消息、条目。
例如,对于有购房需求的人来说,他们希望得到的信息是供求信息而不是关于房子的文章和新闻。
不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(如机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等),例如,国内的酷讯、去哪儿、携程等,携程只针对机票、旅行信息进行收集和处理,国外的Pinterest主要针对图片进行收集和处理,在其特定的搜索领域有更好的用户体验。
相比于通用搜索引擎动辄需要数千台检索服务器,垂直搜索具有需要的硬件成本低、用户需求特定、查询的方式多样等特点。
(三)搜索引擎的技术架构
作为互联网最具技术含量的应用之一的搜索引擎每天都在为几十亿的用户服务。
用户除了知道在百度搜索框里输入一个“苹果”,点击百度返回的页面外,可能对搜索引擎就知之甚少了。
在用户没有看到结果之前,搜索引擎依靠着复杂的架构和算法,收集并处理了海量的数据,同时还为用户提供尽可能准确的搜索信息,因此搜索引擎是各种高深算法和复杂系统实现的完美结合,优秀的搜索引擎需要复杂的架构和算法,以此来支撑对海量数据的获取、存储,以及对用户查询的快速而准确的响应。
因此,从架构层面,搜索引擎需要能够对以百亿计的海量网页进行获取、存储、处理的能力,同时要保证搜索结果的质量。
如何获取、存储并计算如此海量的数据?
如何快速响应用户的查询?
如何使搜索结果能够满足用户的信息需求?
这些都是搜索引擎面对的技术挑战。
搜索引擎是由许多技术模块组成的,这些技术模块负责在不同阶段对不同数据进行技术处理,它们互相构成了一个完成的技术架构。
如图7-1所示,搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成,基本上这个架构图就可以涵盖搜索引擎的大致工作了。
根据搜索引擎的架构,我们得知,首先通过搜索器在互联网中漫游,发现和收集信息,其中搜索器的信息收集功能基本都是利用称为网络蜘蛛的自动搜索机器人自动实现的。
网络蜘蛛连上每一个网页上的超链接,自动从互联网爬取和收集信息。
这个过程就像顾客要去超市中找到所需要的商品,首先超市的采购员需采购回来许多许多商品,同样,搜索引擎要发挥作用,需使用网络蜘蛛的爬虫功能将互联网上的网页自动收集、获取并下载到本地,可以理解为将各个网页以Word文档的形式下载到了本地电脑里。
搜索引擎的网络蜘蛛机器人程序根据网页链接到其他中的超链接,就像日常生活中所说的“一传十,十传百……”
一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。
理论上,若网页上有适当的超链接,机器人便可以遍历绝大部分网页。
接下来,超市的理货员还需对每个商品贴上独一无二的价格标签,同样搜索引擎还需要对下载的数据进行去重处理。
因为下载了许多文档,存在很多文档数据可能完全一致的情况,因此需要对这些文档进行去重操作,保证每个文档都包含独一无二的内容。

图7-1 搜索引擎技术架构图
正如超市采集的货架商品还需要建立标签与货品的对应关系一样,在搜索器收集到网络信息后,就需要进一步对收集到的信息建立索引。
索引器的功能正是将搜索器所搜索到的信息进一步理解后进行处理,从中抽取出索引项,用于对文档进行标识并根据文档标识,建立文档库的索引表,实现对搜索引擎收集信息的整理。
这个过程就像超市的理货员记住商品价格标签上的主要内容一样,搜索引擎不仅要保存收集起来的信息,还要将它们按照一定的规则进行编排,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,十分浪费计算机的处理资源,如此一来再快的计算机系统也没有用。
因此,搜索引擎中需要有相关程序对这些去重后的文档进行解析操作,即抽取出文档的内容和链接。
通过文字的倒排索引算法,搜索引擎对文字进行一定的操作,构成一个倒排索引表,再根据某些复杂的算法,对链接进行一定的操作,构成了一个链接关系。
这样搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。
对已经进行过的所有操作,重点是构成好的倒排索引表及链接关系,进行反作弊的处理,如剔除违法犯罪内容、删除坏网页等,类似超市货品上架之前的检查。
超市的货品一经上架并打上标签入库保存了,接下来顾客该如何在偌大的超市中找到商品呢?
就像超市还需要给顾客提供一定的指引一样,搜索引擎还需要为用户提供一个检索器,使其可以根据用户的查询在索引库中快速检索文档,并在用户的关键词与查询结果之间进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息。
用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。
搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。
搜索引擎还需要提供用户接口,用于接纳用户查询、显示查询结果、提供个性化查询项。
搜索引擎用户接口的工作原理大致为:搜索引擎返回主要是以网页链接的形式提供的,这样通过这些链接,用户便能到达含有自己所需资料的网页。
通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。
例如,用户在搜索框输入了“苹果”。搜索引擎在缓存系统赶紧查一下有没有苹果。
缓存系统可以理解为用户搜得很多,放在一个单独容易取到的地方。
就像超市售货员在离得最近的“最畅销货架”上找一下有没有“苹果”一样,如果缓存系统有“苹果”,就直接给用户。
如果没有,则进入下一步骤,赶紧跑进超市内部去找。
搜索引擎没有在缓存系统中找到用户要查的词语,就会根据查询词在第一阶段中处理出来的内容和链接进行分析,找到可能是用户想要的信息。
此外,超市售货员拿着几亿的标签,最该给用户的是能吃的“苹果”呢?
是“苹果”手机呢?
还是“苹果”形状的抱枕呢?
当然售货员会根据已有经验给用户推荐相关性最大的商品。同样搜索引擎在几毫秒内找到了数以亿计可能相关的网页,根据一定的相关性算法,把最可能是用户想要的页面展示在最前面,之后按照相关性进行排序,依次展示。
根据搜索引擎技术架构,目前搜索引擎涉及的关键技术主要包括网络爬虫、中文分词、大数据处理、数据挖掘等。
其中,网络爬虫也被称为蜘蛛或者网络机器人,可作为搜索引擎的搜索器,成为搜索引擎抓取系统的重要组成部分。
网络爬虫的主要作用是根据相应的规则,以某些站点作为起始站点,通过各页面上的超链接遍历整个互联网,利用URL引用根据广度优先遍历策略从一个HTML文档爬行到另一个HTML文档来抓取信息。
在中文互联网世界中,网络爬虫爬取的信息结果还需要进行中文分词处理。
而其中涉及的中文分词技术则是中文搜索引擎中一个相当关键的技术。
中文分词是文本挖掘的基础,通过中文分词,在创建索引之前需要将中文内容合理地进行分词,对于输入的一段中文,成功地进行中文分词,可以达到电脑自动识别语句含义的效果。
中文分词后还需要进行大数据处理。
通过运用大数据处理计算框架,对数据进行分布式计算。其中需用到大数据处理技术主要是因为互联网数据量相当庞大,爬取的结果可能数据量太大,需要利用大数据处理技术来提高数据处理的效率。
在搜索引擎中,大数据处理技术主要用来执行对网页重要度进行打分等数据计算。
搜索引擎还需要数据挖掘技术,从海量的数据中采用自动或半自动的建模算法,寻找隐藏在数据中的信息,实现从数据库中发现知识的过程。
数据挖掘一般和计算机科学相关,并通过机器学习、模式识别、统计学等方法来实现知识挖掘。
在搜索引擎中的数据挖掘主要是进行文本挖掘,搜索文本信息需要理解人类的自然语言,文本挖掘可从大量文本数据中抽取隐含的、未知的、可能有用的信息。
二 ChatGPT与搜索引擎的区别
微软Bing搜索引擎集成了ChatGPT后大幅度地改善了用户搜索的体验,优化了搜索引擎的功能。
可以说,ChatGPT的出现对搜索引擎行业的影响是巨大的,有很多人预言ChatGPT有望颠覆搜索引擎甚至撼动搜索引擎行业,替代传统搜索引擎。
然而,ChatGPT与我们所熟知的谷歌和百度等传统搜索引擎有着非常本质的区别,无论是功能上还是技术实现上都千差万别,切不可混淆概念。

图7-2 Microsoft Bing是微软公司于2009年5月28日推出的,用以取代Live Search的全新搜索引擎服务
图片来源:Microsoft Bing
(一)ChatGPT与搜索引擎在功能上的区别
我们现在正处在一个信息过载的时代,全世界每年产生1EB(艾字节)到2EB信息,相当于地球上每个人每年大概产生250MB(兆字节)信息。
其中,纸质信息仅占所有信息的0.03%。静态网页有上百亿字节,动态及隐藏网页至少是静态网页的500倍。
汤姆·兰道尔(Tom Landauer)认为人的大脑只能存储约200MB信息,一生只能接触约6GB信息。
近些年来,大数据技术的出现及发展、深度学习以及神经网络计算能力的提高,加速提高了我们对信息的处理能力,但是并没有缓解信息过载给我们造成的影响。
在这种情况下,搜索引擎成为我们获取信息的主要手段之一。
搜索引擎的核心功能是海量信息集合,而非信息创造。
用户在搜索框输入关键字,搜索引擎根据算法,抓取、索引、排序与查询匹配的结果,然后给提供用户大量的链接,用户再从中寻找自己需要的信息。
事实上搜索引擎相当于一个字典,搜索引擎的蜘蛛程序无时无刻不在互联网中爬行、抓取和收集数据,它记录了互联网的信息。
当网站的用户在搜索引擎中输入搜索词进行信息检索时,搜索引擎会根据用户键入的搜索词,按照一定的算法及规则与自己数据库中的关键词进行匹配、筛选、排序,并在搜索结果页面中显示与用户检索相关的结果信息。
而ChatGPT主要用于提供人机对话和自动回复等功能。
它能够根据用户输入的文本内容,自动生成新的文本内容,模拟人类语言的生成过程。
通过这种方式,ChatGPT能够提供较为自然的人机对话,帮助用户更好地与计算机交流。
此外,ChatGPT还可以用于智能客服、智能问答等领域。
例如,在智能客服系统中,ChatGPT可以自动回答用户的常见问题,节省人力成本,提高服务效率。
在智能问答系统中,ChatGPT可以根据用户提问的内容,快速生成答案,满足用户的需求。
总之,ChatGPT的作用是提供人机对话和自动回复等功能,帮助用户更好地与计算机交流,提供更人性化的信息服务。
ChatGPT属于人工智能生产内容,是一种新的内容创作方式。它已经被数据集训练完毕,通过一对一的对话和类似人类的口吻,给出单一、即时的答案,还能结合上下文,实现多轮对话,帮助用户解决更为复杂的、连续性的问题。
用户可以一步步引导规则,让它设计游戏等产品,或者给它一段程序,让它检查漏洞,还可以给它演示案例,让它举一反三。
互动越复杂,ChatGPT的能力也会越强大,如果只把ChatGPT当作一个回合的搜索引擎用,对它来说倒有些“屈才”。
传统搜索引擎以链接罗列方式向终端客户提供信息,而ChatGPT通过人工智能生产内容技术对信息进行二次加工并提供唯一答案,ChatGPT和搜索引擎的区别主要体现在功能、应用领域和使用方式等方面:
从功能上看,ChatGPT是基于语音或文本的对话,用户可以通过自然语言问题来与它交互,主要用于提供人机对话和自动回复等功能,它不是用来搜索网页的,而是用来回答用户问题的。
而搜索引擎则通常是基于文本的,即用户输入的关键字来搜索网页,主要用于帮助用户快速找到感兴趣的信息。
从应用领域上看,ChatGPT主要应用于人机对话、智能客服、智能问答等领域,而搜索引擎主要应用于互联网搜索、文献检索等领域。
从使用方式上看,ChatGPT通常在人机对话或智能客服系统中使用,用户可以通过文本输入或语音输入与ChatGPT交流,而搜索引擎主要用于帮助用户快速找到感兴趣的信息。
总的来说,ChatGPT是一个大型语言模型,被训练来回答用户问题并进行对话,通过学习大量的文本数据,并根据用户问题生成答案,旨在帮助人们更好地与计算机交流。
相比之下,搜索引擎是一种用于查询网络信息的工具,主要通过语言和文本来了解人类的意图,进而通过搜索网络上的信息,通过索引和搜索网页找到可能回答用户问题的网页,并回答问题或提供信息。
因此,ChatGPT和搜索引擎并不能相互取代,而是应相辅相成,更好地为用户提供便捷的信息服务。
(二)ChatGPT和搜索引擎在技术实现上的不同之处
ChatGPT是一种基于自然语言处理技术的对话系统,在技术实现上主要依赖于自然语言处理技术,它可以帮助机器理解人类语言,并且可以根据上下文和语境来回答问题。
ChatGPT使用了经过预训练的生成式Transformer。
这是一种基于自注意力机制的神经网络架构,它可以学习到输入序列中不同位置之间的依赖关系,从而在不需要循环神经网络的情况下实现对序列的编码和解码。
在ChatGPT中,Transformer被用于从上下文中提取信息以生成回复。
ChatGPT采用了无监督的预训练方式,即使用大量的文本数据进行训练,使模型能够学习到自然语言中的语法、语义和上下文信息等。
具体来说,ChatGPT使用了一种称为语言模型的预训练任务,即在输入一段文本的前提下,预测下一个词出现的概率。
预训练的结果是得到一个经过调整权重和参数的模型。
在预训练之后,ChatGPT会对模型进行微调,使模型能够适应特定的对话任务或领域。
这个微调的过程是基于监督学习的,即利用已有的对话数据对模型进行反向传播训练,调整模型的权重和参数,从而使其能够更好地生成合理的回复。
在生成回复时,ChatGPT使用了一种称为束集搜索的搜索算法,它可以搜索概率最高的一组候选回复,从而提高回复的准确性和流畅度。
总的来说,ChatGPT的技术原理是将预训练和微调相结合,利用Transformer和束集搜索等技术实现对话生成。
这种技术能够通过大量的数据对模型进行训练,使ChatGPT能够自然地生成人类般的回复。
搜索引擎和ChatGPT在技术实现上完全不同,搜索引擎的一般工作过程首先都是用蜘蛛进行全网搜索,自动抓取网页,然后将抓取的网页进行索引,同时也会记录与检索有关的属性,中文搜索引擎中还需要首先对中文进行分词,接受用户查询请求,检索索引文件并按照各种参数进行复杂的计算,产生结果并返回给用户。
ChatGPT和搜索引擎之间在技术实现上的最大区别在于ChatGPT是一种自然语言处理技术,它可以帮助机器理解人类语言,并且可以根据上下文和语境来回答问题。
相比之下,搜索引擎是一种搜索技术,它可以帮助用户搜索网络上的信息,但是它不能理解人类语言,也不能根据上下文和语境来回答问题。
ChatGPT可以帮助机器学习,它可以根据用户的输入来学习新的知识,从而更好地回答问题,而搜索引擎只能搜索网络上的信息,而不能学习新的知识。
ChatGPT可以更好地理解人类语言,它可以根据上下文和语境来回答问题,而搜索引擎只能搜索网络上的信息,而不能理解人类语言。
总之,ChatGPT和搜索引擎之间有很多不同之处。自ChatGPT横空出世,不乏搜索引擎将被取代的声音。
其实搜索引擎的发展并没有掉队,以谷歌为例,它在DeepMind的大型语言模型Chinchilla上训练人工智能聊天机器人Sparrow,也开发了对话神经网络语言模型LaMDA。
谷歌研究人员发了一篇题为《重新思考搜索》的论文,描述了一种新型搜索引擎,大型语言模型借助算法提供简洁的专业答案,用户无须在大量网页列表中搜索信息,听起来跟ChatGPT一样融合了更多人工智能技术,可见ChatGPT的出现也给搜索引擎的发展提供了更多的启示。
三 ChatGPT改变搜索引擎?
开发人员乔什·凯利(Josh Kelly)曾晒出同一个代码问题在谷歌和ChatGPT的不同结果,ChatGPT的答案看起来质量更高,让他感叹“Google is done!”(谷歌完蛋了!)。
初出茅庐的ChatGPT,真的把刀架在搜索引擎的脖子上了吗?
ChatGPT对搜索引擎会产生什么影响?
ChatGPT会从哪些方面改变搜索引擎呢?
(一)ChatGPT会取代搜索引擎吗?
相较于传统搜索引擎提供内容相关页面链接,ChatGPT可以直接生成面向问题的高完成度回答,并能够提供回答内容的相关引用链接。
此外,针对开放式问题,ChatGPT也可以通过匹配网络中的数据生成较为完整的答案。
在处理知识类以及创意类的问题时,ChatGPT提供的搜索体验远胜于目前的传统搜索引擎。
尽管ChatGPT能大幅优化用户的搜索体验,但要取代传统搜索引擎仍然面临几个关键技术瓶颈。
首先,目前英文版本的ChatGPT数据截至2021年,而中文版本的ChatGPT数据截至2020年,数据库版本滞后的主要原因是语言类大模型的技术限制。
ChatGPT目前在GPT大模型上加入标注数据训练的模式让实时数据的引入非常困难,如果要重新预训练模型,估计每次预训练需要用到1000块以上的英伟达A100显卡工作半个月至一个月的时间,成本在百万美元以上。
而如果采用微调的方式专门训练新知识,会导致新知识在模型内的权重过高,频繁的微调也会导致模型“遗忘”旧的知识。
此外,在大量的测试后发现,虽然ChatGPT回答问题的准确性有所提高,但如果提出的问题较为模糊或者本身包含部分错误信息在内,模型有可能以“一本正经”的语气生成完全错误甚至凭空捏造的回答。
真假答案的混杂会让用户在需要对专业性问题寻求答案时产生严重的困扰,这也是目前语言类大模型普遍存在的问题。
据中文专业IT社区CSDN微信公众号报道,2022年11月几乎同一时间上线的Meta服务科研领域的语言类大模型Galactica就因为真假答案混杂的问题,测试仅仅3天后就被用户投诉下线。
根据模型的现有数据,我们假设每次生成的回答长度平均为50个词,用于推理的情况下,我们估算ChatGPT每一次生成答案的成本约为1.3美分,约为谷歌搜索引擎每次搜索成本的3倍。
如果每天面对数以亿计用户的搜索请求,如此高昂的成本是研发公司所不能承受的,在中短期内ChatGPT完全取代传统搜索引擎在商业模式上无法做到。
(二)搜索引擎变革就在眼前
随着互联网的发展,网上可以搜寻的网页变得越来越多,而网页内容的质素亦变得良莠不齐,没有保证。
所以,未来的搜索引擎将会朝着知识型搜索引擎的方向发展,以期为搜寻者提供更准确及适用的资料。
ChatGPT可以为用户提供自然、直接的对话式接口,使用户能够以类似于与人交互的方式进行搜索。
ChatGPT的出现,从功能上和技术上都为搜索引擎的发展给出了很多启示,这种技术已经对现有搜索引擎的发展产生了深远的影响。
有了ChatGPT的帮助,微软搜索引擎全面提升搜索效率。
每天有100亿个搜索查询,但据微软估算,其中一半没有得到回答。
这是因为人们的想法越来越五花八门,搜索引擎传统的设计理念已经跟不上时代了。
特别是当人们查询更复杂的问题或任务时,使用传统搜索引擎的效率很低。
而新版Bing和Microsoft Edge,让这些问题不再是困扰。
新版Bing的主页有很多微妙的变化,首先是搜索框变大了,可以输入多达1000个字符的查询。
新版Bing并不是直接在搜索引擎中融合了ChatGPT的能力,而是在保留传统搜索方式的基础上,在搜索结果页面的右侧,直接加了一个像ChatGPT Tab的标签栏,用户可以点击进入和ChatGPT类似的聊天页面。
通过引入聊天功能,新版Bing变得更像个人助手。
你可以让它帮你完成旅行计划、购物研究等。
例如,当你想买一台65英寸(1英寸≈2.54厘米)电视,右侧会一口气列出2023年最畅销的65英寸电视清单。
你可以在消息框中最多输入2000个字符,提出完整的问题,与Bing自然地交流,了解更多你想知道的信息。
Bing可以记住所有的聊天记录,所以你不需要重新输入在此前聊天过程中提到过的信息。
总的来说,有了ChatGPT的帮助,Bing和Microsoft Edge的功能进一步提升:
一是更好的搜索。
新版Bing提供了熟悉的搜索体验的改进版,为体育比分、股票价格和天气等简单内容提供了更相关的结果,可在一个新的侧栏显示更全面直观的答案。
二是完整的答案。
Bing会查看全网搜索结果,查找并总结你想要的答案。
如上文所述,你可以直接得到关于如何用另一种关键成分代替鸡蛋来烤蛋糕的详细说明,而无须在页面上滚动浏览多个结果。
三是全新聊天体验。
对于更复杂的搜索,例如,计划详细的旅行行程或研究要买什么电视,新版Bing提供了新的交互式聊天功能。
聊天体验让你能够通过询问更多细节、清晰度和想法来优化你的搜索,直到获得你想要的完整答案。
这样你就可以立即执行你的决定。
四是创意的火花。
有时候你需要的不仅仅是一个答案,还需要灵感。
新版Bing可以直接帮助你生成内容。
它可以帮你写电子邮件,策划度假行程、预订旅行和酒店、为工作面试做准备,或者创建问答小测验。
你也可以在新版Bing上查看它引用的所有网页内容的链接。
五是全新Microsoft Edge体验。
微软更新了Edge浏览器,增加了新的人工智能功能和新外观,还增加了两项新功能:聊天和撰写。
借助引入了ChatGPT功能的Edge侧边栏,你可以让它从一份冗长的财报中总结出关键信息,让Edge帮你撰写指定的内容,以及更新帖子的语气、格式和长度。
Edge能理解你所在的网页,并进行相应的调整。
例如,假如你的预算有限,你可以问Bing“哪些是最便宜的”,Bing会立即查询整理出一份新清单,并标明产品售价。

图7-3 Microsoft Edge中文版
图片来源:Microsoft Edge中文网
新版Bing和Microsoft Edge的体验是四大技术突破的结晶,首先是下一代OpenAI大模型。
新版Bing正在运行一种新的下一代OpenAI大型语言模型,该模型比ChatGPT更强大,并且专门针对搜索进行了定制。
它汲取了ChatGPT和GPT-3.5的重要经验和长处,而且速度更快、更准确、功能更强大。
其次是微软Prometheus模型。
微软开发了一种最大限度使用OpenAI模型的专有方法。
微软将这种能力和技术的集合称为Prometheus模型。
这种组合为用户提供更相关、更及时和更有针对性的结果,同时提高了安全性。
此外还包括人工智能在核心搜索算法中的应用。
微软将人工智能模型应用于核心Bing搜索排名引擎,这是20年来相关性的最大跃升。
有了这个人工智能模型,即使是基本的搜索查询也更准确、更相关。
最后微软创新了新的用户体验。微软正在重新构想用户与搜索、浏览器和聊天的交互方式,将它们整合到一个统一的体验中。
这将开启一种全新的网络交互方式。
这些突破性的新搜索体验之所以成为可能,是因为微软致力于将Azure云平台打造成为面向全球的人工智能超级计算机。
OpenAI已使用该基础架构来训练现在正在针对Bing进行优化的突破性模型。
ChatGPT最大的功能影响就是优化了搜索模式。
由于ChatGPT使用对话式交互,它将产生新的搜索模式,如语音搜索、图像搜索等,相机和麦克风已经成了新的键盘。
未来搜索将不仅限于文字,用户还可以用语音、图像或者视频来表达意图。
例如,你对某种植物感到好奇,不知道它叫什么,那么给它拍个照就会有答案。人工智能使这样的搜索结果变得越来越精确。
这些新的搜索模式将使搜索更加方便,也将使搜索引擎的应用范围更加广泛。
搜索引擎产品的演变越来越强调传统搜索引擎为主+大语言模型为辅相结合。
目前ChatGPT的技术路径难以在较短时间内解决搜索成本的问题,因此从分场景限制用量的思路出发,中短期内ChatGPT可以通过部分技术改进辅助传统搜索引擎实现用户体验大幅提升。
考虑到ChatGPT在不同分类问题中的表现情况,可以限制ChatGPT搜索,仅在知识类搜索场景下启用,这样可以有效控制成本。
面对时效类问题时,模型自动判断转向传统搜索引擎生成答案,并通过传统搜索引擎的数据返回生成ChatGPT版本的汇总新答案。
此外,微软再一次强调了他们将搜索引擎进一步发展,坚持其对可信人工智能的追求,称微软与OpenAI一起有意实施保护措施来抵御有害内容,正在努力解决错误信息和虚假信息、内容屏蔽、数据安全等问题,并根据其人工智能原则防止有害或歧视性内容的宣传。
双方将继续运用负责任的人工智能生态系统的全部力量,来开发新的方法降低风险。
微软官方博客写道:“为了让人们能够释放发现的喜悦,感受创造的奇迹,更好地利用世界上的知识,今天,我们正在通过重新发明数十亿人每天使用的工具——搜索引擎和浏览器,来改善世界从网络中受益的方式。”
另据知情人士透露,微软还计划于2023年晚些时候发布一款软件,帮助大企业自行开发类似于ChatGPT的聊天机器人。
ChatGPT引发的人工智能技术创新热潮正带给搜索引擎和浏览器全新的生命力,谷歌搜索、百度等主流搜索引擎也在筹备上线类似的功能。
这些新功能虽然还有很多不足,但它们的确将人们带入了全新的高效搜索世界。
2020年1月7日,百度创始人、董事长兼首席执行官李彦宏作为受邀嘉宾出席了印度理工学院马德拉斯分院举办的Shaastra 2020科技节“Spotlight Lecture Series”活动,发表了题为《人工智能时代的创新》的演讲,谈到了他眼中未来10年的搜索引擎发展。
“进入人工智能时代,搜索也在不断发展变化。”李彦宏认为:“搜索技术的发展日新月异。
以前,搜索技术在我看来基本上就是一种统计技术。但在今天,所有的一切都是机器学习。”
在李彦宏看来,目前,有越来越多的搜索将直接得到答案,而不是像过去,给用户大量链接让用户自己去寻找正确答案。
因为搜索问题本质上是一个人工智能的问题。
李彦宏表示:“现在之所以说搜索本质上是一个人工智能的问题,原因就在于,当人们用文字、问题提出请求或者表达兴趣的时候,计算机会推测人类或用户的意图,从而提供相关答案。而这就是人工智能的本质,即让计算机了解人类、服务人类。”
传统的搜索引擎通过关键词匹配来显示结果,但这种方式可能会出现一些低质量、无关或甚至有害的结果。
与之相比,ChatGPT可以理解用户的意图,通过学习用户的搜索历史和行为,了解用户的兴趣和偏好,并提供更加个性化的搜索结果。
这使用户能够更快速、准确地找到他们感兴趣的信息,并提供更加精确、个性化的结果,从而提高搜索结果的质量。
目前搜索引擎搜索首条结果回答了大约60%的查询。
未来在人工智能技术的帮助下,这一比例还将上升至70%、80%甚至90%。
这意味着人们将更容易直接得到正确答案,而不再需要点击不同的链接、浏览不同的网页。
近年来亦有不少公司尝试在人工智能技术与搜索引擎功能融合方面改进,务求使搜索结果更符合用户的要求。
诸如Copernic Agent之类的搜寻代理就是其中之一。
在台湾,威知资讯是利用文字探勘技术发展搜索引擎产品的公司,其利用人工智能算法,可达成目前搜索引擎所缺乏的简易人机互动模式,诸如关联字提示、动态分类字提示等,算是较另类的搜索引擎产品。
而搜索巨头百度在这方面优势明显。
百度公司近年来一直致力于人工智能领域的研究,深耕人工智能多年,在自动驾驶等领域都有令人瞩目的突破,且在算力和硬件储备上,有百度云作为支撑,在数据上有大量搜索记录和自媒体内容,可以说是蓄势待发,于2023年3月16日推出了“文心一言”产品,即百度版的ChatGPT,英文名为ERNIE Bot。
总的来看,通过一些小技术的革新(大部分已经出现在了其他大语言模型中,只需要借鉴)就可以让ChatGPT成为一个合格的辅助搜索引擎。
不过成本的问题短期内暂时看不到太好的解决方法,这也给目前的搜索引擎巨头充足的时间以应对ChatGPT带来的冲击。

