陈永伟/文 2022年 11月的最后一天,OpenAI在没有任何事先宣传的情况下发布了其划时代的生成式AI产品ChatGPT。凭借其出色的人机交互表现和任务处理能力,ChatGPT创造了软件用户增速的奇迹。短短5天,其用户量就突破了100万;不到两个月,其用户量就突破了1亿。
当越来越多人为OpenAI的这款产品着迷的时候,一个问题出现了:虽然这款AI产品的能力强大,但从实用的角度看,它最大的价值究竟在哪里呢?一个得到较高认可的答案是,它可能会成为新一代的搜索引擎,从而彻底动摇谷歌在搜索市场上的垄断地位。
应该说,这个答案是颇有道理的。在ChatGPT横空出世之前,谷歌一直被认为是全世界AI实力最强的企业。在过去的几年中,它一直在从事大语言模型的开发,并且积极尝试将这项技术与其现有的搜索引擎结合。事实上,就连ChatGPT开发过程中所用到的关键技术Transformer,也是由谷歌发明的。在这种情况下,OpenAI率先发布了自己的大语言模型,就不得不让人联想到是为了挑战谷歌的地位。后来的事实似乎也印证了这一点。2023年2月,OpenAI的长期盟友和幕后支持者微软率先宣布将GPT模型集成到自己旗下的必应搜索引擎当中。这一举动让很多人惊呼:谷歌在搜索市场上的地位可能要危险了!
情况果真如此吗?在一年多前的一篇专栏里,我曾判断说至少在短期内,发生这种情况的概率很小,目前的发展状况大致上印证了我的判断。根据网络咨询机构Statcounter的统计,2023年2月,谷歌在全球搜索引擎市场上的份额为93.37%。在此后一年中,虽然其市场份额有所下降,但到2024年2月,其市场份额仍高达91.61%。反观必应,虽然在搭载了GPT模型之后,其市场份额有所上升,但上升的效果并不明显。2023年2月,其市场份额为2.81%,到2024年2月,其市场份额为3.32%。由此可见,虽然必应借生成式AI之势,在一定程度上提升了自己的竞争力,但这种提升的力量是有限的,离动摇谷歌统治地位的程度还差很远。
那么,谷歌为何可以在生成式AI大潮的冲击下岿然不动?它成为长盛不衰的搜索巨头背后的秘密何在?在搜索领域,又有哪些力量在挑战着谷歌?搜索市场的未来又会是什么样?要回答这些问题,我们还得从头说起。
最初的信息入口
1994年,一位来自中国台湾的年轻人杨致远(Jerry Yang)从斯坦福大学机电系获得了硕士学位,接着,他申请了本校的软件工程学博士项目。在准备研究课题期间,他经常泡在网上。当时,互联网的发展还处于初级阶段,每天都有很多网站诞生,网络的信息正在不断地膨胀。然而,要找到一个网站并不容易。普通用户很难知道哪个网站有自己需要的信息,即使知道了,要记住那些冗长而杂乱的网址也让人颇为烦恼。面对这种情况,曾经在校图书馆兼职的杨致远意识到,为互联网做一个类似的检索目录或许是一桩不错的主意。他将这个主意告诉了自己的同学大卫·费罗(David Filo)。两人一拍即合,一起手动收集了一大批实用且优质的网站,并将它们分门别类,做成了一个导航网站。他们用两人名字的合称,将这个网页命名为“杰瑞和大卫的万维网指南”,并将其放上了网。
一开始,杨致远和费罗制作导航网站的目的仅仅是为了方便自己和朋友们检索信息。但这个网站一上线,就备受欢迎。一开始是他们身边的朋友,后来是朋友的朋友……很快,数以万计的人涌向了这个此时还略显简陋的网站,并将它作为自己探索互联网的起点。杨致远认识到,致富的机会来了。于是,他干脆放弃了攻读博士的打算,专心和费罗一起搞起了这个网站。为了让自己的网站更容易被人记住,他们将它的名字改成了《格列佛游记》中一个野蛮族群的名字——雅虎(Yahoo)。有意思的是,在他们试图注册Yahoo商标时,发现一家烤肉店已经抢注了这个名字。为表区别,杨致远就在单词后面加了一个叹号。于是,后来大家熟悉的“Yahoo!”就诞生了。
由于成功地抓住了互联网发展初期的红利,雅虎很快成为了当时访问量最高的网站。关于雅虎和它的这两位创始人的故事,已经有无数文章进行了介绍,在此就不再展开了。
这里想指出的是,杨致远和费罗之所以能取得如此巨大的成就,其关键是因为他们做到了网络搜索的三件要事中的一样——为信息提供了一个类似图书馆的检索目录。虽然用今天的眼光看,诞生之初的网站十分简陋,但对于当时的用户而言,那已经勉强够用了。然而,随着互联网的快速发展,这种依靠手工整理的指南网站就逐渐难以满足人们的需要了。人们还希望可以找到一些小众的网站和新网站的信息,而显然,如果仅仅依靠人力,这些网站是很难被及时添加到目录中的。在这种情况下,一种可以自动爬取网站信息的技术就变得十分重要了。
幸运的是,早在雅虎网站上线之前,这种自动爬取网站信息的技术就已经存在了,这就是我们现在熟知的网络爬虫(Spiders)。它的原理是通过一个脚本文件自动在网上查找相关的资源,然后访问并保存它们。
1990年时,当时还在麦吉尔大学攻读研究生的艾伦·埃塔奇(Alan Em-tage)兼职担任了该校信息技术系的一名系统管理员。出于工作需要,他需要为学生和教职员工在各种公共的FTP(FileTransferProtocol,即文件传输协议的简称)上搜寻各种软件。在当时,这实在不是一件轻松的事情。为了减少自己的工作量,他写出了世界上第一个爬虫程序Archie。Archie可以自动浏览网上的公共FTP,下载相关的文件列表,并将它们保存在一个数据库中。这样,人们需要什么文件,就可以直接搜索数据库,它就会返回这些文件对应的网址。
埃塔奇的工作为在浩瀚的网络上查找所需的资源提供了一个思路。受其启发,不少人用爬虫建立了专门的网络资源索引。比如,比尔·希兰(Bil Heelan)在1991年创建了Veronica,用以帮助用户在Gopher服务器上定位文件;而史蒂文·福斯特(Steven Foster)则在1991年发布了Jughead,帮助用户检索网络上的文件和元数据。杨致远在创办了雅虎之后,也很快注意到了爬虫技术,并用它来搜集需要的网站。这样,原本由纯人工搜集信息的雅虎就进化为了自动更新的指南网站。
相比于纯人工,爬虫技术无疑是大幅提升了信息采集的效率。得益于这种技术,以雅虎为代表的信息门户网站可以十分及时地获取和更新网站信息。可以说,雅虎在那段时间能取得巨大成功,这项技术功不可没。
不过,随着互联网信息的膨胀,类似的网站又开始面临一个问题:当信息越来越多时,人们怎么才能从大量的信息当中,以最低的成本找出自己想要的信息。虽然从理论上讲,按照信息门户网站提供的检索目录一一尝试,人们总可以找到自己想要的网站,但那样的效率实在是太低了。在这种情况下,人们对更有效率的信息检索工具的需求就变得越来越迫切了。
搜索引擎时代的到来
1996年,斯坦福大学的两名博士生谢尔盖·布林(Sergey Brin)和拉里·佩奇(Larry Page)在该大学的服务器上推出了一个原型网络搜索引擎谷歌(Google)。和过去的信息检索工具相比,谷歌不仅可以更迅速地从网络上爬取各种最新的信息,更为重要的是,它还可以在纷繁的信息中,准确地将那些最重要的信息呈现到用户面前。
谷歌为什么可以做到这一切呢?很显然,更快的爬取速度依赖于更高效率的爬虫。至于信息的精准呈现,则来自于所谓的“佩奇排序算法”(PageRank Algorithm)——由于Page既可以用来指其发明人佩奇,也可以用来指网页,因而这个算法名可谓一语双关。“佩奇排序”是一种怎样的算法呢?直观来说,它的灵感来自于学术圈的论文影响力排名。我们知道,在学术界,论文是科研人员最重要的产出。在各种考评当中,论文都是关键的参考指标,除了看论文的数量,更要看论文的质量。那么,什么样的论文才算是一篇高质量的论文呢?最初,人们将引用率作为质量的指标,一篇论文被引用的越多,它的质量就被认为更高。但是,这很快又引发了一个问题:一些学者为了提升自己论文的引用率,就疯狂地发文章,然后在自己新的文章中引用自己过去的文章。
另一些学者则采用相互合作的方式,一起“刷”引用率。这就让引用率这个指标失去了意义。针对这个情况,有人想出了对引用率进行加权的思路,即只有被重要的文章引用,这次引用才可以获得高的权重,而如果只是被不重要的“水”文引用,权重就很低。用论文的加权被引用率,就可以对其重要性进行更准确的刻画。当然,细心的读者应该已经发现这里有个悖论:只有当论文被更多重要论文引用时,它才可能是重要的,但怎么判定引用它的论文是重要的呢?这似乎就陷入了一个“鸡生蛋、蛋生鸡”的困境。好在从数学上看,这一点并不难处理,人们只需要用一种被称为“不动点”(fixedpoint)的工具就可以来处理这个问题。这样,人们就得到了一种评价论文重要性的办法。
佩奇排序就采用了这样的思路来处理网页。在不同的网页之间,经常会用超链接进行相互的链接。从性质上看,一个网页被其他的网页链接和一篇论文被其他论文引用是非常类似的。类似的,如果一个网页更多地被重要的网页链接,那就说明这个网页的重要性更高。这样,人们就可以采用类似对论文影响力排名的办法,来对网页的重要性进行排名。
在用上述思路对网页进行处理之后,人们只需要输入相关的关键词,谷歌引擎就可以找出具有这些关键词的网页,并将它们按照重要性生成排序,再呈现给用户,用户就可以比较容易地找到自己想要的网站和信息。
在开发出谷歌引擎之后,布林和佩奇十分兴奋。起初,他们只是想把这个家伙卖个好价钱,然后回到学术界谋个教职。1998年,他们找到雅虎,要价100万美元出售谷歌引擎和它的核心技术——佩奇排序算法。尽管杨致远亲自接见了这两位学弟,并和他们相谈甚欢,但正处于事业巅峰的他并没有看得上这个“奇技淫巧”。因而,雅虎非常遗憾地错过了这次收购谷歌的机会。
既然没法把谷歌卖出去,那么就只好自己留着经营了。正所谓时势造英雄,随着互联网大潮的澎湃汹涌,谷歌这个工具的价值日益凸显,其商业价值自然也水涨船高。等到2002年,杨致远后知后觉地认识到谷歌的潜力,并试图收购它时,他的两位学弟向他报出的价格已从当初的100万美元上升到了50亿美元。虽然此时的雅虎估值很高,但事实上,其年营收只有10亿美元上下,并没有能力承担这个收购价,于是只好放弃了这个念头。此后,谷歌一路高歌猛进,而雅虎则日趋没落,最终在2016年卖给了美国电信运营商Verizon。
复盘从雅虎诞生到谷歌强势崛起、取代雅虎地位的这段历史,我们可以总结出在为用户提供信息导航服务过程中需要的三件事:第一件是要保证自己占有信息的充分性。这一点,埃塔奇发明的爬虫实现了;第二件是要对信息进行有效的整理。雅虎之所以能有当初的辉煌,就是靠了这点;第三件则是需要从海量的信息中帮助用户挑出最重要的信息。谷歌正是在这一点上实现了破局,才取得了它后来的地位。
从搜索引擎到赚钱机器
值得一提的是,作为后来者,谷歌之所以可以迅速超越其前辈雅虎,除了因为它在信息的检索效率上要远高于雅虎这样的分类门户网站,更是因为它找到了一条成功的变现思路。
尽管我们并不能确切知道当初面临主动找上门求收购的布林和佩奇,杨致远为什么拒绝了他们,但据我猜测,营利模式的不明确应该是一个重要的原因。对于当时的门户网站而言,怎么赚钱是相对清楚的:网站的运营者只需要将网页的空白处作为广告位进行招租,就可以得到广告收入。事实上,即使到现在,这依然是很多门户网站最重要的营利方式之一。然而,对于谷歌这样的搜索引擎,要做到这一点似乎是比较困难的。固然,谷歌也可以在网页的边角处辟出一些广告位,但这一方面会严重影响用户体验,另一方面由于搜索引擎缺乏像门户网站这样的层次性,随意塞广告的地方也非常有限。
谷歌是如何破局,将搜索引擎转变成了赚钱的工具的呢?答案依然是广告。承担为谷歌开辟广告业务重任的是萨拉尔·卡曼加(SalarKamangar),谷歌的第九名员工。开始,他的想法是将网页边角的一些空间拿出来进行广告招商。这虽然确实带来了一定的广告收入,但数量并不大。一次偶然的机会,卡曼加突然想到,或许将搜索结果的网页中的一部分拿出来作为广告位是一个更好的主意。当人们搜索某个关键词时,他们肯定是对与这个关键词相关的信息感兴趣。如果在搜索结果中放入针对性的广告,其转化效果可能会好很多。比如,当用户搜索“手机”时,他很可能是想买手机。这时,如果在搜索结果的边上插入某个品牌手机的广告,用户就很可能优先考虑这个品牌的手机。在这种思路的指导之下,谷歌的关键词广告诞生了。
那么,如何对搜索结果页面的位置进行配置呢?卡曼加的思路是进行拍卖。最初,他们所设计的拍卖形式是“广义最高价拍卖”(GeneralizedFirstPriceAuction)。后来,谷歌根据经济学家哈尔·范里安(HalVarian)的建议,将拍卖形式改成了“广义次高价拍卖”(GeneralizedSecondPriceAuction)。
所谓广义最高价拍卖,通俗地讲,就是当有多个广告主竞拍多个广告位时,将最好的广告位分配给报价最高者,第二好的广告位分配给出报次高者……以此类推。而在广义次高价拍卖中,广告位的分配和广义最高价拍卖一样,但报价最高者按照次高报价出价,报价次高者按照第三高的报价出价……以此类推。
举例来说,假设有甲乙两个广告位拍卖,甲位置比乙位置更好。有A、B、C三个广告主来竞拍,他们对广告位的报价分别是12美元、10美元和8美元。那么在广义最高价拍卖下,A将拍得甲广告位,并支付12美元;B将拍得乙广告位,并支付10美元。而在广义次高价拍卖下,广告位的分配方式依然不变,但甲乙两人需要支付的价格却分别变成了10美元和8美元。
根据拍卖理论,在广义最高价拍卖中,竞价者可能隐藏自己的真实意愿支付价。设想,如果他对一个拍品的心理价位是10元,他的报价绝不会超过10元。因为如果高于心理价位,他即使赢得了拍品,也会感到亏了。现实中,他的最优策略一定是报价低于10元。至于低多少,要综合各方面信息,考虑各种报价下赢得拍卖的概率而定。由于在线拍卖中,拍卖是反复进行的,所以竞拍者通常会根据前一轮的拍卖情况对报价进行大幅的调整。这就会导致同一个广告位的价格经常会有大幅度的起伏。相比之下,广义次高价拍卖则可以引导竞拍者总是按照自己的支付意愿出价。这样,拍卖结果总是相对稳定的,同一广告位的价格波动不会太大。
由于可供搜索的关键词难以计数,因而谷歌可以拍卖广告的位置也就远远高于雅虎这样的分类门户网站。在关键词广告取得成功之后,谷歌又进一步开发出了很多广告形式。目前,广告业务已成为了谷歌财务收入的支柱。在刚刚过去的2023年,谷歌的广告收入约为2378.6亿美元,占到了其总营收的77.4%。
搜索引擎的护城河是什么
在一个竞争的市场上,如果一家企业获得了超额的高利润,那么它的业务一定会引来对手的垂涎。在谷歌取得成功之后,有大批的竞争者试图蚕食其市场地位。比如,2009年,微软就高调地推出了自己的搜索引擎必应,但即使如微软这样的财雄势大,至今也仅仅从谷歌手中抢到了区区几个百分点的份额。至于其他的同类挑战者,除了像百度、Yandex等因地缘因素占据了一些地区的市场外,几乎都早已消失在了历史的长河中。
那么,究竟是什么力量让谷歌在搜索市场上保持了长盛不衰?或者说,谷歌究竟拥有哪些护城河呢?
比较常被提及的两个因素是规模效应和网络效应。
先看规模效应。要完成高质量的信息检索,就必须尽可能完整地搜集网络上所有的相关信息,并且高效地将这些信息进行排列。这一切的实现,都需要投入巨大的固定成本。尤其是在移动互联时代到来后,越来越多的信息被封闭在一个个的应用中,要将信息从这些封闭的应用中挖掘出来,难度可想而知。相比于这些前期投入的成本,后续搜索产生的边际成本则是可以忽略不计的。在这种情况下,后来的竞争者在和谷歌这样的在位企业的竞争中就会有先天的劣势。
再看网络效应。从经济性质上看,谷歌这样的搜索引擎是一个双边平台。一方面,它用免费的搜索服务来获取用户;另一方面,它用获取到的用户来吸引广告商。搜索用户越多,不仅可以让它有更好的口碑,从而对新的搜索用户更有吸引力,还可以让它更受广告商的欢迎。当它有了更多的广告商,获得了更多的利润后,它又有更多的资源改进服务,从而吸引更多的搜索用户。这样的一种良性循环,就会让谷歌在竞争中占据更有利的位置。
诚然,以上这两个因素确实是谷歌的重要护城河。但除了它们之外,谷歌其实还有一个常被人忽略的壁垒。在实践中,为了保证可以及时充分地获取某一个网站的信息,搜索引擎就需要对这个网站部署网络爬虫。由于爬虫程序通常会损害网络的运行效率,因而网站的运营者会采用反爬手段,禁止爬虫的部署,这就会使大部分搜索引擎很难抓到想要的信息。不过,对像谷歌这样的头部搜索引擎,网站的运营者们多会网开一面,因为对于大部分人来说,自己的网站能被谷歌检索到其实是一种荣幸。这样一来,谷歌就事实上被赋予了一种获取信息的特权,而这对于一个优质的搜索引擎来说,是至关重要的。如果说对于像规模经济、网络效应这样的护城河,竞争对手只要有充足的资金还有机会突破,那么这种事实上的特权优势就几乎没有破解的可能。在我看来,这才是让谷歌至今还能在通用搜索市场上保持“独孤求败”地位的主要原因。
边缘地带的革命
既然谷歌已经凭借其独特的先发优势,稳稳地占据了市场上的有利地位,那么想做搜索的竞争者是不是就彻底没戏了呢?这倒也未必。事实上,至少有两种思路可以让竞争者们能够在搜索市场上分到一杯羹:一种是占据某一利基市场;另一种则是颠覆这个市场。
先看占据利基市场这个思路。具体来说,这条思路又有两种实现路径:
一种路径是专注于某一个垂直的市场,做这个垂直市场上的搜索服务。我们看到,谷歌虽然在通用搜索市场上具有不可战胜的地位,但在具体的垂直市场上,它的优势并不明显。比如,专业的数据公司可能在汽车市场上深耕多年,并积累了大量的数据,那么它就可以在汽车这个局部的市场上做出更好的搜索引擎。事实上,现在的市场上,已经有了不少著名的垂直类搜索引擎,如Mocavo,Nuroa,Trulia和Yelp等,表现都非常不错。
不过,垂直类的搜索引擎还存在着一个很大的弱项,即它本身还对谷歌这样的通用搜索引擎有很大的依赖。现实中,当人们要获取某个垂直行业的信息时,可能并不知道这个行业都有哪些专用的搜索引擎。为了找到它们,他们可能还需要用谷歌等通用搜索引擎来检索。在这种情况下,谷歌就事实上是决定了哪些垂直搜索引擎可以被看见的“守门人”。在某些条件下,如果它发现哪个垂直领域的搜索业务很有赚头,它甚至可以直接下场做一个该市场的垂直搜索引擎,然后操纵通用搜索结果,将用户转向自己。实际上,谷歌在现实中已经这么做了。比如在欧盟的“谷歌购物比价案”中,谷歌就运用自己在通用搜索引擎市场上的优势,将用户导向自己的比价引擎。尽管这个行为最终被欧盟认定为非法,谷歌也因此遭到了天价的处罚,但这个案例本身还是说明了垂直类搜索其实是一个可能处于风险中的买卖。
另一条路径是平台内或应用内搜索。在现实中,很多平台或应用本身就培养了巨大的生态,这时,其生态内的内容就足以支持一个成功的搜索引擎。
以我们熟悉的微信为例:在微信内部,其公众号和视频号积累了巨大的内容资源。尽管从内容的全面性和丰富性上看,这些内部资源还很难和全网的资源相比,但从质量上看,它们却比后者更好。因此,现在越来越多的用户在想查找某些信息时,会考虑微信的内部搜索,而非通用搜索引擎。类似的例子,国内还有小红书、抖音等,它们的内部搜索在很大程度上已经成为了人们制定旅游攻略时的首选搜索引擎。
在国外,亚马逊的内部搜索则是一个非常好的平台内搜索案例。作为全球最大的电商平台,亚马逊内部的商品量和入驻的第三方卖家数都十分庞大,用户要检索商品就必须依赖搜索。卖家们为了能让自己的商品获得一个更显著的展示位置,大多会愿意向亚马逊支付一定的费用。在这种情况下,亚马逊就可以像谷歌一样,对搜索的关键词进行拍卖。由于和在谷歌上的搜索相比,这种内部搜索的最终转化率通常要高上很多倍,因此亚马逊内部搜索的关键词也就可以比谷歌的关键词拍出更高的价格。根据亚马逊的财报,目前亚马逊的年广告收入已经接近400亿美元,而其中的大部分就来自于关键词广告的拍卖所得。
这里尤其值得一提的是,相比于那些垂直搜索引擎,应用内和平台内搜索可以说是更为安全的生意。毕竟,它们可以用技术的手段屏蔽通用搜索引擎的爬虫,然后整个内部生态就成了它们自己的地盘。
不同的变革方向
相比于占据某一个利基市场,用某些颠覆性的技术来挑战既有的市场霸主无疑是更让人激动的。自搜索引擎技术成为人们上网冲浪的主要入口之后,人们就没有停止过对新的搜索思路的探索,并且已经在很多不同的方向上取得了进展。
第一个方向是增加对用户个性化的考虑。该方向的思路是比较直观的:不同的用户搜寻同一个关键词,他们想要得到的信息可能是不一样的。比如,一个家庭主妇搜索“苹果”,她可能是想找哪儿有更便宜的苹果卖,而一个科技发烧友搜索“苹果”,他想要了解的则可能是新型苹果手机的信息。因而,根据不同用户提供不同的搜索结果,就被视为了人们变革搜索技术的一个重要方向。
在这个方向上,已经有了很多实践。比如,基于地理位置的搜索,就是推进搜索个性化的一类尝试。很显然,身处不同地区的人在搜寻某些信息时希望寻找的信息是不同的。比如当我们搜寻“外卖”时,最可能希望查找的是附近有哪些可供选择的外卖。要满足用户的类似需要,就要结合其所处的地理信息对搜索的结果进行重新筛选。目前,这种基于地理位置的搜索已经得到了很多的应用,如美团、饿了么等外卖应用当中,就都搭载了这种搜索技术。又如,基于用户搜索的上下文进行的语义搜索是推进搜索个性化的另一类尝试。其实这个思路很早时就在搜索领域得到了应用,例如一个名叫AskJeeves的搜索引擎可以让用户选择允许网站记录自己的使用偏好,然后网站就会根据这些信息,向用户输出他们最可能想找的信息。
如果沿着个性化思路走到极致,搜索就演化成了定向推荐。关于定向推荐的力量,我们已经在很多短视频软件那里充分体会到了。可以看到,如果从满足用户需求的角度看,定向推荐无疑已经取得了极致的成功。不过,不少观点都认为,它可能让用户陷入信息茧房。因此,从帮助用户获取信息的角度看,这是否可以算作成功,其实是颇值得商榷的。
第二个方向是应用知识图谱、语义网等技术为用户提供更为集中的信息。最初,当用户在搜索引擎中输入关键词后,搜索引擎只会返回对应的网页。在这种情况下,人们还需要从这些网页中自行总结出自己需要的信息。很多时候,这其实是非常浪费时间的。针对这一点,一些搜索引擎就应用知识图谱等技术,针对用户输入的关键词,将搜索到的信息先进行一定的综合,然后再呈现给用户。比如,如果我们在谷歌、必应等搜索引擎中搜索“马斯克”,那么引擎除了输出相关的网页之外,还会给出一个由其生成的马斯克简介。如果用户仅仅想了解一下马斯克的基本信息,那只要看这个简介就已经足够了。
第三个方向是对可搜索内容的扩展。过去,搜索引擎只能支持文字的输入,但有时候,这其实是不够的。比如,人们在野外看到一朵花,希望知道它的名字,那么之前的搜索引擎就不能给他们提供任何帮助。而随着计算机视觉技术的发展,直接对图形进行搜索也已经成为了可能。现在,如果我们再遇到不认识的花,只要用手机拍下它的照片,并将其上传到搜索引擎,就可以获得关于它的各种信息。
第四个方向是对交互方式的改进。传统上,用户执行搜索任务只能在搜索框中输入关键词,然后坐等搜索结果的返回。从用户体验看,这种人机交互的模式并不算好。针对这一问题,探索与搜索引擎之间的新交互方式一直是人们努力的一个重要方向。目前,人们已经找到了不少与搜索引擎交互的新方式。比如,用语音向搜索引擎输入关键词。另外,由Perplexity公司在2022年推出的Perplexity.AI则首创了对话式搜索。用户可以通过和搜索引擎的不断交互来不断明确自己的需求,从而让输出结果变得更有针对性。
尽管人们已经在很多不同的方向上对传统的搜索引擎进行了改进,这些创新也让一些搜索新秀们成功地占有了一些局部市场,但目前还没有哪个搜索引擎在通用搜索市场上对谷歌这个传统搜索巨头构成全面的威胁。
造成这一现象的原因是多方面的。一方面,虽然各种改进都可以为新的竞争者进入带来一些机会,但从搜索的本质看,一个搜索引擎成功的必要前提还是要能够掌握广泛、及时的信息。然而,从前面的讨论可以看到,在谷歌占据了先发优势的条件下,这个前提是很难满足的。另一方面,在很多的改进方向上,谷歌本身就是创新的引导者。例如,在基于地图的搜索、基于知识图谱的搜索,以及语义搜索等方面,谷歌都是作为引领者的形象出现的。从这个意义上看,虽然我们看到的只是谷歌一直站在原处,但其原因却是因为它一直在奔跑。
AI能动摇谷歌吗
那么,随着生成式AI技术的普及,谷歌在搜索市场上的地位会被动摇吗?在我看来,至少在短期,谷歌的地位可能还很难被动摇。
事实上,如果我们拆解一下必应、Perplexity.AI等调用了AI能力的搜索引擎,就会发现它们本质上是将过去十几年中搜索引擎的各种发展方向进行了整合,但并没有在一些搜索的基本功能上进行改进。以必应为例,虽然在搭载了GPT模型之后,它可以用对话的方式更好地和用户交互,但由于它在数据爬取、数据整理等方面比起谷歌依然存在着劣势,所以呈现出的结果依然很难得到用户的认可。很多用户发现,在采用必应进行搜索时,其输出的内容在时效性和关联性上都要远逊于谷歌。由于在这些基本能力上处于劣势,所以它很难通过交互模式等方面的改进来实现对谷歌的弯道超车。
另外需要注意的是,将AI引进搜索之后,还有非常大的风险。受技术条件的限制,目前的大语言模型还很难避免“幻觉”问题,AI经常会在和用户的对话中编造一些虚假的内容。如果仅仅是将这些内容应用于聊天或者娱乐,那固然无伤大雅,但一般来说,人们调用搜索引擎的首要目的是要寻找可靠的信息。在这种情况下,幻觉的影响可能就是致命的。虽然必应为了防止幻觉的干扰做了很多努力,比如要求在输出答案时标明出处,但测试表明,这并不能根除幻觉现象的干扰。
基于以上分析,可以得出结论:虽然生成式AI的价值十分巨大,并且它也确实会为搜索领域带来很多有意思的新东西,但至少在短期,它应该还远没有达到彻底改变这个市场的规则、动摇以谷歌为代表的传统巨头的程度。更有可能的情况是,类似ChatGPT这样可以与人交互的AI会和谷歌这样传统的搜索引擎长期并存,就像当年的谷歌和雅虎并存一样。至于在长期,AI能否全面取代搜索引擎,这恐怕还需要更长的时间来检验。