对话新加坡科研局黄佳：如何写出一本AI技术畅销书

陈奇杰2024-06-08 21:24

记者陈奇杰 截至2024年6月7日，黄佳写的新书《大模型应用开发动手做AI Agent》（下称《动手做AI Agent》）已经连续18天位列京东人工智能图书榜第一名，在发行不到三周的时间里印刷了三次，累计发行超过8000册。

黄佳在新加坡科技研究局（Agency for Science, Technology and Reseach，下称“新加坡科研局”）担任主任科研工程师，这是新加坡最大的科研机构。黄佳的主攻方向为自然语言处理（NLP）预训练大模型应用、机器持续学习技术等。

在《动手做AI Agent》之前，黄佳已经写过多本技术图书，其中，《零基础学机器学习》《GPT图解大模型是怎样构建的》两本AI领域的书籍发行量都超过13000册。

黄佳这一次选择AI Agent（人工智能智能体，下称“Agent”）作为写书题材。目前，Agent被视为大模型应用落地的重要途径，OpenAI（美国人工智能研究公司）、微软、字节跳动和百度等众多公司都在这方面做了布局和探索。

在黄佳看来，Agent以大模型为大脑，拥有思维能力，且通过工具和函数接口拥有执行能力。未来随着大语言模型、多模态学习等AI技术的进一步突破，Agent的能力将大幅跃升。它有望胜任更加复杂的认知和交互任务，为用户提供更加智能、个性化、沉浸式的服务。

但Agent的应用还处于起步阶段，在通用性、准确性、交互体验等方面还有很大提升空间。黄佳希望，《动手做AI Agent》能成为读者了解和探讨Agent技术的起点。

写书也是学习

2001年，黄佳从北京师范大学本科毕业，随后赴新加坡南洋理工大学就读硕士，从此在新加坡定居。硕士毕业后，黄佳有十几年的时间都在知名咨询公司埃森哲从事SAP（企业管理系列软件）系统的设计、二次开发和实施。

后来黄佳发现，很多企业客户慢慢地不满足于传统的供销存、财务、人力资源管理系统，而是希望在他们的系统中加入一些AI相关技术，以增加附加价值。这使得他的目光逐渐转向AI领域。

大约六年前，黄佳开始进入机器学习和AI领域，通过自学和参加课程积累到足够知识后，他离开埃森哲，加入了新加坡科研局，致力于研究如何将AI科技应用于企业和日常生活。

黄佳崇尚费曼学习法，在学习过程中，不仅想着自己学，还想着如何输出，这对内化知识非常有好处。

黄佳会详细记录下学习过程和遇到的难点、坑点，以及问题的解决方式。这为他的写作积累了素材。

除此之外，有读者告诉黄佳，从他的书里学习到了更系统性的知识，可以说是“既见树木，也见森林”，这些反馈都给了黄佳写书的动力。

从事SAP领域时，黄佳就有写书的爱好。投身AI行业后，这一坚持仍未改变。他的效率也不慢，虽然只在工作之余写作，但通常一本新书半年到一年就能够写完。大模型时代，黄佳也会使用AI协助处理文字工作，这提高了他的效率。

创作思路

《动手做AI Agent》在众多技术图书中表现优秀，目前市面上还没有同类型书籍。负责出版这本书的人民邮电出版社编辑秦健说，从实际销量、技术的先进性、渠道流量和作者知名度等多个方面评判，这本书已经达到畅销书标准。

从结构看，《动手做AI Agent》主要包含三部分：第一是从技术和工具层面阐释Agent设计的框架、功能和方法；第二是通过自动化办公的实现、推理与行动的协同、知识的提取与整合等7个实操项目，带领读者学习前沿的Agent实现技术；第三是介绍科研论文中Agent技术的进展，提供技术发展的全面视角。

在埃森哲做咨询服务和在新加坡科研局工作期间，黄佳接触了能源、物流、金融等各行业的公司，也了解许多企业的共性需求，这让他能选取更通用的实操项目。

例如，由于有大量文档和资料分布在各个网站、HR的抽屉等不同区域，许多企业都需要文件检索系统。对此，黄佳在《动手做AI Agent》中加入了使用Llama Index数据框架，实现检索增强生成Agent的实操案例。

过去，黄佳写的一系列SAP技术著作只是讲解技术，显得很干瘪。2020年，在写《零基础学机器学习》时，黄佳受到了一本以漫画风形式呈现的技术图书的启发，开始在创作中引入采用图画和对话等形式，以求兼顾技术性和可读性。

具体而言，黄佳在书里会添加一位老师咖哥和两位学生小冰、小雪。通过对话和答疑解惑的方式，咖哥会讲解机器学习、GPT（生成式预训练模型）和Agent等概念。在黄佳看来，这种形式能让读者更轻松地了解书中的知识。

本硕毕业于北京大学的汪杨，正在筹备设立一家智能体产品公司脑仁智能，是Agent领域的创业者。在看完《动手做AI Agent》后，他觉得这本书深入浅出地讲解了Agent技术，可以算是目前市面上把相关技术理论和框架讲得最清楚的书。不过，由于篇幅所限，有的地方还不够丰富，例如书中提到的几个工具都只是讲了一些框架和案例，读者真正要自行开发的时候，还需要阅读一些文档和参考资料才可以。

还稍显不足的是，有读者指出，调用OpenAI的API（应用程序编程接口）有难度，《动手做AI Agent》作为面向国内的书籍，应该以国内大模型来完善一些示例。黄佳说，这是很好的建议，目前国内大模型行业风起云涌，厂商的大模型能力也越来越强，未来会补充加入这部分内容。

Agent还在起步阶段

新加坡科研局一直倡导在纯科研项目的同时，加强与企业的合作项目。近两年，由于大模型的爆火，越来越多的企业与新加坡科研局沟通，希望能将大模型能力嵌入到企业工作和产品的各方面。由此，新加坡科研局和企业合作的AI应用落地项目比重增加了不少。

在受邀回中国参加一些论坛和会议的过程中，黄佳也观察到，因为有足够的人才、市场和体量去进行各种探索，国内AI应用落地的进展较快。

Agent被中金研究认为是连接大模型和现实世界的“最后一公里”。根据黄佳讲解的Agent构建流程，开发者需要先为Agent设计提示词，使Agent能够拥有这样一种“思维方式”：在执行任务时，先分成几个子任务，然后按部就班地执行每个子任务。这种系统化的提示词配置，使得用户可以通过Agent更清晰明确地调用大模型能力。接着开发者需要为Agent配备一系列的工具和函数，这将使Agent不仅能说话、输出文字，也能帮助用户执行具体操作。

目前，Agent已经开始在客服、助手、问答、任务引导等领域得到应用，例如OpenAI的Assistants（助手）、微软的AI助手MicroSoft Copliot和字节的Coze助手等。一些企业也开发了行业定制的Agent，服务于特定场景。

5月30日，在2024百度移动生态万象大会上，百度集团资深副总裁、百度移动生态事业群组总经理何俊杰曾说，基于强大的基础模型，智能体可以批量生成，应用在各种各样的场景。文心智能体平台已有超16万名开发者和超5万家企业入驻，上面既有文案专家、读书专家、企业培训执行专员这样由个人开发的小而美的智能体，也有OPPO公司、新加坡旅游局这类企业、机构开发的智能体。

不过，总体而言，Agent技术还处于起步阶段。

黄佳称，Agent开发目前还没有统一的规范和开发生态，不像开发APP（应用程序）那样简单，APP开发有统一的平台，比如苹果操作系统iOS和安卓操作系统Android，开发者可以在这些平台上构建和发布应用。另外，Agent需要嵌入到每一个具体的场景中解决实际问题，这些问题通常具有独特的上下文和需求。不同的应用场景下，用户的需求和期望是不同的。

商业模式方面，黄佳说，Agent技术尚未带来公认已经落地的、颠覆性的商业应用模式。国家也还需要发布一系列规范，不能让Agent可以随便做任何事。这种结构性的变化会更进一步方便我们的生活，但需要漫长的过程。

在技术上，大模型仍存在准确性的问题。黄佳说，大模型本质上是一个智能体，而不是我们熟知的逻辑计算。因此，我们只能参考它返回的结果，而不能将其作为最终决策的依据。他举例，银行、医疗等领域都需要零出错，即使准确率高达99.9%也不行，这是目前大模型落地应用的一个致命问题。