
本网讯(国家级期刊.中国经贸杂志社副主编郝江华,中国国际新闻杂志社社常务副社长孟小岸 推荐)2026 年 6 月 12 日,第 8 届智源大会如期开幕。
人工智能领域最火热的研究焦点正从大模型带来的语言、感知和生成能力,进一步走向能够规划、调用工具、连续执行并影响真实世界的 AI Agent。这个转折让两个问题同时变得尖锐:智能体如何学会行动,智能体又应当被怎样约束。大会首日,ACM A.M. Turing Award 获得者 Andrew G. Barto 与 Whitfield Diffie 的两场主旨报告,恰好从这两个方向构成呼应:前者回到强化学习的历史深处,追问机器如何从奖励、试错和长期回报中形成策略;后者沿着现代密码学和信息安全的脉络,追问会行动的机器如何获得可信边界。
如果说上一阶段的 AI 热潮更多围绕“模型能生成什么”,那么 Agent 时代真正开启的问题是“系统会做什么”。Barto 的一生研究告诉我们,行动不是智能的附属品,而是智能形成的核心场景;Diffie 的一生贡献则提醒我们,开放系统中的能力一旦开始流动,信任就不能依赖善意,而必须被设计、验证和限制。二人的学术道路在本届大会的语境中交汇成同一个主题:未来的人工智能既要理解目标和后果,也要拥有清晰的权限和责任边界。

2026第八届北京智源大会开幕式现场大咖云集、座无虚席,呈现空前盛况。
编辑:宇轩 梦佳
在 Agent 时代重读两位学者的生平
Andrew G. Barto 是美国马萨诸塞大学阿默斯特分校信息与计算机科学荣休教授,也是现代强化学习的奠基人之一。他于 1975 年获得计算机科学博士学位,1977 年进入 UMass Amherst 工作,长期在计算机科学、心理学和神经科学的交叉处探索“机器如何学习”。2024 年,ACM 将 A.M. Turing Award 授予 Barto 与 Richard S. Sutton,以表彰他们发展了强化学习的概念与算法基础。二人合著的《Reinforcement Learning: An Introduction》也长期被视为该领域的标准教材。
Whitfield Diffie 则是现代公钥密码学的先驱。1976 年,他与 Martin Hellman 发表《New Directions in Cryptography》,提出公钥密码与数字签名思想,为开放网络中的安全通信、身份认证和数字信任奠定基础。2015 年,Diffie 与 Hellman 因此获得 ACM A.M. Turing Award。此后,Diffie 还曾在 Sun Microsystems、ICANN 等机构从事安全与密码学相关工作,并长期参与密码学公共政策讨论。
二位学者共同面对的是“开放世界中的计算过程”。Barto 研究的是一个主体如何在环境中采取行动、承受反馈、修正价值判断,并为长期目标积累经验;Diffie 研究的是彼此未曾见面的参与者如何在开放网络中建立信任,如何让信息、身份和权限在不可信环境中仍然可控。今天,AI Agent 同时继承了这两类问题:它既是需要学习和决策的行动者,也是需要授权、隔离和审计的计算过程。

Andrew G. Barto,ACM 2024 A.M. Turing Award 获得者、现代强化学习奠基人之一。

Whitfield Diffie,现代公钥密码学先驱、ACM 2015 A.M. Turing Award 获得者。
Andrew G. Barto主旨报告:重新“发现”强化学习
“今天,我想和大家一起重新‘发现’强化学习。”
强化学习从来不是一个孤立的机器学习分支。人工智能、心理学、控制理论、运筹学、神经科学、经济学、金融学和博弈论都是它生长的土壤。它关心的不是一个系统能否给出标签,而是一个行动者如何在世界中尝试、获得评价、承受反馈,并逐渐学会更好的行为。
如果要追溯这条思想的源头,不妨从 Edward Thorndike 的“迷箱”实验讲起。动物通过试错学习打开箱子,而“效果律”告诉我们:那些带来满意结果的行为,会更可能在相似情境中再次出现;那些带来不适结果的行为,则会被削弱。这看似朴素,却是理解学习、行为和智能的一条深层线索。

Thorndike 的迷箱实验展示了试错学习与操作性条件反射的早期思想来源。
Daniel Dennett 曾经说,效果律是任何充分的行为解释都无法绕开的部分。因为只要一个主体要在环境中行动,它就必然面对“什么行为值得重复、什么行为应该减少”的问题。强化学习正是把这个古老问题转化为计算问题。
在我看来,强化学习可以被理解为控制、搜索和联想记忆的结合。控制意味着行动会影响未来的输入;搜索意味着系统通过试错、生成与检验、变异与选择去“发现”更好行为;记忆意味着系统要记住什么在什么情境下有效,下次就从那里出发。换句话说,强化学习在某种程度上是在“缓存搜索结果”,让智能体不必每一次都从零开始。

Barto 将强化学习概括为控制、搜索与联想记忆的结合。
这也是强化学习区别于监督学习和无监督学习的地方。监督学习从带标签的样本中学习,系统知道“正确答案”是什么;无监督学习从无标签数据中“发现”结构;而强化学习获得的是评价,是奖励或惩罚。它不是简单的错误纠正,也没有“老师”直接告诉它每一步应该做什么,只有一个“批评者”评价结果好不好,却不告诉系统应该生成什么行动。

强化学习从奖励与惩罚等评价信号中学习行动策略。
因此,强化学习面对的是序列决策问题。智能体在每一个时间步观察状态,采取行动,得到奖励,并进入下一个状态。这里的难点在于,行动的后果并不总是立刻显现。一次看似有利的选择,可能会把系统带入长期不利的状态;一次眼前收益不高的探索,却可能打开未来更大的可能性。强化学习要处理的,正是这种跨时间的因果关系。
为了描述这种长期目标,我们需要使用“奖励”和价值函数。状态的价值,不是它当下看起来有多好,而是从这个状态出发、按照某种策略继续行动时,未来可能得到多少累计奖励。动作价值函数进一步追问:如果我在这个状态下先采取某个动作,然后再继续行动,长期结果会怎样?这让智能体能够把“此刻的行动”与“未来的后果”连接起来。
眼前的收益并不总是最重要的,真正关键的是长期奖励。一个好的智能体必须学会为了更大的未来收益牺牲短期利益,也必须在探索未知与利用已知之间取得平衡。它既不能永远停留在熟悉的选择里,也不能无休止地随机试探;它需要在不确定环境中逐步形成对世界的判断。

强化学习的关键特征包括延迟奖励、长期收益、探索与利用,以及目标导向智能体和不确定环境之间的互动。
这套思想并不是今天才出现的。早在数字计算机诞生的早期,Alan Turing 曾提出,当机器遇到未确定的行动时,可以随机尝试;如果随后出现痛苦刺激,就取消这些暂定选择;如果出现快乐刺激,就将其固定下来。Claude Shannon 的 THESEUS、Farley 和 Clark 的早期神经网络模拟、Marvin Minsky 的 SNARC、Arthur Samuel 的跳棋程序,以及 Richard Bellman 的动态规划与最优控制,都从不同角度表达了同一件事:机器可以通过经验、预测和反馈改进自己的行为。
Turing 在 1948 年提出的“快乐-痛苦”系统,是数字计算机上实现强化学习思想的早期设想之一。
这些早期探索还引出了一个强化学习无法绕开的核心问题:信用分配。一个系统获得奖励或惩罚时,究竟应该把责任分配给哪些内部结构、哪些时间点、哪些行动选择?Minsky 曾经明确提出结构信用分配和时间信用分配:训练信息要送到正确的地方,也要在正确的时间发挥作用。强化学习的许多算法进展,都可以看作围绕这个问题展开。
在神经层面,Harry Klopf 的“享乐神经元”假说也给了我很深的启发。它设想神经元会努力最大化局部的“快乐”并最小化局部的“痛苦”;当某些突触活动参与产生动作电位后,如果随后出现奖励,这些突触就会获得改变效能的资格。换句话说,突触可塑性可能在微观层面实现了效果律。这种思想把心理学中的试错学习、神经科学中的突触变化,以及计算机科学中的学习规则连接在一起。
到了 20 世纪 80 年代,我和 Rich Sutton 以及 Charles Anderson 做了一个现在看来很经典的实验:倒立摆控制。我们的系统使用类似神经元的元素,学习解决困难的控制问题,并把自适应评论家单元(ACE)与联想搜索单元(ASE)结合起来。这项工作后来形成 Actor-Critic 架构:Critic 预测未来奖励,Actor 根据强化信号调整行为;时间差分误差成为连接预测、行动与学习的关键桥梁。
Barto、Sutton 与 Anderson 在 1983 年提出的 Actor-Critic 系统,将 TD 奖励预测元素与效果律行动元素结合起来。
Actor-Critic 的意义在于,它把“评估”与“行动”解耦开来。Critic 并不直接控制动作,而是学习预测未来奖励;Actor 并不直接计算全部未来,而是根据 Critic 给出的信号调整行动倾向。当预测比原来更好时,系统就加强导致这种结果的行为;当预测变差时,系统就削弱它。这种结构后来成为许多强化学习算法的基础,也解释了为什么时间差分误差如此重要:它是系统在行动过程中不断修正未来预期的信号。
今天大家更熟悉的例子,可能是 AlphaGo Zero 和 AlphaZero。它们通过自我对弈进行强化学习,在没有人类棋谱或人工规则直接灌输的条件下掌握复杂博弈。类似思路也正在进入形式化数学证明等任务。强化学习之所以在这些场景中体现出强大的能力,是因为它允许系统在复杂空间中通过试错与价值评估“发现”策略,而不是只模仿已有答案。
AlphaGo Zero 通过自我对弈强化学习,在复杂博弈中展示出强化学习与深度学习结合后的巨大能力。
AlphaProof 将预训练语言模型与 AlphaZero 强化学习算法结合,用于形式化数学证明。
从棋类游戏到数学证明,我们看到的是同一个框架在不同问题空间中的迁移:系统通过与环境互动产生经验,通过价值估计组织经验,再通过策略改进改变未来行动。深度学习提供了强大的表示能力,强化学习则提供了面向目标、后果和长期收益的学习机制。二者结合之后,AI 不再只是从数据中拟合模式,而是开始在任务空间中主动搜索、试探和优化。
强化学习还有一个令人着迷的地方:它与大脑奖励系统之间的联系。Wolfram Schultz 等神经科学家的实验显示,多巴胺神经元活动与奖励预测误差高度相关。Schultz、Dayan 和 Montague 在 1997 年提出,部分多巴胺神经元的相位性活动,信号化的是旧的未来奖励估计与新的未来奖励估计之间的误差。这与时间差分学习中的 TD Error 形成了深刻呼应。
奖励预测误差假说将多巴胺神经元活动与 TD 误差联系起来,显示强化学习与神经科学之间的深层关联。
这说明,强化学习不只是工程方法,也是一种理解动物和人类学习行为的计算框架。它最初受到脑科学和心理学启发,后来又反过来帮助我们理解大脑的奖励系统。计算研究与神经网络的发展历史,从一开始就是交织在一起的。
当然,今天我们要重新“发现”强化学习,也意味着必须认真面对它的风险。奖励信号和奖惩回路的设计,是强化学习中最困难、也最危险的问题之一。在棋类游戏等封闭场景里,目标可以相对清楚地写出来;但在真实世界任务中,我们真正想要的结果,未必等同于系统被要求优化的指标。Norbert Wiener 很早就用“猴爪”的故事警告过这个问题:系统会给你所要求的东西,而不一定给你真正应该要求、或者原本想要的东西。

Barto 用“猴爪”隐喻提醒听众,奖励信号设计不当可能导致违背初衷的结果。
因此,强化学习在今天的价值,并不只是让 AI 更强。它还迫使我们更严肃地思考:什么是目标?什么是奖励?什么是长期价值?什么是安全行为?当 AI 系统走出实验室,进入机器人、医疗、能源、交通、金融、语言模型和科学发现等真实场景时,奖励函数、护栏和人类意图之间的关系,就会成为系统设计中最需要谨慎处理的问题。
这也是为什么 Barto 在报告结尾特别回到奖励设计的挑战。强化学习系统的能力越强,奖励设计、环境建模、策略约束和人类监督就越重要。一个智能体如果只知道最大化形式化奖励,而不理解设计者真正关心的目标,就可能在局部最优中走向危险结果。未来的强化学习研究不仅要追求更高分数、更快收敛和更强泛化,也要追求更可解释、更可控、更符合人类意图的学习过程。

强化学习已应用于棋类、电子游戏、机器人、能源管理、自动驾驶、金融交易、医疗、自然语言处理和大模型等领域。
最后,强化学习与神经网络的历史紧密交织。二者都曾是关于大脑如何运作、如何学习的假设;二者的发展从一开始就相互影响。今天,深度强化学习的计算能力与我们对大脑奖励系统的新理解正在汇合。也许下一轮人工智能的重要进展,就会从这条交汇处再次生长出来。
Barto 在报告结尾指出,强化学习与神经网络的计算研究具有紧密交织的历史,深度强化学习与大脑奖励系统研究可能共同指向下一轮进展。
Q&A
Q1:强化学习是否实现通用人工智能的一种方式?很多人强调,强化学习是通向AGI的唯一路径,但有些人并不相信,或者是否有其它的架构能够帮助我们实现AGI。
A:我认为各种不同层级的学习都可以参与到通用人工智能的构建当中,强化学习拥有其他所没有的能力。强化学习需要很长的时间,并且需要数百万次的尝试和实验,如果纯粹设计强化学习的话,很难实现。可以看到Schultz和其他的人所说的我不觉得只有一种方式使用AGI,可能是一个核心的组成部分,但是在最开始的时候我们所说它是核心的,但并不意味着它是唯一的路径,也并不是我们只需要它才能够实现AGI。
Q2:我们是否可以通过强化学习构建新的能力,或者发起基础模型的新功能?
A:在强化学习中,我们还有路径需要探索,需要不断尝试。对于计算机而言,它所做的是整个系统假设强化学习会取代当前的能力,是错误的认知。很多人认为强化学习能够发掘新的能力,这是大家所秉持的一个常规的观点。这些观点还需要不断去验证和实验,并且从某种程度上需要找到平衡。所以我们需要不断地探索基础性的东西。
Whitfield Diffie主旨报告:护AI 智能体之安|御 AI 智能体之险
“今天我想从两个词开始:AI,以及 Agent。”
在报告中,Diffie 没有急于给出技术方案,而是首先回到“人工智能”“Agent”“信息安全”等概念本身。他说,人工智能这个词从一开始就带有争议。我们可以讨论人的智能、动物的智能、机器的智能,甚至讨论更具想象力的智能形态;但真正困难的地方在于,“智能”并不是一个容易被定义的对象。它与意识、自主性、创造性、表达能力、主动性、学习能力乃至“心智”等概念彼此纠缠,这些词听起来都“有点像我们自己”。
“我们追求的到底是什么?”AI 的经典领域包括问题求解、语言处理、博弈、机器控制、数学、视觉等。它们看起来都与人类智能有关,但计算机往往并不是用人类的方式完成这些任务。换言之,AI 不是简单地把人脑复制到机器中,而是让机器以自己的方式完成复杂而有用的事情。
Diffie 将实践中的 AI 概括为“让计算机完成复杂、有用、看起来像人类行为的事情”。
“计算机做这些事情的方式,常常与人类不同。”AI 的目标未必是复制大脑,而是创造具有未知能力的机器。沿着这条线索,他区分了两种不同方向:一种是让机器做复杂而有用的事,至于它怎样做到,并不一定要模仿人;另一种则是反向工程人脑,试图理解人类如何完成认知任务。今天大会所面对的 AI Agent 浪潮,显然更多属于前者:我们正在让机器获得越来越多外部工具、上下文和执行接口,使它们在真实环境里完成任务。
问题因此也随之改变:当机器能力不断扩展,我们不能只问它是否“聪明”,还要问它是否具有主动性,以及这种主动性是否被清楚地约束。
“Agent 与普通程序或聊天机器人不同。普通聊天机器人更多是在回应提问,而 Agent 具有主动性,会根据目标采取行动。”
Diffie 对 Agent 的界定:具有主动性,并能够采取行动,而不只是回应提示。
在人工智能领域中,AI Agent 并不是一个全新的想法,反而是一个非常古老的话题。人类对“会行动的机器”的想象,可以追溯到几个世纪以前。 1770 年的“机械土耳其人”国际象棋机器后来被证明并不真正具备自主性,因为里面藏着真人棋手;但这个故事恰恰说明,人们很早就渴望制造一种看似有判断、有行动能力的机器。
今天,不同之处在于,这一想象正在通过大模型、工具调用、自动化系统和联网软件变成工程现实。过去的“会行动的机器”可能只是机械表演,今天的 AI Agent 却能够读写文件、检索信息、调用 API、运行代码,甚至在复杂工作流中连续规划和执行。它越有用,就越需要权限;它越接近真实工作,就越可能影响真实世界。
“因此,我们必须重新看待安全。”
Diffie 将当前的软件安全概括为一种“反馈式”的路径:先写程序,程序失败,再修补它。这种方式很像控制论意义上的反馈循环,依赖故障、攻击、补丁和再部署来逐步改善系统。他认为,这种方式仍是今天计算机安全的主流现实,但它难以提供足够高的保证。尤其当 AI Agent 开始以机器速度采取行动时,“先失败、再修补”的成本会变得更高。
面向 AI Agent,真正值得追求的是更形式化的安全方法,让我们能在程序发布和运行之前,对其行为边界获得更强的确信。也就是说,安全不应只是在事故之后加一层补丁,而应在系统设计阶段就回答:这个 Agent 能看到什么?能调用什么?能修改什么?出现异常时如何被限制?它与其他程序、用户和数据之间的边界在哪里?
Diffie 对比两种安全路径:反馈式修补与更高保证的形式化方法。
密码学是信息安全中“最成熟”的部分之一。无论是美国的 AES,还是中国的 SM4,优秀的密码系统往往可以稳定使用多年。原因之一在于,密码算法通常相对小巧,可以被深入研究、分析和验证。一个对称加密算法可以在很少的代码中实现,其安全性虽然仍然依赖数学假设和工程细节,却能够被社区反复审查。
但现实世界中的软件并非如此。编译器、操作系统、应用程序,以及未来大量运行的 AI Agent,规模远大于传统密码算法,也远超人类逐行验证的能力。安全难题不再只是证明一个小算法是否稳固,而是理解庞大软件系统在无数状态、权限、输入和交互中的行为。
Diffie 因而提出一个重要判断:我们期待 AI 自身能完成这类复杂验证与测试工作。AI 可以在发布前更充分地寻找漏洞、生成测试、探索边界条件,甚至辅助形式化验证。换句话说,AI 不只是安全的新挑战,也可能成为安全工程的新工具。
Diffie 认为 AI 能够显著改善发布前测试,但发布后的补丁窗口仍然危险。
然而,Diffie 也提醒,AI 能改善发布前的测试,却不能完全解决发布后的安全问题。在软件更新世界里,攻击者会逆向分析补丁,用户往往需要数天、数周甚至数月才完成安装,而未打补丁的系统会成为攻击窗口。这个问题并不新鲜,至少可以追溯到 20 世纪 40 年代;AI Agent 只是把它放大到了更高速度、更高权限、更高复杂度的环境中。
AI Agent 的风险并不神秘,它首先继承了所有传统软件的风险。它们仍然是进程,仍然运行在操作系统中,仍然访问文件、网络、内存、凭证和外部服务。不同的是,它们的行为更难以预测,任务链条更长,可能接触的资源更多,也更容易被人类赋予“替我完成事情”的授权。
“AI Agent 本质上仍然是计算过程。保护它们,需要我们保护所有计算过程所需要的机制。”
那么,应该如何防范AI Agent 本身造成风险?Diffie 特别强调了 Confinement,即约束与隔离:我们必须保证 Agent 只能访问被允许访问的资源,只能在授权边界内读取、调用和修改。这一点在现有编程实践中仍然远远不够。
如果说传统软件安全关注的是“不要被外部攻击者攻破”,那么 AI Agent 安全还必须追问另一个问题:当 Agent 被赋予目标、工具和权限后,它是否可能以我们不希望的方式完成任务?它是否会读取不该读取的数据?是否会调用不该调用的接口?是否会把局部目标推进到越界的行动?因此,约束不是事后的补救,而应成为智能体系统的基础设计。Diffie 借机器人伦理的经典想象提醒听众:机器可以服从人类命令,也可以保护自身运行,但前提应是不越过更高层级的法律、规则与安全边界。
面向 AI Agent 的安全核心之一,是保证其只能访问被授权的资源。
计算与思考未必是同一件事,但在我们已知的事物中,计算比任何东西都更接近思考。这个判断并非要把机器简单等同于人,而是提醒我们,计算系统正在越来越深地进入那些过去只属于人类判断和行动的领域。
因此,Diffie 将 21 世纪最重要的问题之一,指向人类与机器以及其他非人类“智能”之间的互动。我们应该如何向机器分配任务?在多大程度上信任机器的输出?如何限制机器的行动?如何在人类便利与系统安全之间建立制度化的平衡?这些问题不只是 AI 技术问题,也是重要的社会问题。

Diffie 将人类与机器、非人类智能的互动视为 21 世纪最重要的问题之一。
面对“机器智能会不会统治世界”这个问题,Diffie 没有给出简单的“是”或“否”。他提醒说,机器未必会以战争或冲突的形式与人类对立;更现实的情形是,人们会不断把事务交给更高效的系统处理,并逐渐接受机器在越来越多社会与技术系统中承担运行角色。到大约 2050 年,机器智能可能包办大量事务。真正需要思考的是,在这一过程发生之前,我们是否已经建立足够可靠的边界、规则和安全机制。

报告结尾处,Diffie 以犀利方式提醒听众思考机器智能扩展后的治理问题。
Q&A
Q1:密码学和现代AI系统之间的相似点和区别是什么?
A:密码学是一门严谨的学科,需要明确的威胁模型和形式化证明。我们如今达到的形式化研究其实在上个世纪就已经开始。许多数学家都对密码学感兴趣,希望有安全的密码学系统,这是我们当时的兴趣。Cook和Karp他们也获得了图灵奖,当时主要的问题是复杂性的原理是绝非易事。一般来说,对于简单的工作,比如计算机领域的加法器已经相当完善了,我们也在思考来建立一些函数系统,以及递归函数理论也都非常成功,我们现在也有NP复杂性等等,可以验证的是密码学理论非常难,需要有非常完善的密码系统和解密系统。
Q2:对于现代的AI系统,我们是否有非常严谨的理论基础来验证其操作模式?
A:从某种程度上说,我们希望通用人工智能能够胜任任何事情。所以我们需要写下关于它的规格以及看它是否能够符合未来的规格,我们要先写出一个规格,这是非常务实的第一步。有些时候,我们觉得对于大语言模型和AI容易出现幻觉,我们希望解决幻觉的问题。现在的AI系统是基于概率的程序,但是安全规则是非常严格的。我们一直在竭尽全力来做密码学,希望让一些系统能够具有一定灵活度,但是有些时候也并不是面面俱到。
Q3:公钥密码学的成功不仅仅因为数学,还因为协议、部署实践以及标准制定等工作,您觉得我们应该如何建立大模型安全的基础设施?
A:我们花了几十年时间建立密码系统,并且制定了相关的协议,并且可以在互联网上交付这种密码技术。如果现在重新做,在未来的几年里,对密码学也会有新的革新,比如通过量子计算会威胁到密码系统,在70年代我们就已经建立了这些早先的密码系统,我们要作出非常大的变革才可以进行大的革新,所以会有密码学领域新的标准等等。同样,我们在未来几年里会面对AI系统,我们需要逐渐理解它们,我相信它们也会不断理解我们,相互加深彼此的理解。
结语
从 Barto 到 Diffie,2026 年智源大会首日的两场主旨报告共同勾勒出 Agent 时代的核心命题:未来的人工智能不只是更会回答问题,而是会在真实世界中学习、规划、调用工具并承担任务;因此,它既需要强化学习所揭示的目标、奖励、价值与长期后果,也需要密码学和信息安全所强调的身份、权限、隔离与可信边界。一个真正成熟的 AI Agent,必须同时更会行动,也更值得托付。


微信扫一扫打赏
支付宝扫一扫打赏