纵观资讯 纵观资讯

当前位置: 首页 » 实时追踪 »

从蛰伏到王炸,RL启示录

来源:20社

强化学习(Reinforcement Learning),重新变得性感了。

就在3月5日,2025年的图灵奖颁给了强化学习的两位理论奠基者——安德鲁·巴托(Andrew Barto)和理查德·萨顿(Richard Sutton)。

这次颁奖,像是一个不断放大的信号,揭示了一个越来越明确的AI研究范式转折——引入RL,AI研究从“快思考”(快答出预训练的回复)推进到“慢思考”(在推理时深思熟虑)。

在过去这一年间,RL从一度沉沦的位置,重新走回了AI研究的闪光灯中心。2024年下半年,OpenAI率先发布了它在LLM基础上,用RL实现“深度思考”的成果——o1,设定了新的终点线。今年初,DeepSeek将赛道上的迷雾更进一步迅速驱散了,把自己的方案完全开源,在LLM中加入“纯RL”,让R1的推理能力比肩甚至超过o1。关于RL能帮助通往AGI的共识,迅速凝聚。

一些RL领域的研究者几乎要喜极而泣了。

AlphaGo曾经用惊艳的“神之一手”打败了人类围棋的最顶尖高手李世石,让世人第一次大规模地为AI的智力惊喜以及惊吓。RL,正是AlphaGo训练的理论基石。

RL的研究者们认为,机器的学习,可以类比人类,就像多巴胺激励神经元,机器也能通过与环境的反馈互动不断改进提升能力。人的时间经验有限,而机器不受这些限制,在RL中能够有超人的潜力。

这曾经一度是人们对通往AGI的最主流想象。

但在2020年后,更多的人被“LLMs and scaling laws are all you need”吸引走了。大语言模型,以及越来越庞大的预训练数据集,将AI的智能推进到了新的阶段,也把不走“大力出奇迹”路线的RL相对边缘化了。

因为LLM能够实现看起来更通用(general)的智能,而RL只能在奖惩明确的特殊环境中训练出“专科”智能,只能“玩游戏”,而无法处理复杂的现实环境。

在一些论坛的AI板块讨论中,从业者们明确地感觉到,RL的“市场关注份额”流失,有人抱怨“找不到RL工作”(I can’t find an RL job)。一些“RL是否走进死胡同”的论战更是非常有意思。RL和LLM的支持者激烈地争论,谁更好地模仿了人类的自然认知模式,谁才更有前途。

直到大语言模型的scaling law开始碰壁,科技树上的一场新较量开始了。

这正是一部人类智慧交替闪耀的故事。通往AGI的路上,原本是一片黑暗,有人提出用刀耕,有人用火种,有人用哲思,都获得过成就,也遭遇过瓶颈。而在新的障碍面前,这些方法的新组合,把人类带到了新的起点。

AlphaGo

2016年3月的首尔,深度学习历史上最具开创性的时刻之一正在这里发生。在击败欧洲围棋冠军Fan Hui后,AlphaGo正式挑战全球围棋冠军李世石。这被全球媒体视为人类智识尊严和人工智能的对决。

结果足够惊悚,AlphaGo以4:1的绝对优势,战胜了14次围棋世界冠军得主李世石。人类轰轰烈烈地落败了。

在第二局的第37手,AlphaGo出了让所有人都困惑不已的一招,落在第五线,而非传统最优选的第三线。解说室懵了,一位评论员称不知是好是坏,另一位说“这是一个错误。”

第37手出现的概率是万分之一。在AlphaGo的研究员看来,没有人类会这么下,但这一手仍然是正确的,“它通过内省过程发现了这一点。”同样在观战的Fan Hui评价这是“神之一手”。

右侧新落的黑子,为AlphaGo的传奇第37手

AlphaGo战胜李世石,一下子让AI在公众认知中爆发了,AI迎来了前所未有的希望和期待,甚至让大众第一次真正恐惧“AI比人更聪明”。RL的巨大潜力,恐怖如斯。

谷歌的核心高管悉数到达首尔,来见证这个“代表谷歌互联网业务未来”的AI技术。这场比赛对谷歌非常重要。

谷歌是2010年代那一波历史性的AI人才争夺战的最积极下注方。辛顿(Geoffrey Hinton)仅用4颗GPU和更好的神经网络算法,就把谷歌用了16000颗CPU的“谷歌猫”踩在脚下,震惊业界。谷歌毫不吝惜地以4400万美元拍下辛顿三人的纯智力公司,又砸了4亿英镑把英国初创公司DeepMind纳入麾下。

DeepMind当时展现给谷歌的RL路线,并不是谷歌当时的神经网络做图像识别、音频理解等研究方向。但创始人哈萨比斯(Demis Hassabis)聚集了当时最好的一批人才,这非常珍贵,哈萨比斯和不少同事都算是辛顿的学生。更重要的是,哈萨比斯曾用“围棋”和“打造人脑一样的通用人工智能”成功说服彼得·蒂尔(Peter Thiel)投了140万英镑,也让谷歌相信了RL让DeepMind构建了一个系统,这是在通用人工智能方面的第一次真正尝试。

攻克古老的围棋,是DeepMind向谷歌证明自己的第一步。哈萨比斯是一个爱玩游戏的学霸,他研究AI,把两个爱好完美结合,把AI扔进游戏里,反复试错,直到它玩得比人类更好。

AlphaGo有两个神经网络,一个负责策略,输出下一步落子的概率;另一个是价值网络,来输出落子的胜率。AlphaGo初始学习了3000万步围棋专家的下法,然后一场接一场地与自己对抗,分析哪些下法是更有利的,飞速进步。

在后续的版本AlphaGo Zero中,DeepMind把RL进一步做到极致——不再提供海量对弈棋局的初始数据,仅告知基本规则,由它自我对弈数百万次,发现获胜策略。AlphaGo Zero经过3天的训练,就获得了比击败李世石的版本更强的能力,与后者对弈的胜率是100比0。

而AlphaGo Zero远比AlphaGo强大的原因,正在于RL占比提高了。取名为Zero,也暗示了它是真正从零做起,完全自学成才。

一时间,DeepMind的论文《Mastering the game of go without human knowledge》火得发烫。该论文称,即便是在最具挑战性的领域中,单纯使用RL的方法也是完全可行的:没有人类实例或指导,没有基本规则之外的知识,训练达到超人的性能是完全可能的。

AlphaGo Zero更加简洁优美。AlphaGo的初始版本需要176个GPU和1202个CPU,AlphaGo Zero只需要一台机器和4个TPU。

AlphaGo Zero将RL的路线带到业界热情的顶峰。在2018年12月,AlphaGo Zero登上了《科学》杂志封面。《科学》杂志给出了这样一句评价,“能够解决多个复杂问题的单一算法,是创建通用机器学习系统,解决实际问题的重要一步。”

DeepMind商业计划书的第一行,就是通用人工智能。当时的巨大成功,让哈萨比斯更加确认了DeepMind的使命,“这是我们开发通用算法的一大进步”。

DeepMind继续研究如何把提升AlphaGo,把它的能力迁移到其他领域。AlphaGo Zero更加通用,除了围棋还轻松地在国际象棋、日本将棋领域达到顶尖水平。AlphaFold在预测蛋白质结构上成就斐然,哈萨比斯还因此获得了诺贝尔化学奖。AlphaStar能玩《星际争霸II》。

业界对这一探索方向也怀抱着巨大的希望。RL相关论文激增。在机器人、自动驾驶、储能等行业,RL是一种非常合适的训练学习路径,行业研究也越来越深入。

仅统计了arXiv,制图20社

“死胡同”

辛顿对哈萨比斯个人的聪明程度评价甚高,称“他的实力不仅在智力上,还展现在他对胜利极端且坚定不移的渴望上”。辛顿曾经在英国当过哈萨比斯短暂的导师,在2014年谷歌收购DeepMind时还专门克服了腰椎间盘病痛无法乘民航飞机的困难,到伦敦提供了关键的科学顾问。

但这位连接主义的大拿,对哈萨比斯认定的RL路线并不认可。

2018年,辛顿和杨乐昆(Yann LeCun)、约书亚·本吉奥(Yoshua Bengio)凭神经网络深度学习获得图灵奖。在获奖后演讲中,辛顿开玩笑地要把RL排除在机器学习方法之外,因为“被称为强化学习的第三种方法不太有效。”RL需要太多的数据和太多的处理能力,才能完成真实世界中的实际任务。

要理解他们之间的分歧,我们需要了解一些背景框架。

在AI的漫长探索中,研究者们都在试图用人类认知世界的方式(本质),去建构机器智能的框架(模仿)。因此AI的理论演进,一直是和人类心理学、脑科学、神经科学、哲学和语言学的发展互相纠葛。对本质的不同认知,也让AI研究者分化为主要的三大流派。

符号主义(Symbolicism)认为,人的认知单元是符号,主张通过公理逻辑和符号操作来模拟人类的智能。一度是最先获得实践应用、最风靡的流派。IBM的“深蓝”打败了国际象棋世界冠军,本质上是符号主义的成果。

连接主义(Connectionism)来源于仿生学,主张通过模拟人脑神经元的连接方式来实现人工智能。如今AI领域最宗师级的几个大牛——辛顿和杨乐昆是扛鼎者,神经网络就是模仿人脑的产物,也是现在最主流的理论派别。

行为主义(Actionism)关注行为和刺激之间的关系,让机器通过与环境交互来学习和改进其行为。这也就是RL所属的流派。

图片来源于网络

事实上,RL的发展历程非常曲折,经历了多次长久的寒冬和等待。

最早在在1950年,艾伦·图灵(Alan Turing)提出了RL初步的设想,一种基于奖励和惩罚的机器学习方法。

在这个想法的基础上,几十年后的1980年代,AI的寒冬中,巴托与萨顿在麻省理工默默搭建了RL的理论框架和算法体系。他们最核心的贡献莫过于时间差分学习算法,它解决了奖励预测的问题,agent如何获得长期收益。

又过了40年,巴托与萨顿凭借对强化学习的研究,获得了图灵奖的迟到奖励。

RL的进展受制于算法、算力、数据三大瓶颈。DeepMind能够用RL创造出震惊世界的AlphaGo,有一个重要原因是,它把辛顿等连接主义学者的成果“神经网络”借过来了。AlphaGo由两个13层的深度神经网络构成。

神经网络和泛化能力的引入,从根本上改变了RL。传统的RL,依赖于表格的方法(如Q-learning)和动态编程,通常需要穷举所有可能的状态和动作组合,计算上难以实现。而神经网络可以学习数据中的模式和特征,对新的状态进行有效的预测。因此DeepMind后来也把自己的研究称为“深度强化学习”。

第4代的AlphaMuZero可以自己学会玩围棋、国际象棋、日本将棋和Atari游戏,还被用来帮YouTube寻找视频压缩的更优算法。比前几代更“通用”了,更够应对更多不确定环境。

但是经过神经网络加强过后的RL,依然是RL。Mu的应用还是在有限的游戏环境中。

AGI需要AI能应对不同的任务,而不是只在单一任务中做到极致。

在2021年,AlphaGo系列的负责人David Silver和RL奠基人萨顿联手发了另一篇文章,《Reward is Enough》,跟神经网络领域的划时代论文《Attention is all you need》有异曲同工的修辞。

Silver等人认为,一个简单而强大的原则“奖励最大化”下,具备出色智能的agent能够“适者生存”,习得知识、学习、感知、社交智能、语言、泛化能力和模仿能力。简而言之,RL将促进AGI的实现。这像是把自然界的进化论,搬到了AI领域。

但这一理论遭遇了业界很多的质疑和批评,因为它某种程度上非常“空洞”,且论文中提到的泛化,仍难以在实践中获得突破进展。

强化学习是死胡同(RL is a dead-end)之类的讨论在AI社区越来越频繁。围棋等游戏天然适合RL。但在开放性环境中,奖励目标或环境的细微变化,就会导致整个系统彻底失败,或者需要重新训练。监督学习效果是稳定的,但RL根本不稳定。人类设定的奖励,经过RL的黑盒子,可能会导向无法预知的离谱行为。

去年从DeepMind离职创业的科学家Misha Laskin认为,RL进展停留在了超人类、但极度狭窄的智能体层面,缺乏明确路径来拓展通用性。“如果单一任务上都要实现六亿步的训练,又从哪获取足够数据来覆盖所有任务呢?”

Google DeepMind的研究员Kimi Kong最近在真格基金播客中称,在2019年之后,RL在算法层面就没有更多的长足进步了。

这种迷茫和低落实际上蔓延在整个RL社区。尤其在ChatGPT发布后,LLM展现出来的泛化能力,让RL开始失去资本和产业的聚光灯,甚至在一些人看来,是被赶回了象牙塔。

2024年8月,DeepMind的一次学校讲座。RL的关注度在LLM浪潮中跌入低谷,但DeepMind仍坚信RL

蛋糕上的樱桃

大语言模型如日中天,但它的头顶也飘着几朵乌云。

在2024年底的AI峰会NeurIPS上,OpenAI联合创始人兼前首席科学家Ilya Sutskever宣称,预训练时代即将终结(Pre-training as we know it will end),这将已经笼罩在行业头顶的scaling law碰壁焦虑彻底一语道破。

AI的训练数据,正在枯竭。而扩大训练数据量级提升智能的边际效应也在递减。

此外,LLM天生不擅长数学和物理。因为LLM本质上仍是基于语言模式,而科学原理和人类的决策从根本上讲是抽象的,超越了语言或像素的表达范畴。

怎么办呢?

OpenAI率先给出了方案。去年年中发布的o1模型,不是一味扩大预训练规模,而是用RL结合CoT(思维链)技术,实现了深度推理,将大模型的智能又推上一个新的台阶。一个新的范式也出现了,AI研究开始从“快思考”(快速给出预训练的答案)迁移到“慢思考”(深思熟虑地推理)。

RL的优点在此时尽显优势。其一,RL(在给定环境下)需要的数据量远小于LLM。其二,RL善于在环境中自主探索、动态学习、连续决策。

据RL研究者、Pokee AI的创始人Zheqing Zhu的演讲,从90年代以来,RL领域一个趋势是“反向的scaling law”。AlphaGo需要3000万对局,到AlphaGo Zero,再到MuZero,对局减少到500万以下,效率呈指数级提高。

图片来自 @ZheqingZhu

有意思的是,又是OpenAI实现了工程突破,又是谷歌提供了理论来源,就像上一次是ChatGPT点燃了Transformer的烽火。

在o1发布的一个月前,DeepMind的论文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》与o1模型原理几乎一致,提出增加测试时计算比扩展模型参数更有效。

谷歌在2024年初发布的《Chain of Thought Empowers Transformers to Solve Inherently Serial Problems》也提出类似观点,传统Transformer模型擅长并行计算,用CoT突破其串行逻辑推理的限制。

但为什么不是谷歌摘得果实呢?这又是另一个问题了,或许涉及到大厂的工作考核、组织模式、业务牵制等等。谷歌的员工大概率也为此忿懑。

去年两位DeepMind核心研究员Misha Laskin和Ioannis Antonoglou为了更快地追赶AGI的时间窗口,离职创办Reflection AI,创业方向正是基于RL+LLMs的通用Agent。

显而易见,整个大模型业界都进入了新的心照不宣硝烟四起的竞赛中。终点大家都看到了,但后来者谁能率先到达?

答案是,来自纯中国本土团队的DeepSeek。

这里就不再赘述DeepSeek在其他方面的创新,只看它如何实现“深度思考”。

此前OpenAI虽然展示了o1的推理能力,但有意把推理的详细过程隐藏掉了,以防止其他模型复制它的数据。因此深度思考能力仍是一个黑盒,其他团队也只能从头研究。破解的难点除了数据、基础模型,更在于RL环境通常不完美,且难以准确指定奖励函数。如果奖励机制有噪声,就很容易被reward hacking,能力却没能真正提升。

就像LLM们此前在做RLHF时,这种现象普遍存在,甚至出现越训练模型越笨的情况。

(不同的目标函数都存在过度优化,模型性能先升后降)

RLHF依靠人类的反馈,并不是一个明确的简洁的规则。且RLHF很多部分,是为了实现alignment,为了更像人,而不是更智能。这正是这个原因,OpenAI联合创始人Andrej Karpathy认为,RLHF并不是真正的RL,只是人类偏好的代理,而非真正的奖励函数。

DeepSeek-R1-Zero把黑盒的秘密大张旗鼓地公布给了所有人。它提出了一种完全跳过人类监督微调的模型,纯粹通过RL获得有效学习和泛化的能力。它的奖励函数简单到不可思议,只包括两部分,针对数学问题的“准确性奖励”和规定思考过程要置于 '' 和 '' 标签之间的“格式奖励”。

(R1-Zero在AIME 2024基准测试中,随着RL训练的推进,性能稳定性和一致性得到增强。)

这种极简的奖励机制,回过头来看,像极了AlphaGo。而几年前被指“空洞”的“Reward is Enough”观点,似乎也得到了一些验证:DeepSeek创造了适合的策略,找到了适合的奖励函数,于是R1-Zero获得理性思考的能力,“顿悟时刻”降临了。

随着拥有通用知识的LLM,插上了擅长抽象逻辑、自主推理决策的RL翅膀,两者互补,AI的智能程度显著提高。这简直是目前为止完美的解决方案。

还记得杨乐昆在2016年提出的那个非常著名的蛋糕梗吗?“如果智能是一块蛋糕,那么无监督学习是蛋糕的主体,监督学习是糖霜,强化学习(RL)只是顶上的樱桃。”

他本意是强调无监督学习(后来他变成自监督学习)的重要性,从可用的任意信息预测过去、现在或未来的情况,顺便讽刺一下RL。这也是连接主义的学者嘲笑RL的习惯性动作。

被刺激到的DeepMind的研究人员,曾经还回敬他了一张缀满樱桃的蛋糕图。

不过,这个讽刺意味的meme,反而成了当下情形的正面预言。

OpenAI Deep Research的研究员Josh Tobin很好地描述了这个趋势:我们2015年、2016年搞RL研究时进展受限,是在没有“蛋糕”的情况下加“樱桃”。但现在我们有了在大量数据上预训练的强大语言模型,RL终于迎来了合适的发展时机,AGI Agent和复杂决策也更加高效和可行。

奥特曼(Sam Altman)称未来发布的GPT-5,将是两条线合并起来的“神奇的统一智能”,将根据任务自行决定是快速回答,还是进行深入分析思考。

就像Ilya Sutskever曾提出的比喻,大多数哺乳动物的大脑体重比遵循一定规律,但人进化出了新路径,大脑比重更大。AI也会找到突破预训练模式的新方向。

根据DeepSeek的预告,RL提升大模型智能的潜力显然远未穷尽。下一波AI突破才刚刚开始。

特别声明:以上内容仅代表作者本人的观点或立场,不代表Hehson财经头条的观点或立场。如因作品内容、版权或其他问题需要与Hehson财经头条联系的,请于上述内容发布后的30天内进行。

未经允许不得转载: 纵观资讯 » 从蛰伏到王炸,RL启示录