在算法中寻找星辰大海
文—何自明
皖南水乡粼粼波光,我的科研之路就始于此。童年时,父母长期外出务工,我的记忆中,钓鱼竿丈量着桥头树下的每一寸晨昏,晨雾中浮漂颤动,长时间的等待不断磨炼着年少时的耐力,二十年后与人工智能研究产生了奇妙的共振。
实验室的星辰大海:在基础研究中实现价值
2018年我本科毕业,人工智能的春风正从AlphaGo的棋局中席卷全球。后来我辗转到南京读研,第一次接触深度学习,为了更早地验证出心中的设想,每天深夜,闹钟三小时响一次,就需要更换下一批实验设置。当第一个收敛的模型跑出预期的曲线时,我忽然明白了儿时凝视浮标的专注与此刻调试参数的执着,本质上都是对未知的不断探索。
硕士阶段深度学习课题攻关的经历,成为我叩响智能科学大门的第一次系统性科研训练。它就像一把钥匙,既打开了算法世界的大门,也让我认识到了理论与实践的鸿沟。工作后,我有了大数据开发的经验,也是一次重要的思维转型——算法不是空中楼阁,必须扎根现实需求。
2021年,响应时代对自主智能技术的召唤,我重返校园。在西北工业大学足球机器人基地,深夜常驻留着特殊的“守夜人”,那是我们团队在攻关机器人智能控制算法的关键节点。非平稳地面的人形机器人智能控制和抗扰控制一直是机器人领域的一大难题,作为课题的学生负责人,我和团队成员时常面临着项目结题和备战全国机器人大赛的巨大压力。在不断调整策略泛化方法、调整网络模型、更改上层控制频率等一系列尝试后,我们首次实现了双足机器人在非平稳地形中的动态平衡和各种技能的展示。这项成果凝结着团队两年的心血,最终斩获了国际先进机器人及仿真技术大赛国家一等奖等多项大奖,并获得了领域院士的好评。
何自明在进行机器人调试在某舰配套项目中,我们直面开放海域装备回收的世界级难题,针对卫星导航在复杂电磁环境下的低精度,创新性地设计了多源异构融合定位模型,突破动态定位技术瓶颈,经历频繁的仿真、湖测和海测,最终实现了恶劣海况下的高精度回收。
国防科研的突破,始于对物理规律的敬畏,成于对基础理论的坚守。当看到自主算法转化为装备性能指标时,那些通宵调试的夜晚便自动解码为科研人的勋章。这种从理论到实践的闭环,是西工大“三实一新”精神的当代诠释,更是将个人理想熔铸于国家安全需求的庄严承诺。
智能决策的进化:从程序逻辑到认知重构
当前的机器人研究正在经历从“精确控制”到“自主进化”的范式跃迁。传统工业机械臂依赖精密编程,而新一代智能体则通过强化学习,能在虚拟环境中进行百万次试错训练。这种“虚实融合”式的成长路径,本质上是在构建机器的认知本能——就像人类通过经验积累形成直觉判断。
在智慧物流、智能制造等领域,这项技术已展现出颠覆性潜力:仓储机器人自主优化搬运路径,工业机械臂动态调整装配策略,无人机自主探查油罐车内裂缝和污渍,机器人集群在灾区协同搜救……人类得以从重复、危险的劳动转向创造性工作。而在国防军工领域,智能决策算法赋予装备更强大的环境适应性和任务自主执行能力,为复杂任务执行提供了新的可能。
无人机试验场地技术突破往往伴随新的技术挑战:算法效率与可解释性如何平衡,智能体的创造性思维如何涌现等等,这些问题指引着我们未来的研究方向。正如西工大前辈在“三航”领域的探索,我们正进行着智能决策领域的“技术长征”。或许十年后,每个家庭都会拥有一个能自主学习的管家机器人,每个城市都将形成自我演进的智能交通网络。但在这之前,我们仍需破解“算法黑箱”的难题,在提升决策效率的同时,守护好人类的价值罗盘。这场静默的认知革命,终将让机器智能从执行者进化为思考者——不是冷冰冰的钢铁躯壳,而是承载着人类智慧的延伸。
自DeepSeek-R1发布以来,强化学习技术[具体来说DeepSeek-R1采用的是群组相对策略优化(GRPO)技术]因其有助于对齐人类偏好和动态交互优化而成为大型语言模型的热门话题。同样是因为强化学习技术和混合专家(MoE)架构,国产化大模型DeepSeek-R1拥有独特的训练模式和强大的推理能力,逻辑推理准确率显著提高,并且训练成本显著降低。
何自明(右)带队参加机器人比赛在智能决策领域,我们利用强化学习赋予机器人动态环境适应能力,如双足机器人的地形感知步态控制;而DeepSeek则通过RLHF(基于人类反馈的强化学习)优化语言模型的逻辑推理质量。GRPO方法通过引入过程监督,有效解决传统强化学习只对最后一个token(文本单元)打分导致的中间文本输出不准确的缺陷,这种优化思路为我们优化机器人智能控制模型提供了新视角。作为AI国产化的重要实践,DeepSeek的阶段性训练范式(预训练+微调)与我们的“仿真训练—实物迁移”技术路线异曲同工。其展现的突破印证了强化学习在复杂决策场景中的普适性,既为智能体训练提供方法论参照,更坚定了我们深耕自主技术体系的信心——在基础算法层面突破创新,方能在全球智能革命中掌握定义标准的话语权。
智能时代的辩证:在变革中寻找支点
人工智能作为国家战略科技力量,正从实验室走向千行百业。人工智能引发的社会讨论,往往陷入非黑即白的认知陷阱,从业者的视角或许更为冷静:这项技术本质上是对人类认知能力的工程化延伸,其革命性不亚于蒸汽机对体力劳动的解放。当前的关键在于构建自主可控的技术体系——正如我们团队在强化学习算法上的探索,既要保持对国际前沿的敏锐感,更要扎根中国场景的特殊需求。
技术替代的焦虑源于价值错位。当智能系统接管程式化工作,人类得以专注于机器难以企及的领域:跨学科思维、伦理判断、艺术创造。这种分工进化恰似工业革命时期工匠向工程师的转型,是文明演进的必然过程。作为科研工作者,我深信人工智能的终极价值不在于替代人类,而是拓展认知边疆。当技术焦虑弥漫时,不妨回归本质思考:任何工具的革命性都体现在解放而非束缚。培养与时俱进的创造性思维,构建人机共生的新型生产关系,才是应对智能时代挑战的根本之道。
从西北工业大学长安校区的实验室到碧海蓝天的试验场,我写过的每个代码字符,似乎都在参与着智能时代的中国叙事。当我们参与研发的无人艇在南海划出优美的航迹,当自主研发的机器人在国际赛场上展现战术配合,这些瞬间连接着西工大“为国铸剑”的精神血脉。老一辈“三航”人在战机上镌刻的报国誓言,今天正被我们转化为智能算法的决策逻辑。
这个时代,“快”与“变”成为主流叙事,但我更相信“慢”与“深”的力量。技术会迭代,代码会更新,但科研人最珍贵的遗产,始终是对真理的求索之心与对时代的责任担当——这是中国青年科研者交给未来的答卷。在智能革命的长河中,我们愿做一盏不灭的航灯,以算法的语言书写属于这个时代的科技史诗。
〔何自明,西北工业大学2021级博士研究生。入选2024年度中国科协青年人才托举工程博士生专项计划(首批)。获国际先进机器人及仿真技术大赛国赛一等奖、中国国际“互联网+”大学生创新创业大赛陕西省金奖等省部级及以上学科竞赛奖励10余项。〕
监制:陈章乐
终审:陈敏
审校:刘晓 刘博文
编辑:熊宇文