如果让你说出今年人工智能领域最轰动的一件事情,那大部分人的答案应该是DeepSeek的横空出世。今年2月初,DeepSeek在140个国家和地区的应用市场下载排行榜同时登顶,并以开源策略充分展现其技术自信。
开源大模型是指由研究机构或公司开发并公开发布的大规模预训练模型,其源代码、参数权重甚至是训练数据(或数据生成方法)都开放透明,任何人都可以访问、使用、修改和分发。
“DeepSeek是一款完完全全的开源模型,将各个环节包括数据、代码、权重、推理链的运行思路、工程构建方法都开放出来,让更多人愿意参与进去。”赛迪研究院信软所软件产业研究室副主任黄文鸿解释,就好比建造一所房子,真正的开源不仅公开图纸、材料、房屋结构,还会清晰地告诉你,每一步应该建什么,有了这些信息你就可以1比1还原房子。由此可见,DeepSeek开放程度之高前所未有,这也是其一经发布就产生巨大影响的原因之一。
降低生态构建成本
DeepSeek对于我国人工智能产业发展最大的意义在于,其构建了基于自主研发基座大模型的开发生态,从软硬件的适配到应用推广甚至产品宣传,都是全球厂商和开发者共同完成的,极大降低了生态建设成本。例如,微软、英伟达、亚马逊、英特尔、AMD等全球科技巨头相继宣布上线了DeepSeek开源模型推理服务,国内厂商诸如腾讯云、阿里云均支持DeepSeek的一键部署和调用。
“这就像安卓操作系统是开源软件一样,因为开源具有良好的适配性,手机、芯片、智能家居等各类厂商纷纷接入,让安卓成为移动互联网时代能够与苹果IOS系统并驾齐驱的通用技术底座。”黄文鸿告诉记者,互联网企业、车企、三大运营商等纷纷接入DeepSeek,后续会让很多具体应用部署在DeepSeek基座模型上,将迅速提高其用户数量和市占率。
除DeepSeek以外,我国还有不少开源模型在业界引起广泛关注。就在DeepSeek-R1发布前,上海AI创业公司MiniMax发布了其开源模型MiniMax-01,首次采用线性注意力机制,实现了技术突破;阿里巴巴最新开源的通义千问QwQ-32B推理模型,在数学、代码及通用能力的多项权威评测集中表现良好,稳居全球最大AI开源社区Hugging Face趋势榜榜首,成为当下最受欢迎的开源大模型之一。
“这些都彰显了开源对技术生态的推动作用,吸引了业内各方支持,形成良好的技术分享氛围。”黄文鸿认为,信息技术领域具有强者恒强的发展规律,我国在开源模型上是有先发优势的,必须进一步筑牢技术“护城河”。但目前各行各业真正懂开源模型的人才并不多,基于开源大模型的下游企业,以及做工程优化、模型调优的研发人员相对较少,高校应该培养更多相关人才,共同促成“创新—共享—再创新”,助力产业生态更加完备。
阿里云高级总监朱迅垚认为,开源理念在产业界还没有形成广泛共识,但DeepSeek和通义千问的成功会让大家逐步认识到,开源模型将成为推动我国人工智能发展最强劲的引擎。下一步,建议从国家到地方再到企业,以更加积极的态度拥抱开源,同时在布局智能算力、构建高质量数据集、上云用云等方面加快创新步伐,紧跟世界先进水平。
推动应用落地
DeepSeek发布以来,各行各业都在探索将其融入自身业务场景。“开源模型凭借其低成本、高性能、高开放度的技术优势,加速了人工智能在行业的普及速度。”黄文鸿说。
今年2月,恒生电子大模型应用全面接入DeepSeek,在金融投研、合规、运营、投行等业务场景中取得较好效果。例如,在投行业务中,利用DeepSeek-R1理解能力,可自动解析招股书、尽调报告等复杂文档,实现财务数据校验、合规风险提示的秒级响应。
通义千问开源模型Qwen系列更是凭借其多模态、全尺寸的技术能力,以及由数量庞大的开发者和中小企业汇聚起的良好生态,加快赋能千行百业。截至目前,阿里已开源200多款模型,包括文本生成模型、视觉理解/生成模型、语音理解/生成模型、文生图及视频模型等多模态,覆盖从0.5B到110B参数的各类尺寸。
去年4月,中国科学院国家天文台人工智能工作组发布了基于Qwen打造的新一代天文大模型“星语3.0”。目前已成功接入国家天文台兴隆观测站望远镜阵列Mini“司天”,可实现自主控制望远镜进行观测、分析观测结果,智能地给出下一步观测建议,这是大模型在天文观测领域的首次应用。“从预测蛋白质结构到合成靶向药物,再到发现新的病毒种类,大模型与科研相结合带来了许多突破性成果。”朱迅垚说。
DeepSeek也好,通义千问也罢,我国开源模型正以其宽松的开发许可和低成本的训练方式,提升人工智能在行业的应用广度。
商业模式仍需明晰
以ChatGPT为代表的闭源模型,其商业模式被称为“token(令牌)经济”,即通过向用户提供API服务,基于token用量计价,然后来赚取利润。那么,开源模型又是如何盈利的?
对此,黄文鸿向记者分享了几个案例。Meta公司推出的Llama大模型通过开源可以吸引更多企业和开发者加入其生态,为后续广告收入创造机会。
市场上还出现了开源闭源并行的模型产品。具体而言,首先开放出来相对基础的能力,培养用户使用习惯,而更高性能的模型则需付费使用。还有的开源模型会与云服务绑定售卖,相当于模型是免费的,收取的只是算力费用。“这种模式就好比你想用IOS系统就必须配备苹果手机。再有更相似的案例是,谷歌通过安卓系统吸引用户,再通过售卖谷歌邮箱、谷歌地图等增值服务收取费用。”黄文鸿补充道。
在朱迅垚看来,很多做开源模型的企业具有浓厚的技术理想主义色彩,他们的初衷未必完全是奔着商业化去的。“通义千问大模型在全球拥有超过10万个衍生模型和上亿次下载量,这些都是免费提供给用户的。但正因为开源,大量开发者被吸引过来,阿里云的模型服务和配套算力服务得到更多开发者青睐,开发者跟厂商形成一个‘开源—应用—反馈’的良性循环。”
开源模型的发展仍处于初期阶段,如何形成健康成熟的商业模式业界仍在探索中。“企业做开源模型肯定是想盈利的,要摸索出一条正向循环发展路径,在技术普惠和商业变现间寻找到平衡点,让产业链上各个环节的参与者都能受益,确保开源模式持续稳定运转下去。”黄文鸿建议。