纵观资讯 纵观资讯

当前位置: 首页 » 实时追踪 »

2亿港元助推“港版DeepSeek”大模型研发提速

来源 | 《财经》杂志 文|《财经》特派香港记者 焦建 实习生 华苒君 编辑|苏琦 

“香港暂时缺少技术能力、财力和人才,无法同时研究多个大模型进行竞争。倒不如像现在这样,集中精力去做一个非常好的模型”

3月10日,随着政府科研资金外的一笔2亿元港币元的捐助入账,中国香港特区于2月下旬才刚推出且被称为“DeepSeek香港版”的一款大模型有望加速。

按照此次当地某慈善基金的捐赠要求,相关资金将被用于这款名为HKGAI V1大模型的“港话通”系统落地。究其意义,正如香港特区政府创新科技及工业局局长孙东在出席相关大模型发布会时所言,“在这波以人工智能为代表的科技浪潮中,香港没有缺席。”

作为多年来持续投入创新为数不多的终端成果之一,前述DeepSeek香港版的开发及后续推广,亦被认为可体现出当地研究活力与所面临的一系列困难。此言何出?

由来:如何基于DeepSeek微调?

此款AI大模型的开发者,是香港特区政府所支持的InnoHK平台旗下香港生成式人工智能研发中心(下称“HKGAI”)。此次当地某慈善基金的捐赠,将被用于其所开发的大模型HKGAI V1的所谓“港话通”系统。

该模型之所以被称为DeepSeek香港版,源于其是基于DeepSeek全参数微调训练产生的大模型。其所属关系及研发过程,也较为复杂:

2023年,ChatGPT面世,但不对中国香港特区开放。在与当地专家及科研团队协商后,香港特区政府开始筹组本地研发平台,通过聚集多所本地及境外大学相关资源,于当年10月成立HKGAI,成为InnoHK平台的旗下系统。

作为香港特区政府旨在成为全球科研合作中心重点项目的InnoHK,采取的正是在香港科学园成立创新平台、由国际知名的大学和科研机构设立研发实验室进行合作的模式。其建立合作关系的海内外大学及科研机构已超30家,包括中国科学院、北京大学、哈佛大学、牛津大学等。

特区政府资金投入持续多年,借助场地及算力支撑,中国香港特区的创新研发有望从点状向网状发展。图为作为当地科技创新汇聚地的香港科学园。焦建/摄

在开发相关大模型时,HKGAI亦采取了类似模式,即由香港科技大学领军,联合四所当地高校及北京大学相关专家组成团队。作为InnoHK旗下30所研发中心之一,其目标是建立香港自主研发的人工智能基础模型和生态系统。

从技术角度分析,HKGAI的研发在不断升级迭代:2024年上半年,HKGAI 开发出第一个大语言模型“港文通”。作为生成式人工智能文书辅助应用程序,该程序于当年中起在当地创科局等政府部门试用及训练,至今特区政府已有约70个部门参与。

2025年1月20日,DeepSeek R1推出,并以低研发成本及高效获得广泛关注。也正因DeepSeek宣布开源,决定借力的前述系统开始加速进化。

1月25日,前述团队决定使用其开源数据重新训练本土人工智能大模型,并于2月24日推出DeepSeek全参数微调大模型,即HKGAI V1。

所谓微调,也就是把系统本地化,使其输出内容更贴近当地文化及价值等方面。其服务涵盖五方面,除前述港文通,还包括港话通、港会通、港法通、港环通。主要体现其在垂直场景功能细分、多模态能力增强的两大效果。相关命名则部分源于该大模型的开发特点。

整体而言,HKGAI V1是基于DeepSeek 671B全参数微调,并持续训练而成。其支持两文三语,可对话、协助撰写会议概要、提供法例和案件参考等。从部分外部评价看,该模型在数据安全及隐私保障安全性方面得分较高。

在分析相关切换速度较快原因时,香港科技大学副校长、HKGAI主任郭毅可指出:这是由于HKGAI本来已有一个本地大模型,加上有很强的技术团队进行微调。

从研发过程角度来看,按照HKGAI方面近日公布的细节:该团队于2024年中DeepSeek-V2推出时便开始追踪,同期准备微调(Fine-tuning)能力,并开始准备训练数据。相关资料包括政府公开数据库、图书馆数据及特定领域专业知识等。

这实际是各行各业探索大模型应用落地的必修课。因大部分用户都没有条件创建独特的基础模型(Foundation Model)。大量基础模型开源对用户的作用之一,是通过微调方法训练出适合特殊行业和独特应用的大模型。

通过自研的RAG系统,HKGAI V1自称已实现从“问题理解到知识检索,以至内容生成”的全流程智能处理,并提升了模型能力精度。

HKGAI预研部主任韩斯睿教授分析称:有别于常见的轻量级微调方案,其研发人员基于本地千卡算力集群,对模型千亿参数进行全参数监督微调。在确保通用智能水平不降级的前提下,完成模型的本地化,实现对当地语言文化、政务流程、商业规范等垂直领域的深度适配。

其中的关键细节是:在开源基座的训练支持缺失以及数据配比这一行业共性难题下,技术团队重构了模型架构的关键组件,分析不同数据子集对模型收敛速度和泛化能力的影响以实现目前最好的数据配比效果。同时在较短时间内攻克了高并发场景下的推理计算难关。

在进一步的细节有待公开的情况下,持续关注香港大模型研发的一位科技界人士则对《财经》分析:香港此前的大模型(包括HKGAI原有模型)是本地自研的大模型,新模型基于DeepSeek的架构以及开源数据,可能融合了更先进的算法或更大规模的数据集。

“从策略上讲,目前的港版DeepSeek并非完全整体替换技术方案,而是在原有基础上进行技术整合和优化,也是近期多家大模型研发企业同步在做的事。切换速度快的原因在于其原有模型的技术积累、团队技术能力以及较早的对DeepSeek的关注。”这位人士也指出。

“香港暂时缺少技术能力、财力和人才,无法同时研究多个大模型进行竞争。倒不如像现在这样,集中精力去做一个非常好的模型。”郭毅可称。其曾在2014年创办伦敦帝国学院数据科学研究所,相关研究即为人工智能开发。

这或许也是前述香港近年来追赶大模型开发的困境之一。即虽在人力及科研资源整合方面具有一定优势,且当地三家大学数据科学和人工智能学科位列全球前25位,但成本较贵。

此外,受同样被纳入出口管制框架影响,在算力资源及高性能人工智能芯片等方面,中国香港特区和内地同样受限。据当地一些相关科研人士透露,目前中国香港特区与欧美的先进显卡或存在一到两代的代差。

为求技术突破,香港的一些高校也采取了将知识划分领域、每个领域训练一个小型基础模型(Foundation Model),并通过融合模型(Model Fusion)整合的方式。

近年来,中国香港特区政府为加速人工智能产业发展所尝试建立的政、产、学、研、投协作体系虽尚未成型,但前期投入已为相关模型开发提供助力。

以HKGAI V1开发为例,当地的数码港也为其提供了算力支持,“如果没有算力支持,我们会比较苦、,也没那么快。”郭毅可曾如此形容。

为加强高校相关研发,2024年,中国香港特区宣布拨款30亿元推行为期三年的“人工智能资助计划”,资助本地院校、研发机构及企业等复合符合条件单位善用超算中心的算力,相关计划已于2024年底展开。

未来:香港如何打通生态?

随着用户的不断增加,为缓解算力不足,由中国香港特区政府支持、在数码港设立的人工智能(AI)超算中心已于2024年启用,首阶段提供1300PFLOPS(每秒浮点运算1300千万亿次)算力,今年则将逐步提升至3000PFLOPS。

除资助高校进行研发,对于人工智能及相关产业在当地的研发与落地,中国香港特区还有更宏大的图谋,亦在采取一系列行动:

在规范发展方面:HKGAI已受创科局委托,参与制订生成式人工智能的应用指引,相关规范据称即将公布。可能的内容包括就AI发展的安全及责任,以及对开发者及使用者列出明确要求等。

据《财经》记者获悉,此次HKGAI的参与,其实是同步进行开发和撰写指南,以使指南能够更好与技术发展进行结合。相关安排,其实也与AI发展近年来不断面临的版权问题有关。为此,香港特区政府近日在着手修订其《版权条例》。

实际上,为保障数据合法使用,HKGAI在开发时所用的大量数据是在获得授权状态下应用。但训练模型用的部分数据仍属“非常有争议的问题”。在此方面,该团队也指出相信香港法律专家正不断探讨,达到“既保障不侵权,又保证不妨碍机器学习”的双赢。

在产业联动方面:根据特区政府近日发布的新一年度财政预算案,香港将拨款10亿港币元成立香港人工智能研发院。为推动AI在社会中的应用及产业发展,HKGAI或与该研发院的发展进行某种形式的整合。

该研发院将涉及以下职能:第一,、继续推动科学技术进步,整合各个大学已有的基础研究条件;第二,、大范围推广AI应用,包括创新科技界、金融界、医疗界、法律界以及政府服务等领域;第三,、推广AI产业在当地的发展。

“财政预算案中提出成立香港人工智能研发院,并配合香港微电子研发院、可提供每秒浮点运算3000万亿次算力的人工智能超算中心,又有人工智能资助计划,及相关金融及税务措施支持,这都能帮助香港成为AI产业国际交流协作的汇聚地。”孙东也指出,“香港接下来要逐步建立生态。除政府和技术开发者,还要有服务提供商、算力机构和宽带网络等参与。”

在此基础上,就前述HKGAI V1大模型的微观发展而言,其值得关注的,则有以下几个方面:

首先,该模型有较大可能会正式开源。这被认为对开发者的好消息,便利其制作更多大语言模型应用工具,激发AI产业发展。

其次,按照前述捐赠协议,2亿元的资金除了搭建平台、推动应用场景落地,还将被用于支持中心建立服务平台,为市民提供基于港话通的对话服务。此服务以人工智能聊天机器人对话形式提供,将支援粤语、英语及普通话。通过输入指令,可实时回答提问或生成指定内容,例如回答政府部门架构、最新电影票房,以及或规划旅游行程等。

第三,其服务或将包含免费和收费两部分。该模型开发团队会与特区政府商议,确保大部分功能免费向公众开放,同时制定逐步开放的时间表,以保障使用公平性。

郭毅可也强调称:目前首先是要确保模型稳定,不同答案要有一致性。此外,模型要有足够的承载力,以应付大量用户同时使用。“在没有做出非常稳定且被社会接受的系统之前,不过早谈及商业化。”

前述产业研究人士,其实也点出了当地科技创新界对本地大模型发展的一个挑战,即实验室环境与现实环境存在差距,目前香港的相关创新主要由高校推动,“耗资不菲,但效果仍有待观察。当然,想让企业推动创新,目前本地也还没有数得上的选手。可能将会是一个缓慢的互动培育过程。”

未经允许不得转载: 纵观资讯 » 2亿港元助推“港版DeepSeek”大模型研发提速