来源:中欧商业评论
上周,一款号称“全球首款真正意义上的通用AI Agent”的软件Manus迅速走红互联网,被称为是第二个“DeepSeek时刻”。然而在不到一天的时间内,针对该软件的评论迅速出现分化,形成三个阵营。
支持者认为,在Manus官网展示的旅途规划、股票分析、面试安排等工作,可以自动使用搜索引擎查询、下载数据,阅读PDF文档,使用Python进行数据分析与可视化操作,甚至能够启动电子邮件客户端,撰写邮件并自动发送。大语言模型始终离不开它的对话框,而Manus则可以让AI真正开始干活了,一个全新的AI时代,似乎正以不可阻挡之势到来。
与此同时,对Manus也不乏质疑者,其主要观点是,Manus的各项技术并非首创或独有,更像是一个融合各种技术的“套壳”软件。其次,Manus目前并未完全开放,网络上的大量报道,只是复述了官网公开的演示视频,不能代表Manus在真实环境下的使用体验。
亦有少数用户号称拿到了Manus的邀请码并撰写了体验报告,其中可信度较高的是刘润在其公众号发布的一篇文章——《拿到Manus的邀请码之后,我赶紧问了4个问题》。从刘润的体验看,Manus的确具有较强的自动化水平,无论是使用搜索引擎、分析数据,还是生成PDF都可以有效完成。但是在执行过程中,依然存在瑕疵。如当搜索不到指定内容时,Manus会生成模拟内容来完成任务(有趣的是Manus会告知用户,最终结果是模拟内容)。这类用户对Manus的态度相对中立,认为其现阶段不够成熟,仍需继续发展。
Manus之所以能够引爆网络,原因在于相比于底层的大语言模型,应用层的AI智能体可以适配更加丰富的应用场景、产生更多创新性的产品。如同在移动互联网时代,虽然我们缺乏底层的安卓、iOS等操作系统,但是在移动App上我们涌现出诸如微信、滴滴、抖音等超级App。虽然有些App的功能并非原创,但依靠庞大的国内市场需求,以及在商业模式上的创新,我国在移动App的竞争中不乏优胜者。
与移动互联网时代类似,AI时代大语言模型注定是寡头之间的游戏。而对于技术和资本投入要求相对较低,面向各个领域应用的AI智能体,则蕴藏着丰富的创业机会。美国麻省大学罗威尔分校孙黎教授,将这种优化产品或服务的效率或成本、结合场景的创新,称为可负担创新(Affordable Innovations),更适合初创企业的快速崛起。
AI智能体是什么
批评Manus的观点之一是,作为一个AI智能体,Manus没有自己的大语言模型,这意味着它不过是一个“套壳”软件。针对这一批评,公司联合创始人季逸超并不讳言Manus采用了基于Claude和阿里千问(Qwen)的大语言模型技术。
从AI智能体的定义看——“AI智能体是一种能够感知环境、自主决策并执行任务的人工智能系统。它通常被设计为在特定或多种场景中独立运行,以实现特定目标或完成复杂任务。”与大语言模型只能通过对话交互返回结果不同,AI智能体可以完成具体的任务,如行程安排,AI智能体不仅能够制定日程,还能操作App或者登录网站,直接预定机票和酒店。通过它编写程序,则可以直接生成一个编译好的可执行文件。
之所以能够实现上述功能,是因为AI智能体一般包括四个组成部分(图 1),分别是:
1. 大语言模型(LLM):它是AI 智能体的“大脑”,负责协调决策。它通过任务进行推理、规划行动、选择适当的工具,并管理对实现目标的必要数据的访问。
2. 规划模块(Planning Modules):规划模块使AI智能体能够将复杂任务分解为可作的步骤。
3. 内存模块(Memory Modules):AI智能体依靠内存来维护上下文,并适应正在进行的或历史任务。这是AI智能体能够持续运行分解任务的关键。
4. 工具(Tools):AI代理本身可以用作工具,但它们也可以通过与外部系统集成来扩展其功能,例如:
(1)API:访问实时数据或以编程方式执行作。
(2)数据库和RAG管道(RAG pipelines):检索相关信息并确保准确的知识库。
(3)其他AI模型:与其他模型协作完成专业任务。
因此,智能体并不需要拥有一个自有大语言模型,而是整合相关技术,提供一个完整的解决方案。如果我们以熟悉的汽车行业的例子类比,大语言模型是发动机,AI智能体则是整车。
图 1 AI智能体架构及代表产品示意图AI智能体,
有没有护城河?
在Manus引爆媒体之后的数小时内,另一个AI开发团队——MetaGPT,在GitHub上开源了功能与之类似的OpenManus软件。
这不禁让人思考,AI智能体有没有护城河?
护城河理论源自于迈克尔·波特分析企业面对竞争时的五种力量(图 2)。
图 2 波特五力模型AI智能体的供应商主要是大语言模型厂商。从目前的产业生态看,虽然以DeepSeek、阿里千问为代表的开源模型性能已取得极大的发展,但与头部闭源的大语言模型,如ChatGPT、Claude、Gemini相比,仍有一定的差距。由于大语言模型厂商逐渐呈现寡头市场的趋势,相对AI智能体企业,大语言模型厂商的议价能力仍然较强。当前大语言模型厂商主要以API的形式出售Tokens,对于下游厂商,也未使用歧视性的定价策略。对于AI智能体厂商而言,短期内成本亦相对可控。
从潜在进入者看,大语言模型厂商最有可能开发AI智能体。但当前大语言模型厂商的主要精力聚焦在提升大语言模型的智能和性能,尚无暇顾及向下游的AI智能体延伸。从技术门槛看,大语言模型厂商进入AI智能体市场,对智能体厂商而言可能是降维式的技术整合优势,如Open AI的Deep Research。与大语言模型深度整合的全功能智能体,可能是普通AI智能体公司最难挑战的竞争对手。
其次是以微软、苹果为代表的操作系统、手机/电脑终端厂商,它们虽然没有自有大语言模型,但掌握着系统级的入口,凭借与操作系统或终端设备系统级的整合,在通用智能体或个人助理类智能体领域(如微软的Copilot),可能有拥有较为明显的优势。
从用户(买方)端看,AI智能体还没有大型厂商出现,用户选择余地较多,议价空间大。而且用户长期养成了免费使用互联网产品的习惯,除非AI智能体能为用户带来极为明显的价值增加,否则很难向用户收费。
在替代品方面,AI智能体尚处于发展早期,在技术未出现明显变革的情况下,暂时没有替代品的威胁。但由于AI智能体开发的技术难度并不高,行业内的同质化竞争预计会非常激烈。
互联网的经营思维,
可能不适用于AI智能体
从产业角度看,AI智能体很难形成自己的护城河。那么互联网时代所推崇的数据,能否构成AI智能体的护城河呢?
数据之所以能成为互联网公司的护城河,原因在于数据能够为公司带来用户增长。吉姆·柯林斯将这种增长模式称为“飞轮效应”。如图 3是一个典型的互联网企业(Uber)的增长飞轮。如图所示,Uber上注册的司机越多,接单速度就越快,这会刺激更多的用户注册为Uber会员,带来更大的需求。需求的扩大,会刺激更多的司机加入平台,Uber则可以覆盖更多的服务面积。而同时Uber拥有更多的数据,可以用来改进车辆调度算法,进一步提升平台的效率,用户等待时间更短、价格更实惠,这会刺激更多用户的加入,需求的扩大又再次吸引司机加入,形成一个不断增长的飞轮。
图 3 Uber的增长飞轮由此可见,增长飞轮的生效,需要企业处于双边市场,即一方(买方或卖方)参与者的收益,取决于该平台另一方参与者的数量。企业只需要刺激一方参与者的数量增加,就会带动整个平台的繁荣。
但AI智能体不属于双边市场,用户在一个AI智能体使用的时长越多,这个智能体会越懂用户,带来单个用户的使用时长的增加,但对其他用户并不会带来更好的价值。因此数据不会为AI智能体企业带来用户数量的增长,增长飞轮无法跑通。
尽管有所争议,但不可否认,运用互联网思维的确诞生了一批高增长企业。互联网思维的核心是尽可能扩大企业规模,实现网络效应,即便早期亏损,企业通常也在所不惜。在互联网思维中起到根本作用的是网络效应,即网络价值与网络节点数量的平方成正比。网络效应发挥作用的前提是,网络上的各个节点能够互动。最典型的例子就是社交网络。但AI智能体的用户,似乎并不存在交流互动,网络效应难以发挥作用。
所以我们看到目前AI智能体,甚至大语言模型都是基于销售Tokens的模式,与传统货品销售并无本质上的区别。当前AI智能体的Tokens消耗量较高,要实现盈利,非常考验公司商业模式的设计能力。据智东西3月7日报道,一位用户测试使用Open Manus回答“杭州哪些医院支持异地医保直接结算?”这一问题,消耗Claude 3.7模型的Tokens约为24万,大约相当于36万~48万个中文字符,花费3.6美元。如果按照这个成本定价,对AI智能体企业而言,产品使用费用将非常高昂,预计很难吸引到用户付费使用。如何设计企业的盈利模式,可能是摆在AI智能体企业面前的一道难题。
to B还是to C?
一般而言,企业通常愿意为服务付费,to B业务能够让创业企业获得较为稳定的现金流。但是to B业务一般不会出现爆发式的增长,追求高成长的AI智能体企业,可能会选择to C的业务模式。
AI智能体的创业者,选择面向企业的to B业务,还是选择面向个人的to C业务?
在回答此问题之前,我们不妨先看Manus的一个演示案例。笔者选取了Manus官网上,分析特斯拉股票这个示例操作。与通常部署在用户本地的开源AI智能体不同,Manus采用了在云端虚拟机运行的方式。图 4展示了部分分析过程,我们可以看到操作过程主要是在基于Ubuntu的Linux虚拟机中建立相应文件,编写Python程序执行分析等。
图 4 Manus分析特斯拉股票的部分操作步骤Manus采用云端虚拟机的方式,可能是因为,目前智能体执行操作大量依赖临时生成的Python程序文件,这对用户操作系统和开发环境有较高的要求。笔者尝试在本地部署开源的Open Manus,在生成Python程序时遇到多次报错,通过手动排错才使工作流顺利完成。当前大语言模型的能力,还不足以一次性生成可用的程序,直接部署到用户端,难以保证执行效果。Manus提供的虚拟机,则可以由公司事先配置好虚拟机的操作系统和各类开发环境,以保障任务能够得以正确的执行。
但是这种模式下,企业的算力负担很重,虚拟机需要大量的硬件资源开销。根据少量获得邀请码的用户测试,即便很简单的任务,Manus依然需要数小时才能完成。因此从当前的技术需求看,to C的智能体,无论是新增用户,还是收费模式,都有较大的挑战,如果没有庞大资金的支持,to C智能体在盈利之前,就因耗尽资金而失败。
而对企业来说,则更愿意为服务付费。这可以类比开源软件公司RedHat,虽然公司的产品Linux系统本身免费,但公司通过销售软件服务,在2016年成为全球第一家销售额超过20亿美元的开源软件公司。2018年IBM以340亿收购RedHat公司,是截至该年度美国科技史上的第三大交易。
因此,从短期内看,面向企业端的AI智能体似乎更容易生存。
*****
尽管当前AI智能体仍处于早期发展阶段,但如同移动互联网的时代一样,我们无法预测Uber、滴滴、微信这样的原生商业模式;也未曾预测到诞生在PC时代的淘宝,以“All in无线”创造增长神话。
无论Manus是否昙花一现,它的出现至少将AI智能体引入大众视野,引起了投资人、企业家的关注。移动互联时代,我们诞生了一批比肩世界的超级App,AI时代会产生哪些创新,我们将拭目以待。
资料来源链接:
图1:https://www.madrona.com/ai-agent-infrastructure-three-layers-tools-data-orchestration/
图3:https://www.woshipm.com/share
/5987614.html
特别声明:以上内容仅代表作者本人的观点或立场,不代表Hehson财经头条的观点或立场。如因作品内容、版权或其他问题需要与Hehson财经头条联系的,请于上述内容发布后的30天内进行。