对话阶跃星辰创始人姜大昕:多模态模型还没出现GPT

内容摘要AI 是否进入下半场或许还有争议,但大模型进入淘汰赛已经板上钉钉。在 DeepSeek R1 横空出世后更是愈演愈烈,今年光是 OpenAI、Anthropic、Google、Meta、Grok 目前已经合计发了至少 8 款新模型,而国内的

AI 是否进入下半场或许还有争议,但大模型进入淘汰赛已经板上钉钉。

在 DeepSeek R1 横空出世后更是愈演愈烈,今年光是 OpenAI、Anthropic、Google、meta、Grok 目前已经合计发了至少 8 款新模型,而国内的 AI 六小龙们也有的开始放弃预训练,将 AGI 的理想主义束之高阁。

在这当中,阶跃星辰是一家有点特殊的公司。在去年年底之前都鲜有融资消息,但却在多模态模型上成为「卷王」,成⽴ 2 年已经发布了 22 款⾃研基座模型,成为最低调神秘的 AI 独角兽。

阶跃星辰创始人兼 CEO 的姜大昕,和这家公司一样低调,很少出现在 AI 行业热闹的舆论场中。

而昨天,姜大昕与 APPSO 等媒体进行一场深度的沟通会,他向我们分享对于 AGI 路径,多模态模型等技术的看法,以及阶跃星辰未来的计划。

多模态模型还没出现 GPT-4 时刻,追求「智能上限」

当下 AI 大模型领域的内卷没有尽头,头部公司之间不断上演着「贴脸发布」的激烈戏码。

不过姜大昕依然认为,「追求智能的上限依旧是现阶段 AI 业内的重点。」也就是说,虽然现在市面上模型一大堆,看起来都挺能打,但离真正的「聪明」还差得远。

大家都在抢发新模型,看着热闹,但如果只是在现有水平上修修补补,那也只是原地踏步的「内卷」。

姜大昕觉得,现在最要紧的还是得想办法把 AI 的「智商」往上再拔一拔,不然离大家心心念念的 AGI(通用人工智能)还远着呢。

在 DeepSeek R1 面世,以及大厂高调入场后,不少初创公司开始放弃研发基础模型,不过姜大昕在接受 APPSO 采访时表示:

AI 行业的技术发展非常快,依然处于非常陡峭的区间。阶跃不想在这个过程中放弃主流增长或前进的趋势,所以我们还是会坚持做基础模型的研发。

同时姜大昕表示,应用和模型是相辅相成的,模型可以决定应用的上限,应用给模型提供具体的应用场景和数据。

那怎么才能让 AI 更聪明?姜大昕给出的一个关键路径是:「多模态正是实现 AGI 的必经之路。」

很多人说今年的 Agent 元年,姜大昕认为 Agent 爆发需要两个必要的条件,一个是多模态的能力,另外一个是慢思考的能力。

多模态,说白了就是让 AI 不光能看懂文字,还得能看图、听声、理解视频。

你想想人不就是眼耳口鼻一块儿上,才能全面理解这个世界嘛。AI 也得这样,变成一个能听、能看、能说的「多面手」。

阶跃星辰可以说是多模态模型的「卷王」了,几乎每个月都发布一款基础⼤模型,其中多模态模型已经有 16 款。覆盖了从图像、视频到语音、音乐的理解和生成,用姜大昕的话说,是坚持「原生多模理念」。

不过,姜大昕也挺实在,他坦陈「多模态模型领域目前还没有出现 GPT-4 时刻。」

虽然多模态现在挺火,各家都在推,但还没出那种像 GPT-4 在文字领域那样,一出来就「哇哦」一下,让所有人都觉得「就是它了」的标杆性产品,技术上还有不少硬骨头要啃。

AI 升级打怪三部曲

对于模型如何一步步逼近智能的上限,姜大昕描绘了一幅清晰的「三部曲」演进路线图,也可以说,这是阶跃星辰理解的 AGI 演进方向。

模拟世界(模仿学习阶段): 这阶段的 AI 就像个刚学说话的小孩,喂给它海量数据,它就吭哧吭哧地学,主要任务是「predict next token」(预测下一个词)或者「predict next frame」(预测下一帧画面)。目的是让AI先学会这个世界长啥样,各种东西有啥特征。

探索世界(强化学习阶段): 光会模仿还不行,还得培养解决复杂问题的能力。比如解个奥数题、写段复杂的代码,这需要「慢思考」。这时候就得上强化学习了,让AI在不断试错中学会怎么一步步把难题给解开。

归纳世界(机器自主学习阶段): 这是最高境界了,AI不光能解决已知问题,还能自己去发现新规律,搞点人类没想到的创新。比如在科研领域帮科学家发现新材料、新药物啥的。

这三个阶段,与 OpenAI 提出的 AGI 五个 Level 在核心理念上不谋而合,现在整个 AI 行业的发展,基本就是照着这个剧本在推进。

为什么「理解生成一体化」这么重要?

在多模态,尤其是图像视频这块,姜大昕在沟通会中多次强调一个词:理解生成一体化。

理解生成一体化是计算机视觉领域的核心问题,对于实现 AGI 至关重要。

说白了,就是让模型既能看懂一幅图、一段视频是啥意思,又能根据这个理解自己创作出新的、相关的图像视频。现在很多时候是「看图用 A 模型,画图用 B 模型」,跟俩部门似的,配合不起来。

他举了个例子,比如老师在黑板上写字,现在的 Sora 能模仿老师写字的动作,但老师脑子里想的是啥、接下来要写什么内容,这得靠「理解」。如果理解和生成是两套系统,那模型就很难真正「懂」你,生成的玩意儿也可能不着边际。

语言模型像 ChatGPT 在这方面已经做得不错了,但视觉领域因为数据太复杂,这事儿还没完全搞定。阶跃星辰在这上面是持续投入,想把这个技术瓶颈给突破了。

强大的模型能力最终需要通过应用来体现价值。阶跃星辰采取的是「超级模型与超级应用双轮驱动」的策略。

在应用层面,阶跃星辰将「智能终端 Agent」作为重点发力方向。姜大昕认为,智能终端,无论是我们口袋里的手机、日常驾驶的汽车,还是未来可能普及的机器人,它们不仅仅是冰冷的硬件,更是「用户感知和体验的延伸」。

这意味着,AI 如果能与这些终端深度融合,就能更好地「理解用户需求和任务上下文」。

比如, OPPO 旗舰 Find X8 Ultra 正式开售首发的「一键闪记」的功能,AI 可以智能识别手机屏幕上的内容,为用户生成摘要,并将碎片化的信息归类到不同的记忆合集。

这背后搭载的其实就是阶跃星辰多模态模型,它能理解屏幕上显示的内容,无论是图片还是文字,用户可以就此提问,AI不仅能回答,还能进行图片处理,甚至帮助用户完成一些应用内的操作,比如直接跳转到机票预订页面并填好信息。

这种合作,将大模型的能力和系统更深度融合,嵌入到用户最高频的手机使用场景中,选择手机作为切入点,其价值在于手机天然的多模态交互属性和庞大的用户基数,为模型迭代提供了丰富的真实数据和即时反馈。

总的来说,阶跃星辰的思路挺清晰:技术上瞄准 AGI,死磕多模态和理解生成一体化这些硬核问题。应用上呢,就找准智能终端这个突破口,跟硬件厂商把场景做深做透。

这条路不好走,但姜大昕和他的团队看起来挺有决心。毕竟,用 AI 解决真实世界的问题,先在市场获得用户认可,才有机会探索 AGI 的天花板,让我们看看阶跃星辰这个多模态卷王后面还能拿出什么新东西来。

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备19001410号-1