来源:DeepTech深科技
“它不仅看得见、听得到,还记得你说过的话,知道什么时候做出反应。”
去年的谷歌 I/O 开发者大会上,多模态 AI 助手 Project Astra 首次亮相。当时它更像是一种概念验证。
而在今天的谷歌 I/O 大会上,Project Astra 以一种更令人惊叹的方式进化了,谷歌 DeepMind 展示了它在实时感知、语境理解、边缘设备运行等方面的全新能力:它能通过手机或智能眼镜识别物体、追踪用户语音指令,并对环境中的动态变化做出快速反应,真正融入人类的现实生活。
“Astra 可以根据它看到的事物选择何时说话。”DeepMind 研究总监 Greg Wayne 表示,“实际上,它一直在持续观察,然后发表评论。”
这意味着:它能够代表你完成任务,即使你没有明确要求;它还可以根据所看到的内容选择性“发言”,比如指出作业中的错误。
Project Astra 仍然是一个试验项目,公众或许很久都没有机会体验它,但它的升级,代表着谷歌的 AI 战略野心。它的背后,是谷歌正在以 Gemini 为核心,构建一个贯穿搜索、创作、办公、助手系统的 AI 应用世界。
从文本生成图像与视频,到智能回复邮件和工作流整合,再到与用户实时对话的语音交互——Gemini 已不只是聊天工具,而是逐渐成为谷歌全产品线的大脑。
因此,在 I/O 2025 大会上,谷歌用来打头阵的就是 Gemini。
歌)
谷歌CEO Sundar Pichai 表示,最新的 Gemini 2.5 Pro 模型(preview-05-06 版)已经在 LMArena“屠榜”,所有测试均排第一。
同时,谷歌还带来了新的模型升级。Gemini 2.5 Pro 新增了一种名为 Deep Think 的强推理模式,该模式专为与数学和编程相关的复杂查询而设计,能够在回应前 考虑多种假设 ,但目前仅向可信测试者开放。
开启 Deep Think 模型的模型在多模态推理测试 MMMU 中获得了 84% 的准确率。
该公司还补充说,该模式在 2025 年美国数学奥林匹克竞赛 (USAMO) 中取得了“令人印象深刻的成绩”,但并未公布确切分数。
此外,上个月发布在 Pixel 手机上的 Gemini Live 应用将登陆所有兼容的 Android 和 iOS 设备,可通过 Gemini 应用程序使用(谷歌透露该应用已拥有超过 4 亿月活跃用户)。
该应用允许用户询问 Gemini 关于截图的问题,以及手机摄像头正在捕捉的实时视频内容。
Gemini 重塑搜索体验
另一个新进展是,谷歌宣布将 Gemini 进一步集成到 Chrome 浏览器中。
从5 月 21 日开始,Google AI Pro 和 Ultra 订阅用户可以看到 Chrome 中的 Gemini 按钮,以跨网页总结信息,并帮助他们更好地浏览网站。谷歌计划今年晚些时候让 Gemini 能够同时处理多个标签页。
在此基础上,谷歌宣布了搜索引擎将加入新功能,AI Mode。
这项功能位于单独的标签页中,旨在处理比传统搜索更复杂的查询。用户可以利用它比较不同品牌的同类商品,或寻找最便宜的门票。该功能将首先向美国用户开放。
AI Mode 还为购物功能带来了重大升级。用户很快就能上传一张自己的照片,来虚拟试穿衣服,查看服装在真实人物上的效果。谷歌正在测试这一新功能,该功能利用“了解人体和服装细微差别”的 AI 模型来实现试穿效果。
据谷歌透露,每月已有超过15 亿人次看到 AI 生成的搜索概览(AI Overviews),而且绝大多数用户都以有意义的方式与之互动。
AI Mode 将使用 Gemini 2.5 模型,并将很快能够根据特定查询生成自定义图表和图形。它还能够处理后续问题,使搜索体验更加连贯自然。
同时谷歌还推出了名为 Search Live 的功能,允许用户通过选择 AI Mode 或 Lens 中的 Live 图标,实时讨论手机摄像头看到的内容。这项功能未来将从谷歌 Astra 项目中汲取灵感,进一步扩展搜索引擎的能力范围。
作为安全增强措施,Chrome 的密码管理器也将得到更新。如果 Chrome 检测到您的密码已被泄露,浏览器将很快能够“生成强大的替代密码”,并在支持的网站上自动更新它(如果用户同意)。此功能将于今年晚些时候推出。
AI 创作工具升级:Imagen 4、Veo 3 和 Flow
接下来,谷歌宣布了图像生成和视频生成模型的更新。
AI 创作工具是本次大会的另一大亮点。谷歌推出了全新图像生成模型 Imagen 4,在输出图像的细节、构图和风格控制上“实现了明显提升”,更擅长处理布料和毛皮等精细细节。
图 | Imagen 4 生成的图片 (来源:谷歌)“Imagen 4 可以创建各种宽高比的图像,分辨率高达 2k,更适合打印或演示。它在拼写和排版方面也得到了显著提升,让用户可以更轻松地创作自己的贺卡、海报甚至漫画。”谷歌表示。
而新一代视频生成模型 Veo 3 不仅提高了生成质量,而且首次可以生成带有音频的视频,包括城市街道场景背景中的交通噪音、公园里鸟儿的歌唱,甚至人物之间的对话。
| Veo 3展示(来源:谷歌)
结合上述模型的进步,谷歌还推出了一款名为 Flow 的新型 AI 电影制作应用,类似于 OpenAI Sora。
它是 VideoFX 的升级版,使用 Veo、Imagen 和 Gemini 来创建基于文本提示和/或图像的视频片段。该工具还提供场景构建工具,可将剪辑拼接在一起,创建更长的 AI 视频。
Flow 具备摄像机移动和透视控制等功能,允许编辑和扩展现有镜头,还能将 Veo 模型生成的 AI 视频内容融入更复杂的项目中。
Flow 从今天开始向美国的谷歌 AI Pro 和 Ultra 订阅用户开放,很快将扩大到其他市场。
为了帮助用户确定内容是否由 AI 工具生成,谷歌设计了一种工具,名为 SynthID Detector,它可以扫描图像、音频、视频或文本中的 SynthID 水印,并让用户知道哪些部分可能带有水印。早期测试人员将从今天开始尝试使用这一工具。
Project Aura:新的 XR 眼镜
谷歌还展示了自己在 Android XR 领域取得的新进展。
| Project Aura 新智能眼镜(来源:谷歌)
Android XR 平台是谷歌为增强现实、混合现实和虚拟现实开发的平台,希望能复制 Android 系统在智能手机领域的成功。
基于此,谷歌宣布了第二款官方 Android XR 设备:Project Aura,一款智能眼镜。
Xreal 和谷歌正在合作开发 Project Aura,它将是一款使用 Android XR 平台的新型智能眼镜。目前关于这款眼镜的信息不多,但它将集成 Gemini,拥有大视场,预计将使用高通芯片,以及内置摄像头和麦克风。
| 新眼镜演示(来源:谷歌)
在 Android XR 的演示中,谷歌展示了实时翻译功能,但使用的是与三星共同开发的智能眼镜(Project Moohan)于今年初公布的)。
除了上述大更新外,谷歌还在生产力场景中加入了 AI 技术。
Gmail 将大规模引入基于 Gemini 的智能回复功能,可从用户过往邮件、谷歌云盘文件中提取背景信息,生成更精准、定制化的回复内容。用户在阅读邮件时,也可调出 Gemini 侧边栏,获取总结、要点提取和后续操作建议。
谷歌 Workspace 中的 Docs、Sheets、Slides 等工具也将陆续集成 Gemini,帮助用户更高效地处理长文档、制作数据报告或撰写内容提案。
谷歌还宣布了一个新的 3D 视频会议项目,Google Beam。目前仅面向企业客户。
这套系统也集成了 AI 技术。它使用光场显示技术,不需要佩戴任何特殊设备,而是通过六个摄像头阵列捕捉不同角度,然后用 AI 将这些图像拼接在一起,使用头部跟踪功能跟踪用户的动作,并以每秒最高 60 帧的速度传输。
最后,谷歌推出了高达每月 250 美元的 AI Ultra 订阅计划。这个价格比 OpenAI 的 200 美元 Pro 计划还要贵。
谷歌表示,该计划将包括对其最新 AI 工具的早期访问权限,以及无限使用对谷歌来说成本高昂的功能,如 NotebookLM、Deep Research 和最新推出的 Flow,都将解除使用次数上限。此外,它还提供 30TB 的存储空间,以及 YouTube Premium 服务。
可以看出,与尝试统治 AI 代理生态系统的微软不同,谷歌在此次 I/O 大会上更多展示的是应用层面的更新,将以 Gemini 为核心的 AI 技术全面拓展到自家产品中。
对于普通用户而言,这样或许能够更直观地感受到 AI 带来的价值。
参考资料:
2025/
models/project-astra/
news/669408/google-io-2025-biggest-announcements-ai-gemini
ai/google-io-2025-recap-ai-updates-android-xr-google-beam-and-everything-else-announced-at-the-annual-keynote-175900229.html
排版:初嘉实
0 条