当地时间5月20日,谷歌在I/O 2025大会上发布一系列人工智能新进展,更新了谷歌图像和视频生成模型,为搜索和Gmail增加新的AI功能,推出了配备摄像头和扬声器的安卓XR眼镜,最新模型Gemini 2.5 Pro则拥有Deep Think增强推理模式。
谷歌在其搜索引擎中引入一项名为AI Mode的新功能,它类似于聊天机器人,允许用户使用Gemini人工智能聊天机器人进行网络搜索。从本周开始,该功能将向美国所有用户推出。谷歌将在今年夏天测试AI Mode的新功能,比如深度搜索、为金融和体育查询生成图表,并在“未来几个月”推出在AI Mode下的购物功能。
谷歌DeepMind首席执行官戴米斯·哈萨比斯(Demis Hassabis)表示,谷歌希望保留传统的搜索方式,同时通过其人工智能摘要( AI summaries)、人工智能模式聊天机器人(AI Mode chatbot)和Gemini助手,为搜索带来新的人工智能能力。
哈萨比斯展示了谷歌最新的模型Gemini 2.5 Pro。他表示,实验室一直在继续努力把Gemini变成一个可识别和解决现实世界问题的虚拟助手。
凭借其百万token的上下文窗口,Gemini 2.5 Pro拥有长上下文和视频理解性能。Deep Think是一种用于高度复杂的数学和编程的实验性增强推理模式,Gemini 2.5 Pro将通过Deep Think进一步升级。Gemini 2.5 Pro的Deep Think在数学基准2025 USAMO上取得49.4%的成绩,在竞赛级编程的难度基准LiveCodeBench中处于领先地位,获得80.4%的成绩,并在测试多模态推理的MMMU上取得了84.0%的分数。
Gemini 2.5 Pro的Deep Think性能表现。
“我们正努力拓展我们最强的多模态基础模型Gemini 2.5 Pro,使其成为一个能够通过理解和模拟世界的各个方面来制定计划和构想新体验的世界模型,就像大脑一样。”哈萨比斯表示。
Gemini系统是谷歌Gmail中个性化智能回复功能的支柱。在用户允许的情况下,系统会从用户过去的邮件中提取信息,查看用户的写作方式,并根据用户的语气和风格自动给出回复建议。谷歌还将Gemini引入谷歌搜索的购物体验中。用户可以要求系统显示与灰色沙发相匹配的地毯并优化结果,显示易于清洁的地毯。智能体可以让人们设定可接受的最高价格,并在商品开始销售时自动购买。
谷歌同时推出人工智能视频生成器Veo3,可创建和整合音频,包括人物之间的对话以及动物的声音。Veo2则带有相机控制和物体移除等工具。新推出的图像生成工具Imagen 4可根据用户提示生成更高质量图像。新的电影制作工具Flow可以根据用户描述的地点、镜头和风格偏好来创建电影视频。Flow使用Veo、Imagen和Gemini,根据文本或图像创建8秒人工智能生成视频,还配备了场景构建工具,可将剪辑拼接,创建更长的人工智能视频。
谷歌希望将其人工智能产品用到硬件中,推出了配备摄像头和扬声器的安卓XR眼镜,可以显示文本和拍照,用户可以用Gemini虚拟助手识别和评论人物和地点。不过,该XR眼镜仍是原型。
“在过去十年中,我们为现代AI时代奠定了许多基础,从率先提出所有大型语言模型赖以构建的 Transformer架构,到开发AlphaGo和AlphaZero等可以学习和规划的智能体系统。”哈萨比斯表示谷歌将继续在基础研究的广度和深度上加倍投入,致力于发明实现通用人工智能所必需的下一个重大突破。
【来源:澎湃新闻】
0 条