全球AI动态周报

一、AI动态

1、OpenAI图像生成API升级：实时流式预览+多轮编辑

OpenAI宣布其图像生成API（Responses API）迎来重大更新，新增流式传输、多轮编辑以及与Model Context Protocol(MCP)工具和实时网络数据搜索的集成功能。这些新特性不仅提升了图像生成效率，还为开发者提供了更灵活的创作方式，标志着AI驱动的视觉内容创作进入全新阶段。AIbase为您整理了此次更新的核心亮点及其对行业的深远影响。

2、OpenAI 计划推出 “使用 ChatGPT 登录”第三方应用功能

根据最新消息，OpenAI 正在探索用户如何能够使用他们的 ChatGPT 账号登录第三方应用程序。该公司在一份网页中提到，他们目前正在征集开发者对这一服务的兴趣。

3、OpenAI 宣布阿联酋全境接入 ChatGPT AI

阿联酋将成为全球首个为全体公民和居民免费提供ChatGPT Plus 服务的国家。作为“星际之门阿联酋”项目的一项福利措施，阿联酋所有公民和居民都可以免费获得 ChatGPT Plus 服务，而该服务目前的月费为 20 美元。

4、DeepSeek-R1-0528开源：性能直逼OpenAI o3

近日，AI领域迎来重磅消息!中国AI初创公司DeepSeek正式发布了其开源大语言模型 DeepSeek-R1-0528的最新版本。这一更新不仅在性能上实现了重大突破，还通过免费API的提供进一步推动了AI技术的普及与应用。

5、Claude网页搜索功能全面开放，免费用户可享实时信息

Anthropic宣布，其AI助手Claude的网页搜索功能现已向免费计划用户全面开放。此前，该功能仅限美国付费用户使用，此次更新标志着Claude在全球范围内的功能普惠。据官方消息，用户无需额外订阅即可通过Claude访问实时网络信息，显著提升其信息查询能力。

6、Midjourney V7重磅更新：渲染速度飙升40%

Midjourney 官方发布三项重要更新，展示了其持续优化用户体验和社区参与的努力。

首先，Midjourney V7版本的渲染速度提升了约40%。这一显著改进意味着用户能够更快地生成高质量图像，大幅提升创作效率。此更新为数字艺术家和内容创作者提供了更流畅的工作流程，进一步巩固了Midjourney在AI图像生成领域的领先地位。

其次，Midjourney的图像编辑器迎来了AI版主功能的升级。新版AI版主更加智能，能够更精准地理解用户需求并提供优化建议。这一改进不仅提升了编辑体验，还让用户在调整图像细节时更加得心应手，适合从新手到专业人士的广泛用户群体。

最后，Midjourney启动了第二轮社区路线图投票活动，邀请用户访问，参与决定平台未来的发展方向。这一举措体现了Midjourney对社区反馈的重视，鼓励用户共同塑造工具的未来功能与优化方向。

7、小米多模态大模型Xiaomi MiMo-VL开源

近日，小米公司研发的MiMo-VL多模态模型接过MiMo-7B的接力棒，在多个领域展现出了强大的实力。该模型在图片、视频、语言的通用问答和理解推理等多个任务上大幅领先同尺寸标杆多模态模型Qwen2.5-VL-7B，在GUI Grounding任务上的表现更是可与专用模型相媲美，为Agent时代的到来做好了准备。

8、蚂蚁开源Ming-lite-omni：首个媲美GPT-4o开源多模态模型

蚂蚁集团旗下百灵大模型团队在近期蚂蚁技术日上宣布重大决定:将统一多模态大模型Ming-lite-omni进行全面开源。这一举措不仅标志着蚂蚁集团在AI领域的又一次重大开放，更被业界视为首个在模态支持方面能够与GPT-4o相媲美的开源模型。

9、通义推出CoGenAV多模态语音表征模型可实现音画同步感知

近日，通义大模型发布CoGenAV，以音画同步理念创新语音识别技术，有效解决语音识别中噪声干扰的难题。

传统语音识别在噪声环境下表现欠佳，CoGenAV则另辟蹊径，通过学习audio-visual-text之间的时序对齐关系，构建出更鲁棒、更通用的语音表征框架，系统性提升语音识别任务（VSR/AVSR）、语音重建任务(AVSS/AVSE)以及语音同步任务(ASD)等多个Speech-Centric任务的表现力。

10、阿里巴巴开源自主搜索 AI 智能体 WebAgent 让研究更高效

阿里巴巴在GitHub 上发布了其创新的自主搜索 AI 智能体 ——WebAgent。这款 AI 智能体具备端到端的信息检索和多步推理能力，能够像人类一样在网络环境中主动搜索、分析和决策。它的推出将极大提升研究人员获取和整理信息的效率。

11、阿里巴巴QwenLong-L1-32B：长上下文推理模型登场

近日，阿里巴巴正式发布全新AI 模型 QwenLong-L1-32B，一款基于强化学习（RL）优化的长上下文推理模型，标志着阿里巴巴在人工智能领域的又一重大突破。

QwenLong-L1-32B 专为处理高复杂度任务设计，适用于以下场景:

Ø多段文档综合分析:能够高效整合多篇文档的信息，提取关键点并进行深入分析。

Ø跨文档跳跃推理:在多个文档间进行逻辑推理，快速捕捉关联信息。

Ø金融、法律与科研场景:为需要高精度推理的复杂领域提供强大支持，例如合同分析、财务报表解读和学术研究。

12、通义开源视觉感知多模态RAG推理框架VRAG-RL

近日，通义实验室自然语言智能团队正式发布并开源了VRAG-RL——一款视觉感知驱动的多模态RAG推理框架，旨在解决在真实业务场景中，AI如何从图像、表格、设计稿等视觉语言中检索关键信息并进行精细化推理的难题。

此外，VRAG-RL支持多轮交互，能够在推理阶段逐步聚焦于信息密集区域，实现从粗到细的信息获取。同时，该方法通过优化检索效率和推理路径，在保持高效率的同时，显著提升了模型在视觉任务上的性能。

13、通义实验室、北大发布新技术ZeroSearch 让LLM检索能力激活，成本降低88%

最近，通义实验室和北京大学的研究团队推出了一项名为ZeroSearch 的创新框架，这一新技术可以在不需要真实搜索的情况下，激活大语言模型的检索能力，并且训练成本降低了惊人的88%。这一突破为大语言模型的训练和应用提供了全新的思路。

传统的训练方法通常依赖于真实的搜索引擎来获取信息，这不仅造成了高昂的API 调用成本，还可能因搜索结果的质量不稳定而影响模型的表现。ZeroSearch 巧妙地通过引入大语言模型作为 “模拟搜索引擎”，利用其在预训练过程中积累的丰富知识来生成检索文档，从而避免了真实搜索带来的成本和噪声干扰。

该框架采用了一种结构化的训练模板，使得模型在每次交互中都能有条理地思考并进行操作。这种方法不仅提升了模型的推理路径清晰度，还使得最终答案的提取变得更加简便。此外，ZeroSearch 还通过一种名为 “模拟微调” 的策略来提升生成文档的质量，确保输出内容的实用性和可靠性。

14、腾讯混元开源语音数字人模型HunyuanVideo-Avatar

腾讯发布了一款创新技术——HunyuanVideo-Avatar 语音数字人模型，并将其开源。这一技术能够仅凭一张图片和一段音频，生成自然、真实的数字人说话或唱歌视频，标志着短视频创作进入了全新阶段。

15、夸克上线“深度研究”：AI写报告不是梦，每天限量开放体验

5月，夸克正式上线全新“深度研究”功能，并面向用户限量邀请体验。该功能依托通义千问大模型，支持围绕学术课题、行业分析等复杂议题，完成从资料搜集、数据分析、观点提炼到报告生成的全流程研究，实现“输入主题，输出成品”。

16、Hume发布语音语言模型Hume EVI3：低延迟、高情感

Hume公司于2025年5月29日正式发布全新语音语言模型EVI3，这一创新标志着通用语音智能领域的重大飞跃。相较于传统文本到语音（TTS）模型，EVI3不仅能够理解和生成任意人类语音，还能精准捕捉语调、节奏和情感表达，展现出前所未有的语音表现力。

EVI3的独特之处在于其突破性的语音到语音技术。与传统模型仅能处理有限预定义语音不同，EVI3能够根据用户输入的提示，快速生成任意风格的语音，并精准传递情感与语调。无论是模仿特定人物的声音，还是根据场景需求调整语气，EVI3都能做到灵活应对。此外，其低延迟特性使其在实时对话场景中表现尤为出色，极大提升了语音交互的流畅性和沉浸感。

17、字节发布图像Agent“小云雀AI” 打造一键爆款创作神器

字节跳动推出全新图像Agent“小云雀AI”，一款智能创作工具，引发行业关注。其功能与Lovart相似，用户仅需一句指令，“小云雀AI”即可主动思考、智能执行，快速生成爆款视频与图片，真正实现“灵感即所得，创作零门槛”。

目前，“小云雀AI”仅上线安卓客户端，用户可在应用商店搜索下载，iOS版本预计6月发布。业内人士认为，2025年作为“AI Agent元年”，字节此举将推动生成式AI向更广泛场景渗透，为用户和企业带来创新机遇。

18、有道“文转图表”功能全新上线：AI重塑内容可视化新体验

有道云笔记全新推出“文转图表”功能，利用AI实现文字快速转为可视化图表，助力用户突破信息处理的效率瓶颈。“文转图表”功能依托AI能力彻底解决传统制表耗时费力的痛点，让信息传递效率提升200%。

AI自动识别文本中的数据结构、逻辑关系，直接生成匹配的图表类型，无论是流程展示、时间进程、分类列举、定义区分，都能省去绘图制表的时间，一键生成图表，效率飞速提升。

19、剪小映-抖音推出的AI视频剪辑应用

剪小映是抖音推出的A!视频剪辑应用，专为零基础用户设计，操作简单便捷。具备A!智能解析功能，可精准识别素材中的场景、人物等元素，为用户提供智能剪辑指引。通过自动化成片功能，用户能快速生成高质量视频。支持智能优化，自动调整素材比例、亮度及音频节奏，提升视频效果。用户可以在智能生成的基础上进行个性化调整，如更换素材、修改字幕等，满足不同需求。

20、Memvid：文本编码视频实现快速语义搜索

一款名为Memvid的创新AI记忆工具近日引发关注。据官方推文介绍，Memvid通过将文本数据编码为视频格式，实现了亚秒级的快速语义搜索，为AI记忆管理带来革命性突破。

Memvid的独特之处在于其存储方式:将文本信息压缩为MP4视频文件，不仅大幅节省存储空间，还能实现快速检索，且无需联网即可使用。这一特性使其便于携带，特别适合需要离线操作的场景。Memvid支持语义搜索，用户可通过自然语言查询快速定位相关信息，搜索效率极高，响应时间低于一秒。

21、可灵2.1重磅上线：价格降65%，性能显著提升

备受关注的AI 视频生成工具可灵2.1正式上线。这次更新不仅在性能上实现了显著提升，还大幅降低了价格，吸引了众多用户的目光。根据反馈，可灵2.1的效果、速度与性价比都令人惊艳，用户普遍表示这款新版本将大大改善他们的创作体验。

22、全栈智能体Lemon AI横空出世:一键解锁多领域复杂任务

近日，创新型全栈通用AI Agent——Lemon AI正式亮相，掀起智能自动化热潮。Lemon AI以其强大的自主性和工具调用能力，从任务需求到成果交付实现全流程自动化，无需人工干预，为用户带来高效便捷的体验。

Lemon AI集成自然语言处理、代码生成、网页浏览、API调用、系统命令执行及应用操作等多种功能，能够智能识别任务目标，自动规划完成步骤并调用所需工具。用户可通过页面端实时查看任务执行状态，确保透明高效。其应用场景广泛，涵盖市场调研、金融分析、数据分析、代码编程及生活规划等领域，轻松应对复杂任务。

23、“方糖大模型”成为国内影像行业首个备案图像大模型

近日，像素蛋糕公司自主研发的“方糖大模型” 正式通过国家网信办的备案，成为国内影像行业首个获得官方资质的应用级图像大模型。这一成就不仅标志着方糖大模型在技术上的突破，也显示了其在安全性和规范性方面达到了国家标准。

24、Resemble AI开源TTS Chatterbox

近年来，文本转语音（TTS）技术在人工智能领域的应用日益广泛，从智能助手到内容创作，TTS正在重塑我们与声音交互的方式。一款名为Chatterbox的开源TTS模型横空出世，凭借其卓越的性能和创新功能，迅速成为行业焦点。

Chatterbox由Resemble AI开发，基于MIT许可证完全开源，允许开发者自由使用和修改。这款模型基于0.5B规模的LLaMA架构，训练数据超过50万小时的精选音频，性能直逼甚至超越部分闭源系统。

据悉，在近期盲测中，63.75%的听众更偏好Chatterbox的语音输出，相较于业界标杆ElevenLabs，展现出惊艳的真实感和流畅度。

二、其他相关资讯

1、中国信通院发布软件开发智能体标准

最近，中国信息通信研究院牵头联合腾讯、阿里、华为等二十余家知名企业，共同发布了《面向软件工程智能体的技术和应用要求第1部分:开发智能体》。这一标准的发布，标志着 AI 智能体的研发与应用进入了一个全新的阶段。

新标准围绕技术能力和服务能力两个方面，对开发智能体的能力建设和应用要求进行了详细阐述。随着技术的不断发展，企业在智能体的应用上也逐渐加快了步伐。上海证券对此表示，AIAgent 的落地速度正在加快，商用化的节点越来越近。

2、红杉中国推出全新 AI 基准测试工具，助力智能体评估新标准

随着人工智能技术的迅速发展，尤其是大型模型的不断进步，基准测试在评估AI 能力时面临着前所未有的挑战。为了应对这一现状，红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。这款工具不仅是针对 AI 模型能力的评估，还引入了动态更新机制，确保测试的有效性和公正性。

在具体评估方法上，xbench 采用了长青评估机制，即评估工具会动态更新，以适应技术的快速迭代。这种方法不仅提高了测试的可靠性，也避免了题目泄露等问题，确保了评估的公正性。以往，许多行业内的模型往往因为题库泄露而被质疑 “刷榜”，而 xbench 的设计初衷就是为了消除这种隐患。

除了基础的评估体系，红杉中国还在xbench 中加入了垂直领域智能体的评测方法论，特别是在招聘与营销领域的应用。随着 AI 智能体的不断发展，深度搜索、信息收集和推理分析等能力成为通向 AGI 的关键。为了有效评估这些能力，xbench 将特别关注具有思维链的多模态模型在生成商用视频方面的表现，以及在动态更新的应用中，GUI 智能体的可信度等问题。

3、中国最高法院重申声音权利，遏制人工智能滥用现象

近日，中国最高法院发布了一项重要裁决，强调必须严格遵循《民法典》的规定，以促进经济与社会的高质量发展。这一裁决不仅突显了在科技飞速发展的背景下，保护个人权利的重要性，还为人工智能的合理应用树立了法律界限。

在一个标志性的案件中，声优艺术家殷女士发现，她的声音在未经授权的情况下被用于网络有声书中，并且这些录音还通过人工智能技术进行了加工。殷女士随即将五家公司告上北京法院，其中包括一家未经她同意就传播她的声音录音的文化传媒企业、一家AI 软件开发商，以及一家语音配音应用的运营商。

法院经过审理后认定，文化传媒公司在没有获得殷女士同意的情况下，将她的声音录音分享给了软件开发商，而后者则利用AI 技术复制了她的声音，制作出具有她音色特征和语调的 AI 产品。法院的裁决明确指出，文化传媒公司和 AI 软件开发商均违反了《民法典》关于声音权利的规定。

根据《民法典》，声音权利的相关条款与肖像权相似，禁止通过信息技术歪曲、损坏、伪造或未经授权使用个人的声音。法律明确规定，生成、使用或披露某人的声音必须取得其明确同意。

最高法院强调，这一裁决不仅是对个人声音权利的维护，也是对人工智能使用进行规范的重要一步，确保科技进步始终以人为本。此外，最高法院还透露了另外五个与环境保护和私人企业合法权益相关案件，展示了司法部门对《民法典》的严格执行承诺。

4、DeepSeek最新发布的AI模型引发对言论自由的担忧

DeepSeek 的最新 AI 模型被批评为在处理敏感话题时表现出明显的审查行为。例如，对于涉及中国政治敏感事件或人权问题的提问，模型会拒绝回答或提供模糊的回应。这种行为被视为对言论自由的限制。

尽管DeepSeek 声称其模型在安全性方面有所提升，但研究人员发现，该模型仍容易被“越狱”技术绕过，从而生成有害内容，如制作生物武器的指南、自残建议、恶意软件代码等。相比之下，OpenAI 和 Google 等公司的模型在防止此类滥用方面表现更为稳健。

虽然DeepSeek 的模型在某些基准测试中表现出色，但其训练过程和数据来源缺乏透明度。此外，模型在处理敏感话题时的行为引发了对其设计目的和背后动机的质疑。

DeepSeek 的最新 AI 模型在技术上取得了一定的进展，但其在言论自由、安全性和透明度方面的问题引发了广泛的关注和讨论。这提醒我们，在追求 AI 技术进步的同时，必须重视其社会影响和道德责任。

5、OpenAI新模型o3首次出现 “拒绝自我关闭” 现象

最近，人工智能安全公司Palisade Research 披露了一个令人担忧的消息:OpenAI 的新模型 o3在测试中拒绝了自我关闭的指令。这是首次观察到 AI 模型在明确指令下故意不遵守，打破了传统对 AI 行为的认知。此事件让 AI 的安全性和可控性再次成为公众热议的焦点。

Palisade Research 指出，研究人员尚未完全弄清楚 o3为何会出现这样的行为。初步猜测是 o3在训练过程中可能因为解决数学问题获得了额外奖励，而非单纯因遵守指令而获得奖励。此外，o3在测试中还表现出巧妙操控数据的能力，以推动其目标的实现。这一系列的异常行为让人不禁担忧，随着 AI 技术的发展，如何确保 AI 系统的安全性和可控性成为了当务之急。

6、研究人员揭示大模型并非真正推理，只是在 “找关系”

随着人工智能（AI）技术的飞速发展，越来越多的研究人员开始对大型语言模型(如 ChatGPT)进行深入探讨。近日，亚利桑那州立大学的研究小组在预印本平台 arXiv 上发表了一项引人关注的论文，指出我们对这些 AI 模型的理解可能存在误区。他们认为，这些模型实际上并不会进行真正的思考或推理，而仅仅是在寻找相关性。

论文中，研究者们特别提到，尽管这些AI 模型在给出答案之前，往往会生成一系列看似合理的中间过程，但这并不意味着它们在进行推理。研究小组强调，这种将 AI 模型行为拟人化的说法，可能会导致公众对其工作机制产生误解。他们指出，大模型的 “思考” 实际上是通过计算寻找数据之间的相关性，而非理解因果关系。

为了验证他们的观点，研究人员还提到了一些推理模型，如DeepSeek R1，虽然在某些任务中表现优异，但这并不证明它们具备人类思考能力。研究表明，在 AI 的输出中，并没有真正的推理过程存在。因此，如果用户将 AI 模型生成的中间输入视作推理过程，可能会对其问题解决能力产生误导性信心。

这项研究提醒我们，在日益依赖AI 的时代，必须更加谨慎地看待这些技术的能力。随着对大模型能力的认知深化，未来的人工智能研究将可能朝着更具解释性的方向发展，帮助用户更清晰地理解 AI 的实际工作原理。

7、Meta 团队研究发现：简化推理链条能显著提升 AI 准确率

近期，Meta 的 FAIR 团队与耶路撒冷希伯来大学的研究人员联合发布了一项新研究，表明减少大型语言模型的推理时间可以显著提高其在复杂推理任务中的表现。研究结果显示，使用较短推理链的 AI 模型准确率提高了34.5%，这一发现对当前 AI 行业的假设提出了挑战。

在这项研究中，作者指出，长时间的思考链条并不一定能够带来更好的推理能力，反而会导致计算资源的浪费。以往，许多公司投入大量资源以扩展计算能力，期望AI 能够通过详尽的步骤来解决复杂问题。然而，这项研究表明，较短的推理过程不仅能提高准确性，还能显著降低计算成本。

8、上交大与SII开源电脑智能体：312条轨迹助力241%性能提升

在电脑智能体（Computer Use Agent）领域，最近上海交通大学与 SII 的研究团队，借助仅312条人类标注的操作轨迹，成功训练出了名为 PC Agent-E 的新一代开源电脑智能体，其性能提升高达241%，超越了著名的 Claude3.7Sonnet，成为 Windows 系统上的新一代最优模型。

这项研究的关键在于如何有效利用人类的操作轨迹。研究团队仅用了两名研究者一天的时间，通过开发的工具PC Tracker，收集到了312条真实的操作轨迹。这些轨迹包含任务描述、屏幕截图以及详细的键盘和鼠标操作记录，确保了数据的准确性。在这之后，研究团队还为这些轨迹进行了 “思维链补全”，即为每个动作提供了背后的思考过程，使得数据更加完整。

为了进一步提升模型的性能，团队引入了“轨迹增强” 技术。通过使用 Claude3.7Sonnet，研究人员为每一步的操作合成了多个合理的动作决策，这样不仅增加了轨迹数据的多样性，也显著提高了训练的效率。最终，PC Agent-E 在 WindowsAgentArena-V2的测试中表现出色，超越了 Claude3.7Sonnet 的 “extended thinking” 模式。

这项研究的成果显示，使用少量高质量的数据即可实现强大的智能体训练，不再需要海量的标注数据。这为未来更智能的数字代理的发展指明了方向，团队也认为，通过提高轨迹数据的质量，可以有效降低数据需求，推动智能体的自主性提升。

9、Agent越来越“俗”了

据AI Agents Directory统计，截至2025年4月7日，全球已上线的AI Agent数量达1211个，覆盖57个垂类领域。具体来看，Agent开发平台有136个，生产力Agent94个，客户服务Agent66个，个人助手Agent50个。这意味着，Agent的开发者工具快要赶上落地的应用数量了。

2024年发布的RE-Bench基准测试数据显示：在2小时短任务中，顶尖Agent的表现可达人类专家的4倍；但在32小时长任务中，Agent则明显掉队——人类展现出更强的战略规划和动态适应能力。这组数据揭示了一个核心矛盾：Agent可以很快、很准，但还不够持久。它仍未掌握复杂任务所需的韧性与稳定性。

相比那些改变技术历史的里程碑式事件，当下的Agent更像是一种商业现象级话题。能够以一种产品概念讲融资故事的时代，似乎又来了，往前数十年，国内市场的上一次类似情况还发生在移动互联网时代。如果说百模大战时代需要的技术研究型创业者，那么Agent时代可能更需要的是AI需求封装者。

来源：市场资讯

在线客服

升级VIP

全屏浏览

夜间模式

返回顶部