大数跨境
0
0

5/22 AI快报:Google Jules赋能编程 / Gemini Diffusion重塑文本

5/22 AI快报:Google Jules赋能编程 / Gemini Diffusion重塑文本 桢诚数科 ZC Digitals
2025-05-22
2
导读:5/22 AI精选快报:Google Jules赋能编程 / Gemini Diffusion重塑文本 / 微软构建开放Agentic Web


ZCD 桢诚数科

引领企业AI转型,

共塑行业未来。

·AI新闻日报·


今日新闻速

🤖 Google Jules:AI编程新助手

✨ Google DeepMind Gemini Diffusion:文本生成新范式

🌐 微软Build 2025:迈向开放Agentic Web

🧠 英伟达Cosmos-Reason1:AI物理推理新突破



01

🤖 Google Jules:

AI编程新助手


微软正与Anthropic及MCP开放协议组织联手,通Google在I/O开发者大会上宣布,其基于Gemini 2.5 Pro模型的AI编程助手Jules已进入全球公测。Jules致力于通过自动化修复Bug、编写单元测试、更新依赖项和实现新功能等繁琐编码任务,显著提升开发效率。它以独特的“异步”方式工作,能同时处理多项任务,并在完成后提供详细代码更改概述及推理,深度集成GitHub,且在隔离云环境中运行保障代码隐私。

亮点聚焦

1. 异步处理: Jules能够在Google Cloud虚拟机中克隆用户代码库,并行处理多项编码任务,开发者提交任务后无需等待,可立即进行其他工作,显著提升尤其在大型复杂项目中的开发效率。

2. 透明控制: 执行任务前,Jules会生成详细计划与推理供开发者预览调整;任务完成后,提供代码差异视图和可选音频更改日志,确保开发者对AI修改有完全掌控和理解。

3. 深度集成: Jules与GitHub无缝集成,无需额外配置即可在现有工作流中运行,能自动生成多步骤开发计划,并以GitHub拉取请求(PR)形式提交代码更改,甚至自动调整代码风格。

4. 隐私保障: Google承诺Jules在隔离的云环境中运行,用户的私有代码不会用于模型训练,确保代码机密性与安全性,这对于处理敏感或专有代码的企业至关重要。

价值洞察

对从业者: Jules标志着AI编程从“代码补全”向“全流程自动化”迈进,开发者能将更多精力投入创新与复杂问题解决。对企业而言,其隐私保障和效率提升使其成为理想选择,目前支持Python和JavaScript,未来将扩展至更多语言。

对普通人: Jules背后体现的AI Agent化趋势将加速软件和应用的创新与迭代,未来我们能更快体验到更高质量的AI驱动产品。长期看,可能降低软件开发门槛,让更多非专业人士通过自然语言构建应用。

推荐阅读

https://www.zdnet.com/article/google-releases-its-asynchronous-jules-ai-agent-for-coding-how-to-try-it-for-free/



02

✨ Google DeepMind Diffusion:

文本生成新范式


Google DeepMind推出了实验性语言模型Gemini Diffusion,它采用图像生成领域成熟的“扩散”技术,颠覆了传统的逐字预测文本生成方式。系统从随机噪声开始,通过多轮迭代将其塑造成完整的文本片段,如同“雕塑而非写作”。这种方法允许中途修正,实现对输出更精细的控制,能生成更连贯、逻辑性更强的文本,尤其在代码生成和文本编辑等任务中表现出色,并达到每秒1479个token的惊人生成速度。

亮点聚焦

1. 扩散生成: 首次将扩散模型大规模应用于文本生成,从随机噪声开始,通过多次去噪迭代,将噪声转化为连贯文本,实现对内容的“雕塑式”创作,更好地维持整体上下文和逻辑。

2. 极速输出: 模型能一次性生成完整文本片段,平均采样速度高达每秒1479个token,编程任务中可达每秒2000个token,初始延迟低至0.84秒,被誉为“软件创新跳过数代硬件升级”。

3. 全局连贯: 扩散机制允许生成过程中进行中途修正和全局上下文考量,显著提升长文本的逻辑连贯性和一致性,有望解决传统模型在长文本中易出现的“幻觉”、内容漂移等问题。

4. 编程优势: 在HumanEval、MBPP等编程基准测试中表现与Gemini 2.0 Flash Lite相当,特定编程任务中略有优势,显示出在代码生成方面的巨大潜力。

价值洞察

对从业者: Gemini Diffusion代表文本生成技术的范式转变,AI生成的文本将更具逻辑性、连贯性和可控性,尤其利好代码编写、技术报告、剧本创作等领域。其高速度将大幅提升效率,并为解决AI幻觉问题提供新思路。

对普通人: 预示着未来与AI交互更流畅自然,AI辅助写作、智能客服等体验将更优质可靠。可能催生如更智能的文本编辑工具,或根据用户意图进行“雕刻式”创作的AI助手,降低复杂文本创作门槛。

推荐阅读

https://the-decoder.com/gemini-diffusion-could-be-googles-most-important-i-o-news-that-slipped-under-the-radar/



03

🌐 微软Build 2025:

迈向开放Agentic Web


在微软Build 2025开发者大会上,CEO萨蒂亚·纳德拉宣布了AI Agent生态系统的一系列重大增强,强调自主化、互操作性和开放性。GitHub Copilot从“结对编程”升级为更自主的“对等编程”,能独立处理复杂开发任务。微软推出了新的开放协议以促进跨平台AI Agent协作,并在Copilot Studio中引入多Agent编排能力。同时,发布了开源项目NLWeb,旨在构建“开放Agentic Web”,让用户能通过自然语言与任何网站深度互动。

亮点聚焦

1. Copilot升级: GitHub Copilot进化为自主“对等程序员”,能独立执行Bug修复、新功能开发、代码重构等复杂任务并自主提交拉取请求,开发者更多扮演任务分配与审核角色。

2. 开放协议: 引入新开放协议,旨在为不同平台和组织的AI Agent提供统一通信与协作标准,为去中心化、高度协同的AI Agent生态系统奠基。

3. 多Agent编排: Copilot Studio新增多Agent编排能力,使多个AI Agent能相互委托任务并协同工作,完成复杂的跨职能工作流,如自动化员工入职流程。

4. NLWeb发布: 推出开源项目NLWeb,简化AI接口与网站集成,允许开发者通过少量代码为网站添加聊天界面,实现自然语言与网站内容的深度互动,被纳德拉比作“Agentic Web的HTML”。

价值洞察

对从业者: Copilot的自主化将解放开发者,专注于创新。开放协议和多Agent编排将使企业级应用更模块化、智能化,降低集成成本。NLWeb为Web开发者提供了便捷融入AI能力的途径,拓展AI应用场景。

对普通人: “开放Agentic Web”将带来由AI Agent驱动的更智能、个性化、无缝的数字体验,如自动处理日程、信息筛选等。NLWeb可能让网站“会说话”,用户通过自然语言即可交互,极大提升数字生活便捷性与普惠性。

推荐阅读

https://mlq.ai/news/microsoft-unveils-major-new-ai-agent-tools-and-open-protocols-at-build-2025/


04

🧠 英伟达Cosmos-Reason1:

AI物理推理新突破


英伟达发布了Cosmos-Reason1,一套旨在显著提升AI物理常识和具身推理能力的多模态大型语言模型,包含7B和56B两个版本。其目标是弥合抽象AI推理与现实世界应用间的鸿沟,使AI系统能更好地感知、理解并在动态物理环境中行动。Cosmos-Reason1采用独特的双重本体系统、结合视觉编码器的解码器-only LLM架构,并在大规模带注释视频-文本对数据集上训练,通过监督微调(SFT)和强化学习(RL)优化,特别擅长预测物理后果和评估行动可行性。

亮点聚焦

1. 物理常识: 核心目标是赋予AI“物理常识”,使其能理解和预测物理世界的行为与结果,让AI更可靠地在现实世界中运作。

2. 双重本体: 采用独特双重本体系统:一为物理常识细分为空间、时间等16个子类别;二为推理能力映射到人类、机器人等五种具身Agent,指导训练并提供评估基准。

3. 多模态融合: 基于解码器-only LLM并增强视觉编码器,能同时处理整合视觉(视频)和文本数据,提升AI在物理世界中的感知与推理能力。

4. 强化学习: 通过物理AI监督微调(SFT)和物理AI强化学习(RL)两阶段训练。RL阶段利用基于规则和可验证的奖励,源于人类标注和视频自监督任务,提升因果推理和决策能力。

价值洞察

对从业者: 这是AI从“数字世界”走向“物理世界”的关键一步。对机器人、自动驾驶、工业自动化等领域,意味着AI系统将更鲁棒地理解和应对现实世界的复杂性与不确定性,加速前沿技术的商业化和实际应用。

对普通人: 随着这类模型的进步,我们将看到更多能理解物理规律、预测后果并适应环境变化的智能机器人和自动驾驶汽车。这意味着更安全的自动驾驶、更高效的智能工厂机器人以及更智能的家用服务机器人,提升生活质量与安全性。

推荐阅读

https://ubos.tech/news/nvidias-Cosmos-Reason1-revolutionizing-ai-with-physical-reasoning/


今日总结



Google Jules:AI编程新助手 的发布,标志着AI编程工具正从辅助走向全流程自动化。Jules基于Gemini 2.5 Pro模型,以异步、透明和深度集成GitHub的方式,提升开发者效率,并承诺保障代码隐私,预示着AI Agent在软件开发领域的自主化浪潮。

Google DeepMind Gemini Diffusion:文本生成新范式 带来了文本生成技术的革命。该实验性模型首次将图像生成中的“扩散”技术应用于文本,实现了极速、全局连贯的文本生成,尤其在代码生成方面表现突出,有望解决传统语言模型在长文本连贯性和“幻觉”方面的问题,为AI内容创作开辟新途径。

微软Build 2025:迈向开放Agentic Web 大会则描绘了AI Agent互操作性和开放性的未来图景。GitHub Copilot升级为自主“对等程序员”,微软推出开放协议和多Agent编排能力,并发布NLWeb项目,旨在构建一个由AI Agent驱动的“开放Agentic Web”,这将深刻改变软件开发和用户与数字世界的交互方式。

英伟达Cosmos-Reason1:AI物理推理新突破 填补了AI在物理常识和具身推理方面的空白。该多模态模型套件通过双重本体系统、视觉与文本融合以及强化学习训练,使其能够更好地理解和预测物理世界的行为,为机器人、自动驾驶等现实世界应用奠定更坚实的基础,推动AI从“数字世界”走向“物理世界”。

关于我们



🚀 引领企业数字化转型,共塑行业未来。我们专注于打造融合 AI 的定制化 数字化系统,实现业务流程的智能升级与深度整合。依托来自MIT、微软等顶尖科技背景的核心团队,我们助您构建强大的 AI 驱动 基础设施,提升效率,驱动创新,成就行业领先地位。


【声明】内容源于网络
0
0
桢诚数科 ZC Digitals
引领企业数字化转型,共塑行业未来。我们专注于打造融合 AI 的定制化 数字化系统,实现业务流程的智能升级与深度整合。拥有顶尖科技背景的核心团队,我们助您构建强大的 AI 驱动 基础设施,提升效率,驱动创新,成就行业领先地位。
内容 63
粉丝 0
桢诚数科 ZC Digitals 引领企业数字化转型,共塑行业未来。我们专注于打造融合 AI 的定制化 数字化系统,实现业务流程的智能升级与深度整合。拥有顶尖科技背景的核心团队,我们助您构建强大的 AI 驱动 基础设施,提升效率,驱动创新,成就行业领先地位。
总阅读4
粉丝0
内容63