大数跨境

AI 圈大事件一网打尽!⑮| 识图、写图、搜图、全模态——AI正在看懂世界,还能动手操作

AI 圈大事件一网打尽!⑮| 识图、写图、搜图、全模态——AI正在看懂世界,还能动手操作 丰周AI
2026-05-09
1
导读:本周,DeepSeek开启识图;xAI Grok Imagine实现写实级图像生成;谷歌搜索整合Reddit一手观点;字节发布全模态模型,能理解并操作GUI;腾讯开源多模态搜索Agent;Mining

快讯速览

DeepSeek开启识图模式灰度测试

小红书成立AI一级部门

xAI发布Grok Imagine质量模式API

OpenAI携手巨头发布MRC协议终结GPU闲置

谷歌AI搜索集成Reddit一手观点

月之暗面申请KimiClaw商标

Mininglamp开源Cider+Mano-P本地AI工作站

字节发布全模态大模型Doubao-Seed-2.0-lite

腾讯发布OpenSearch-VL开源多模态搜索Agent

千问PC端上线AI语音输入


DeepSeek开启识图模式灰度测试

DeepSeek在发布DeepSeek-V4后迅速开启多模态识图功能的灰度测试,标志着其多模态能力进入实质性阶段。该功能能够理解图片内容并进行问答,为用户提供更丰富的交互体验。同时,Gemini迎来史诗级更新,一键生成Office文档功能显著提升了其作为生产力工具的能力,增强了与办公软件的衔接性,为用户提供了更高效的办公体验。


小红书成立AI一级部门

小红书正式成立AI一级部门,标志着其对AI技术的战略重视。该部门将专注于AI技术在内容创作、推荐系统和用户体验等方面的应用。同时,阿里发布程序员数字分身QoderWake,通过AI技术帮助程序员提升工作效率。QoderWake能够理解代码上下文,提供智能补全、bug修复建议和代码重构方案,标志着AI编程工具进入个性化、智能化新阶段。


xAI发布Grok Imagine质量模式API

xAI公司正式推出Grok Imagine API的质量模式,在画面写实度、文字渲染精度和创意控制力方面实现重大突破,标志着图像生成迈入写实新纪元。该模式能够提升图像的细腻程度,捕捉自然的皮肤纹理、毛孔细节以及复杂的光影变化。同时解决了图像生成模型在处理复杂文本时的字符错误或排版混乱问题,还增强了视频生成能力,品牌方可以更高效地产出社交媒体资产、产品展示短片及各类商业广告。


OpenAI携手巨头发布MRC协议终结GPU闲置

OpenAI携手AMD、英特尔、微软及英伟达等企业推出全新开放网络协议MRC,旨在解决超大规模AI集群的效率瓶颈,提升数据传输稳定性并减少GPU闲置浪费。MRC协议旨在优化大型AI训练集群的运行表现,通过多路径连接方案降低GPU闲置浪费,提高计算效率。OpenAI联合多家行业巨头发布MRC协议,推动超大规模算力集群向更高效、绿色的方向发展。


谷歌AI搜索集成Reddit一手观点

谷歌对其生成式AI搜索功能进行了重大升级,通过整合社交媒体、论坛及新闻订阅等一手信息源,优化用户获取信任资讯的效率。此次更新引入了观点预览功能,将Reddit和各类网络论坛的真实在线对话与用户查询直接关联。同时在AI回复中嵌入专家建议,并添加创作者名称和社区昵称以增强信源可靠性,增设延伸链接和建议主题,鼓励用户从单一搜索向深度研究转变。


月之暗面申请KimiClaw商标

月之暗面近期提交了多枚KimiClaw商标注册申请,涵盖科学仪器、网站服务和通讯服务等多个核心领域,表明其在人工智能生态链上的野心逐步显露。公司成立于2023年,由杨植麟创办,专注于通用人工智能领域,并已获得20亿美元融资,估值有望突破200亿美元。商标布局可能预示公司从软件算法向硬件设备或物理交互产品延伸的野心。


Mininglamp开源Cider+Mano-P本地AI工作站

Mininglamp开源了Cider和Mano-P两个本地AI项目,分别解决Mac端侧推理加速和GUI智能体操作问题,为用户打造完整的本地AI工作站。Cider优化M系列芯片性能,提升LLM/VLM推理速度和效率。Mano-P实现纯视觉GUI操作,支持复杂桌面任务自动化。两大项目结合,构建本地私有AI基础设施,保障隐私安全并提升效率。


字节发布全模态大模型Doubao-Seed-2.0-lite

字节跳动旗下火山引擎发布的Doubao-Seed-2.0-lite大模型,实现了视频、图像、音频与文本的原生统一理解,标志着其在多模态交互领域的重要进展。该模型在视觉与逻辑推理能力上表现突出,尤其在物理、医疗等高阶学科的复杂推理测试中性能超越了之前的Pro版本。此外,它首次实现GUI理解与执行的一体化,能够完成点击、拖拽、输入等操作,展现了强大的AI能力。


腾讯发布OpenSearch-VL开源多模态搜索Agent

腾讯混元联合多所高校发布OpenSearch-VL,这是一个开源的多模态深度搜索智能体方案,通过强化学习技术提升模型能力。该方案创新了数据生产流程,克服了搜索捷径问题,提供了强大的工具箱,不仅仅是搜索,还包含故障感知算法,让模型从失败中学习。实验表现优异,已计划全量开源,推动多模态智能体研究发展。


千问PC端上线AI语音输入

千问PC端上线AI语音输入功能,用户可通过快捷键在各类桌面应用中直接使用,具备强大的语义解析能力,能够处理口语内容并进行结构化整理。该功能支持口语内容去语气词、纠错、格式化整理等,能基于上下文智能回复。用户可通过语音指令在各类应用中直接使用千问进行创作、问答、翻译等操作,千问可自动生成邮件回复,适应钉钉、微信或邮件场景,极大提升了工作效率。


AI周五5分钟快报

AI周五5分钟快报,助您用5分钟时间系统回顾一周要闻,轻松把握周期脉络,为周末思考或下周决策提供"信息底稿"。

为什么选择周五?

一周技术/产品发布高峰已过,信息"熟成",可去噪;帮你提前排雷:政策、安全、漏洞、踩坑提醒,周六日不炸机。

对抗信息洪流,去芜存菁。我们只聚焦那些真正推动技术边界、影响行业格局或预示未来趋势的关键事件。



联系我们





【声明】内容源于网络
0
0
丰周AI
丰周AI助力企业实现AI技术的高效应用与价值落地。
内容 108
粉丝 0
丰周AI 丰周AI助力企业实现AI技术的高效应用与价值落地。
总阅读206
粉丝0
内容108