9agent.ai
点击蓝字 关注我们
每日AI简讯
2025.05.22
01
大模型
LLM
面壁智能获新一轮数亿元融资,引领端侧大模型高效发展与应用普及
面壁智能完成数亿元融资,由洪泰基金、国中资本等联合投资,将用于深化高效大模型技术研发及商业化应用。该公司专注打造同等参数下性能更优的端侧大模型,其MiniCPM系列全球下载量超千万,并推出首个端侧汽车助手cpmGO,与长安、上汽大众等车企合作实现量产车型落地。面壁智能通过「高效方法论」和密度定律持续提升模型知识密度,推动端侧AI在智能座舱等领域的规模化应用,本轮融资将加速大模型在终端设备的产业赋能进程。
原文链接:https://www.jiqizhixin.com/articles/20250521
大模型全面爆发,所有榜一都是Gemini!谷歌一夜站到了台前
谷歌在2025年I/O大会上推出Gemini系列大模型重大升级,包括Gemini 2.5 Pro和2.5 Flash版本,分别在学术基准、多模态支持及推理效率上取得突破。新增的Gemini Diffusion扩散模型以五倍生成速度实现快速文本生成,编程工具Jules智能体可异步处理代码任务,Gemini Code Assist提升开发效率2.5倍。此外,UI设计工具Stitch支持自然语言生成前端代码,Colab新增智能体交互功能,全面强化AI开发生态体系。
原文链接:https://www.jiqizhixin.com/articles/202505213
腾讯混元宣布模型矩阵全面升级,新推视觉推理模型T1Vision和语音通话模型混元Voice
腾讯混元升级AI模型矩阵,推出视觉深度推理模型T1Vision和端到端语音通话模型混元Voice。混元TurboS在国际评测中跻身全球前八,其理科推理能力提升超10%。深度模型T1在数学竞赛和复杂任务处理能力分别提升8%和13%。新模型T1Vision支持多图输入,处理效率提高50%;混元Voice将延迟降至1.6秒。同步推出多模态生成技术,包括图像2.0和3D v2.5,并开源全模态技术助力行业应用。
原文链接:https://www.aibase.com/zh/news/18244
ACL 2025 | 大模型乱试错、盲调用?KnowSelf让智能体有「知识边界感知」能力
ACL 2025论文提出KnowSelf框架,通过赋予大模型智能体知识边界感知能力,解决传统方法因盲目调用知识导致的低效问题。该框架构建知识系统与情境判断标准,将决策分为快速反应、深度推理及外部知识调用三种模式,并通过双阶段训练强化智能体的自我认知能力。实验显示,KnowSelf在ALFWorld和WebShop数据集上以较少知识调用实现更高任务成功率,并提升跨任务泛化能力,验证了精准知识引入机制的有效性。
原文链接:https://www.jiqizhixin.com/articles/2025052110
DeepSeek发布大模型训练端到端论文,展示卓越工程深度
DeepSeek发布大模型端到端训练技术论文,系统披露了算法、框架与硬件协同优化的创新方案。软件层面通过MLA注意力机制、FP8混合精度训练等降低内存占用与提升计算效率;硬件采用MultiRail Fat Tree网络拓扑优化集群性能;混合方案结合IBGDA通信内核与3FS文件系统突破训练瓶颈。其V3模型在2048块H800 GPU上仅耗278.8万小时完成训练,效能比肩顶级闭源模型,为开源AI社区提供了高效训练范本。
原文链接:https://www.aibase.com/zh/news/18233
02
产品应用
Product Application
飞书知识问答:激活企业知识资产的AI助手
飞书推出知识问答功能,整合企业内文档、群聊、会议记录等信息,通过AI深度理解实现精准检索与生成。支持模糊搜索、权限管理(千人千面)及多模型切换(DeepSeek-R1、豆包),可溯源答案防止AI幻觉,提升信息安全。该功能能生成结构化表格、业务报告,但需企业具备规范知识沉淀基础。实测显示其在信息整合与场景化应用中效果显著,但仍有优化空间,如回答精度和开箱即用性。
原文链接:https://www.jiqizhixin.com/articles/2025-05-21-7
谷歌推出AI虚拟试衣工具:只需上传照片 “试穿+结账”一条龙购物体验
谷歌在2025年I/O大会上发布AI虚拟试衣工具,用户上传照片即可生成真实试穿效果,由定制图像生成模型驱动并直接集成至谷歌搜索。该工具同步推出代理结账系统,可实时追踪价格、推送折扣并自动完成支付流程。功能依托覆盖500亿商品、每小时更新的“购物图谱”数据支持,实现了从试衣到支付的全链路消费闭环,展现生成式AI在零售领域的应用前景,标志着搜索功能向消费入口的全面升级。
原文链接:https://www.aibase.com/zh/news/18221
谷歌发布Flow AI剪辑工具:Veo3 与Imagen4 驱动、镜头控制与场景扩展
谷歌在2025年Google I/O大会上推出AI视频剪辑工具Flow,整合Veo3视频生成、Imagen4图像生成及Gemini自然语言处理技术。该工具支持通过文本提示生成8秒高清视频片段,首创原生音频生成功能,并提供Scenebuilder场景扩展、Camera Controls镜头控制等专业功能。订阅服务分为Pro(每月100次生成)和Ultra(支持音频生成)两档,已与好莱坞制作团队合作优化影视工作流。Flow通过模块化设计和多模态提示系统,为影视、广告创作者提供从素材管理到作品展示的一站式解决方案,被视为对标OpenAI Sora的影视级AI工具。
原文链接:https://www.aibase.com/zh/news/18224
京东云宣布五大AI营销产品限时免费,助力商家提升销售效率
京东云推出五大限时免费AI营销工具,包括直播数字人、智能客服系统、AIGC图文生成平台等,助力商家降本增效。其中,数字人直播成本仅为真人1/10,转化率提升30%,已服务超1万品牌创造140亿元GMV;智能客服支持全链路跟单,618期间新客可免费试用专业版;图文生成工具实现秒级商品图创作,效率提升95%;视频混剪平台提供50+模板免费试用三个月。核心功能覆盖直播、客服、图文及短视频营销全场景。
原文链接:https://www.aibase.com/zh/news/18238
豆包·语音播客模型发布 将在豆包APP及PC端、扣子等上线
火山引擎推出豆包·语音播客模型,基于流式模型实现文本到双人对话式播客的秒级转化。该模型突破传统AI播客内容重复、机械感强等局限,提供自然拟人语音效果、端到端创作链路及深度搜索功能,支持5秒生成热点话题播客音频,并能将超长文本或网页内容转化为专业级播客作品。模型兼具灵感创作辅助和观点深度输出能力,未来将登陆豆包APP、PC端及扣子平台,为创作者提供高效低成本的互动播客制作体验。
原文链接:https://www.aibase.com/zh/news/18234
03
硬件&底层技术前沿
Hardware Technologies
策略学习助力LLM推理效率:MIT与谷歌团队提出异步并行生成新范式
MIT与谷歌团队联合开发PASTA异步生成框架,通过策略学习优化大语言模型推理效率。该框架引入PASTA-LANG标记语言,允许模型自主标注语义独立内容块以实现并行生成,采用监督微调和偏好优化的双阶段训练策略,并设计共享缓存与注意力控制机制提升系统性能。实验显示PASTA在AlpacaEval基准上实现1.21-1.93倍加速,同时维持生成质量,为LLM实时应用提供可扩展的解决方案。
原文链接:https://www.jiqizhixin.com/articles/2025-05-21-5
何恺明团队又发新作: MeanFlow单步图像生成SOTA,提升达50%
何恺明团队提出MeanFlow单步图像生成框架,通过引入平均速度场取代传统流匹配中的瞬时速度建模。该方法在ImageNet 256×256数据集上实现FID 3.43的突破性表现,相较前最佳单步模型提升50%-70%,且无需预训练、知识蒸馏或课程学习。该框架通过推导平均速度与瞬时速度的数学关系构建新型损失函数,支持无分类器引导的零成本采样,仅需1次函数评估即可生成高质量图像,其2步生成效果已接近主流多步模型性能。
原文链接:https://www.jiqizhixin.com/articles/2025-05-21-6
字节跳动开源多模态模型 BAGEL:图文生成与编辑的新突破
字节跳动推出开源多模态模型BAGEL,具备140亿参数(含70亿活跃参数),采用混合变换器专家(MoT)架构,支持语言与视觉特征联合学习。该模型在图像生成质量上媲美SD3,多模态理解能力超越Qwen2.5-VL等主流开源模型,并实现自由图像编辑、3D操作等复杂任务。通过数万亿级多模态数据预训练,BAGEL展现出阶段性能力提升,其视觉-语义融合机制显著增强了智能编辑效果,已在Hugging Face平台开源。
原文链接:https://www.aibase.com/zh/news/18239
英伟达推出新型模型 Cosmos-Reason1 ,让 AI 更好理解物理世界
英伟达发布Cosmos-Reason1系列模型,包含7B和56B参数版本,通过物理AI监督微调与强化学习提升AI对物理世界的理解能力。模型采用双本体系统,分层处理空间、时间及基础物理规律,结合视觉编码器实现视频与文本数据的协同推理。在物理常识和具身推理基准测试中,该模型在预测行动、验证任务可行性等场景表现优异,解决了传统AI缺乏物理直觉的痛点,为机器人、自动驾驶等具身智能应用提供高效训练方案。
原文链接:https://www.aibase.com/zh/news/18249
谷歌推出 MedGemma AI 模型:医疗图像与文本分析的革命性工具
谷歌在2025年I/O大会上开源医疗AI模型MedGemma,基于Gemma3架构提供4B和27B两种参数版本。4B模型专攻多模态医疗图像分析,集成SigLIP技术处理X光、皮肤病学等领域的图像诊断;27B模型专注临床文本理解,支持患者分诊与诊疗决策。模型支持本地部署或通过谷歌云Vertex AI平台扩展,配套Colab工具包便于开发者进行提示工程和LoRA微调,为医疗诊断效率提升提供开源解决方案,现已在GitHub等平台开放访问。
原文链接:https://www.aibase.com/zh/news/18250
04
上市公司动态
Listed Company Updates
美图获阿里巴巴 2.5 亿美元投资,深度布局 AI 与电商领域
美图与阿里巴巴达成战略合作,阿里以2.5亿美元可转债形式投资美图,重点布局AI电商与云计算领域。阿里将优先推广美图AI电商工具,提升商家运营效率,并为美图AI产品提供算力支持。美图承诺三年内向阿里采购不低于5.6亿元云服务,双方还将探索差异化创新项目,优化用户体验。该合作需通过政府审批后生效,标志着两家公司在电商与AI技术融合上的深度协同。
原文链接:https://www.aibase.com/zh/news/18243
面壁智能再获数亿元融资,推动AI技术落地汽车行业
大模型创业公司面壁智能完成数亿元新一轮融资,由洪泰基金、国中资本等机构参投,资金将用于提升大模型技术壁垒及加速汽车等领域应用落地。该公司专注端侧AI模型开发,由前知乎CTO李大海与清华教授刘知远创立,过去一年内已完成三轮融资,累计融资额达数亿元。本轮融资后公司将加快汽车行业布局,通过技术资本结合推动AI在智能汽车等场景的产业化应用。
原文链接:https://www.aibase.com/zh/news/18252
智元机器人灵犀X2定档5月22日开售,三款型号售价10万起
智元机器人宣布灵犀X2人形机器人将于5月22日正式发售,推出交互版、探索版、旗舰版三款型号,售价10万至30万元。该机器人高度1.3米,支持直充充电,具备高自由度运动能力和多模态交互功能,适用于文娱商演、导览服务、科研教育及情感陪伴等场景。交互版侧重基础对话,探索版适配科研需求,旗舰版搭载完整功能配置。此次发售标志着智元机器人技术场景化落地取得突破,为国内人形机器人市场提供多样化解决方案。
原文链接:https://www.aibase.com/zh/news/18254
Catena Labs获1800万美元融资构建AI原生金融机构
AI金融科技公司Catena Labs完成1800万美元融资,由a16z Crypto领投,多家知名机构及个人参投。该公司由前Circle联创Sean Neville创立,旨在打造首个监管合规的AI原生金融机构,通过自主交易的AI代理系统解决传统金融与智能经济适配难题。其推出的"代理商务工具包"和稳定币支付通道可实现秒级结算与低费率,a16z创始人指出需构建专门金融层支撑AI代理经济。
原文链接:https://www.aibase.com/zh/news/18242
百度再发力!李彦宏:未来5年 再为社会培养1000万AI人才
百度宣布未来五年将新增培养1000万名AI人才,此前已提前完成2020年提出的500万人才培养目标。新推出的"星河计划"聚焦培养500万名大模型技术人才,并开放21000个涉及多领域的实习岗位,通过三大专项计划让实习生参与核心产品研发,提供真实客户场景和算力资源支持。李彦宏强调百度从芯片到应用层的技术领先性,展现公司对AI人才培养的持续投入及产业变革决心。
原文链接:https://www.aibase.com/zh/news/18253
05
其他
Other
因违法违规收集使用个人信息 Kimi等多款AI应用软件被通报
国家网信部门通报应用宝平台35款AI应用存在违规收集个人信息问题,涉及Kimi、智谱清言、AI智能秘书等知名软件。主要问题包括未明确列出信息收集规则、超范围收集用户数据、权限与功能不关联等11类违规行为,其中18款应用存在越权收集,部分涉及广告欺诈。检测时间为2025年4-5月,涵盖视频剪辑、智能聊天等多类工具,目前违规应用已要求整改。
原文链接:https://www.aibase.com/zh/news/18251
华硕CEO预测:AI电脑距离全面落地仍需两年
华硕共同CEO胡镇荣在Computex展会上表示,AI电脑全面普及需至2026年或更久。尽管厂商陆续推出AI电脑产品,但受全球经济疲软和美国关税政策波动影响,市场需求仍未明显改善。华硕拟在美国市场提价10%以对冲关税压力,同时持续投入技术研发保持竞争力。胡镇荣认可AI电脑对工作生活方式的革新潜力,但强调用户习惯培养和技术成熟仍需时间,当前市场接受度尚未形成规模化效应。
原文链接:https://www.aibase.com/zh/news/18240
被「AI for Science」的炒作骗了?科学家揭露领域存在幸存者偏差
物理学家Nick McGreivy在尝试用AI求解偏微分方程时,发现PINN模型存在严重失效问题,但相关论文仅展示成功案例。他揭示AI科学领域存在幸存者偏差,约79%研究采用弱基线方法对比,导致成果被过度美化。普林斯顿大学研究表明,648篇AI科研论文存在数据泄露问题,DeepMind晶体发现论文也被指生成大量无效结构。当前AI科研呈现"朋友圈精修图"现象,研究者因职业利益推动AI应用,但实际科学价值存疑。
原文链接:https://www.jiqizhixin.com/articles/2025-05-21-8
苹果计划在 iOS 19 中向第三方开发者开放 AI 模型
苹果将在 iOS 19 中向第三方开发者开放其 AI 模型,通过 SDK 和框架支持开发者利用 Apple Intelligence 大型语言模型开发新功能,初期优先开放本地设备运行的小型 AI 模型。该计划将在 6 月 9 日 WWDC 大会发布,代号 Solarium,旨在统一操作界面并借鉴 Vision Pro 设计理念。苹果希望借此推动应用创新、增强硬件吸引力,并重塑操作系统为 AI 软件平台核心,初期支持功能包括通知摘要、文本编辑等,后续将逐步开放更多权限。
原文链接:https://www.aibase.com/zh/news/18235
星纪魅族预告新一代AI眼镜:支持眼动追踪与AI识脸,进军智能穿戴新战场
星纪魅族发布新一代AI眼镜StarV预告,主推眼动追踪、AI人脸识别及扫码支付功能。该设备通过眼球追踪技术实现视线控制交互,结合AI识脸强化身份认证,并集成拍照与支付功能,旨在打造主动感知型智能助手。新功能突破传统显示终端定位,拓展了穿戴设备在交互便利性与场景应用上的可能性。虽未公布具体发布时间,但其技术布局标志着国产智能眼镜将在2025年迎来新一轮技术升级,加速智能穿戴赛道竞争。
原文链接:https://www.aibase.com/zh/news/18248
⬇️更多AI资讯关注我们⬇️

