5月22日丨每日AI简讯- 大数跨境

首页

5月22日丨每日AI简讯

久新数智

2025-05-22

9agent.ai

点击蓝字关注我们

每日AI简讯

2025.05.22

大模型

LLM

面壁智能获新一轮数亿元融资，引领端侧大模型高效发展与应用普及
面壁智能完成数亿元融资，由洪泰基金、国中资本等联合投资，将用于深化高效大模型技术研发及商业化应用。该公司专注打造同等参数下性能更优的端侧大模型，其MiniCPM系列全球下载量超千万，并推出首个端侧汽车助手cpmGO，与长安、上汽大众等车企合作实现量产车型落地。面壁智能通过「高效方法论」和密度定律持续提升模型知识密度，推动端侧AI在智能座舱等领域的规模化应用，本轮融资将加速大模型在终端设备的产业赋能进程。
原文链接：https://www.jiqizhixin.com/articles/20250521
大模型全面爆发，所有榜一都是Gemini!谷歌一夜站到了台前
谷歌在2025年I/O大会上推出Gemini系列大模型重大升级，包括Gemini 2.5 Pro和2.5 Flash版本，分别在学术基准、多模态支持及推理效率上取得突破。新增的Gemini Diffusion扩散模型以五倍生成速度实现快速文本生成，编程工具Jules智能体可异步处理代码任务，Gemini Code Assist提升开发效率2.5倍。此外，UI设计工具Stitch支持自然语言生成前端代码，Colab新增智能体交互功能，全面强化AI开发生态体系。
原文链接：https://www.jiqizhixin.com/articles/202505213
腾讯混元宣布模型矩阵全面升级，新推视觉推理模型T1Vision和语音通话模型混元Voice
腾讯混元升级AI模型矩阵，推出视觉深度推理模型T1Vision和端到端语音通话模型混元Voice。混元TurboS在国际评测中跻身全球前八，其理科推理能力提升超10%。深度模型T1在数学竞赛和复杂任务处理能力分别提升8%和13%。新模型T1Vision支持多图输入，处理效率提高50%；混元Voice将延迟降至1.6秒。同步推出多模态生成技术，包括图像2.0和3D v2.5，并开源全模态技术助力行业应用。
原文链接：https://www.aibase.com/zh/news/18244
ACL 2025 | 大模型乱试错、盲调用？KnowSelf让智能体有「知识边界感知」能力
ACL 2025论文提出KnowSelf框架，通过赋予大模型智能体知识边界感知能力，解决传统方法因盲目调用知识导致的低效问题。该框架构建知识系统与情境判断标准，将决策分为快速反应、深度推理及外部知识调用三种模式，并通过双阶段训练强化智能体的自我认知能力。实验显示，KnowSelf在ALFWorld和WebShop数据集上以较少知识调用实现更高任务成功率，并提升跨任务泛化能力，验证了精准知识引入机制的有效性。
原文链接：https://www.jiqizhixin.com/articles/2025052110
DeepSeek发布大模型训练端到端论文，展示卓越工程深度
DeepSeek发布大模型端到端训练技术论文，系统披露了算法、框架与硬件协同优化的创新方案。软件层面通过MLA注意力机制、FP8混合精度训练等降低内存占用与提升计算效率；硬件采用MultiRail Fat Tree网络拓扑优化集群性能；混合方案结合IBGDA通信内核与3FS文件系统突破训练瓶颈。其V3模型在2048块H800 GPU上仅耗278.8万小时完成训练，效能比肩顶级闭源模型，为开源AI社区提供了高效训练范本。
原文链接：https://www.aibase.com/zh/news/18233

产品应用

Product Application

飞书知识问答：激活企业知识资产的AI助手
飞书推出知识问答功能，整合企业内文档、群聊、会议记录等信息，通过AI深度理解实现精准检索与生成。支持模糊搜索、权限管理（千人千面）及多模型切换（DeepSeek-R1、豆包），可溯源答案防止AI幻觉，提升信息安全。该功能能生成结构化表格、业务报告，但需企业具备规范知识沉淀基础。实测显示其在信息整合与场景化应用中效果显著，但仍有优化空间，如回答精度和开箱即用性。
原文链接：https://www.jiqizhixin.com/articles/2025-05-21-7
谷歌推出AI虚拟试衣工具:只需上传照片 “试穿+结账”一条龙购物体验
谷歌在2025年I/O大会上发布AI虚拟试衣工具，用户上传照片即可生成真实试穿效果，由定制图像生成模型驱动并直接集成至谷歌搜索。该工具同步推出代理结账系统，可实时追踪价格、推送折扣并自动完成支付流程。功能依托覆盖500亿商品、每小时更新的“购物图谱”数据支持，实现了从试衣到支付的全链路消费闭环，展现生成式AI在零售领域的应用前景，标志着搜索功能向消费入口的全面升级。
原文链接：https://www.aibase.com/zh/news/18221
谷歌发布Flow AI剪辑工具:Veo3 与Imagen4 驱动、镜头控制与场景扩展
谷歌在2025年Google I/O大会上推出AI视频剪辑工具Flow，整合Veo3视频生成、Imagen4图像生成及Gemini自然语言处理技术。该工具支持通过文本提示生成8秒高清视频片段，首创原生音频生成功能，并提供Scenebuilder场景扩展、Camera Controls镜头控制等专业功能。订阅服务分为Pro（每月100次生成）和Ultra（支持音频生成）两档，已与好莱坞制作团队合作优化影视工作流。Flow通过模块化设计和多模态提示系统，为影视、广告创作者提供从素材管理到作品展示的一站式解决方案，被视为对标OpenAI Sora的影视级AI工具。
原文链接：https://www.aibase.com/zh/news/18224
京东云宣布五大AI营销产品限时免费，助力商家提升销售效率
京东云推出五大限时免费AI营销工具，包括直播数字人、智能客服系统、AIGC图文生成平台等，助力商家降本增效。其中，数字人直播成本仅为真人1/10，转化率提升30%，已服务超1万品牌创造140亿元GMV；智能客服支持全链路跟单，618期间新客可免费试用专业版；图文生成工具实现秒级商品图创作，效率提升95%；视频混剪平台提供50+模板免费试用三个月。核心功能覆盖直播、客服、图文及短视频营销全场景。
原文链接：https://www.aibase.com/zh/news/18238
豆包·语音播客模型发布将在豆包APP及PC端、扣子等上线
火山引擎推出豆包·语音播客模型，基于流式模型实现文本到双人对话式播客的秒级转化。该模型突破传统AI播客内容重复、机械感强等局限，提供自然拟人语音效果、端到端创作链路及深度搜索功能，支持5秒生成热点话题播客音频，并能将超长文本或网页内容转化为专业级播客作品。模型兼具灵感创作辅助和观点深度输出能力，未来将登陆豆包APP、PC端及扣子平台，为创作者提供高效低成本的互动播客制作体验。
原文链接：https://www.aibase.com/zh/news/18234

硬件&底层技术前沿

Hardware Technologies

策略学习助力LLM推理效率：MIT与谷歌团队提出异步并行生成新范式
MIT与谷歌团队联合开发PASTA异步生成框架，通过策略学习优化大语言模型推理效率。该框架引入PASTA-LANG标记语言，允许模型自主标注语义独立内容块以实现并行生成，采用监督微调和偏好优化的双阶段训练策略，并设计共享缓存与注意力控制机制提升系统性能。实验显示PASTA在AlpacaEval基准上实现1.21-1.93倍加速，同时维持生成质量，为LLM实时应用提供可扩展的解决方案。
原文链接：https://www.jiqizhixin.com/articles/2025-05-21-5
何恺明团队又发新作: MeanFlow单步图像生成SOTA，提升达50%
何恺明团队提出MeanFlow单步图像生成框架，通过引入平均速度场取代传统流匹配中的瞬时速度建模。该方法在ImageNet 256×256数据集上实现FID 3.43的突破性表现，相较前最佳单步模型提升50%-70%，且无需预训练、知识蒸馏或课程学习。该框架通过推导平均速度与瞬时速度的数学关系构建新型损失函数，支持无分类器引导的零成本采样，仅需1次函数评估即可生成高质量图像，其2步生成效果已接近主流多步模型性能。
原文链接：https://www.jiqizhixin.com/articles/2025-05-21-6
字节跳动开源多模态模型 BAGEL:图文生成与编辑的新突破
字节跳动推出开源多模态模型BAGEL，具备140亿参数（含70亿活跃参数），采用混合变换器专家（MoT）架构，支持语言与视觉特征联合学习。该模型在图像生成质量上媲美SD3，多模态理解能力超越Qwen2.5-VL等主流开源模型，并实现自由图像编辑、3D操作等复杂任务。通过数万亿级多模态数据预训练，BAGEL展现出阶段性能力提升，其视觉-语义融合机制显著增强了智能编辑效果，已在Hugging Face平台开源。
原文链接：https://www.aibase.com/zh/news/18239
英伟达推出新型模型 Cosmos-Reason1 ，让 AI 更好理解物理世界
英伟达发布Cosmos-Reason1系列模型，包含7B和56B参数版本，通过物理AI监督微调与强化学习提升AI对物理世界的理解能力。模型采用双本体系统，分层处理空间、时间及基础物理规律，结合视觉编码器实现视频与文本数据的协同推理。在物理常识和具身推理基准测试中，该模型在预测行动、验证任务可行性等场景表现优异，解决了传统AI缺乏物理直觉的痛点，为机器人、自动驾驶等具身智能应用提供高效训练方案。
原文链接：https://www.aibase.com/zh/news/18249
谷歌推出 MedGemma AI 模型:医疗图像与文本分析的革命性工具
谷歌在2025年I/O大会上开源医疗AI模型MedGemma，基于Gemma3架构提供4B和27B两种参数版本。4B模型专攻多模态医疗图像分析，集成SigLIP技术处理X光、皮肤病学等领域的图像诊断；27B模型专注临床文本理解，支持患者分诊与诊疗决策。模型支持本地部署或通过谷歌云Vertex AI平台扩展，配套Colab工具包便于开发者进行提示工程和LoRA微调，为医疗诊断效率提升提供开源解决方案，现已在GitHub等平台开放访问。
原文链接：https://www.aibase.com/zh/news/18250

上市公司动态

Listed Company Updates

美图获阿里巴巴 2.5 亿美元投资，深度布局 AI 与电商领域
美图与阿里巴巴达成战略合作，阿里以2.5亿美元可转债形式投资美图，重点布局AI电商与云计算领域。阿里将优先推广美图AI电商工具，提升商家运营效率，并为美图AI产品提供算力支持。美图承诺三年内向阿里采购不低于5.6亿元云服务，双方还将探索差异化创新项目，优化用户体验。该合作需通过政府审批后生效，标志着两家公司在电商与AI技术融合上的深度协同。
原文链接：https://www.aibase.com/zh/news/18243
面壁智能再获数亿元融资，推动AI技术落地汽车行业
大模型创业公司面壁智能完成数亿元新一轮融资，由洪泰基金、国中资本等机构参投，资金将用于提升大模型技术壁垒及加速汽车等领域应用落地。该公司专注端侧AI模型开发，由前知乎CTO李大海与清华教授刘知远创立，过去一年内已完成三轮融资，累计融资额达数亿元。本轮融资后公司将加快汽车行业布局，通过技术资本结合推动AI在智能汽车等场景的产业化应用。
原文链接：https://www.aibase.com/zh/news/18252
智元机器人灵犀X2定档5月22日开售，三款型号售价10万起
智元机器人宣布灵犀X2人形机器人将于5月22日正式发售，推出交互版、探索版、旗舰版三款型号，售价10万至30万元。该机器人高度1.3米，支持直充充电，具备高自由度运动能力和多模态交互功能，适用于文娱商演、导览服务、科研教育及情感陪伴等场景。交互版侧重基础对话，探索版适配科研需求，旗舰版搭载完整功能配置。此次发售标志着智元机器人技术场景化落地取得突破，为国内人形机器人市场提供多样化解决方案。
原文链接：https://www.aibase.com/zh/news/18254
Catena Labs获1800万美元融资构建AI原生金融机构
AI金融科技公司Catena Labs完成1800万美元融资，由a16z Crypto领投，多家知名机构及个人参投。该公司由前Circle联创Sean Neville创立，旨在打造首个监管合规的AI原生金融机构，通过自主交易的AI代理系统解决传统金融与智能经济适配难题。其推出的"代理商务工具包"和稳定币支付通道可实现秒级结算与低费率，a16z创始人指出需构建专门金融层支撑AI代理经济。
原文链接：https://www.aibase.com/zh/news/18242
百度再发力!李彦宏:未来5年再为社会培养1000万AI人才
百度宣布未来五年将新增培养1000万名AI人才，此前已提前完成2020年提出的500万人才培养目标。新推出的"星河计划"聚焦培养500万名大模型技术人才，并开放21000个涉及多领域的实习岗位，通过三大专项计划让实习生参与核心产品研发，提供真实客户场景和算力资源支持。李彦宏强调百度从芯片到应用层的技术领先性，展现公司对AI人才培养的持续投入及产业变革决心。
原文链接：https://www.aibase.com/zh/news/18253

其他

Other

因违法违规收集使用个人信息 Kimi等多款AI应用软件被通报
国家网信部门通报应用宝平台35款AI应用存在违规收集个人信息问题，涉及Kimi、智谱清言、AI智能秘书等知名软件。主要问题包括未明确列出信息收集规则、超范围收集用户数据、权限与功能不关联等11类违规行为，其中18款应用存在越权收集，部分涉及广告欺诈。检测时间为2025年4-5月，涵盖视频剪辑、智能聊天等多类工具，目前违规应用已要求整改。
原文链接：https://www.aibase.com/zh/news/18251
华硕CEO预测:AI电脑距离全面落地仍需两年
华硕共同CEO胡镇荣在Computex展会上表示，AI电脑全面普及需至2026年或更久。尽管厂商陆续推出AI电脑产品，但受全球经济疲软和美国关税政策波动影响，市场需求仍未明显改善。华硕拟在美国市场提价10%以对冲关税压力，同时持续投入技术研发保持竞争力。胡镇荣认可AI电脑对工作生活方式的革新潜力，但强调用户习惯培养和技术成熟仍需时间，当前市场接受度尚未形成规模化效应。
原文链接：https://www.aibase.com/zh/news/18240
被「AI for Science」的炒作骗了？科学家揭露领域存在幸存者偏差
物理学家Nick McGreivy在尝试用AI求解偏微分方程时，发现PINN模型存在严重失效问题，但相关论文仅展示成功案例。他揭示AI科学领域存在幸存者偏差，约79%研究采用弱基线方法对比，导致成果被过度美化。普林斯顿大学研究表明，648篇AI科研论文存在数据泄露问题，DeepMind晶体发现论文也被指生成大量无效结构。当前AI科研呈现"朋友圈精修图"现象，研究者因职业利益推动AI应用，但实际科学价值存疑。
原文链接：https://www.jiqizhixin.com/articles/2025-05-21-8
苹果计划在 iOS 19 中向第三方开发者开放 AI 模型
苹果将在 iOS 19 中向第三方开发者开放其 AI 模型，通过 SDK 和框架支持开发者利用 Apple Intelligence 大型语言模型开发新功能，初期优先开放本地设备运行的小型 AI 模型。该计划将在 6 月 9 日 WWDC 大会发布，代号 Solarium，旨在统一操作界面并借鉴 Vision Pro 设计理念。苹果希望借此推动应用创新、增强硬件吸引力，并重塑操作系统为 AI 软件平台核心，初期支持功能包括通知摘要、文本编辑等，后续将逐步开放更多权限。
原文链接：https://www.aibase.com/zh/news/18235
星纪魅族预告新一代AI眼镜:支持眼动追踪与AI识脸，进军智能穿戴新战场
星纪魅族发布新一代AI眼镜StarV预告，主推眼动追踪、AI人脸识别及扫码支付功能。该设备通过眼球追踪技术实现视线控制交互，结合AI识脸强化身份认证，并集成拍照与支付功能，旨在打造主动感知型智能助手。新功能突破传统显示终端定位，拓展了穿戴设备在交互便利性与场景应用上的可能性。虽未公布具体发布时间，但其技术布局标志着国产智能眼镜将在2025年迎来新一轮技术升级，加速智能穿戴赛道竞争。
原文链接：https://www.aibase.com/zh/news/18248

⬇️更多AI资讯关注我们⬇️

【声明】内容源于网络

久新数智

重塑生产力，开启人机协作新篇章！

内容 0

粉丝 0

久新数智重塑生产力，开启人机协作新篇章！

总阅读0

粉丝0

内容0