大数跨境

每日AI动态速览20251016

每日AI动态速览20251016 跨境电商创业日记
2025-10-16
104
导读:今天值得关注的要闻有:OpenAI 推出 ChatGPT 记忆自动管理功能并谋求新商业模式;Anthropic 发布模型 Haiku 4.5;谷歌推出 Veo 3.1 视频生成模型并发布 DORA 报

今天值得关注的要闻有:OpenAI 推出 ChatGPT 记忆自动管理功能并谋求新商业模式;Anthropic 发布高性价比模型 Haiku 4.5;谷歌推出 Veo 3.1 视频生成模型并发布 DORA 报告;微软 Copilot 升级可直达系统设置;Meta 与 Arm 深化芯片合作;火山引擎豆包大模型日均 tokens 突破 30 万亿;OPPO 发布搭载多项 AI 技术的 ColorOS 16。


关键
图片
1 OpenAI

ChatGPT「记忆已满」不用愁,OpenAI 推出记忆自动管理功能

https://www.ithome.com/0/889/898.htm

OpenAI 宣布 ChatGPT 上线新功能,能够自动管理记忆,不再出现“内存已满”的提示。这一机制使得 ChatGPT 更加 AI 和自主,用户无需手动清理或整理保存的数据,交流过程更加顺畅。更新还引入了搜索和整理记忆的功能,用户可以按时间搜索和排序记忆,并在设置中重新调整优先级

新功能将从今天起在全球范围内面向网页端的 Plus 和 Pro 用户陆续开放。借助该功能,ChatGPT 会自动判断哪些记忆需要保留或删除,用户无需再为内存不足手动清理。用户可以通过“按时间搜索和整理记忆”快速找到过去的对话记录,还能通过调整优先级,让最重要的内容始终排在前面

过去当系统无法存储更多记忆时,ChatGPT 常会显示“内存已满”的提示,用户只能手动删除部分内容。现在,借助新功能,ChatGPT 会自动释放空间或重新安排记忆的优先级,确保用户体验更加流畅


8 亿用户仅 5%付费,OpenAI 急寻「钱路子」

https://www.ithome.com/0/889/618.htm

据《金融时报》报道,OpenAI 正在制定五年规划,以拓展新收入来源并通过债务合作支持其 AI 基础设施建设。公司计划面向政府与企业客户提供定制化服务,推出购物工具与视频生成模型 Sora,并推动 AI 体商业化销售。同时,OpenAI 还考虑通过数据中心项目“星门(Stargate)”转型为计算资源供应商,并探索进入在线广告市场

OpenAI 的资金支出远超当前收入。首席执行官萨姆・奥尔特曼近期已承诺从甲骨文、英伟达、AMD 与博通获得超过 26 吉瓦算力,预计未来十年投入成本将超 1 万亿美元,引发外界对 AI 资本泡沫的担忧。目前公司年化经常性收入约 130 亿美元,其中 70% 来自 ChatGPT 订阅用户,付费比例约 5%,OpenAI 计划将其翻倍并推出更低价订阅方案

尽管收入同比翻倍,但上半年运营亏损仍约 80 亿美元。部分基础设施成本由甲骨文等合作方承担,OpenAI 计划通过业务扩张逐步偿还。总裁格雷格・布罗克曼表示,当前的大规模投入是长期布局的一部分,随着算力供应竞争加剧与技术进步,计算成本有望下降,公司对未来盈利与吸引投资的能力保持信心


Antropic

Anthropic 性价比最高 AI 模型:Haiku 4.5 登场,1/3 价格实现 Sonnet4 同级编程能力

https://www.ithome.com/0/889/779.htm

Anthropic 宣布推出小型 AI 模型 Claude Haiku 4.5,以极低成本提供接近前沿模型的性能,专为实时、低延迟任务如聊天助手与客户服务设计。Claude 系列包括 Haiku、Sonnet 与 Opus 三种尺寸,Haiku 模型通过“蒸馏”技术实现小规模高效性能,在编码等任务中可媲美旧一代大型模型

Haiku 4.5 在 SWE-bench Verified 基准上得分 73.3%,略高于 Sonnet 4 的 72.7%,在编码性能上基本持平但成本仅为三分之一,推理速度提升两倍以上。部分任务甚至接近 GPT-5 的表现,显示其在轻量级模型中的领先地位

在定价上,Haiku 4.5 为每百万输入 token 1 美元、输出 5 美元,较 Sonnet 与 Opus 系列更具性价比。Anthropic 还推出多模型协同机制,由 Sonnet 4.5 拆解复杂任务,再交由多个 Haiku 4.5 并行执行,以实现更高效率与更低成本的智能协作


谷歌

谷歌 Veo 3.1 视频生成模型发布:新增音频支持、对象添加等功能

https://www.ithome.com/0/889/786.htm

谷歌推出了其新款视频生成模型 Veo 3.1,该版本在音频输出、精细化编辑控制和图像转视频效果等方面进行了显著提升。Veo 3.1 基于今年 5 月发布的 Veo 3 进行了进一步优化,能够生成更为逼真的视频片段,并更准确地遵循用户的提示词。新模型的一个重要功能是允许用户向视频中添加对象,并使这些对象自然融入原有画面的风格

Veo 3.1 的升级还为现有的视频编辑功能增加了音频元素,使生成的视频更加生动。用户可以通过添加参考图像来塑造角色形象,提供首尾帧以生成完整的视频片段,甚至基于视频末尾几帧的内容自动延长视频时长。这些功能的增强使得用户在视频创作过程中能够更灵活地进行编辑,提升了整体的创作体验

目前,谷歌正在将 Veo 3.1 模型逐步部署到其视频编辑平台 Flow、Gemini 应用程序、Vertex AI 平台以及 Gemini API 接口。自 Flow 上线以来,用户在该应用上创作的视频数量已超过 2.75 亿个,显示出该平台的广泛应用和用户的积极参与


谷歌 142 页报告首发揭秘:90% 码农每天用 AI 超 2 小时

https://36kr.com/p/3511255855078532

2025 年 DORA 报告显示,AI 已全面融入软件开发流程,成为开发者的日常工具。90% 的开发者在日常工作中使用 AI,较去年增长 14%,平均每天使用约两小时,占工作日四分之一。AI 被广泛应用于代码编写、修改、文档撰写与测试生成等环节,80% 的开发者认为生产力提升,59% 认为代码质量提高,但仅 24% 表示对 AI 输出高度信任,形成明显“信任悖论”

报告指出,AI 更像一面放大镜,会放大团队文化与协作的真实状态。在健康高效的团队中,AI 能加速迭代、提升质量;但在存在沟通或流程问题的环境中,AI 可能放大摩擦与交付不稳定性。数据显示,AI 使用与交付速度正相关,高绩效团队能更快发布产品,而低绩效团队可能面临更多挑战

报告提出 AI 能力模型,定义七项关键能力:用户导向、版本控制、数据可用性、小批量工作、清晰 AI 立场、内部平台与健康数据生态。DORA 强调,AI 的成功取决于组织文化与能力建设,而非工具采购。AI 是放大镜,能让优点更亮、缺点更显著,真正的挑战在于组织是否愿意改变


微软

Win11 版微软 Copilot 解锁「听懂人话」:理解用户诉求,直达系统设置

https://www.ithome.com/0/889/529.htm

微软发布博文,邀请 Windows Insider 项目成员在 Windows 11 系统上测试最新版 Copilot 应用 v1.25095.161。此版本的 Copilot 应用能够直接回答与 Windows 设置相关的问题,用户在 Windows 11 上向 Copilot 询问电脑设置相关的问题时,Copilot 将提供直接链接,帮助用户快速跳转到相关的 Windows 设置页面

用户可以通过简单的询问,例如“使我的屏幕更易于阅读”或“通过减少干扰来帮助我集中注意力”,Copilot 会引导用户进入相应的 Windows 设置页面。微软表示,目前正在逐步邀请 Windows Insider 项目成员,通过 Microsoft Store 更新 Copilot 应用至 v1.25095.161 及后续版本,以便参与测试该功能


Meta

Meta 深化与 Arm 战略合作,AI 排名和推荐系统将使用 Neoverse IP 芯片

https://www.ithome.com/0/889/813.htm

Meta 与 Arm 宣布深化在软硬件领域的战略合作,结合了 Arm 在节能计算上的领导地位和 Meta 在 AI 驱动产品及基础设施方面的创新。这次合作旨在为全球数十亿用户提供更丰富和高效的体验。在 AI 硬件方面,Meta 的 AI 排名和推荐系统将使用基于 Arm Neoverse IP 的数据中心芯片,这将实现比传统 x86 硬件方案更高的性能和更低的功耗

在 AI 基础架构软件方面,Meta 和 Arm 共同优化了针对 Arm 指令集的软件堆栈。这一优化充分利用了 Arm 的矢量扩展和性能库,显著提升了推理效率和吞吐量。这意味着 Meta 能够在其 AI 系统中实现更高效的数据处理和更快的响应速度,进一步增强用户体验

在 AI 软件方面,Meta 与 Arm 加强了在 PyTorch 机器学习框架、ExecuTorch 边缘推理运行时引擎和 vLLM 数据中心推理引擎等方面的合作。通过这些优化,模型部署变得更加便捷,同时提升了全领域 AI 应用的性能。这不仅加速了 AI 技术的应用,也为 Meta 提供了更强大的工具来支持其广泛的应用生态系统


苹果「AI Siri」项目一员大将出走,AI 搜索团队一把手 Ke Yang 转投 Meta

https://www.ithome.com/0/889/792.htm

苹果负责 AI 网页搜索的高管 Ke Yang 将离职加入 Meta,他原任苹果 AKI 团队负责人,主导新版 Siri 的网页搜索与生成式 AI 能力研发。AKI 团队在 Siri 改版中居核心地位,目标是让 Siri 具备接近 ChatGPT 的功能,以在 AI 搜索市场对抗 OpenAI、Perplexity 与 Google Gemini

Ke Yang 离职前直接向苹果 AI 负责人 John Giannandrea 汇报,被视为新版 Siri 项目关键人物。其离职标志苹果 AI 团队进一步动荡,Apple Foundation Models 小组已有十余位成员离开,包括创始人 Ruoming Pang

Meta 正组建 Superintelligence Labs,已吸纳多名苹果前员工。随着 Ke Yang 离开,AKI 团队并入 Benoit Dupin 领导的云基础设施部门,显示苹果在追赶生成式 AI 与搜索领域时面临人才流失压力


豆包

火山引擎发布豆包系列模型升级,披露日均 tokens 超 30 万亿

https://news.qq.com/rain/a/20251016A04V2Z00

在 10 月 16 日的 FORCE LINK AI 创新巡展武汉站上,火山引擎发布豆包大模型系列更新,包括豆包大模型 1.6、轻量版 1.6 lite、语音合成模型 2.0 和声音复刻模型 2.0。截至 2025 年 9 月底,豆包大模型日均 tokens 调用量突破 30 万亿,较 5 月增长超 80%,在中国公有云大模型服务市场中以 49.2% 份额居首

豆包大模型 1.6 成为国内首个原生支持“分档调节思考长度”的模型,提供 Minimal、Low、Medium、High 四档思考模式以适应不同企业需求。升级后深度思考模式效果平均提升 31%,同时降低成本与延迟。轻量版 1.6 lite 在推理速度上较豆包 1.5 pro 提升 14%,在主流输入区间内使用成本下降 53.3%,更适合高频企业调用场景

火山引擎同步推出语音合成模型 2.0 与声音复刻模型 2.0,具备更强情感表达与指令遵循能力,在教育场景中准确率达 90%。新发布的 AI 模型路由方案支持“平衡”“效果优先”“成本优先”三种模式,帮助用户灵活选择模型组合,提升算力使用效率与性价比


其他

OPPO ColorOS 16 发布:首发三大流畅技术,AI 代聊“一秒 5 喷”

https://tech.ifeng.com/c/8nT6FbK7OWo

在 2025 OPPO 开发者大会上,OPPO 发布全新系统 ColorOS 16,口号为“流畅本色,AI 出色”。此次更新带来极光引擎、潮汐引擎与繁星编译器三项自研技术,其中潮汐引擎通过芯片级动态追帧提升系统流畅度 37%、降低功耗 13%,繁星编译器构建了从 Java 到硬件的完整编译链,极光引擎则重塑安卓架构实现无缝运行

AI 能力方面,ColorOS 16 的一键闪记功能全面升级,可快速记录复杂图文与视频内容并生成账单;小布建议支持 110 多项生活服务,能推送天气、代办事项等个性化 AI 简报。系统还新增 AI 实景对话,可在嘈杂环境中识别用户语音并实时交互,同时录音功能支持多模板摘要与人声增强

设计上,ColorOS 16 采用全新光场视觉语言,更新图标、锁屏与系统应用,支持时钟样式自定义。在跨生态体验方面,新系统实现与 Apple Watch 的深度兼容,并强化跨屏互联与一碰互传功能,显著提升设备协同效率与用户体验


技术
图片

CMU、Google:RECODE,通过代码生成进行视觉问答的推理

https://arxiv.org/pdf/2510.13756v1

研究人员提出了一种新方法,名为 RECODE,旨在解决多模态 LLM(MLLMs)在处理结构化视觉信息(如图表和图示)时精确推理能力不足的问题。传统的基于像素的感知缺乏验证机制,而 RECODE 通过将视觉信息逆向工程为可执行代码,提供了一种可验证的视觉推理新模式

RECODE 框架首先生成多个候选程序以再现输入图像,然后使用批评器选择最忠实的重构,并迭代优化代码。此过程将模糊的感知任务转变为可验证的符号问题,并支持后续的精确计算和逻辑推理

在 CharXiv、ChartQA 和 Geometry3K 等各种视觉推理基准上,RECODE 显著优于不利用代码或仅将代码用于绘制辅助线或裁剪的方法。研究表明,将视觉感知与可执行代码结合,为实现更准确和可验证的多模态推理提供了一条新途径


中国科学技术大学、微软:EEGChaT,一种基于 Transformer 的模块化通道选择器用于 SEEG 分析

https://arxiv.org/pdf/2510.13592v1

研究人员提出了一种名为 EEGChaT 的新型 Transformer 通道选择模块,该模块旨在自动识别 SEEG 记录中与任务最相关的通道

EEGChaT 引入了 Channel Aggregation Tokens(CATs)来聚合跨通道的信息,并利用改进的 Attention Rollout 技术来计算可解释的、定量的通道重要性分数

在 DuIN 数据集上的评估显示,将 EEGChaT 与现有分类模型结合使用可以稳定提高解码准确性,最多可实现 17%的绝对增益。此外,EEGChaT 生成的通道权重与手动选择的通道有显著重叠,支持该方法的可解释性


ETH Zurich、Intel:URBANFUSION,稳健空间表示对比学习的随机多模态融合

https://arxiv.org/pdf/2510.13774v1

研究人员提出了一种名为 UrbanFusion 的 Geo-Foundation Model(GeoFM),通过 Stochastic Multimodal Fusion(SMF)技术来解决当前空间表示模型中多模态融合能力不足的问题

UrbanFusion 使用基于 Transformer 的融合模块,结合街景图像、遥感数据、地图和兴趣点(POIs)数据等多种输入,学习统一的表示。经过对全球 56 个城市的 41 项任务的广泛评估,证明其在位置编码方面优于现有基础模型,并且在推理时支持多模态输入,能够很好地泛化到训练时未见的地区

UrbanFusion 可以灵活利用任何可用模态的子集进行预训练和推理,适用于多种数据可用性场景,具有广泛的应用潜力


Samsung、University of Pisa、University of Padova:K-Merge,设备端 LLM 的适配器在线持续合并

https://arxiv.org/pdf/2510.13537v1

研究人员提出一种名为“ K-Merge ”的方法,旨在解决设备端 LLM 部署时的存储限制问题。该方法通过在线持续合并 Low-Rank Adapters(LoRAs),支持多样化的下游任务

在设备端环境中,LoRAs 通常是逐步交付的,以满足用户对新任务的支持请求,如新问题类型或语言。K-Merge 提供了一种无数据且计算高效的策略,可以在新的 LoRA 可用时选择并合并适配器,同时保持对先前支持任务的性能

通过大量的真实任务实验,研究人员证明了 K-Merge 方法在遵守设备存储和计算限制的情况下,优于其他替代策略


南京大学、阿里巴巴:自适应重调度在预填充解码中的应用,LLM 推理的解耦

https://arxiv.org/pdf/2510.13668v1

研究员提出了一种名为 ARES 的自适应解码重调度系统,通过长度预测来预见未来的工作负载。该系统旨在解决在真实场景中,由于输出长度变化导致的解码阶段工作负载不平衡问题

ARES 的核心贡献包括:一种轻量级且连续的 LLM 原生预测方法,利用 LLM 隐藏状态高精度建模剩余生成长度,显著降低了平均绝对误差(MAE)达 49.42%,并减少了预测器参数 93.28%

在解码阶段,ARES 提供了一种重调度解决方案,通过动态平衡机制整合当前和预测的工作负载,减少了 P99 TPOT 达 74.77%,并实现了高达 2.24 倍的良好吞吐量


应用
图片

1 AI ToC 应用

BestTools,AI 工具发现与交流平台

https://www.producthunt.com/products/besttools

BestTools 汇集多领域 AI 工具,帮助用户快速查找可提升工作流与生产力的应用,并提供用户社区分享与交流支持

它通过分类检索与用户互动,促进优质工具的传播与互助,适合希望提升效率或探索新工具的个人与团队


Poke.com,多平台智能消息助理

https://www.producthunt.com/products/poke-by-interaction-co

Poke 是一款可通过 iMessage、SMS 与 WhatsApp 使用的主动型 AI 助手,能自动整理邮件并生成待办提醒

它帮助用户将邮件转化为可执行任务,并在消息渠道中实时推送重要事项,提升沟通与时间管理效率


Kora,AI 哲学语音对话应用

https://www.producthunt.com/products/kora-voice-chat-with-philosophers

Kora 让用户以语音形式与苏格拉底、马可·奥勒留、柏拉图等历史哲学家进行对话,体验思想交流与智慧启发

应用支持提问、辩论与文章点评,并每日推送名言语录,帮助用户在日常中获得思辨灵感与哲学洞见


2 AI ToB 应用

Creatium,AI 互动学习创作平台

https://www.producthunt.com/products/creatium

Creatium 支持用户创建包含教练指导、情景演练与游戏化课程的智能学习内容,适用于教育、培训及创意教学场景

平台基于学习科学研究设计,帮助教学者提升学习效果与知识转化率,实现从互动到成果的真实提升


MarketFit,AI 销售赋能平台

https://www.producthunt.com/products/marketfit

MarketFit 提供一键式销售支持,涵盖实时异议处理、买方需求匹配与简短销售培训,帮助团队快速掌握问题解决思维

它通过即时反馈与精准映射机制提升成交率与响应速度,适合销售团队进行高效培训与业绩增长


Radar Emprendedor,AI 创业生态诊断平台

https://www.producthunt.com/products/radar-emprendedor

Radar Emprendedor 由 AI 助手 Lucia 驱动,为城市与非政府组织提供创业生态系统的全景分析与行动规划

平台支持 360° 诊断、优先级行动方案及创业者工具集访问,结合数据分析与 AI 反馈助力区域创新发展

【声明】内容源于网络
0
0
跨境电商创业日记
跨境分享馆 | 每天分享跨境见解
内容 0
粉丝 4
跨境电商创业日记 跨境分享馆 | 每天分享跨境见解
总阅读0
粉丝4
内容0