谷歌发布新一代图像生成模型 Nano Banana Pro
该模型处理复杂信息表现出色、文本渲染能力突出、具备强大的多元素合成能力和更高级的创意控制选项,可生成4K分辨率的高清图像。由其生成或编辑的图像都将嵌入 C2PA 元数据,帮助用户识别AI生成内容与深度伪造。
(IT 之家 www.ithome.com)
这是首次实现对1600种语言高精度语音识别的系统。Meta完全开源此模型与工具链,用户只需提供少量带标注的音频-文本对,系统即可快速适配新语种,让“可用语音技术”覆盖到少数族裔等长期被忽视的群体,标志着AI从“技术中心主义”走向“文化包容主义”。
(通信网 www.c114.com.cn)
近日,中国人工智能计算设备提供商MDT在第二十七届高交会上发布AIImmerse智能体一体机,该设备主打本地化、高隐私与强算力,预装多种大模型、支持2D实时转3D、3A游戏VR化及私有知识库构建等,解决云端AI高成本与隐私风险。
近日,美国博通公司将CAMB.AI研发的多语言语音及翻译模型集成至博通的片上系统,为智能电视、机顶盒等家庭终端赋予了本地化多语言交互能力。该方案支持超150种语言输出,保障了弱网环境下功能稳定,兼顾隐私安全与响应效率,奠定了端侧
AI 翻译芯片在家电设备中进一步应用的基础。
(AIbase 网 news.aibase.com)
该模型基于 Diffusion Transformer 架构,参数量8.3B,能生成 5 至 10 秒高清视频,支持多种生成方式。其采用创新机制提升推理效率,在关键维度达商用水平,且仅需 14G 显存显卡即可运行,大幅降低了部署门槛。目前模型已开源,有望推动创作行业变革。
近日,商汤科技牵头完成了《信息技术客服型虚拟数字人通用技术要求》(GB/T 46483-2025)的起草制定。该标准明确规定了客服型数字人的功能与性能要求。其颁布实施为影视领域相关标准制定提供了参考,标志着我国虚拟数字人产业迈入规范化、高质量发展阶段。
(商汤科技官网 www.sensetime.com)
UWA 联盟制定的 HDR Vivid 视频标准获国际产业组织认可,为成为全球通用标准奠定了基础。该标准采用智能计算技术,能动态优化画面亮度和色彩,其生态已具规模。此次获 DVB 会议通过印证了其技术先进性与产业可行性,下一步将进入 ETSI 标准制定流程,预计 2026 年 5 月正式发布。
(新浪财经网 finance.sina.com.cn)
(网易新闻 m.163.com)
该试验采用 6G 无蜂窝网络传输视频,团队优化了图传设备的传输协议,并建立专属通信链路,实现信号直连回传。在比赛现场,该技术方案用于记者采访视频的实时无线传输,并作为主传输链路的应急备份,提升了直播的可靠性。
(江苏省广播电视局 jsgd.jiangsu.gov.cn)
近日,西班牙广播电视公司RTVE宣布,西班牙国家广播电台(RNE)及Radio 5网络的AM广播将于12月31日前停播,以推动向数字广播DAB+转型。数据显示,近十年来RNE的AM广播听众锐减,听众流失与能源成本上升或是停播主因。
广电视听科技动态
好文共赏请转发 有话要说请留言