资讯
直通车
SOFT STAO
百度:发布检索增强的文生图技术(iRAG)和无代码工具“秒哒”
在2024百度世界大会上,百度创始人李彦宏发布两项新AI技术:检索增强的文生图技术(iRAG)和无代码工具“秒哒”。文心大模型日均调用量已达15亿,较半年前增长7.5倍。大模型虽在解决文本生成幻觉问题上有进展,但基于大语言模型的文生图仍存在较严重幻觉。百度开发的iRAG技术结合百度搜索亿级图片资源与基础模型能力,效果超文生图原生系统,可去除“机器味儿”,李彦宏现场展示相关图片证实其能避免幻觉问题。此外,发布的“秒哒”工具支持无代码编程、多智能体协作和多工具调用,可用自然语言搭建整套系统,李彦宏还以萝卜快跑新技术发布会为例展示了利用“秒哒”搭建活动报名系统的过程。
字节跳动:发布通用图像编辑模型 SeedEdit
字节跳动豆包大模型团队昨日公布通用图像编辑模型SeedEdit,用户通过输入简单自然语言就能对图像进行多种编辑操作。该模型已在豆包PC端及即梦网页端开启测试,官方称其能适应不同用户多样化需求,具有可控性强、编辑效果佳且无贴图感的优点,具体体现在高精度指令理解(对中英文及专有名词都能准确理解)、高质量编辑效果(聚焦目标不“误伤”原图)、高效率创新模型(可实现多元风格且美观自然)这三个方面。
百度:正式发布小度 AI 眼镜
在 2024 百度世界大会上,百度正式发布了小度 AI 眼镜,这是“全球首款搭载中文大模型的原生 AI 眼镜”。具备第一视角拍摄、边走边问、卡路里识别、识物百科、视听翻译、智能备忘等多种功能。在不同场景下可发挥不同作用,如旅游时是“私人导游”,能解放双手边走边拍且可结合定位了解风土人情;在出国等场景下是“超强翻译官”;学习时是“智能笔记助手”;还可根据场景匹配音乐成为“情绪疗愈师”。具体配置如下:重量仅 45 克,佩戴较为轻松。搭载 16MP 超广角摄像头,并支持 AI 防抖算法,可保证拍摄的稳定性和画面清晰度。标称待机续航 56 小时,支持超 5 小时连续聆听,充电速度快,30 分钟可充满电。搭载四麦克风阵列识别声音,可准确捕捉声音,还能识别声源方向,区分佩戴者和其他人;采用开放式防漏音扬声器设计,在享受智能服务的同时保持与外界良好沟通。将于2025年上半年正式上市。
谷歌研究院:推出ReCapture技术,可生成自定义摄像机轨迹的视频
谷歌研究院推出ReCapture技术,通过重新生成带有自定义摄像机轨迹的视频,让用户可以从全新视角体验原始视频内容。背后的原理通过多视角扩散模型和遮罩视频微调技术,实现粗略视频到清晰、连贯、动感视频的转变。谷歌的研究人员表示,ReCapture不需要大量训练数据,适用于各种视频和视角转换,让普通用户也能轻松制作专业级“多机位”视频。
URAvatar:通过手机扫描生成高保真虚拟头像并提升其视觉效果
URAvatar技术可通过手机扫描生成高保真虚拟头像并提升其视觉效果,用户能实时驱动与调整头像。该技术运用可学习的辐射传输模型实现实时渲染和光照迁移,赋予虚拟头像新可能,且用户可独立控制头像的凝视方向与颈部动作,强化了虚拟交互体验。
字节跳动:推出单图视频驱动技术 X-Portrait 2
字节跳动智能创作团队推出单图视频驱动技术 X-Portrait 2,只需一张静态照片和一段驱动视频即可生成高质量“电影级”视频,该模型既能保留原图 ID,又能捕捉和迁移表情情绪,简化创作流程。它不同于以往依赖人脸关键点检测的方法,构建表情编码器模型,通过自监督训练框架从大量人像视频中自学习 ID 无关的运动隐式表征,并与生成式扩散模型结合生成流畅且富有表现力的视频,在大规模高质量表情视频上训练后,在运动表现力和 ID 保持性方面优于先前技术。
宾州州立大学:推出基于人工智能的“电子舌头”,可辨别味道、检测食品安全
宾州州立大学的研究人员开发出一种基于人工智能的“电子舌头”,利用离子敏感场效应晶体管收集液体离子信息转化为电信号感知味道,人工智能扮演味觉皮层处理解读信号,当人工智能自行定义参数时准确度显著提升,“电子舌头”具有“自主学习”能力,能区分相似软饮料或咖啡混合物、检测牛奶稀释、识别变质果汁、检测水中有害的全氟和多氟烷基物质,研究人员还利用特定方法分析神经网络决策过程以提高其透明度和可解释性。

