微软开源 OmniParser 的 AI 工具,OmniParser 作为纯视觉基础工具,不依赖额外上下文数据,能理解复杂图形用户界面,结合多种模块可跨平台工作,将屏幕元素转换为结构化数据。它在多个基准测试中表现优越,能提升 GPT-4V 对图标的标记准确率,有效解决当前 GUI 交互模型缺陷,拓宽了智能体应用范围,为开发者提供强大工具。
Meta AI 开源 LongVU,过滤冗余帧,高效精准理解长视频内容
Meta AI 推出 LongVU,这是一种全新的时空自适应压缩机制,大幅提升长视频的语言理解能力。该技术巧妙地运用 DINOv2 特征,有效地剔除冗余帧,并且借助跨模态查询达成特征的选择性压缩。在各类视频理解基准测试中,LongVU 展现出卓越非凡的性能,特别是在长视频理解任务方面,更是力压其他方法。