





AppAgentX
引领人机协作新范式
赋能 AI 多领域应用


在大语言模型(LLM)技术飞速发展的当下,DeepSeek-R1等模型以其强大的理解与生成能力,成为人工智能发展的核心动力。LLM的应用范围不断拓展,从对话交互到代码编写,从知识问答到复杂任务规划,都有它的身影。而西湖大学AGI实验室推出的AppAgentX,则带来了LLM技术与智能体交互的革命性突破,它实现了AI对手机界面的自主操作,还赋予智能体自我进化能力,开辟了高效人机协作的新道路。

传统的机器人流程自动化(RPA)依靠预设脚本执行任务,虽然高效却不够灵活。基于LLM的GUI智能体则可通过自然语言指令直接操作设备,无需API接口,如同“贾维斯”般让用户通过语言掌控设备。比如,DeepSeek-R1驱动的智能体能够自主完成打开应用、编辑文档等复杂任务,灵活性与泛化能力远超传统RPA。但这类智能体的逐步推理机制在面对重复性任务时效率不足,限制了其实际应用。

西湖大学团队提出的AppAgentX框架,通过“进化机制”实现了智能体的自我优化。其创新的链式存储机制将智能体的每次操作记录为包含页面、元素和捷径节点的“操作链”,如“搜索框+确认按钮”的交互模式会被抽象为高层级语义单元存储。动态匹配执行机制则在检测到重复操作模式时,自动生成“捷径节点”,将底层操作整合成“一键执行”的高级动作,大幅提升执行效率。

AppAgentX兼具LLM的灵活性与RPA的高效性,实验显示其在多个GUI交互场景中,单步执行效率提升40%,API调用成本降低60%。它为AI在多领域落地提供了新范式,可作为企业“数字员工”,用于软件开发自动化测试,也能在日常生活中帮助用户完成多种操作。

AppAgentX标志着智能体技术从“被动执行”向“主动进化”跨越,为构建更智能、高效的人机协同生态奠定了基础。

END


