大数跨境
0
0

清华大学孙茂松:NLP 面临的三大真实挑战

清华大学孙茂松:NLP 面临的三大真实挑战 AI科技评论
2020-12-08
24
导读:分别是:形式化知识系统、深层结构化语义分析、跨模态语言理解。

自然语言处理的三大挑战与未来方向

智源论坛学者共议NLP发展瓶颈与突破路径

来源 | 智源社区
编辑 | 陈彩娴
自然语言处理(NLP)被视为人工智能的核心挑战之一[k]。清华大学教授、智源首席科学家孙茂松指出,语言理解是机器智能难以逾越的鸿沟,已成为制约人工智能进一步突破的关键瓶颈[k]。在“智源论坛2020”上,八位学者围绕NLP面临的三大真实挑战展开深入探讨,提出融合经验主义与理性主义、推动“大数据+富知识+多模态”协同发展的技术路径[k]

NLP面临的三大真实挑战

图注:孙茂松
孙茂松教授在引导报告中指出,尽管大规模预训练模型(如BERT、GPT-3)带来了性能提升,但其本质仍偏向“记忆”而非“理解”,难以应对深层次语义任务[k]。他提出当前NLP面临三大挑战:
  • 挑战一:形式化知识系统构成缺失。现有知识图谱虽规模庞大,但缺乏动作性三元组和事件间逻辑关系,存在“三缺其二”问题——缺少关于动作和事件结构的知识[k]
  • 挑战二:深层结构化语义分析性能不足。当前模型对语言的深层语义结构解析能力有限,导致知识获取不完整,影响系统推理能力[k]
  • 挑战三:跨模态语言理解融通局限。图像、文本、语音等多模态信息融合仍停留在表层匹配,缺乏基于深层语义和世界知识的统一理解,呈现“形合意迷”状态[k]
针对上述挑战,孙茂松提出三大愿景:知识图谱从“三缺其二”到“三分归一”;深层语义分析从“欲行却止”到“且行且进”;跨模态理解从“形合意迷”到“形合意合”[k]。实现路径为“三足鼎立”——跨模态、大数据、富知识协同发展,结合经验主义与理性主义方法[k]

论 | 富知识

图注:张家俊
中科院研究员张家俊强调,知识与数据需深度融合[k]。他认为当前知识图谱仍显简陋,应从特定领域切入构建高质量、结构化知识体系[k]。同时,需探索新方法将常识知识转化为高频数据,使深度神经网络更有效吸收结构化知识[k]。其团队在神经机器翻译中引入词典知识的研究已初见成效[k]

图注:万小军
北京大学万小军教授认为,知识能显著提升语言理解效率[k]。类比人类学习过程,有指导的知识体系比纯文本自学更高效[k]。当前“大力出奇迹”的预训练模型更多依赖记忆,未来应融入语言学知识以增强深层理解能力[k]

图注:赵鑫
中国人民大学赵鑫副教授指出,知识在NLP中缺乏明确定义和形式化表达[k]。当前基于三元组的知识表示过于浅层,难以支撑复杂推理[k]。此外,预训练模型如GPT-3是否具备“知识”仍存争议,需进一步探讨知识的本质与表征方式[k]

论 | 多模态

图注:何晓东
京东数科何晓东博士认为,多模态是通往通用人工智能的关键路径[k]。人类认知依赖多种感官输入,单一文本难以承载完整语义[k]。近年来,通过将不同模态映射至统一语义空间,已实现图文生成等实用化应用[k]。他建议设立量化评估任务,推动三大愿景落地[k]

图注:颜水成
颜水成博士从人类学习、脑科学和图网络三个维度论证多模态的重要性[k]。儿童通过多感官输入积累知识,人脑在听觉时视觉区域也会激活,表明多模态共享机制存在[k]。图网络在文本、图像、语音处理中的相似性,暗示跨模态知识可共享[k]

图注:宋森
清华大学宋森研究员从脑科学视角指出,语言并非思维的最终媒介,理解发生在更高层次的多模态整合区[k]。BERT等模型仅模拟语言感知层,尚未触及理解层[k]。他建议在NLP中引入时间维度,并借鉴大脑神经元工作机制设计多模态任务[k]

图注:刘知远
清华大学刘知远副教授指出,预训练模型存在生成无逻辑、语义浅层化、缺乏知识层次性等问题[k]。模型无法判断自身知识盲区,限制了其推理与理解能力[k]

论 | 自由讨论

学者们进一步探讨知识表示与认知机制的关系[k]。颜水成提出三个问题:NLP中的三元组是否对应大脑知识表示?文盲如何具备语言推理能力?不同语言是否在大脑中有独立分区?现场回应指出,汉语与英语在大脑中的处理区域确实不同[k]。讨论还聚焦于知识、记忆与推理的统一框架,以及意识分层等跨学科议题[k]

三大挑战与三重融合:迈向更深层的语义理解

当前语义理解面临知识缺失、结构分析不足与跨模态融合局限,需通过大数据、富知识与跨模态的协同推进突破瓶颈[k]

当前知识库存在“三缺其二”的问题,仅有静态事实描述,缺乏事件本身及事件间逻辑关系的刻画。例如“关羽丢了荆州”与“关羽攻打樊城”之间的因果关系在现有知识系统中并未体现[k]
知识库的完整性严重不足,缺失的“两分天下”——即事件描述与事件关联——必须从文本正文、网页等非结构化数据中提取。尽管这些信息在理论上广泛存在,但当前技术尚不具备高效抽取的能力[k]
语义理解的第二大挑战在于深层次结构化语义分析能力不足。实现知识图谱的“三分归一”,关键在于挖掘句子之间的逻辑关联,这是当前主要瓶颈[k]
尽管语义分析技术已有显著进展,如CoNLL2019英文语义分析F值达86%,但在中文及非规范文本(如维基百科)上的表现仍不理想,影响多元知识图谱的构建。同时,知识库与语义分析之间存在相互依赖的“鸡生蛋、蛋生鸡”难题[k]
第三大挑战是跨模态语言理解的融通局限。人类认知本质为多模态,单一模态的理解难以应对复杂场景,尤其在开放领域中,视觉理解若缺乏文本辅助将显著受限[k]
当前系统普遍存在“形合意迷”现象,即文本与图像形式上结合,但语义层面未真正融合。虽然文本问答准确率已达93%(人类为89.5%),但视觉问答仅76%,结合文本后骤降至33.8%,凸显跨模态理解的短板[k]
面向未来,应推动“三个融合”——大数据、富知识与跨模态技术的相互支持与促进,以系统性提升语义理解能力[k]
具体路径包括:一是知识图谱从“三缺其二”走向“三分归一”,通过从文本中抽取事实三元组(如30%)补全事件与事理知识;二是深层语义分析从“欲行却止”转向“且行且进”,逐步提升结构化分析能力;三是跨模态理解从“形合意迷”迈向“形合意合”,实现图文语义的深度融合[k]


【声明】内容源于网络
0
0
AI科技评论
聚焦AI前沿研究,关注AI工程落地。
内容 8411
粉丝 0
AI科技评论 聚焦AI前沿研究,关注AI工程落地。
总阅读48.3k
粉丝0
内容8.4k