大数跨境

本体论,符号主义与连接主义的必然交融

本体论,符号主义与连接主义的必然交融 AI驱动数字化转型
2026-01-26
5
导读:本体论使这种混合形式化,两者其实已经出现了融合趋势。
本体(Ontology)是Palantir提供的一种高级数据组织模式。
火爆主要是palantir惊人的市场和资本表现,于是很多国内B端组织都在问:"我们的本体战略是什么?",以至于该词到目前已经是获得了"半神秘的光环"。
数据造就价值 中国版Palantir渐行渐近_首页_科技视讯
其中一部分是真正的技术进步,但一部分仍旧是是营销,一些厂家努力将本体与其语义网和知识图谱根源分离,将其重新包装为专有功能,可谓是泥沙俱下。
什么是本体(Ontology)?
本体是对一个特定领域中概念及其相互关系的明确、形式化的规范描述。
在哲学中本体论研究的是 “存在”的本质,探讨世界上有哪些基本实体、它们如何分类以及它们之间的根本关系。它关注的是“什么存在?”这个根本问题。

在人工智能与计算机科学中的定义,体是一个用于知识表示的工具。这并不是一个新概念,而在20年前就早有研究,也就是语义网。


本体与一般数据模型的本质差异在于,本体不仅定义数据结构,更重要的是为AI系统提供语义理解能力。当本体与具体数据实例相结合时,形成知识库。


本体构建的方法
基于Stanford大学和开源社区的最佳实践(详细可参考https://protege.stanford.edu/publications/ontology_development/ontology101.pdf),一般可以分为7步:
第一步:确定域和范围

此阶段需回答四个关键问题 :

  • 本体覆盖的知识域是什么?

  • 预期用途是什么(应用场景、系统集成、知识共享)?

  • 本体应能回答什么类型的问题(竞争力问题)?

  • 谁将使用和维护本体?


第二步:评估现有本体的重用机会

这样可以避免重复造轮子,即使没有完全匹配的现有本体,部分导入现有概念和关系结构也能显著加快开发。

具体可查询W3C标准库和Ontolingua库、领域专用库(BFO用于生物医学,GIST用于企业建模,Schema.org用于Web数据)、开源库(DBpedia、Wikidata、开放生物医学本体库)

第三步:列举重要术语
这一步是信息收集,从领域专家、现有文档和需求陈述中提取所有相关术语。无需此时关注术语间的关系或层级,只需确保清单的完整性。
例如,在电商系统中可能包括:Product、Category、Price、Inventory、Supplier、Customer、Order等术语。

第四步:定义类和类层级

这是本体构建中最关键的步骤,直接影响系统的推理能力和可维护性 。具体包含自顶向下和自底向上以及混合方法(结合两者,先定义显著概念,再逐步推广和特化),最后这种方法在实践中最常用。

第五步:定义类的属性(Slots/Properties)

属性分为两类 对象属性(Object Properties)和数据属性(Data Properties) 。

第六步:定义属性的约束(Facets)

这一步为属性施加约束,确保数据的语义正确性和一致性 ,一般包含基数约束(定义属性可以有多少个值)、值类型约束、域和范围约束

第七步:创建实例和知识库

定义完本体后,通过创建具体实例来验证和填充知识库。


如果本体这么有价值,为什么20多年来语义网从未达到大规模采用?
语义网 的图像结果

核心问题在于本体的巨大价值被其构建与应用所需的超高成本所抵消,而这套成本-收益模式难以形成正向循环。

首先,高质量本体的创建极度依赖领域专家与知识工程师的深度协作,其建模、维护和元数据标注是沉重的手工负担,商业上难以规模化。

其次,早期“自顶向下”的标准化理念未能有效嵌入用户的核心工作流,要求用户离开熟悉环境进行额外“语义标注”,却缺乏即时的个人收益,导致激励严重不足。

最关键的是语义技术未能像HTTP或SQL那样激发强大的网络效应,其价值取决于大量参与者预先采用统一标准,而这在松散、开放的互联网中几乎不可能自发形成。

这种复杂性高、初始价值低、协同门槛高的特性,使其始终停留在特定、封闭的高价值领域(如生物医学),无法引爆大众市场。

即使到2026年,尽管技术工具已优化,但这些根本性的经济与协作模式并未改变,再次印证了本体驱动的语义网络难以获得广泛、自发的采用,其角色更可能是一种强大的“企业基础设施”或“专业领域语言”,而非普适的互联网协议。


本体论:符号学与神经网络的必然融合


本体论是两大AI流派(符号主义和连接主义)的必然融合,这个融合不是妥协或折衷,而是两个范式最终成长到承认彼此的本质互补性的结果。

人工智能的三大学派_符号主义-CSDN博客



1. 符号主义的血脉:从逻辑学家到本体


在这里插入图片描述


符号主义(Classical AI/Symbolic AI)是基于高层次符号表示问题、使用逻辑和搜索的AI方法。


符号主义直接继承自19世纪逻辑学,主要发展时期主要分为以下四个阶段:


时期一:自动定理证明(1950-1960)

主要目标是让机器自动进行逻辑推理。


时期二:专家系统黄金年代(1960-1990)

主要代表有医学诊断系统、法律AI系统、工程设计系统等,产生了语义网络(Quillian, 1960s)、框架理论(Minsky, 1974)、产生式系统(Newell & Shaw)

时期三:衰退与遗忘(1990-2010)

1974-1980和1988-2011两个AI冬天,因其知识获取瓶颈、脆弱性、不可扩展等问题,行业届相信符号主义已"死亡"。

时期四:隐形的复兴(2000-2010)

2016年的AlphaGo(2016)在其深度学习中整合蒙特卡洛树搜索(符号方法)以及知识图谱重新浮现(Google Knowledge Graph, 2012)又一次慢慢复兴。


本体论使用的形式逻辑完全源自1950年代的符号主义传统,只是更强大、更实用、更可操作。

本体与符号主义拥有核心共性,例如都使用显式的、形式化的知识表示;都依赖逻辑推理而非统计学习;都强调透明性和可追踪性;都致力于精确推理而非近似。

但是本体做了更多改进:

改进
传统符号系统
本体

互操作性

专有格式,孤立存在


OWL/RDF是开放Web标准,与异构数据集成

自动推理

规则手工编码和验证
推理器自动执行,确保一致性

表达能力

命题逻辑或一阶逻辑
描述逻辑(Balance表达能力和可判定性)

与现代AI的可组合性

与学习系统隔离
设计用于与神经网络融合



2. 连接主义的兴起


在这里插入图片描述


连接主义的定义是基于受神经网络启发的数学模型,强调分布式处理、平行计算和从数据学习的AI范式。主要发展时期主要分为以下4个阶段:


时期一:兴起与寒冬(1943-1970

1943年,McCulloch & Pitts提出神经网络可用逻辑表达式模型化。

1957 年,康奈尔大学的心理学家弗兰克·罗森布拉特(Frank Rosenblatt)受人类大脑神经元的启发,提出了“感知器(perceptron)”模型。

但是XOR(异或)问题是一个经典的逻辑运算问题,其特点是无法通过简单的线性模型解决。在人工智能早期,感知器(Perceptron)作为神经网络的前身,被寄予厚望。

然而,1969年,马文·明斯基(Marvin Minsky)与西蒙·派珀特(Seymour Papert)在他们的著作《感知器》中通过数学证明指出,单层感知器只能处理线性可分问题,而XOR问题属于非线性可分问题,单层感知器无法有效解决。

马文·明斯基(Marvin Minsky)与西蒙·派珀特 的图像结果

这一结论直接暴露了当时主流神经网络模型的局限性。明斯基的批评成为第一个AI冬天(1974-1980年)的重要导火索。


时期二:backpropagation革命(1986-1989)

1986年,David Rumelhart、Geoffrey Hinton和Ronald Williams在论文《Learning Representations by Back-Propagating Errors》中重新发现了反向传播算法,这一算法为训练多层神经网络提供了高效方法,解决了此前单层神经网络无法处理非线性问题的瓶颈。

AI 简史:从神经元到现代大模型_ai发展史-CSDN博客

同年,James McClelland等人出版的《Parallel Distributed Processing》进一步推动了连接主义的发展,书中提出的多层感知机、隐层、Sigmoid激活函数等概念,为现代神经网络架构奠定了基础。

这些成果共同引发了“连接主义第二波”,标志着神经网络研究的复兴。


时期三:沉寂期(1990-2005)

在1990年至2005年期间,人工智能领域经历了被称为“沉寂期”的阶段。这一时期,神经网络研究因计算能力不足、网络架构简单以及支持向量机(SVM)等新兴技术的兴起而陷入低谷。

时期四:深度学习复兴(2006-2025)

2006年,Geoffrey Hinton等人发表论文,提出深度信念网络DBN,通过逐层贪心预训练和有监督微调,证明了深度网络可以被有效训练,为深度学习复兴奠定理论基础。同年,NVIDIA推出CUDA框架,利用GPU并行计算加速深度学习训练。
Geoffrey Hinton 的图像结果
2012年,AlexNet在ImageNet竞赛中击败传统方法,标志着卷积神经网络(CNN)在计算机视觉领域的崛起,引爆深度学习热潮。
一文彻底搞懂CNN - 2012年ImageNet大赛冠军(AlexNet)_2012年imagenet竞赛-CSDN博客

2015年,何恺明团队提出残差网络ResNet,通过跳跃连接解决深层网络的梯度消失问题,使训练超千层网络成为可能,成为计算机视觉领域的标配架构。

还不快收藏起来!何恺明全网最全论文合集_何恺明resnet论文-CSDN博客

Google提出Transformer架构,基于自注意力机制替代传统循环神经网络(RNN),实现并行化长序列建模,为自然语言处理(NLP)领域带来革命性突破。

谷歌Transformer大进化,机翻最强王者上线-阿里云开发者社区

2010s-2020年,神经网络的广泛应用,2020s至今,大模型与多模态融合。


3. 连接主义的强盛与局限


连接主义作为人工智能领域的重要流派,其倡导者的核心论调可概括为以下几点

①神经网络模拟大脑,更生物合理:连接主义认为神经网络通过模拟生物大脑的神经元连接和信息处理机制,更贴近人类智能的生物学基础。与符号系统依赖人工定义的符号和规则不同,神经网络的结构和学习过程模仿了大脑神经元之间的动态交互,被认为更具生物合理性。

②数据驱动学习超越手工规则:连接主义强调数据驱动的学习方式,认为通过大量数据训练神经网络,能够自动发现数据中的模式和规律,无需人工手工编码规则。相比之下,符号主义的“硬编码”规则系统被认为缺乏灵活性和适应性,难以应对复杂多变的现实问题。

③LLM(大型语言模型)可替代符号系统:部分连接主义倡导者认为,大型语言模型(如GPT等)通过海量数据训练,能够实现自然语言处理、知识推理等多种智能任务,无需依赖传统的符号系统(如专家系统、知识图谱等)。他们认为LLM的通用性和适应性使其成为人工智能发展的主流方向,符号系统在某些场景下显得过时

然而,连接主义也面临一些局限性,主要包括:

①缺乏可解释性神经网络的决策过程如同“黑箱”,难以提供清晰的推理依据,这在医疗、金融、法律等对可解释性要求高的领域存在挑战。
②知识边界与推理能力限制LLM可能生成统计上合理但事实错误的“幻觉”内容,在已知知识之外的推理和因果分析方面能力有限。
③不可审计与验证困难模型决策难以审计和验证,可能违反监管要求(如GDPR、金融法规等),且修正特定错误通常需要重新训练模型。


4. 连接主义的强盛与局限



符号主义
连接主义
优势
  • 精确推理

  • 可解释性

  • 知识显式表达

  • 可验证

  • 从数据学习

  • 处理复杂性和歧义

  • 模式识别

  • 鲁棒和容错

劣势
  • 知识获取困难

  • 无法从数据学习

  • 无法扩展到复杂现实

  • 脆弱和僵化

  • 黑箱不可解释

  • 知识边界失败

  • 需要大量训练数据

  • 推理困难



5. 连接主义与符号主义融合的必然:

所有实际系统都已经是混合的,纯符号系统包含数学成分(概率、权重),纯神经系统包含符号成分(搜索、树结构)。本体论使这种混合形式化。两者其实已经出现了融合趋势:

年份
连接主义进展
符号主义进展
融合信号
2006
深度学习复兴
知识图谱出现
开始对话
2012
AlexNet突破
链接数据倡议
独立发展
2016
AlphaGo胜利
AlphaGo用了MCTS(符号)
融合证明
2020
LLM主导
神经符号论文53篇
学术认识
2023
Transformer统治
神经符号论文236篇
快速增长
2025
LLM遭遇现实壁垒
本体成为必需
融合实践


这个趋势是认知科学的合成,人脑的结构具有符号(语言、概念)的特征,但由神经元的分布式处理实现,不是"符号OR神经",而是"神经支持符号",所以本体论+神经网络的融合正是对这种两层性的形式化。

其次,这也是知识表示的根本需求。任何AI系统最终都必须回答3个问题:

  • "这个概念是什么?"(符号需求)

  • "这个样本属于哪个概念?"(神经需求)

  • "两者之间如何映射?"(本体需求)


AI从"摇摆不定的钟摆"(符号→神经→符号→...)演变为"有机统一"的转折点。本体论是这个统一的形式化语言,两个范式各自的局限被承认,互补性被正式化。

【声明】内容源于网络
0
0
AI驱动数字化转型
专注AI,促进智造行业数据衍生,服务智能制造企业的数字化、智能化,聚焦大模型私域部署、大模型微调、数据清洗、AI模型训练、私域知识库及agent技术延展等。行业智能,落地为先。
内容 907
粉丝 0
AI驱动数字化转型 专注AI,促进智造行业数据衍生,服务智能制造企业的数字化、智能化,聚焦大模型私域部署、大模型微调、数据清洗、AI模型训练、私域知识库及agent技术延展等。行业智能,落地为先。
总阅读1.8k
粉丝0
内容907