在人工智能与计算机科学中的定义,本体是一个用于知识表示的工具。这并不是一个新概念,而在20年前就早有研究,也就是语义网。
本体与一般数据模型的本质差异在于,本体不仅定义数据结构,更重要的是为AI系统提供语义理解能力。当本体与具体数据实例相结合时,形成知识库。
此阶段需回答四个关键问题 :
本体覆盖的知识域是什么?
预期用途是什么(应用场景、系统集成、知识共享)?
本体应能回答什么类型的问题(竞争力问题)?
谁将使用和维护本体?
这样可以避免重复造轮子,即使没有完全匹配的现有本体,部分导入现有概念和关系结构也能显著加快开发。
具体可查询W3C标准库和Ontolingua库、领域专用库(BFO用于生物医学,GIST用于企业建模,Schema.org用于Web数据)、开源库(DBpedia、Wikidata、开放生物医学本体库)
第四步:定义类和类层级
这是本体构建中最关键的步骤,直接影响系统的推理能力和可维护性 。具体包含自顶向下和自底向上以及混合方法(结合两者,先定义显著概念,再逐步推广和特化),最后这种方法在实践中最常用。
第五步:定义类的属性(Slots/Properties)
属性分为两类 对象属性(Object Properties)和数据属性(Data Properties) 。
第六步:定义属性的约束(Facets)
这一步为属性施加约束,确保数据的语义正确性和一致性 ,一般包含基数约束(定义属性可以有多少个值)、值类型约束、域和范围约束等
第七步:创建实例和知识库
定义完本体后,通过创建具体实例来验证和填充知识库。
核心问题在于本体的巨大价值被其构建与应用所需的超高成本所抵消,而这套成本-收益模式难以形成正向循环。
首先,高质量本体的创建极度依赖领域专家与知识工程师的深度协作,其建模、维护和元数据标注是沉重的手工负担,商业上难以规模化。
其次,早期“自顶向下”的标准化理念未能有效嵌入用户的核心工作流,要求用户离开熟悉环境进行额外“语义标注”,却缺乏即时的个人收益,导致激励严重不足。
最关键的是语义技术未能像HTTP或SQL那样激发强大的网络效应,其价值取决于大量参与者预先采用统一标准,而这在松散、开放的互联网中几乎不可能自发形成。
这种复杂性高、初始价值低、协同门槛高的特性,使其始终停留在特定、封闭的高价值领域(如生物医学),无法引爆大众市场。
即使到2026年,尽管技术工具已优化,但这些根本性的经济与协作模式并未改变,再次印证了本体驱动的语义网络难以获得广泛、自发的采用,其角色更可能是一种强大的“企业基础设施”或“专业领域语言”,而非普适的互联网协议。
本体论:符号学与神经网络的必然融合
本体论是两大AI流派(符号主义和连接主义)的必然融合,这个融合不是妥协或折衷,而是两个范式最终成长到承认彼此的本质互补性的结果。
1. 符号主义的血脉:从逻辑学家到本体
符号主义(Classical AI/Symbolic AI)是基于高层次符号表示问题、使用逻辑和搜索的AI方法。
符号主义直接继承自19世纪逻辑学,主要发展时期主要分为以下四个阶段:
时期一:自动定理证明(1950-1960)
主要目标是让机器自动进行逻辑推理。
时期二:专家系统黄金年代(1960-1990)
主要代表有医学诊断系统、法律AI系统、工程设计系统等,产生了语义网络(Quillian, 1960s)、框架理论(Minsky, 1974)、产生式系统(Newell & Shaw)
时期三:衰退与遗忘(1990-2010)
在1974-1980和1988-2011两个AI冬天,因其知识获取瓶颈、脆弱性、不可扩展等问题,行业届相信符号主义已"死亡"。
时期四:隐形的复兴(2000-2010)
2016年的AlphaGo(2016)在其深度学习中整合蒙特卡洛树搜索(符号方法)以及知识图谱重新浮现(Google Knowledge Graph, 2012)又一次慢慢复兴。
本体论使用的形式逻辑完全源自1950年代的符号主义传统,只是更强大、更实用、更可操作。
本体与符号主义拥有核心共性,例如都使用显式的、形式化的知识表示;都依赖逻辑推理而非统计学习;都强调透明性和可追踪性;都致力于精确推理而非近似。
但是本体做了更多改进:
|
|
|
|
|
互操作性 |
专有格式,孤立存在 |
|
|
自动推理 |
|
|
|
表达能力 |
|
|
|
与现代AI的可组合性 |
|
|
2. 连接主义的兴起
连接主义的定义是基于受神经网络启发的数学模型,强调分布式处理、平行计算和从数据学习的AI范式。主要发展时期主要分为以下4个阶段:
时期一:兴起与寒冬(1943-1970)
1943年,McCulloch & Pitts提出神经网络可用逻辑表达式模型化。
1957 年,康奈尔大学的心理学家弗兰克·罗森布拉特(Frank Rosenblatt)受人类大脑神经元的启发,提出了“感知器(perceptron)”模型。
但是XOR(异或)问题是一个经典的逻辑运算问题,其特点是无法通过简单的线性模型解决。在人工智能早期,感知器(Perceptron)作为神经网络的前身,被寄予厚望。
然而,1969年,马文·明斯基(Marvin Minsky)与西蒙·派珀特(Seymour Papert)在他们的著作《感知器》中通过数学证明指出,单层感知器只能处理线性可分问题,而XOR问题属于非线性可分问题,单层感知器无法有效解决。

这一结论直接暴露了当时主流神经网络模型的局限性。明斯基的批评成为第一个AI冬天(1974-1980年)的重要导火索。
时期二:backpropagation革命(1986-1989)
1986年,David Rumelhart、Geoffrey Hinton和Ronald Williams在论文《Learning Representations by Back-Propagating Errors》中重新发现了反向传播算法,这一算法为训练多层神经网络提供了高效方法,解决了此前单层神经网络无法处理非线性问题的瓶颈。

同年,James McClelland等人出版的《Parallel Distributed Processing》进一步推动了连接主义的发展,书中提出的多层感知机、隐层、Sigmoid激活函数等概念,为现代神经网络架构奠定了基础。
这些成果共同引发了“连接主义第二波”,标志着神经网络研究的复兴。
时期三:沉寂期(1990-2005)
时期四:深度学习复兴(2006-2025)
2015年,何恺明团队提出残差网络ResNet,通过跳跃连接解决深层网络的梯度消失问题,使训练超千层网络成为可能,成为计算机视觉领域的标配架构。

Google提出Transformer架构,基于自注意力机制替代传统循环神经网络(RNN),实现并行化长序列建模,为自然语言处理(NLP)领域带来革命性突破。

2010s-2020年,神经网络的广泛应用,2020s至今,大模型与多模态融合。
3. 连接主义的强盛与局限
连接主义作为人工智能领域的重要流派,其倡导者的核心论调可概括为以下几点:
①神经网络模拟大脑,更生物合理:连接主义认为神经网络通过模拟生物大脑的神经元连接和信息处理机制,更贴近人类智能的生物学基础。与符号系统依赖人工定义的符号和规则不同,神经网络的结构和学习过程模仿了大脑神经元之间的动态交互,被认为更具生物合理性。
②数据驱动学习超越手工规则:连接主义强调数据驱动的学习方式,认为通过大量数据训练神经网络,能够自动发现数据中的模式和规律,无需人工手工编码规则。相比之下,符号主义的“硬编码”规则系统被认为缺乏灵活性和适应性,难以应对复杂多变的现实问题。
③LLM(大型语言模型)可替代符号系统:部分连接主义倡导者认为,大型语言模型(如GPT等)通过海量数据训练,能够实现自然语言处理、知识推理等多种智能任务,无需依赖传统的符号系统(如专家系统、知识图谱等)。他们认为LLM的通用性和适应性使其成为人工智能发展的主流方向,符号系统在某些场景下显得过时。
然而,连接主义也面临一些局限性,主要包括:
4. 连接主义的强盛与局限
|
|
|
|
|
|
|
|
|
|
|
|
5. 连接主义与符号主义融合的必然:
所有实际系统都已经是混合的,纯符号系统包含数学成分(概率、权重),纯神经系统包含符号成分(搜索、树结构)。本体论使这种混合形式化。两者其实已经出现了融合趋势:
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
AlphaGo用了MCTS(符号) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
本体成为必需 |
|
这个趋势是认知科学的合成,人脑的结构具有符号(语言、概念)的特征,但由神经元的分布式处理实现,不是"符号OR神经",而是"神经支持符号",所以本体论+神经网络的融合正是对这种两层性的形式化。

其次,这也是知识表示的根本需求。任何AI系统最终都必须回答3个问题:
"这个概念是什么?"(符号需求)
"这个样本属于哪个概念?"(神经需求)
"两者之间如何映射?"(本体需求)
AI从"摇摆不定的钟摆"(符号→神经→符号→...)演变为"有机统一"的转折点。本体论是这个统一的形式化语言,两个范式各自的局限被承认,互补性被正式化。




