大数跨境
0
0

AI的数学基础 | 贝叶斯定理

AI的数学基础 | 贝叶斯定理 数据科学人工智能
2025-12-08
3
导读:贝叶斯定理由18世纪英国数学家托马斯·贝叶斯提出,其核心思想是利用新获取的证据,修正对事件的原有判断,这一思想为不确定性推理提供了科学的数学框架。

在日常生活中,不确定性问题随处可见:手机推荐的歌曲是否符合偏好?医生发现患者发烧后,如何判断病因是否为感冒?这类问题的核心,是利用已知信息推断未知结果。贝叶斯定理正是解决此类不确定性推理的数学工具。贝叶斯定理由18世纪英国数学家托马斯·贝叶斯提出,其核心思想是利用新获取的证据,修正对事件的原有判断,这一思想为不确定性推理提供了科学的数学框架。例如,若最初判断当日降雨概率较低,观察到乌云密布这一证据后上调降雨概率的思维过程,就是贝叶斯逻辑的直观体现。

贝叶斯定理公式

贝叶斯定理的基本公式如下:

该公式描述的基本结论是:

在事件   已经发生的条件下,事件   发生的概率,可以通过事件   发生时   发生的概率、事件   的初始概率,以及事件   本身的总概率计算得出。

其中事件   的初始概率   称为先验概率。事件   发生时   发生的概率   称为似然概率。事件   本身的总概率   称为证据概率。在事件   已经发生的条件下事件   发生的概率   称为后验概率。如下图所示。

先验概率

先验概率(prior)是指在未获得观测证据时,基于历史统计数据、领域知识或经验归纳,对事件   发生概率的初始估计。它反映事件在总体样本空间中的固有特征,是概率推断的起点。

在感冒诊断场景中,事件   定义为个体患感冒,假设采用二元变量量化(  代表患感冒,  代表未患感冒)。依据疾控中心流感监测报告,某季节人群感冒流行率为 20%,由此确定先验概率:

(患感冒的先验概率)

(未患感冒的先验概率)

似然概率

似然概率(likelihood)是指在事件   确定发生的条件下,观测到证据   的概率,它量化了事件与证据的关联强度,直接影响后验推断的精准度。在感冒诊断场景中,证据   为个体出现发烧症状,似然概率即不同健康状态下出现发烧的概率。

结合临床统计数据与医学常识,似然概率如下:

  • 当个体患感冒( )时,发烧为典型症状,约 80% 的感冒患者会出现发烧,故 

  • 当个体未患感冒( )时,发烧多由其他原因引发,概率仅约 5%,故 

证据概率

证据概率(evidence)指观测证据   在总体样本中的发生概率,核心作用是作为归一化因子,确保后验概率满足所有结果概率和为1的概率公理,使推断结果具备统计学意义。证据概率又称为边际概率(marginalization)。

在感冒诊断的例子中,发烧的成因仅含感冒引发或非感冒引发两类互斥情况,因此发烧总概率为两类情况概率之和,推导可得证据概率计算公式:

结果表明当前人群中随机抽取 1 人,发烧概率为 20%。该数值客观反映了发烧症状的流行程度,为后验概率计算提供基础。

后验概率

后验概率(posterior)是指纳入证据   后,事件   发生的条件概率。后验概率融合了先验信息与观测证据,相比先验概率判断更精准、更具指导意义。

在感冒诊断的例子中,我们的最终目标是计算已知发烧(B发生)时,个体患感冒( )或未患感冒( )的概率。将先验概率、似然概率与证据概率代入贝叶斯定理公式,可以得到患感冒的后验概率为

未患感冒的后验概率为:

未观测发烧时,患感冒概率仅 20%( ),纳入发烧证据后概率提升至 80%( )。

贝叶斯定理的应用

贝叶斯定理的价值远不止于日常场景,在人工智能、医学、金融等关键领域均扮演着核心角色。它的核心优势在于,即便在信息不完整、数据有限的情况下,也能有效融合先验信息与观测证据,为决策提供可信的量化推断支撑。以下是其典型应用实践。

临床诊断中,医生的诊断过程本质上是贝叶斯推理的过程。以肺癌诊断为例,医生会收集患者吸烟史、胸痛症状等观测证据,结合肺癌在人群中的发病率,以及肺癌患者出现相关症状的概率,通过贝叶斯公式计算患者患病的后验概率。这种量化分析能为诊断提供客观依据,显著降低误诊风险。

金融风控领域,贝叶斯定理是风险量化的关键工具,尤其在银行信贷审批场景中发挥重要作用。审批系统以申请人的征信记录、收入水平、负债情况等为观测证据,参考同类客户的历史违约率,以及违约客户呈现相关特征的概率,计算申请人的违约后验概率,为放贷决策提供明确的风险量化支持,助力银行平衡业务发展与金融安全。

贝叶斯定理还具备独特的迭代更新特性。当获取新的观测证据(例如医生后续发现患者除发烧外还伴有咳嗽症状)时,可将上一轮计算得到的后验概率直接作为新的先验概率,融入新证据重新推演,让推断结果持续优化。


【声明】内容源于网络
0
0
数据科学人工智能
聚焦数据科学,大数据,人工智能,区块链和云计算等话题。技术资料分享,院士名家观点分享,前沿资讯分享。
内容 931
粉丝 0
数据科学人工智能 聚焦数据科学,大数据,人工智能,区块链和云计算等话题。技术资料分享,院士名家观点分享,前沿资讯分享。
总阅读414
粉丝0
内容931