在上一节中,我们结合猫狗识别、人类身高等场景,初步感受到概率分布和贝叶斯推断能帮我们处理不确定的问题。不过要真正学会用概率建模,得先把两个基础概念搞明白,就是随机变量和概率分布。
先考虑一个问题:“图片是猫还是狗”“明天气温多少” 这些不确定的结果怎么用数学方法分析呢?这时候就需要随机变量了。它的作用很明确,就是把这些没法直接算的事件结果,转换成具体的数字。比如把 “猫” 换成 1、“狗” 换成 0,把 “明天的气温” 直接用 25℃、26.5℃这样的数值表示,这样后续就能用数学工具计算了。
有了数字之后,还得知道这些数字 “有多大概率出现” 吧?比如 “图片是猫(也就是数字 1)的概率是多少”“气温在 20℃到 25℃之间的概率是多少”。这时候概率分布就派上用场了,它会把随机变量所有可能的取值列出来,再对应上每个取值发生的概率,就像一张结果概率对照表,能清楚看到不同结果的可能性大小。
接下来,我们就先讲清楚随机变量是什么,再分别介绍离散分布和连续分布。
随机变量
随机变量是对随机事件结果的数值化映射,其核心功能在于将随机事件的不确定结果转化为可量化计算、可系统分析的具体数值。例如在猫狗识别场景中,可对图片类别这一随机事件结果进行数值化定义:设定猫对应数值 1,狗对应数值 0;在抛硬币试验中,可设定正面朝上对应数值 1,反面朝上对应数值 0。通过这种数值化转换,抽象的随机事件被纳入数学分析范畴,后续的概率计算与规律描述均以随机变量为核心展开。根据其取值的特点,可以将随机变量分为离散型随机变量和连续型随机变量两类。离散型随机变量取值为有限个或可列个离散数值,例如抛 5 次硬币试验中正面朝上的次数等。连续型随机变量取值覆盖某一实数区间内的所有数值,如人类身高、每日平均气温等。
离散型分布
离散型分布是离散型随机变量的概率分布,描述离散型随机变量所有可能取值及其对应概率的规律。用于描述离散分布的关键工具为概率质量函数(Probability Mass Function, PMF),该函数可直接定义离散随机变量各取值的概率大小。以猫狗识别场景中的类别判断为例,设随机变量 X 表征图片类别,其中 X=1 代表图片为猫,X=0 代表图片为狗,若依据历史数据统计可知该场景下猫图片占比 60%、狗图片占比 40%,则对应的概率质量函数可表示为 , 。上述离散分布可以使用下列表格表示:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
离散型分布需满足非负性和规范性两项基本性质。
-
非负性:随机变量所有可能取值对应的概率均大于等于 0,数学表达为 ; -
规范性:随机变量所有可能取值的概率之和为 1,数学表达为 ,该性质确保离散分布能够完整覆盖随机变量的所有可能结果,符合概率的基本公理。
连续型分布
连续型分布是连续型随机变量的概率分布,描述连续型随机变量在某一区间内取值的概率规律。由于连续型随机变量无法通过逐一列举所有取值,因此需通过概率密度函数(Probability Density Function, PDF)描述其取值规律。 PDF 函数反映随机变量在某一区间内的概率密度,即单位区间长度内的概率值。以人类身高为例,设随机变量 X 表征人类身高,其概率密度函数呈现中间高、两端低的形态特征:在 165cm 至 175cm 区间内,概率密度达到最大值,表明该区间内的身高取值出现概率最高;而在靠近 150cm 或 190cm 的区间内,概率密度逐渐降低。上述随机变量的概率密度函数如下图所示:
连续型随机变量取任意单个具体数值的概率均为 0,若需计算该类随机变量在某一取值范围内的概率,需通过计算该区间内概率密度函数的定积分实现。设连续型随机变量 的概率密度函数为 ,则其在区间 内取值的概率为:
身高为165cm至175cm区间的概率可以使用上述公式进行计算,这个积分结果对应概率密度曲线与 x 轴在区间 [165,175] 围成的面积,也即上图中绿色阴影部分的面积。

