大数跨境
0
0

AI的数学基础 | 随机变量与概率分布基础

AI的数学基础 | 随机变量与概率分布基础 数据科学人工智能
2025-11-28
0
导读:在上一节中,我们结合猫狗识别、人类身高等场景,初步感受到概率分布和贝叶斯推断能帮我们处理不确定的问题。不过要真正学会用概率建模,得先把两个基础概念搞明白,就是随机变量和概率分布。

在上一节中,我们结合猫狗识别、人类身高等场景,初步感受到概率分布和贝叶斯推断能帮我们处理不确定的问题。不过要真正学会用概率建模,得先把两个基础概念搞明白,就是随机变量概率分布

先考虑一个问题:“图片是猫还是狗”“明天气温多少” 这些不确定的结果怎么用数学方法分析呢?这时候就需要随机变量了。它的作用很明确,就是把这些没法直接算的事件结果,转换成具体的数字。比如把 “猫” 换成 1、“狗” 换成 0,把 “明天的气温” 直接用 25℃、26.5℃这样的数值表示,这样后续就能用数学工具计算了。

有了数字之后,还得知道这些数字 “有多大概率出现” 吧?比如 “图片是猫(也就是数字 1)的概率是多少”“气温在 20℃到 25℃之间的概率是多少”。这时候概率分布就派上用场了,它会把随机变量所有可能的取值列出来,再对应上每个取值发生的概率,就像一张结果概率对照表,能清楚看到不同结果的可能性大小。

接下来,我们就先讲清楚随机变量是什么,再分别介绍离散分布和连续分布。

随机变量

随机变量是对随机事件结果的数值化映射,其核心功能在于将随机事件的不确定结果转化为可量化计算、可系统分析的具体数值。例如在猫狗识别场景中,可对图片类别这一随机事件结果进行数值化定义:设定猫对应数值 1,狗对应数值 0;在抛硬币试验中,可设定正面朝上对应数值 1,反面朝上对应数值 0。通过这种数值化转换,抽象的随机事件被纳入数学分析范畴,后续的概率计算与规律描述均以随机变量为核心展开。根据其取值的特点,可以将随机变量分为离散型随机变量连续型随机变量两类。离散型随机变量取值为有限个或可列个离散数值,例如抛 5 次硬币试验中正面朝上的次数等。连续型随机变量取值覆盖某一实数区间内的所有数值,如人类身高、每日平均气温等。

离散型分布

离散型分布是离散型随机变量的概率分布,描述离散型随机变量所有可能取值及其对应概率的规律。用于描述离散分布的关键工具为概率质量函数(Probability Mass Function, PMF),该函数可直接定义离散随机变量各取值的概率大小。以猫狗识别场景中的类别判断为例,设随机变量 X 表征图片类别,其中 X=1 代表图片为猫,X=0 代表图片为狗,若依据历史数据统计可知该场景下猫图片占比 60%、狗图片占比 40%,则对应的概率质量函数可表示为 。上述离散分布可以使用下列表格表示:

随机变量 X 的取值
对应图片类别
概率 
0
0.4
1
0.6

离散型分布需满足非负性规范性两项基本性质。

  • 非负性:随机变量所有可能取值对应的概率均大于等于 0,数学表达为 
  • 规范性:随机变量所有可能取值的概率之和为 1,数学表达为  ,该性质确保离散分布能够完整覆盖随机变量的所有可能结果,符合概率的基本公理。

连续型分布

连续型分布是连续型随机变量的概率分布,描述连续型随机变量在某一区间内取值的概率规律。由于连续型随机变量无法通过逐一列举所有取值,因此需通过概率密度函数(Probability Density Function, PDF)描述其取值规律。 PDF 函数反映随机变量在某一区间内的概率密度,即单位区间长度内的概率值。以人类身高为例,设随机变量 X 表征人类身高,其概率密度函数呈现中间高、两端低的形态特征:在 165cm 至 175cm 区间内,概率密度达到最大值,表明该区间内的身高取值出现概率最高;而在靠近 150cm 或 190cm 的区间内,概率密度逐渐降低。上述随机变量的概率密度函数如下图所示:

连续型随机变量取任意单个具体数值的概率均为 0,若需计算该类随机变量在某一取值范围内的概率,需通过计算该区间内概率密度函数的定积分实现。设连续型随机变量   的概率密度函数为  ,则其在区间   内取值的概率为:

身高为165cm至175cm区间的概率可以使用上述公式进行计算,这个积分结果对应概率密度曲线与 x 轴在区间 [165,175] 围成的面积,也即上图中绿色阴影部分的面积。


【声明】内容源于网络
0
0
数据科学人工智能
聚焦数据科学,大数据,人工智能,区块链和云计算等话题。技术资料分享,院士名家观点分享,前沿资讯分享。
内容 931
粉丝 0
数据科学人工智能 聚焦数据科学,大数据,人工智能,区块链和云计算等话题。技术资料分享,院士名家观点分享,前沿资讯分享。
总阅读432
粉丝0
内容931