大数跨境
0
0

AI的数学基础 | 样本生成:从已知分布生成样本

AI的数学基础 | 样本生成:从已知分布生成样本 数据科学人工智能
2025-12-04
3
导读:从已知分布生成样本,是指基于明确的分布类型及该分布的参数,通过随机数生成算法或数学转换,构造出一组服从该分布规律的模拟数据的过程。

从已知分布生成样本,是指基于明确的分布类型(如正态分布、二项分布)及该分布的参数(如正态分布的均值   和方差   、二项分布的试验次数   和成功概率   ),通过随机数生成算法或数学转换,构造出一组服从该分布规律的模拟数据的过程。

这一技术的价值体现在三方面:一是缓解数据稀缺困境,例如医疗影像因隐私限制难以规模化获取,可通过少量真实样本拟合分布后生成模拟数据;二是降低研发成本,无需重复采集真实数据就能为研究提供多样化的数据素材;三是支撑算法验证,可生成符合特定规律的数据检验方法的鲁棒性,例如用泊松分布模拟设备故障数据,验证预警算法的灵敏度。

样本生成的基本方法与流程

从已知分布生成样本以均匀随机数为基础,通过分布转换实现目标样本构造。对于各类离散型分布与连续型分布,生成样本的流程可分为以下三个步骤:

第一步:确定目标分布及参数。 需结合业务场景或真实数据拟合结果明确模型,例如通过学生身高数据拟合出正态分布   ,或根据产品质检需求设定二项分布   。

第二步:生成基础均匀随机数。 获取   区间的均匀分布随机数   ,这是所有样本生成的基础。计算机可通过线性同余法、硬件噪声等方式高效生成高质量均匀随机数,确保其具备统计独立性与均匀性。

第三步:分布转换与样本输出。 根据目标分布特性选择对应方法,将均匀随机数映射为目标样本。主要转换技术包括:一是逆变换法,利用分布的累积分布函数(CDF)逆函数实现转换,适用于指数分布等逆函数可解析的场景;二是特殊变换法,如 Box-Muller 变换用于正态分布;三是接受-拒绝法,适用于逆函数难以求解的复杂分布。

均匀分布随机数

均匀分布随机数特指取值在   区间内均匀分布随机数,其概率密度函数为:

均匀分布随机数的生成是所有分布生成样本的基本操作。任何分布的样本都可通过均匀随机数转换得到,例如离散型分布的概率区间匹配、连续型分布的逆变换,均以均匀随机数为中介。

常见获取方式分为伪随机数生成真随机数生成两大类。伪随机数生成方法是目前应用最广泛的类型,其核心是通过确定性数学算法,以初始种子值为起点迭代运算,输出符合均匀分布统计特性的数值序列。这类方法生成速度快、可复现(固定种子即得相同序列)、无需专用硬件,满足工程仿真、数据分析等绝大多数场景需求。真随机数生成方法则基于物理现象的固有随机性,通过专用硬件采集半导体热噪声、大气噪声、量子力学现象等随机信号,经数字化处理后得到均匀随机数。其优势是具备真正的不可预测性,安全性极高,适用于密码学、高安全通信等特殊场景,但存在生成成本高、速度相对较慢的局限性。

在大部分场景下,伪随机数生成方法是首要选择。以下以原理简单、应用广泛的线性同余法为例,介绍其主要生成流程。线性同余法通过固定数学公式迭代运算,四步即可生成   区间的均匀伪随机数,是数据处理工具的常用方案。

1. 确定参数与公式 核心是一个迭代公式:   ,需预先设定四个参数:   (乘数,如1103515245)、   (增量,如12345)、   (模数,如   ,决定数值范围)、   (种子,生成序列的起点)。

2. 输入初始种子 种子为非负整数,是伪随机数可复现的关键——固定种子后,生成的序列完全相同,方便实验验证。例如设定   ,代入上述参数运算。

3. 迭代生成整数 将种子代入公式循环计算,前一次结果作为下一次输入。如第一次运算:   ,依此生成连续整数序列。

4. 归一化得均匀随机数 生成的整数范围为   ,将其除以   即可转换为   区间的均匀随机数。例如   归一化后为   ,满足均匀分布要求。

常见分布的样本生成方法

下面我们选择离散型分布中的二项分布和泊松分布,以及连续型分布中的正态分布和指数分布,介绍其样本生成方法。

1. 二项分布

二项分布描述   次独立伯努利试验中的成功次数,参数为试验次数   和单次成功概率   ,其概率质量函数为   (   )。生成方法为伯努利试验叠加法,其原理为二项分布样本是   次伯努利试验结果之和,具体步骤如下:

  • 生成   个   区间的均匀随机数   ;

  • 对每个随机数进行判断,若   则记为 1(代表试验成功),否则记为 0(代表试验失败);

  • 将   个结果求和,得到一个二项分布样本;

  • 重复上述步骤,生成所需数量的样本。

2. 指数分布

指数分布的抽样可通过逆变换法高效实现,其理论依据源于概率积分变换定理:

对于任意累积分布函数(CDF)满足严格单调递增且连续特性的目标分布,若设该分布的随机变量为    、其 CDF 为    ,则构造的新随机变量     服从     区间上的均匀分布。

基于这一核心定理,逆变换法的原理可简洁概括为上述结论的逆用:由于目标分布的 CDF 满足严格单调递增且连续的条件,其逆函数     唯一存在;若先获取     区间的均匀分布随机数    ,将其代入目标分布 CDF 的逆函数    ,则计算所得结果     恰好服从该目标分布。

指数分布概率密度函数为   (   )。累积分布函数为  ,其 CDF 逆函数可直接求解为   。因此指数分布的样本生成直接采用逆变换法生成样本,步骤如下:

  • 确定率参数   和所需样本量   ;

  • 生成   个相互独立的   均匀随机数   (注意   );

  • 通过逆变换公式   计算每个随机数对应的指数分布样本。由于   与   同服从均匀分布,上述逆转换公式可简化为 

3. 泊松分布

泊松分布刻画单位时间/空间内稀有事件的发生次数,参数为平均发生次数   ,其概率质量函数为   (   )。注意到相邻事件时间间隔服从   ,因此我们可以利用指数分布来生成泊松分布的样本,步骤如下:

  • 预设参数   和所需样本量   ,初始化计数器   、累计时间   ;

  • 生成一个   均匀随机数   ,通过公式   计算相邻事件的时间间隔   ;

  • 将时间间隔累加到   中,若   (代表仍在单位时间内),则计数器   加 1,重复第二步;

  • 若   (代表超出单位时间),则当前计数器   即为一个泊松分布样本;

  • 重置   和   ,重复上述步骤,直至生成   个样本。

4. 正态分布

正态分布概率密度函数为   。由于其累积分布函数(CDF)无解析逆函数,无法直接采用逆变换法生成样本,因此常用 Box-Muller 变换法这一特殊变换技术。

Box-Muller 变换法的核心是由 2 个独立   均匀随机数    ,生成 2 个独立标准正态随机数    。它的步骤如下:

  1. 极坐标简化:标准正态变量     对应平面点,用极坐标表示:   ,   (    为极径,    为极角)。  因正态分布对称性,    与     独立,可分别生成。

  2. 生成极角   服从     均匀分布,而    ,线性缩放得   。

  3. 生成极径   服从瑞利分布,其分布函数为    。  令    (均匀数匹配概率范围),解方程得:  (因     与     同分布,简化所得)。

  4. 还原正态变量:代入极坐标转直角坐标公式,得最终变换:    ,

要生成服从   的样本,可以先使用 Box-Muller 变换法生成符合标准正态分布的样本,再通过线性变换得到目标参数的正态分布样本,步骤如下:

  • 生成两个相互独立的   均匀随机数   和   (注意   );

  • 通过变换公式计算标准正态分布(   )样本:   、   ;

  • 通过线性变换   ,将标准正态样本   转换为目标参数   的正态分布样本。

小结

除了逆变换法、Box-Muller 变换这类适用于简单分布的解析型采样方法,AI 图像等复杂数据生成场景更依赖数据驱动的生成式方法。主流包括生成对抗网络(GAN)通过对抗训练学习图像分布、扩散模型通过噪声迭代恢复真实样本,此外马尔可夫链蒙特卡洛(MCMC)和接受-拒绝法也可用于低维复杂特征采样,这些方法无需显式建模复杂分布,能高效生成高维、强关联的非结构化样本。

生成样本的质量评估方法

样本质量直接决定研究分析的最终效果,评估时需结合可视化、统计量、假设检验三类方法综合验证,确保样本符合预设的目标分布。在这三类方法中,可视化检验凭借直观易懂的优势,成为直观断样本分布形态的首要工具。可视化检验通过图形直观比对样本分布与目标分布的吻合度,常用工具主要有直方图Q-Q图

以直方图为例,我们可将样本的频率分布转化为柱状图呈现,同时叠加目标分布的概率密度函数或概率质量函数曲线,如下图左图所示。判断标准十分简单:若直方图的整体走势与理论曲线高度吻合,说明样本质量良好。比如当目标分布为正态分布时,合格样本的直方图会呈现典型的钟形,且柱状图的峰值位置、对称程度都与理论正态曲线基本一致。

Q-Q图是另一种可视化工具,其核心思路是对比样本分位数与目标分布分位数的对应关系,如上图右图所示。具体操作步骤为:先将样本数据按从小到大排序,计算出各分位点的实际值;再对应计算目标分布相同分位点的理论值;最后以样本分位数为纵轴、理论分位数为横轴绘制散点图。这类图形的判断标准同样直观:若散点大致落在对角线   上,就表明样本的分位数特征与目标分布高度匹配,样本符合目标分布要求。以正态分布样本为例,合格的Q-Q图中,散点会紧密贴合对角线;若散点出现明显偏离,比如两端向上翘起或向下弯曲,则说明样本不符合正态分布特征。

除可视化检验外,样本质量评估还会用到统计量检验与假设检验,此处仅做简要说明。统计量检验的核心是计算样本的核心特征,再与目标分布的理论特征进行比对,若两者差异极小,即可认为样本质量可靠。假设检验则是通过专业统计方法验证样本与目标分布的一致性,核心参考指标是 P 值,若该指标满足预设条件,就能判断样本符合目标分布。


【声明】内容源于网络
0
0
数据科学人工智能
聚焦数据科学,大数据,人工智能,区块链和云计算等话题。技术资料分享,院士名家观点分享,前沿资讯分享。
内容 931
粉丝 0
数据科学人工智能 聚焦数据科学,大数据,人工智能,区块链和云计算等话题。技术资料分享,院士名家观点分享,前沿资讯分享。
总阅读442
粉丝0
内容931