

【视频课程预告】二分类因变量常用机器学习及深度学习模型系列课程

医学统计数据分析

2025-09-30

导读：二分类因变量的机器学习方法非常丰富，除了上述已列出的那些经典和现代方法，还有很多其他技术。下面我们将系统地列举、解释其概念、思想及应用。这些方法可以从不同维度进行分类，例如是否为线性模型、是否为概率模

二分类因变量机器学习模型，除了lasso、贝叶斯、KNN、Logistic、决策树、随机森林、SVM、神经网络、XGBoost、lightGBM外，还有其他常用的机器学习模型吗？

当然！二分类因变量的机器学习方法非常丰富，除了上述已列出的那些经典和现代方法，还有很多其他技术。下面我们将系统地列举、解释其概念、思想及应用。这些方法可以从不同维度进行分类，例如是否为线性模型、是否为概率模型、是否基于树等。我将它们分为几个大类进行介绍。

课程包含模型及R语言+Python的两套代码如下：

Python00-数据预处理及初步比较.txt

Python01-logistic回归模型的lasso回归、岭回归、弹性网络回归代码.txt

Python02-logistic回归机器学习模型.txt

Python03-决策树机器学习模型.txt

Python04-随机森林机器学习模型.txt

Python05-SVM机器学习模型.txt

Python06-神经网络机器学习模型.txt

Python07-XGBoost机器学习模型.txt

Python08-lightGBM机器学习模型.txt

Python09-朴素贝叶斯机器学习模型.txt

Python10-KNN机器学习模型.txt

Python11-九种模型五种评价批处理.txt

Python12-Probit回归机器学习模型.txt

Python13-Firth回归机器学习模型.txt

Python14-BART贝叶斯加性回归树机器学习模型.txt

Python15-ANN人工神经网络机器学习模型.txt

Python16-MLP多层感知机机器学习模型.txt

Python17-CNN卷积神经网络机器学习模型.txt

Python18-RNN循环神经网络机器学习模型.txt

Python19-Transformer机器学习模型.txt

Python20-DNN全连接网络机器学习模型.txt

R语言00-数据预处理及初步比较.txt

R语言01-logistic回归模型的lasso回归、岭回归、弹性网络回归代码.txt

R语言02-logistic回归机器学习模型.txt

R语言03-决策树机器学习模型.txt

R语言04-随机森林机器学习模型.txt

R语言05-SVM机器学习模型.txt

R语言06-神经网络机器学习模型.txt

R语言07-XGBoost机器学习模型.txt

R语言08-lightGBM机器学习模型.txt

R语言09-朴素贝叶斯机器学习模型.txt

R语言10-KNN机器学习模型.txt

R语言11-九种模型五种评价批处理.txt

R语言12-Probit回归机器学习模型.txt

R语言13-Firth回归机器学习模型.txt

R语言14-BART贝叶斯加性回归树机器学习模型.txt

R语言15-ANN人工神经网络机器学习模型.txt

R语言16-MLP多层感知机机器学习模型.txt

R语言17-CNN卷积神经网络机器学习模型.txt

R语言18-RNN循环神经网络机器学习模型.txt

R语言19-Transformer机器学习模型.txt

R语言20-DNN全连接网络机器学习模型.txt

示例数据库和上述模型全部代码，可在“医学统计数据分析”视频号-付费合集-找到“二分类因变量机器学习”课程，兑换后获取；具体获取方式：在“医学统计数据分析”公众号右下角，找到“联系作者”，加作者微信凭兑换截图获取。

一、广义线性模型及其扩展

这类模型本质上是线性模型的推广，通过一个“连接函数”将线性组合与因变量的期望值联系起来。

1. Logistic 回归

* 概念：一种广义线性模型，用于估计一个实例属于某个类别的概率。

* 思想：使用逻辑函数（Sigmoid函数）将线性回归的输出映射到 (0, 1) 区间，这个值被解释为概率。通过最大似然估计来求解模型参数。

* 应用：几乎是二分类问题的基准模型，广泛应用于医疗（疾病诊断）、金融（信用评分）、营销（客户流失预测）等领域。解释性强。

2. Probit 回归

* 概念：与Logistic回归类似，但使用标准正态分布的累积分布函数作为连接函数。

* 思想：假设存在一个潜在的、不可观察的连续变量，当该变量超过某个阈值时，我们观察到事件发生（Y=1）。Probit模型对这个潜在变量建模。

* 应用：常用于经济学、生物assay领域。其结果与Logistic回归通常非常接近，但在分布假设上有所不同。

3. Firth 回归

* 概念：一种带惩罚的Logistic回归，用于解决完全分离或小样本问题。

* 思想：在似然函数中加入一个基于Fisher信息的惩罚项，从而避免在完全分离情况下参数估计值趋向于无穷大的问题，并能减少小样本下的偏差。

* 应用：生物医学研究、流行病学中，当某个预测变量能完美区分结果时，或当样本量很小（特别是罕见事件）时特别有用。

二、基于树的方法及其集成

这类模型通过构建“如果-那么”规则的树状结构来做出决策。

4. 决策树

* 概念：通过一系列if-then-else规则对数据进行递归分割，最终形成一棵树。

* 思想：选择能最好地将数据纯度（如基尼系数、信息增益）最大化的特征进行分割，直到满足停止条件（如树深度、叶节点最小样本数）。

* 应用：模型非常直观，易于解释。常用于需要清晰决策规则的场景，如客户分群。

5. 随机森林

* 概念：一种集成学习算法，构建多棵决策树，并通过投票或平均来得到最终结果。

* 思想： Bootstrap Aggregating：通过有放回抽样生成多个训练子集，每个子集训练一棵树。特征随机性：在每棵树分裂时，只在随机选取的一部分特征中选择最优分裂点。这种“双重随机”有效降低了方差，避免了过拟合。

* 应用：性能通常非常强大且稳定，无需太多调参。是当前最常用的算法之一，适用于各种领域。

6. 梯度提升机 / XGBoost / LightGBM / CatBoost

* 概念：另一种强大的集成学习算法，以“串行”的方式构建一系列弱学习器（通常是决策树）。

* 思想： Boosting：每一棵树都试图修正前一棵树的预测误差。通过梯度下降算法来最小化损失函数，逐步提升模型性能。

* XGBoost：对GBDT的工程优化，加入了正则化项，速度更快，效果更好。

* LightGBM：基于直方图的算法，训练速度更快，内存消耗更小。

* CatBoost：能高效、自动地处理类别型特征。

* 应用：在众多数据科学竞赛中占据统治地位，是处理表格数据的首选算法之一。

三、基于核函数与边界的方法

这类模型擅长在高维空间中寻找最优决策边界。

7. 支持向量机

* 概念：寻找一个超平面，使得两类数据点之间的“间隔”最大化。

* 思想：核心思想是最大化间隔。通过使用核技巧，可以将线性不可分的数据映射到高维空间，使其变得线性可分。

* 应用：在特征维度高、样本量相对较小（如图像、文本分类）的场景下表现优异。

四、基于概率与贝叶斯的方法

这类模型基于严格的概率框架。

8. 朴素贝叶斯

* 概念：基于贝叶斯定理，并假设特征之间相互独立。

* 思想：计算给定特征下属于每个类别的后验概率，选择概率最大的类别。尽管“特征独立”的假设在现实中很少成立，但该模型依然非常有效。

* 应用：特别适合文本分类（如垃圾邮件识别），因为简单、快速且对于高维稀疏数据效果不错。

9. 贝叶斯加性回归树

* 概念：是随机森林的贝叶斯版本，同样是一种集成树模型，但提供了完整的概率推断框架。

* 思想：使用MCMC方法从树模型的后验分布中进行抽样，最终预测是所有抽样树的平均。它能天然地估计预测的不确定性。

* 应用：当需要量化预测不确定性（如可信区间）时非常有用，性能通常不逊于甚至优于随机森林和梯度提升。

五、基于实例的方法

这类模型不做显式的模型训练，而是利用训练数据本身进行预测。

10. K-最近邻算法

* 概念：一个实例的类别由其K个最近邻居的多数投票决定。

* 思想： “物以类聚”。算法认为相似的特征会对应相似的输出。

* 应用：简单直观，适用于样本分布比较复杂、且样本量不大的情况。但对数据规模和特征缩放敏感。

六、神经网络与深度学习

这类模型受人脑神经元连接启发，由多层处理单元构成。

11. 人工神经网络

概念：由输入层、隐藏层和输出层组成的网络，每层包含多个神经元。

思想：通过前向传播计算输出，通过反向传播算法和梯度下降来调整神经元之间的连接权重，以最小化预测误差。

应用：理论上可以拟合任何复杂函数。对于结构化数据，其性能常与梯度提升树相当。是深度学习的基础。

12.多层感知机（MLP）

多层感知机（MLP）

概念：MLP是前馈神经网络的一种，包含多个隐藏层，是ANN的具体实现形式。

原理

网络结构：全连接的前馈网络；至少一个隐藏层；使用非线性激活函数

关键技术：

反向传播算法；梯度下降优化；各种激活函数（ReLU、Sigmoid、Tanh）

应用场景

分类问题：图像分类、文本分类

回归分析：房价预测、销量预测

函数逼近：复杂函数拟合

时间序列：股票预测、天气预测

特点

优点：

通用逼近定理保证；能够学习复杂模式；自动特征学习；适用于各种数据类型

缺点：

需要大量参数调优；对数据预处理敏感；训练稳定性问题；局部最优解风险

深度学习架构

概念：具有更多隐藏层的神经网络，以及更复杂的结构，如卷积神经网络、循环神经网络、全连接网络、Transformer等。

思想：通过深度层次结构自动学习数据的层次化特征表示。

应用：主要应用于非结构化数据（图像、语音、文本）。对于纯结构化数据的二分类问题，通常MLP已经足够，但在特征间有复杂时空关系时，特定架构的深度学习模型可能更优。

13.卷积神经网络（CNN）

概念：CNN是专门设计用于处理网格状数据（如图像）的神经网络，具有卷积层和池化层。

原理

核心组件：

卷积层：特征提取，参数共享

池化层：降维，保持特征不变性

全连接层：分类决策

特殊机制：局部连接；权重共享；平移不变性

应用场景

计算机视觉：图像分类、目标检测

医疗影像：疾病诊断、组织分割

自动驾驶：道路识别、障碍物检测

视频分析：行为识别、场景理解

特点

优点：参数效率高；平移不变性；自动特征学习；在视觉任务中表现卓越

缺点：对输入尺寸敏感；需要大量标注数据；计算资源需求高；对旋转和尺度变化敏感

14.循环神经网络（RNN）

概念：RNN是专门用于处理序列数据的神经网络，具有循环连接，能够保持时间维度上的信息。

原理

核心机制：

隐藏状态传递：h_t = f(W·[h_{t-1}, x_t] + b)；参数在时间步间共享；能够处理变长序列

变体模型：

LSTM（长短期记忆）

GRU（门控循环单元）

Bi-RNN（双向RNN）

应用场景

自然语言处理：机器翻译、文本生成

语音识别：语音转文本、语音合成

时间序列预测：股票预测、销量预测

视频处理：动作识别、视频描述

特点

优点：能够处理变长序列；捕捉时间依赖性；参数共享减少过拟合；适合序列建模任务

缺点：梯度消失/爆炸问题；长期依赖学习困难；训练计算复杂度高；并行化困难

15.全连接网络

我们通常所说的全连接网络（Fully Connected Network, FCN）也就是多层感知机（MLP），它是一种基础的前馈神经网络。下面我将详细描述全连接网络的概念、原理、应用和特点。

一、概念

全连接网络（Fully Connected Network）是一种人工神经网络（ANN），其中每个神经元与相邻层的每个神经元都连接。也就是说，第L层的每个神经元都与第L-1层的所有神经元相连，因此被称为“全连接”。全连接网络通常由输入层、一个或多个隐藏层和输出层组成。

二、原理

（一）网络结构

输入层：接收原始特征向量。

隐藏层：一个或多个，每个隐藏层包含多个神经元，每个神经元与前一层的所有神经元相连。

输出层：根据任务不同，输出层可以是一个神经元（回归或二分类）或多个神经元（多分类）。

（二）前向传播

对于第l层（当前层）的第j个神经元，然后，通过激活函数f得到该神经元的输出：常用的激活函数包括Sigmoid、Tanh、ReLU等。

（三）激活函数

Sigmoid：将输入压缩到(0,1)，适合二分类输出层，但容易导致梯度消失。

Tanh：将输入压缩到(-1,1)，是Sigmoid的缩放版本。

ReLU：f(x)=max(0,x)，缓解梯度消失，计算简单，是目前最常用的激活函数。

（四）损失函数

根据任务选择：

回归问题：均方误差（MSE）

分类问题：交叉熵损失（Cross-Entropy）

（五）反向传播

通过梯度下降法优化权重和偏置，利用链式法则计算损失函数对每个参数的梯度。具体步骤：

前向传播计算输出和损失。

反向传播计算梯度：从输出层开始，逐层计算损失对权重和偏置的梯度。

更新参数：使用优化算法（如随机梯度下降SGD、Adam等）更新权重和偏置。

（六）优化算法

随机梯度下降（SGD）：每次使用一个样本或一小批样本更新参数。

动量法：加速SGD，并抑制振荡。

Adam：结合动量和自适应学习率。

16.Transformer

Transformer是基于自注意力机制的序列到序列模型，完全基于注意力机制，无需循环或卷积操作。

原理

核心组件：

自注意力机制：Query-Key-Value计算

位置编码：注入序列位置信息

前馈网络：位置级变换

残差连接和层归一化

注意力公式：

Attention(Q,K,V) = softmax(QKᵀ/√dₖ)V

应用场景

自然语言处理：BERT、GPT等预训练模型

机器翻译：多语言翻译系统

文本生成：对话系统、创作助手

多模态学习：图文理解、视频描述

特点

优点：并行计算效率高；长距离依赖建模能力强；可扩展性好；在NLP任务中表现卓越

缺点：计算复杂度高（O(n²)）；位置编码的局限性；需要大量训练数据；内存消耗大

机器学习模型如何选择？

* 追求可解释性：首选 Logistic回归或决策树。

* 追求“开箱即用”的强劲性能：首选随机森林或梯度提升树（XGBoost/LightGBM）。

* 样本量小或存在完全分离：使用 Firth回归。

* 特征维度非常高（如文本）：可以尝试朴素贝叶斯或线性SVM。

* 需要量化不确定性：考虑贝叶斯加性回归树（BART）或贝叶斯Logistic回归。

* 数据是非结构化的（图像、文本）：深度学习是必然选择。

在实际项目中，通常会尝试多种模型（如Logistic回归、随机森林、XGBoost），然后使用您提到的ROC曲线、PR曲线、校准曲线、DCA曲线等工具进行综合评估，最终选择最适合业务需求的模型。

选择建议

传统统计问题：Probit回归、Firth回归

需要不确定性量化：BART

通用模式识别：ANN、MLP

图像处理：CNN

序列数据：RNN（短序列）、Transformer（长序列）

现代NLP任务：Transformer

这些模型各有特色，在实际应用中应根据具体问题特点、数据特性和资源约束来选择最合适的模型。

医学统计数据分析分享交流SPSS、R语言、Python、ArcGis、Geoda、GraphPad、数据分析图表制作等心得。承接数据分析，论文返修，医学统计，机器学习，生存分析，空间分析，问卷分析业务。若有投稿和数据分析代做需求，可以直接联系我，谢谢！

！！！可加我粉丝群！！！

公众号右下角-联系作者，

可加我微信，邀请入粉丝群！

【临床】有临床流行病学数据分析如（t检验、方差分析、χ2检验、logistic回归）、（重复测量方差分析与配对T检验、ROC曲线）、（非参数检验、生存分析、样本含量估计）、（筛检试验：灵敏度、特异度、约登指数等计算）、（绘制柱状图、散点图、小提琴图、列线图等）、机器学习、深度学习、生存分析等需求的同仁们，加入【临床】粉丝群。

【公卫】疾控，公卫岗位的同仁，可以加一下【公卫】粉丝群，分享生态学研究、空间分析、时间序列、监测数据分析、时空面板技巧等工作科研自动化内容。

【生信】有实验室数据分析需求的同仁们，可以加入【生信】粉丝群，交流NCBI（基因序列）、UniProt（蛋白质）、KEGG（通路）、GEO（公共数据集）等公共数据库、基因组学转录组学蛋白组学代谢组学表型组学等数据分析和可视化内容。

在“医学统计数据分析”公众号右下角，找到“联系作者”，加作者微信，可以拉进群！！！