在学术研究中,回归分析无疑是论文里的 “明星” 分析方法。但面对 OLS、Logistic等众多回归方法,你是否也曾陷入选择困难?别担心!今天就借助 SPSSAi,带大家一次性搞懂不同回归方法的应用场景,让方法选择不再成为难题!

基础方法:线性回归
非定量变量适配:逻辑回归、有序逻辑回归、计数数据回归、二分类概率单位回归、条件逻辑回归
假设违背应对:岭回归、LASSO 回归、偏最小二乘回归、两阶段回归、Deming's 回归、稳健回归
特殊场景专属:逐步回归、断点回归、Tobit 回归、分位数回归、分层回归
(一)经典线性回归:连续变量的基础分析

数据要求:数据要求:因变量为连续变量,自变量可多个(单变量为简单线性回归),需满足五大基本假设。
1.线性关系:模型形式为线性
2.误差独立:误差项相互独立
3.自变量独立:无严格多重共线性
4.同方差性:误差项方差恒定
5.正态分布:残差服从正态分布
(y为因变量,x为自变量,\(\beta\)为回归系数,\(\epsilon\)为随机误差)
(二)非定量变量回归:适配分类与计数数据
1.逻辑回归
适用场景:因变量为二分类变量(如 “是 / 否”“成功 / 失败”)
核心原理:通过 Sigmoid 函数将线性组合转化为 0-1 概率
拓展应用:可通过多分类算法(如 One-vs-All)处理多分类问题。
公式为:

2.有序逻辑回归
适用场景:因变量为有序分类变量(如 “差 / 中 / 良 / 优”)
模型特点:将有序分类拆分为多个二分类逻辑回归,基于累积分布函数建模:

3.计数数据回归
适用场景:因变量为事件发生次数(如月度销售额、疾病发生率)
模型选择:泊松回归(适用于等均值方差数据)、负二项回归(适用于过度分散数据)、零膨胀模型(适用于零值过多数据)。
4.二分类概率单位回归
适用场景:二分类因变量,原理与逻辑回归相似,区别在于使用标准正态累积分布函数\(\Phi\)替代 Sigmoid 函数:

(三)假设违背应对:数据异常时的解决方案
1.多重共线性(自变量高度相关)
岭回归:引入 L2 正则化惩罚项,牺牲无偏性以降低方差,提升病态数据拟合稳定性。
LASSO 回归:采用 L1 正则化,强制部分系数为 0,实现变量筛选与模型降维,平衡模型简洁性与准确性。
偏最小二乘回归:处理多因变量对多自变量问题,通过提取主成分消除共线性,适用于高维数据。
2.解释变量内生性(自变量与误差项相关)
两阶段回归:借助工具变量(IV)分两步建模:
第一阶段:工具变量预测内生变量
第二阶段:用拟合值进行结果变量回归
(四)特殊场景专属方法
1.误差测量偏差
Deming's 回归:同时考虑自变量与因变量的测量误差,适用于双变量均存在误差的场景(如实验测量数据)。
2.异常值或重尾分布
逐步回归:自动选择最佳变量子集,包含向前选择(逐步添加)、向后选择(逐步剔除)、双向选择(结合前两者)三种策略
3.变量筛选
断点回归:准实验设计方法,分析自变量在临界点(如政策实施阈值)处的突变效应,分为精确断点(处理状态严格由临界点决定)与模糊断点(处理状态概率性依赖临界点)。
(五)线性回归进阶:分层分析核心变量贡献
分层回归:分阶段纳入变量(如第一层控制变量,第二层核心研究变量),通过比较各层模型的拟合优度(如 R² 变化),评估新增变量对因变量的独特贡献,适用于验证理论假设中的中介或调节效应。
(一)概念与定义
1.选择分析方法
step1.登录SPSSAI数据分析(www.spss-ai.com),在左侧导航栏选择“预测模型”类别下的“线性回归(最小二乘法)”。

2.上传分析数据
step1.支持XLSX、CSV、SAV、DTA、SAS7BDAT格式,不支持老式.xls。文件第一行为列名,建议大小不超过10MB。
step2.点击后,预览数据数据无误点击上传。
变量类型:
因变量(Y):必须为数值型,仅限 1 列。
自变量(X):可包含数值型或分类型变量,分类型变量会自动转换为哑变量或标签编码。
样本量:至少 8 条有效记录(建议≥30条)。

3.数据拖拽开始分析
step1.在中间面板选中对应列,拖拽至右侧面板。
step2.完成拖拽后,点击“开始分析”,系统自动检测分析完成后,跳转至结果报告页面。
变量类要求:
将 1 列数值型变量 拖拽到“因变量 Y”区。
将 ≥1 列自变量 拖拽到“自变量 X”区(最多支持 50 列)。

(二)结果分析与优化
输出结果一:回归系数表
非标准化系数(B):回归系数的估计值。
标准化系数(Beta):用于比较自变量的相对重要性。
t 值与 p 值:p<0.05 表示该自变量对因变量有显著影响。
R² / 调整 R²:模型对因变量的解释能力(R2 越高,拟合效果越好)。
F 检验:整体模型的显著性(p<0.05 表示模型有效)。

输出结果二:拟合效果图
横坐标为观测样本序号,纵坐标为实际值与预测值。若两条曲线高度贴合,说明模型拟合效果良好。

输出结果三:模型路径图
以节点形式展示各变量关系,箭头颜色表示回归系数方向(正向:蓝色;负向:红色)。

输出结果四:模型预测
在报告中输入新的自变量值,点击“计算预测”,即可得到因变量的估计值。

输出结果五:残差诊断
残差分布图:若残差呈单峰对称分布,说明模型适用性良好。

残差 vs. 拟合值:若残差在 0 附近随机分布,说明满足同方差性假设。

数据质量:缺失值或异常值过多可能导致模型失真,建议提前清洗数据。
多重共线性:当 VIF >10 时,需剔除高度相关的自变量或采用正则化方法。
模型假设:线性回归要求残差独立、正态分布且同方差。若假设不满足,可尝试对变量进行对数或平方根变换。
结果解读:显著性检验结果需结合实际业务背景进行分析,避免过度依赖统计指标。


