前言
本文重在以清晰明了的方式展示利用多元线性回归模型实现预测功能的基本流程。其中包含的知识点如下,源数据源代码可空降文末 ~~

变量探索
数据读入


异常值处理


类别变量数值分布情况


变量关系探索

方差分析
style 和 neighborhood 与房价 price 是否有关联可以使用方差分析

插播一条样本量和置信水平 α_level 的注意点(置信水平 α 的选择经验)
样本量
|
α-level
|
≤ 100
|
10%
|
100 < n ≤ 500
|
5%
|
| 500 < n ≤ 1000 |
1%
|
n > 2000
|
千分之一 |


根据 p 值,变量 style 与 neighborhood 都值得放入模型。
statsmodels 建模


模型优化





模型末尾提示可能存在多元共线性,需要处理一下,关于方差膨胀因子的原理趣析可参考这篇文章




发现精度没变,但实际情况中是否要删减还是需要结合具体业务来分析。
总结
多元线性回归模型作为最基础又最经典的模型之一,用处十分广泛。本文实现了从探索性数据分析到模型建立再到用经典的方法将模型优化的一套通用的流程,具体该添加哪些处理细节和算法,还需要根据实际情况进行考量。至于具体的模型参数和结果该怎么看,本文就不再一一赘述,其中往模型里添加了虚拟变量后该如何对结果进行解释,这一点在文中虚拟变量的链接中已详细地做出了解释。
注:相关数据源和超详细的代码(python,Jupyter Notebook 版本 + 详细注释)已经整理好,在 “ 数据分析与商业实践 ” 公众号后台回复 “ 多元预测 ” 即可获取。
后续会不断更新常见场景下的 Python 实践
