大数跨境
0
0

经典案例 | 多元线性回归模型预测房价(附代码与数据)

经典案例 | 多元线性回归模型预测房价(附代码与数据) 数据分析与商业实践
2020-07-01
1
导读:顺畅流程实现经典案例
👆 关注一下~,更多商业数据分析案例等你来撩

前言

本文重在以清晰明了的方式展示利用多元线性回归模型实现预测功能的基本流程。其中包含的知识点如下,源数据源代码可空降文末 ~~

变量探索

数据读入

异常值处理


类别变量数值分布情况


变量关系探索



方差分析

style 和 neighborhood 与房价 price 是否有关联可以使用方差分析


插播一条样本量和置信水平 α_level 的注意点(置信水平 α 的选择经验)
样本量
α-level
≤ 100
10%
100 < n ≤ 500
5%
500 < n ≤ 1000 1%
n > 2000
千分之一

根据 p 值,变量 style 与 neighborhood 都值得放入模型。

statsmodels 建模


模型优化

虚拟变量
关于虚拟变量的原理趣析可参考这篇文章
多元线性回归模型精度提升 -- 虚拟变量


方差膨胀因子

模型末尾提示可能存在多元共线性,需要处理一下,关于方差膨胀因子的原理趣析可参考这篇文章
多元共线性检测 -- 方差膨胀因子



发现精度没变,但实际情况中是否要删减还是需要结合具体业务来分析。

总结

多元线性回归模型作为最基础又最经典的模型之一,用处十分广泛。本文实现了从探索性数据分析到模型建立再到用经典的方法将模型优化的一套通用的流程,具体该添加哪些处理细节和算法,还需要根据实际情况进行考量。至于具体的模型参数和结果该怎么看,本文就不再一一赘述,其中往模型里添加了虚拟变量后该如何对结果进行解释,这一点在文中虚拟变量的链接中已详细地做出了解释。

注:相关数据源和超详细的代码(python,Jupyter Notebook 版本 + 详细注释)已经整理好,在 “ 数据分析与商业实践 ” 公众号后台回复 “ 多元预测 ” 即可获取。


后续会不断更新常见场景下的 Python 实践



【声明】内容源于网络
0
0
数据分析与商业实践
丰富的 Python 数据分析实战案例
内容 50
粉丝 0
数据分析与商业实践 丰富的 Python 数据分析实战案例
总阅读14
粉丝0
内容50