点击上方蓝字“谁说菜鸟不会数据分析”
关注➕星标公众号
更多干货不错过!
1. 连续变量和离散变量的区别
离散变量是指其数值只能用自然数或整数单位计算的则为离散变量。例如,企业个数、职工人数、设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得。
连续变量是在一定区间内可以任意取值的变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。例如,生产零件的规格尺寸、人体测量的身高、体重、胸围等为连续变量,其数值只能用测量或计量的方法取得。
离散变量的概率分布,常用的有二项分布、泊松(Poisson)分布。其余的还有两点分布、几何分布、超几何分布等概率分布。
2.连续变量转换成分类变量
统计中如何将连续变量转换为分类变量?在做统计分析的时候,类似“年龄”这样的变量,不仅可以按照常规作为连续变量纳入分析,同时,还可以将其合理地转变为分类变量再纳入分析,以成功发掘出那些容易被隐藏的真实世界。
要想把连续数值转换成几个类别,找截点是关键!最简单的办法,所有数据按照大小排列,比如将排列好的100个case平均分为10组(若想进行更加细致的分析,可以分为更多组),每组10个case。
3. 设置哑变量
连续变量转换成分类变量以后,通常需要设置哑变量。
对于dummy variable的翻译,一般叫做哑变量,其实应该叫虚拟变量更为合适,就是用一些数值上虚拟的值(0或1)去代替那些无法直接纳入统计分析的变量。比如说,对于性别这种两分类的情况,我们只需要设置0和1即可,那么对于胃癌的病理类型(有4个分类)呢,我们就需要用一系列数值来表示了。
于是,这样我们就将原本是连续变量的数据转换为分类变量。数据需要进行转换的原因是该连续变量的数据与结局之间并非线性关系,而可能是折线或抛物线等非线性关系。那么,应该直接将连续变量纳入模型进行分析,还是先转换为分类变量?这需要依据数据的实际情况,并结合临床目的进行数据处理和结果解读,以得到对客观世界真实合理的诠释。
这就是今天想跟大家分享的内容。觉得有用别忘了点个“在看”哦!
本文部分内容转自:百度百科
