每个数据科学家都必学的统计学概念
跨境电商数据分析小九哥
在数据科学领域,有一些重要的思想帮助人们提高了工作流程的效率,并且也成为了强大的工具。这些思想帮助数据科学家们理解他们所处理的所有信息。
没错,这些重要的思想就是统计学。正是这些基本概念构建了数据科学的流程。
在本文中,我们将会探索统计学概念是如何对数据科学做出贡献的。无论你是刚接触数据科学还是已经从事这个行业一段时间了,这些概念都是你的一本指南。它们帮助你进一步理解数据中的数字并用它们做出明智的决策。
那么,让我们深入探究这些让数据科学变得如此强劲有力的基本统计学概念吧。
顾名思义,应用统计学、概率论以及微积分等科学概念,从获取的数据中获取有意义的见解的过程即是数据科学。
数据科学帮助我们预测未来,就像天气预报告诉我们明天是否会下雨。它并不是一种魔法,而是使用了数据和机器学习。这是一个关于在数据中寻找真相的过程。它会帮助我们回答并解决问题。
现在,我们可以深入探讨为什么在数据科学中需要统计学以及它是如何对数据科学做出贡献的。
统计学为数据科学家提供了必要的工具、方法以及准则去探索、分析数据并且从中提取有价值的见解。离开了统计学,数据科学将失去制定数据驱动决策以及解决复杂问题的严谨性和可靠性。

我们可以把应用于数据科学的统计学知识大致分为以下几类:
描述统计是有关数据展示和数据总结的统计学分支。它的首要目标是提供一个对数据的清晰的、简洁的概览,以便更容易解释和理解数据。
✅中位数-与平均值相比,能更有效地提供平均信息,并且免受异常数据的影响。
✅标准差-方差的平方根,提供更可解释的数据变异性度量。
✅百分位数-表示数据集中小于或等于某一特定值的数据点百分比的度量。
✅IQR(四分位数间距)-第一个四分位数和第三个四分位数之间的范围度量,有助于识别中间 50% 的数据。
✅直方图-沿水平轴落入特定间隔(箱)的数据点的频率或计数的度量。
✅PDF(概率密度函数)-一种描述连续随机变量在给定范围内取特定值可能性的统计函数。
✅CDF(累积密度函数)-一种给出随机变量小于或等于特定值的累积概率的统计函数。
推断统计是统计学的一个分支,其根据样本数据对总体进行推断、预测或泛化。 它可以帮助我们通过分析较大群体(总体)中较小的、有代表性的子集(样本)来得出结论或做出陈述。
✅假设检验-它提出有关总体参数(例如总体平均值)的假设,并使用样本数据来测试这些假设是否得到支持或反驳。
✅统计检验-推断统计张总各种用来比较组、评估关系和做出预测的统计检验,例如t检验、卡方检验、方差分析和回归分析。
✅显著性水平-通常用α表示,表示犯 I 类错误的概率,即错误地拒绝真实的原假设。
回归分析是数据科学中使用的一种统计技术,它量化一个或多个自变量(预测变量)与因变量(结果)之间的关系,以便做出预测或了解预测变量对结果的影响。
✅线性回归-它通过对数据拟合线性方程来建立因变量和一个或多个自变量之间的关系。
✅多重回归-它包含两个或多个自变量来预测单个因变量。
✅多项式回归-它使变量之间的关系看起来是非线性的,该模型将数据拟合到多项式(例如二次或三次)方程。
✅岭回归和Lasso回归 - 线性回归的变体,其结合了处理多重共线性和防止过度拟合的正则化技术。
照片由Unsplash的Enayet Raheem拍摄
数据采样是数据科学中使用的一种统计技术,其用于从较大的数据集中选择数据点子集。 采样的目的是使数据分析更易于管理、更具性价比且更实用,特别是在处理大型或广泛的数据集时。
✅随机抽样-在这种方法中,总体中的每个个体或成员都有相等的可能性被选为样本。它减少了偏差并且确保样本能够代表总体。
✅分层抽样-根据某些特征(例如年龄、性别、地点)将总体分为子群或子层级。然后,在每个层内进行随机抽样,以确保所有组的代表性。
✅系统抽样-随机选择起点,然后将每个“第k个”个体包含在样本中。它很简单而且通常比简单的随机抽样更有效。
它是指导预测建模选择相关特征(变量)的统计技术。特征重要性和相关性分析等技术可以帮助数据科学家选择最有影响力的特征。
✅基于相关性的特征选择-根据与目标变量的相关性来选择特征,删除多余或高度相关的特征。
✅基于树的特征重要性-决策树和集成模型(例如随机森林、梯度提升)提供可用于选择最重要的特征的特征重要性评分。
✅互信息——衡量特征与目标变量之间的依赖关系,选择互信息高的特征。
✅L1 正则化(Lasso)- 通过惩罚特征系数的绝对值来促进模型的稀疏性,有效地选择特征子集。
✅准确率-准确率衡量分类模型中正确分类的实例比例。
✅平均绝对误差 (MAE)-MAE计算预测值和实际值之间的平均绝对差。
✅均方误差 (MSE) - MSE计算预测值和实际值之间的平方差的平均值。
✅均方根误差 (RMSE)-RMSE 是 MSE 的平方根,提供一个与目标变量相同单位的可解释指标。
✅R方 (R²) 或可决系数-R² 衡量模型中因变量方差可被自变量解释的比例。
✅受试者工作特征曲线下的面积 (ROC AUC)-它测量受试者工作特征曲线下的面积,该曲线绘制了在不同阈值下真阳率(召回率)和假阳率之间的权衡。
✅混淆矩阵-一个显示真阳、真阴、假阳和假阴数量的表格,提供对分类模型性能的详细了解。
✅精确率-衡量真阳预测与总阳预测的比率,强调模型避免假阳的能力。
✅召回率-衡量真阳与实际阳性总数的比率,强调模型找到所有相关实例的能力。
✅F1-Score-精确率和召回率的调和平均值,提供两个指标之间的平衡。
照片由Unsplash的ThisisEngineering RAEng拍摄
Statistical concepts that every Data Scientist should know
https://pub.aimind.so/statistical-concepts-that-every-data-scientist-should-know-478b90a997ad
译者简介:尤杨,清华大学-哥伦比亚大学商务分析双硕士在读,希望可以进一步探索数据科学的世界。对新生事物充满好奇,热爱探索,希望可以结交更多的朋友。
版权声明:本号内容部分来自互联网,转载请注明原文链接和作者,如有侵权或出处有误请和我们联系。
数据分析(ID : ecshujufenxi )互联网科技与数据圈自己的微信,也是WeMedia自媒体联盟成员之一,WeMedia联盟覆盖5000万人群。
跨境电商数据分析小九哥
各类跨境出海行业相关资讯