首先要明确异常值的判断标准:Z-Score基于数据点与均值的标准差倍数来识别异常,通常将∣Z∣>3的观测值视为异常值,这对应着正态分布下约99.7%置信区间外的点。但这种方法的前提是数据近似服从正态分布。如果销售量数据不服从正态分布(如呈现幂律分布),Z-Score法的敏感性会降低,可能无法准确识别异常。
其次业务背景理解:某些产品可能出现真实的高销售量,例如爆款商品或促销活动期间的销量激增,这些数据点虽然统计上表现为异常,但业务上是合理的。
最后考虑样本量大小:在样本量充足的情况下,删除异常值对整体分析影响较小;但如果样本量有限,直接删除可能导致信息损失。

