数据收集是BADIR框架中的步骤3(见图1)。通常,人们从这里开始数据分析工作,但在你查看数据之前,你需要先了解问题并达成一致同意的分析计划,以便可以策略化你的数据收集工作。
图1 BADIR分析框架:步骤3——数据收集
为了加快进程,SmartShoes公司的杰夫跳过了分析计划的这一步,然后,为了进一步节省时间,他的团队又跳过了数据清理和验证步骤。他们没有去想需要什么数据或去哪里拉取这些数据。结果,他的团队不得不去收集所有的数据,通宵加班。
步骤3:数据收集——数据科学层面
记住,GIGO(无用输入,无用输出)。分析结论的质量和分析建议的价值取决于你一开始使用数据的质量。数据收集,以及数据清理和验证,都很重要。
让我们谈谈数据收集的两个阶段和最常见错误的避免。
(1)数据拉取:根据数据规范收集数据。
(2)数据清理和验证:清理数据使其可用,并验证数据以确保数据准确。
数据拉取
根据分析计划中的数据规范去收集数据,而分析计划又是由分析目标、假设和所选方法决定的。根据你所处的角色,该过程可能会有所不同。
●如果你是商业专业人士,请让分析人员根据规范提取数据,或者从Tableau、Pentahoe或MicroStrategy等商业智能工具中提取数据则更好。虽然通过这些数据仓库获得的只是综合数据,但这样的数据对于大多数简单分析是足够的,因此它不是什么重大的限制。
●如果你是分析人员,则可能直接使用SQL或类似语言从数据库中提取数据,然后进行整合。
提取数据,特别是直接从数据库中提取数据时,先提取一个小样本进行考察,以确保那确实是你所需要的。此外,了解每个指标的预期数据类型,并确保它与你在样本中看到的一致。
数据错误的常见来源。第一种数据错误产生于多个来源。你可能会从各种不同的应用程序(如CRM系统、Web分析工具、产品环境、数据库或机器数据)中提取数据,最
终获得来自不同数据源的类似数据点。为此,应确保分析中使用数据的一致性,要知道每个数据的来源(见表1)
表1 数据收集指南
你可能会发现,并非每个数据源都以相同的方式在定义数据,或者,它们对数据的定义与你所想要的定义不同。例如,不同的来源可能会以不同的方式定义销售收入或成交率,这可能会对你的数据分析产生影响。

