内容简介
《真实数据科学》的核心目标是引导读者进行负责任、可信赖的数据科学实践。本书跳出了单纯讲解算法和工具的局限,直击数据科学实践中最核心却常被忽视的挑战——如何确保数据分析结果的可信与可靠。书中提出了独特的PCS框架(可预测性、可计算性、稳定性),该框架贯穿于数据科学生命周期的全流程,旨在通过批判性思维和实证评估,帮助从业者避免“数据窥探”和得出误导性结论。
在内容组织上,本书主要分为三大部分:
1.基础概念篇:介绍PCS框架的精髓、数据科学生命周期(DSLC),并指导如何高效组织数据科学项目、运用开发工具确保可重复性。
2.数据准备与探索篇:深入探讨数据清理、预处理、探索性数据分析(EDA)、主成分分析及聚类等核心技术,并辅以PCS审查。
3.预测与分析篇:聚焦预测问题,介绍基于常见统计和机器学习算法(如最小二乘法、逻辑回归、决策树与随机森林等)的预测技术,并运用PCS框架评估预测结果的可信度。 全书借助全球器官捐献数据、美国农业部食物营养数据等真实案例,详细演示了从数据清洗、探索性数据分析到模型构建的全流程,展现了如何在复杂的真实数据场景中得出严谨、可信的结论。
作者介绍
本书作者之一的郁彬教授是国际著名的统计学家,现任加利福尼亚大学伯克利分校统计系、电子工程系和计算生物中心的校长杰出教授。她是美国国家科学院院士和美国艺术与科学院院士。郁彬教授在统计机器学习理论、高维数据分析、可信人工智能等领域成就斐然,并致力于广泛的跨学科研究。她曾于2013-2014年期间担任国际数理统计学会(IMS)主席,并获得多项重要荣誉。并获得多项重要荣誉。
另外,合著者丽贝卡·L·巴特于2019年毕业于加州大学伯克利分校取得统计学博士学位,现为犹他大学研究助理教授。她致力于改进统计学与数据素养的教学方法,并深入研究医疗数据,开发预测模型和进行解释性的数据可视化。
核心理念
本书的核心思想与PCS框架非常精要,其理念是:PCS框架旨在将预测和复制的科学原理嵌入到数据驱动的决策中,同时认识到计算的中心作用。它可以作为科学假设生成和实验设计的推荐系统,用于负责任的、可靠的、可复制的和透明的分析。
此外,本书强调运用批判性思维评估和建立可信度,并关注“多重因素如何影响分析质量,以及如何通过严谨的全流程管理提升结果的可靠性”。
小慕有话说
这本书为大家在以下三个层面提供了帮助:
聚焦可信赖的实践:不同于大多数讲解技术和算法的数据科学书籍,本书直面数据分析中的可信度与可靠性这一核心挑战,帮助大家从“会写代码”提升到“能做出负责任决策”的层次。
权威作者深厚积淀:作者郁彬教授是统计学和机器学习领域的国际权威,其深厚的学术背景和丰富的跨学科研究经验,保证了本书内容的深度与前瞻性。
PCS框架的强实用性:提供的PCS框架具有极强的可操作性,能系统地指导大家评估和提升数据分析各个阶段的质量,培养批判性思维习惯。
文 字 | 李明玥
排 版 | 贺宁新
责任编辑 | 肖 曈
二 审 | 贺明慧
三 审 | 田瑜辉

