大数跨境
0
0

高维稀疏数据聚类知识发现理论

高维稀疏数据聚类知识发现理论 科学出版社
2022-11-21
0
导读:《高维稀疏数据聚类知识发现理论》面向数据库知识发现的聚类任务,针对高维数据普遍具有的稀疏特征,系统阐述高维稀疏数据聚类知识发现的理论和方法。




聚类是一种基本的人类行为,聚类分析得到的知识构成人类总体知识的基础。对人类社会生产活动产生的数据运用聚类分析技术发现支持管理决策的潜在知识,是近年来数据挖掘领域的重要研究内容。



虽然聚类问题的研究与应用已经取得了长足的进展,但从高维数据中发现潜在的、有价值的类,一直是聚类研究的重点和难点,尤其在高维数据稀疏的情况下,发现高质量的聚类知识就更加困难。

数据库知识发现的处理过程

《高维稀疏数据聚类知识发现理论》针对数据挖掘的聚类任务,以实际生产管理过程中高维数据普遍具有的稀疏特征为切入点,系统阐述高维稀疏数据聚类知识发现的理论和方法,包括二值属性高维稀疏数据聚类原理及高维稀疏数据聚类在不同类型数据、不完备数据、大规模数据、聚类过程调整、参数自适应等方面的拓展与推广。











高维稀疏数据聚类的核心思想是从集合的角度定义差异度计算方法,反映一个集合内所有高维稀疏数据对象间的总体差异程度,不需要计算两两对象之间的距离,并且通过对象集合的特征向量对数据进行有效压缩精简,保留了高维稀疏数据对象的全部聚类相关信息,在不影响数据质量的情况下,使得数据处理量大规模减少,只需进行一次数据扫描就可以生成聚类结果,聚类过程对类的形状、大小、数目和密度等没有特定要求,聚类结果不受异常值的影响。

本书针对高维稀疏数据聚类问题系列研究成果,重点在于提高高维数据处理能力,同时考虑大规模数据处理能力、不同类型数据处理能力、异常值处理能力、数据输入顺序的独立性、聚类结果的表达与解释、方法的去参数化。

↑点击图片 购买本书↑


内容简介
《高维稀疏数据聚类知识发现理论》面向数据库知识发现的聚类任务,针对高维数据普遍具有的稀疏特征,系统阐述高维稀疏数据聚类知识发现的理论和方法。全书共12章,第1章和第2章系统总结聚类知识发现、高维稀疏数据聚类知识发现理论体系;第3~5章阐述高维稀疏数据聚类原理及分类属性数据、数值属性数据的系列聚类算法;第6~10章将高维稀疏数据聚类原理拓展到不完备数据、大规模数据、过程调整和参数自适应聚类;第11章阐述聚类趋势发现;第12章介绍高维稀疏数据聚类知识发现面向管理问题的应用、面向数据组织的应用及相关实现技术。



目录速览

前言

第1章 聚类知识发现 1
1.1 数据库知识发现 1
1.1.1 数据库知识发现的产生与发展 1
1.1.2 数据库知识发现的处理过程 2
1.1.3 数据库知识发现的主要任务 3
1.1.4 数据仓库与数据挖掘 4
1.2 数据类型及差异度计算 5
1.2.1 二值属性 5
1.2.2 分类属性 7
1.2.3 数值属性 7
1.2.4 混合属性 8
1.3 主要的聚类方法 10
1.3.1 分割聚类 10
1.3.2 层次聚类 12
1.3.3 基于密度的聚类 14
1.4 聚类方法的新进展 15
1.4.1 智能聚类 15
1.4.2 大数据聚类 16
1.5 本章要点 17
第2章 高维稀疏数据聚类知识发现理论体系 18
2.1 聚类研究的重点和难点 18
2.2 高维稀疏数据聚类问题 20
2.3 二值属性高维稀疏数据聚类原理 22
2.4 高维稀疏数据聚类拓展 24
2.4.1 分类、数值和混合属性数据 24
2.4.2 不完备数据 25
2.4.3 大规模数据 26
2.4.4 聚类过程调整 27
2.4.5 参数自适应 27
2.5 本章要点 29
第3章 二值属性高维稀疏数据聚类 30
3.1 概念基础 30
3.1.1 集合的稀疏差异度 30
3.1.2 集合的稀疏特征向量 31
3.1.3 稀疏特征向量的可加性 32
3.2 聚类过程 34
3.2.1 算法的两层结构 35
3.2.2 算法步骤 36
3.3 算法示例 37
3.3.1 聚类过程 38
3.3.2 聚类结果及分析 39
3.4 本章要点 40
第4章 分类属性高维稀疏数据聚类 42
4.1 基于稀疏特征向量的聚类 42
4.1.1 概念基础 42
4.1.2 算法步骤 44
4.1.3 分类属性数据聚类示例 45
4.1.4 分类属性稀疏数据聚类示例 47
4.2 基于集合差异度的聚类 48
4.2.1 概念基础 48
4.2.2 算法步骤 50
4.2.3 算法示例 51
4.3 拓展稀疏差异度聚类 53
4.3.1 集合的拓展稀疏差异度 53
4.3.2 集合的拓展稀疏特征向量 54
4.3.3 相关定理 55
4.3.4 算法步骤 55
4.4 稀疏性指数排序聚类 56
4.4.1 稀疏性指数相关概念 57
4.4.2 稀疏性指数排序 57
4.4.3 算法步骤 58
4.4.4 算法示例 58
4.5 不干涉序列加权排序聚类 60
4.5.1 不干涉序列指数 60
4.5.2 相关定理 61
4.5.3 排序示例 64
4.5.4 算法步骤 65
4.6 基于位集的聚类 66
4.6.1 分类属性数据对象的位集表示 66
4.6.2 位集差异度的定义及其性质 66
4.6.3 相关定理 67
4.6.4 算法步骤 69
4.7 本章要点 70
第5章 数值属性高维稀疏数据聚类 71
5.1 稀疏特征聚类 71
5.1.1 聚类思想 71
5.1.2 稀疏特征 72
5.1.3 对象的稀疏差异度 73
5.1.4 两阶段处理过程 74
5.1.5 算法步骤 75
5.1.6 算法示例 76
5.2 模糊离散化数据聚类 81
5.2.1 属性组合 81
5.2.2 模糊离散化 82
5.2.3 隶属度下限 83
5.2.4 算法步骤 83
5.2.5 算法示例 84
5.3 本章要点 88
第6章 不完备分类属性数据聚类 89
6.1 容差集合差异度聚类 89
6.1.1 容差集合差异度 89
6.1.2 容差集合精简 90
6.1.3 相关定理 91
6.1.4 算法步骤 92
6.2 约束容差集合差异度聚类 93
6.2.1 约束容差集合差异度 93
6.2.2 约束容差集合精简 95
6.2.3 相关定理 96
6.2.4 算法步骤 98
6.3 基于约束容差集合差异度聚类的缺失数据填补 99
6.3.1 填补思想 99
6.3.2 约束容差集合精简不变定理 101
6.3.3 填补过程 102
6.4 缺失数据填补实验分析 103
6.4.1 数据集 103
6.4.2 补齐率分析 104
6.4.3 填补正确率分析 106
6.4.4 填补后聚类正确率分析 109
6.4.5 时间效率分析 111
6.4.6 参数分析 113
6.5 本章要点 115
第7章 不完备混合属性数据聚类 116
7.1 对象混合差异度聚类 116
7.1.1 聚类思想 116
7.1.2 对象混合差异度 117
7.1.3 基于最近邻的初始原型对象选择 118
7.1.4 算法步骤 119
7.2 集合混合差异度聚类 119
7.2.1 集合混合差异度 120
7.2.2 集合混合特征向量 121
7.2.3 集合混合特征向量的可加性 122
7.2.4 算法步骤 123
7.3 基于集合混合差异度聚类的缺失数据填补 124
7.3.1 填补思想 124
7.3.2 概念基础 125
7.3.3 填补过程 126
7.4 缺失数据填补实验分析 127
7.4.1 数据集 127
7.4.2 分类属性填补分析 128
7.4.3 数值属性填补分析 129
7.5 本章要点 131
第8章 大规模高维稀疏数据聚类 132
8.1 基于抽样的聚类 132
8.1.1 基于抽样的聚类思想 132
8.1.2 确界表示的概念基础 136
8.1.3 高维稀疏类的确界表示 137
8.1.4 基于确界表示的非样本对象分配 138
8.1.5 非样本对象分配示例 139
8.2 并行聚类 141
8.2.1 并行策略 141
8.2.2 算法步骤 142
8.2.3 聚类正确性实验分析 143
8.2.4 规模扩展性实验分析 145
8.3 本章要点 147
第9章 参数自适应的高维稀疏数据聚类 148
9.1 稀疏差异度启发式聚类 148
9.1.1 启发式聚类思想 148
9.1.2 内部有效性评价指标 149
9.1.3 概念基础 151
9.1.4 聚类过程 153
9.2 拓展位集差异度聚类 155
9.2.1 拓展位集差异度 156
9.2.2 算法步骤 159
9.2.3 差异度调整指数分析 160
9.2.4 阈值确定方法 161
9.3 无参数聚类 162
9.3.1 稀疏差异度阈值范围的确定 162
9.3.2 考虑数据排序的调整稀疏特征向量 163
9.3.3 无参数聚类过程 164
9.3.4 算法计算时间复杂度 165
9.4 本章要点 166
第10章 高维稀疏数据调整聚类 167
10.1 高维稀疏数据双向聚类 167
10.1.1 集合的双向稀疏特征向量 167
10.1.2 双向稀疏特征向量的可加性 168
10.1.3 双向稀疏特征向量的可减性 170
10.1.4 聚类过程 171
10.1.5 算法示例 172
10.2 高维稀疏数据优化调整聚类 174
10.2.1 聚类思想 174
10.2.2 聚类过程 176
10.2.3 算法示例 177
10.3 本章要点 179
第11章 聚类趋势发现 180
11.1 聚类趋势发现问题 180
11.1.1 问题提出 180
11.1.2 问题难点 181
11.1.3 聚类趋势发现思想 182
11.2 概念基础 182
11.2.1 稳定原子类 182
11.2.2 距离趋势的计算 183
11.3 聚类过程 184
11.3.1 算法步骤 184
11.3.2 数据关系 185
11.4 算法示例 187
11.4.1 问题描述 187
11.4.2 过程及结果 188
11.5 本章要点 189
第12章 高维稀疏数据聚类知识发现应用 190
12.1 面向管理问题的应用 190
12.1.1 高维稀疏客户数据存储 190
12.1.2 图书馆读者群划分 193
12.1.3 汉语词汇聚类分析 195
12.1.4 文献知识结构识别 197
12.2 面向数据组织的应用 200
12.2.1 多维数据建模 200
12.2.2 数据准备 203
12.2.3 聚类数据预处理 205
12.2.4 维表数据生成 206
12.2.5 事实表数据生成 208
12.2.6 数据分析实现 209
12.3 本章要点 212
参考文献 213
索引 218
后记 224


文中部分图片来源:pexels


     
(本期编辑:王芳)

一起阅读科学!

科学出版社│微信ID:sciencepress-cspm

专业品质  学术价值

原创好读  科学品味

科学出版社 视频号

硬核有料  视听科学

传播科学,欢迎您点亮星标,点赞、在看▼

【声明】内容源于网络
0
0
科学出版社
传播科学,创造未来。
内容 3026
粉丝 0
科学出版社 传播科学,创造未来。
总阅读427
粉丝0
内容3.0k