内容提要:
* 聚类问题
* 降维问题
* 概率模型估计问题
点击蓝字 |关注我们
欢迎来到「无监督学习」。
今天我们介绍无监督学习的基本问题,主要有三大类:聚类问题,降维问题和概率模型估计问题。
壹 聚类问题
聚类是一种非常常见的无监督学习问题。「聚类(clustering)」是将样本集合中相似的样本(实例)分配到相同的类,不相似的样本分配到不同的类。
物以类聚,人以群分。——节选自《战国策》
❞
你想成为什么样的人,就和什么样的人在一起。也就是说,这个蓝色的小人,他在什么地方其实就代表着他是一个什么样的人了。当你本身在变化的时候,其实你所处的群体也在改变。
对于有监督学习来说的话,数据是有标注信息的,所以每个样本是不仅有 还有 。而对于无监督学习而言,数据是没有标注信息的,只有 。
在监督学习篇, 也被称作实例,所以此处我们既可以称之为样本,也可以称之为实例。
之前提到过积木小例子。彩色积木有颜色,那么类别是直接就定好了的,但是如果没有颜色,也就是黑白的积木,就要纯粹从这个数据里面去挖掘包含的类的信息。也就是说,「聚类时, 样本通常是欧氏空间中的向量, 类别不是事先给定,而是从数据中自动发现, 但类别的个数通常是事先给定的。」
关于类别的个数,到底有没有一个说法或者说定成几个更合适,其实是一个非常关键的问题。之前介绍过一种方法——「交叉验证方法」,就可以帮助我们去确定类别的个数到底有几个,确定好个数,就可以根据个数进行聚类了。
聚类可以帮助发现数据中隐藏的纵向结构(例外:协同聚类co-clustering)。聚类的过程就是学习聚类模型的过程。
❞
换而言之,我们希望把一条一条的数据汇集起来,相似的放在一起。当然也有例外的,比如说协同聚类,它是横纵联合的同时进行聚类的,一般情况下用于推荐算法中。
为什么推荐算法里面喜欢用协同聚类?
因为要做推荐,推荐时包含用户,如果是购物网站还包含物品,我们希望对物品和用户同时聚类,即对样本和属性特征同时聚类,这样可以揭示数据之间更深层次的关联性。
下面介绍聚类问题中常用的一些基本符号。
-
输入空间:欧氏空间
-
输出空间:类别集合
-
聚类模型:函数 或者条件概率分布 , 其中 是样本的向量, 是样本的类别, 是参数。
聚类一般分为两类:「硬聚类和软聚类」。
-
硬聚类 (Hard Clustering):一个样本只能属于一个类 -
软聚类 (Soft Clustering):一个样本可以属于多个类
实际上,在支持向量机学习的过程中,涉及到线性可分的训练集以及线性不可分的训练集。对于线性可分的训练集,通常可以采用硬间隔算法,将数据完全分开。这里体现了彻彻底底地分,分得很明确,也就是硬Hard的意思。软,则表示了有一部分的妥协和模糊,但是也伴随着更加灵活。比如支持向量机中的软间隔算法,对于线性不可分的数据,有些数据点处于两类的交叉处,也就是间隔边界内,这就是软Soft的意思。
硬聚类时, 每一个样本属于某一类
❞
硬聚类通常用决策函数表示。比如图中很多橙色的样本点,可以很清楚明白地将其划分为三类。
软聚类时, 每一个样本依概率属于每一个类
❞
在软聚类中则不然,通常用条件概率分布表示。比如中间地带的4个样本点,到底是划哪一个类别合适呢?其实都可以,这就是软聚类。
高斯混合模型的每一个类就是一个新的概率分布,每个样本以一定的概率属于每个类。这属于软聚类方法。
贰 降维问题
「降维(Dimensionality Reduction)」是将训练数据中的样本(实例)从高维空间转换到低维空间。
降维的整个过程是一个转化。如果 是高维空间中的,相应的 就是转化之后存在于低维空间的。降维首先要明确的是可以把维度降下去,也就是说必须满足相应的假设条件。
「假设条件」:假设样本原本存在于低维空间, 或者近似地存在于低维空间, 通过降维则可以更好地表示样本数据的结构, 即更好地表示样本之间的关系。
❞
高维空间通常是高维的欧氏空间,而低维空间是低维的欧氏空间或者流形(manifold)。降维其实就是探索数据中隐含的横向结构,因为横向表示的是各个属性特征,所以横向走就意味着降维。
降维时, 每一个样本从高维向量转换为低维向量
❞
类似于聚类问题中的类别不是实现给定的。降温问题中的低维空间也不是事先给定, 而是从数据中自动发现, 其维数通常是事先给定的。
那么维数设成多少才好呢?这就类似于聚类中类的个数的设置。
另外,从高维到低维的降维中, 要保证样本中的信息损失最小。
下面介绍降维问题中常用的一些基本符号。
-
输入空间:欧氏空间 -
输出空间:欧氏空间 -
降维模型:函数 , 其中 是样本的高维向量, 是样本的低维向量, 是参数。函数可以是线性函数也可以是非线性函数。
降维问题包括线性降维和非线性降维。
图中一系列样本点都聚集到一条直线附近。所以可以从二维空间降维至一条直线上,使得表达更加简洁,从而将复杂的问题简单化,便于后续的分析。
图中样本点组成瑞士卷的一个小蛋糕,如果直接计算两点之间的欧式空间,可能比较短,但实际上在瑞士卷里,两点之间的距离还是比较长的,这就是流形学习,对应的是非线性降维。
如果有小伙伴们对流形特别感兴趣的话,推荐丘成桐的《大宇之形》,书封皮上就是丘-卡拉比流形。
叁 概率模型估计问题
「概率模型估计(Probability Model Estimation)」,简称概率估计,假设训练数据由一个概率模型生成,由训练数据学习概率模型的结构和参数。
一个概率模型通常涉及到两部分:结构和参数。概率模型估计的目标就是找到最有可能生成数据的结构和参数,那么结构到底是什么样子?参数又是什么样子呢?
概率模型的结构类型,或者说概率模型的集合事先给定,而模型的具体结构与参数从数据中自动学习。
概率模型一般有混合模型、概率图模型(向图模型和无向图模型)等。
比如高斯混合模型,还有条件随机场,就是概率模型估计,分别从横向纵向出发,通过横纵联合挖掘数据的内部结构和隐含的有效信息,最终以条件概率分布的形式呈现。
概率模型表示为条件概率分布
-
随机变量 表示观测数据, 可以是连续变量也可以是离散变量; -
随机变量 表示隐式结构,是离散变量:模型是混合模型时, 表示成分的个数; 模型是概率图模型时, 表示图的结构。 -
表示参数。
特殊情况:如果隐式结构不存在,则有 。
对于训练数据集
如果待学习的模型为
可以采用统计中核密度估计搞定概率分布。
线性链条件随机场,是属于无向概率图。可以学习图结构。
最后这两个条件概率分布,
可以根据贝叶斯公式展开。
假设先验概率服从均匀分布, 只需要估计条件概率分布 即可。
好啦,以上就是关于「无监督学习的基本问题」,接下来,我们将继续「无监督学习」的更新,如果这个免费讲义系列对你有所帮助,欢迎把我们推荐给更多的朋友。
感兴趣的小伙伴也可以和B站视频同步学习哟。
欢迎大家关注简博士的B站和公众号,在公众号后台私信“入群”,可以与小伙伴们一起讨论问题哦。

