特征值和特征向量可能是线性代数中最重要的概念之一。谁能想到 这样一个简单的等式会如此重要?从机器学习到量子计算,许多问题都可以通过找到矩阵的特征值和特征向量来解决。在本文中,我们将了解为什么它如此重要,以及如何应用它。我们还将研究一下某搜索引擎的核心部分--网页排名(PageRank),看看它与特征向量有什么关系。
根据定义,标量 λ 和向量 v 是 A 的特征值和特征向量,如果:
从视觉上看, 与特征向量 位于同一条直线上。
通常不等于 。只有一些特殊向量满足这一条件。下面是一些特征向量的例子。
如果特征值大于 1,相应的 将扩大。如果小于 1,则会缩小。
应用
不过,在了解细节之前,让我们先静下心来欣赏一下这个抽象概念的美妙之处。具体来说,许多问题都可以用线性代数来建模,并通过特征值和特征向量得出解决方案。
让我们先从一个抽象的例子开始,然后再进入一个真正价值的想法--某搜索的 PageRank。在许多系统中,我们可以用一个向量来表示其状态,其变化率与当前状态成线性关系(例如,人口增长率与当前人口和 GDP 成线性关系)。一般等式为:
其中 由 个属性组成。
因此,让我们来猜测一下 满足上述方程的解。由于指数函数的导数等于其本身,因此我们可以从 的指数函数假设,并与向量 相乘。输出也将是一个向量,接下来我们将计算 和 的值。
-
假设:
-
求导:
-
将 代入 上式右边:
-
由于 线性关系:
-
综上,
根据上述计算,如果 和 是 的特征向量和特征值,那么我们的猜测将满足 。
-
是矩阵 A 的特征值 -
是矩阵 A 的特征向量
在我的系统中,这个问题可以用特征值和特征向量来重新表述和解决。
接下来,让我们找到它的完整解。我们的一阶导数方程是一个线性函数。
对于线性函数,完整的解就是特定解的线性组合。如果 和 是解,那么 也是解。在最上面的例子中,特征值为 λ = 4, -2 和 -2 时,完整解将是。
如果一个系统要达到稳定状态,那么所有特征值都必须为负。否则,非负项将不断变化。在时间 时,我们可以测量初始状态 ,即 ,并求解常数 C₁、C₂ 和 C₃
让我们用谐波振荡器来说明这个想法。我们之所以选择这个例子,是因为谐波振荡器及其近亲--量子谐波振荡器--是研究粒子物理学、量子力学、弦理论或一般物理学的基础。让我们从著名的 方程开始,利用特征值和特征向量求解二阶导数。由于我们可以自由选择质量单位,物理学家通常设定 ,以简化讨论,即:
我们将谐振子问题重新表述为下面右下角的矩阵形式。
构建方程组:
线性方程表示:
阻尼谐振子
这与上一个例子的形式相同,因此,我们可以使用 A 的特征值和特征向量来形成完整的解。
这并不是一个展示特征值 应用 的唯一例子。大自然在进行设计时,似乎有一本特征向量的字典。著名的与时间无关的薛定谔方程就是用特征值和特征向量表示的。在量子力学中,所有观测到的特性都是由特征值建模的。其他例子还有很多,包括机器学习。计算出的最大特征向量之一是PageRank,它是搜索的核心部分。
-
薛定谔方程:
-
量子力学中的可观测性
从根本上说,许多系统都可以建模为:
让我们来研究时序模型,以达到机器学习的目的。
首先,我们假设初始状态 是 的特征向量。因此,它的未来状态可以计算为:
将矩阵的幂次 换成标量的幂次,就可以简化这个方程,计算起来也容易得多。接下来,让我们把问题推广到初始状态。考虑到 有 个线性独立的特征向量,它们构成了 的基。我们可以将 的任何向量分解为这个基的线性表示。同样,我们可以通过再次计算特征值的幂来简化时序计算。
此外,为了计算稳定状态,我们可以忽略 小于 1 的项,因为随着时间的推移,这些项会减小为 0。
让我们来讨论一个真正的数十亿美元的想法,以充分发挥其潜力。让我们简化讨论,假设整个互联网只包含三个网页。矩阵 的元素 是用户在 页面时进入 页面的概率。
Markov 矩阵,所有行的和为1。
即A的所有列相加等于 1.0,这种矩阵被称为过渡矩阵或马尔科夫矩阵。
马尔可夫矩阵具有一些重要特性。 或 的结果总是与列相加为一。右边项是每次点击后分别进入第 1、2 和 3 页的几率。因此很明显,它的总和应为 1。
-
列向量求和为1
任何马尔可夫矩阵 A 的特征值都是 1,想为什么,考研经常考,其他非 1 特征值的绝对值必须小于 1。这种行为非常重要。在我们的例子中
对于马尔可夫矩阵,我们可以选择 λ=1 的特征向量,使其元素总和为 1。因此,向量 可以使用 A 的特征向量进行分解, 等于 1,如下:
因为 趋于0.
由于 是特征向量, 可用 λᵏ 代替。除特征值 λ=1 外,马尔可夫矩阵的特征值(λᵏ)的幂将逐渐减小。因此,无论初始状态 如何,系统都会达到接近特征向量 的稳态。稳态将等于特征向量 ,如下图所示
从我们的例子来看,我们登陆到第 1、2 和 3 页的几率分别约为 0.41、0.34 和 0.44。这一概念有许多潜在的应用。例如,许多问题都可以很容易地用马尔可夫过程和马尔可夫/转换矩阵来建模。
马尔可夫过程和过渡矩阵
网页排名
当我说这是一个价值十亿美元的想法时,我并没有夸大其词。 PageRank 算法也是基于类似的概念。它是公司最早的搜索排名算法,即使现在已经进行了大量修改,增加了排名算法,以改善用户体验,避免人为操纵。
其核心理念概念化如下。PageRank 输出的是网页上的链接经过多次点击后可能到达的页面的概率分布。这个概率将作为网页的排名。当许多网页链接到你的网页时,Google 就会将其排名靠前,并将其视为受欢迎程度的良好指标。
在前面的示例中,我们没有讨论如何得出马尔可夫矩阵中的值。对于网页排名,我们的计算方法是:链接到该网页的其他网页排名总和除以该网页的外链网页总数。
在数学上,PageRank 试图求解下式中的 PageRank 向量 R(特征向量)。它一开始就以相等的概率初始化 R,然后反复进行计算,直到达到稳定状态。
:从页面 到页面 的出站次数与页面 的总出站次数之比。如果我们忽略阻尼系数 d,这个等式与我们之前讨论的例子非常相似。之所以引入这个因子,是因为我们不会永远随机行走。
对于公司来说,他们不会直接计算特征向量。在我们之前的例子中,A 的幂级数收敛得非常快, 的列已经收敛到特征向量 。
PageRank 论文证明,在有 1 亿个页面链接的情况下,解决方案在 52 次迭代中就收敛到了可容忍的极限。因此,该解决方案的扩展性出乎意料地好。
根据马尔可夫矩阵,我们可以得出以下方程,稳态取决于一个主成分。
在机器学习中,信息与原始数据纠缠在一起。智能的基础是在一堆数字中提取信息主要成分的能力。在数学上,特征值和特征向量提供了识别它们的方法。特征向量识别成分,特征值量化其重要性。作为预览,下面的等式将 A 中的信息分解为成分。我们可以根据特征值的平方根对其进行优先排序,忽略 α 值较小的项。这样可以减少噪音,帮助我们提取 A 中的核心信息。
更多想法
特征值量化了沿特征向量线的信息的重要性。有了这些信息,我们就知道哪些信息可以忽略,以及如何压缩信息(SVD、降维和 PCA)。这也有助于我们在开发机器学习模型时提取特征。有时,由于减少了纠缠不清的信息,模型更容易训练。此外,它还能将纷繁复杂的原始数据可视化。其他应用包括推荐系统或金融风险分析。例如,我们会根据您的个人观影行为和其他人的观影行为向您推荐电影。我们还可以使用特征向量来了解数据之间的相关性。我们还可以利用特征向量来了解数据之间的相关性,发展信息的趋势,并对信息进行聚类,从而找到共同的因素,比如引发某种疾病的基因组合。而所有这些都始于一个简单的等式:
矩阵并不是一成不变的。了解机器学习中一些常见矩阵的特性非常重要。

