

特征值和特征向量在机器学习中的应用

数据分析学习与实践

2024-11-28

导读：特征值和特征向量在机器学习中的应用

特征值和特征向量可能是线性代数中最重要的概念之一。谁能想到这样一个简单的等式会如此重要？从机器学习到量子计算，许多问题都可以通过找到矩阵的特征值和特征向量来解决。在本文中，我们将了解为什么它如此重要，以及如何应用它。我们还将研究一下某搜索引擎的核心部分--网页排名（PageRank），看看它与特征向量有什么关系。

根据定义，标量 λ 和向量 v 是 A 的特征值和特征向量，如果：

从视觉上看，与特征向量位于同一条直线上。

通常不等于。只有一些特殊向量满足这一条件。下面是一些特征向量的例子。

如果特征值大于 1，相应的将扩大。如果小于 1，则会缩小。

应用

不过，在了解细节之前，让我们先静下心来欣赏一下这个抽象概念的美妙之处。具体来说，许多问题都可以用线性代数来建模，并通过特征值和特征向量得出解决方案。

让我们先从一个抽象的例子开始，然后再进入一个真正价值的想法--某搜索的 PageRank。在许多系统中，我们可以用一个向量来表示其状态，其变化率与当前状态成线性关系（例如，人口增长率与当前人口和 GDP 成线性关系）。一般等式为:

其中由个属性组成。

因此，让我们来猜测一下满足上述方程的解。由于指数函数的导数等于其本身，因此我们可以从的指数函数假设，并与向量相乘。输出也将是一个向量，接下来我们将计算和的值。

假设：

求导：

将代入上式右边：

由于线性关系：

综上，

根据上述计算，如果和是的特征向量和特征值，那么我们的猜测将满足。

是矩阵 A 的特征值
是矩阵 A 的特征向量

在我的系统中，这个问题可以用特征值和特征向量来重新表述和解决。

接下来，让我们找到它的完整解。我们的一阶导数方程是一个线性函数。

对于线性函数，完整的解就是特定解的线性组合。如果和是解，那么也是解。在最上面的例子中，特征值为 λ = 4, -2 和 -2 时，完整解将是。

如果一个系统要达到稳定状态，那么所有特征值都必须为负。否则，非负项将不断变化。在时间时，我们可以测量初始状态，即，并求解常数 C₁、C₂ 和 C₃

让我们用谐波振荡器来说明这个想法。我们之所以选择这个例子，是因为谐波振荡器及其近亲--量子谐波振荡器--是研究粒子物理学、量子力学、弦理论或一般物理学的基础。让我们从著名的方程开始，利用特征值和特征向量求解二阶导数。由于我们可以自由选择质量单位，物理学家通常设定，以简化讨论，即:

我们将谐振子问题重新表述为下面右下角的矩阵形式。构建方程组：

线性方程表示：

阻尼谐振子

这与上一个例子的形式相同，因此，我们可以使用 A 的特征值和特征向量来形成完整的解。

这并不是一个展示特征值应用的唯一例子。大自然在进行设计时，似乎有一本特征向量的字典。著名的与时间无关的薛定谔方程就是用特征值和特征向量表示的。在量子力学中，所有观测到的特性都是由特征值建模的。其他例子还有很多，包括机器学习。计算出的最大特征向量之一是PageRank，它是搜索的核心部分。

薛定谔方程:

量子力学中的可观测性

从根本上说，许多系统都可以建模为:

让我们来研究时序模型，以达到机器学习的目的。

首先，我们假设初始状态是的特征向量。因此，它的未来状态可以计算为:

将矩阵的幂次换成标量的幂次，就可以简化这个方程，计算起来也容易得多。接下来，让我们把问题推广到初始状态。考虑到有个线性独立的特征向量，它们构成了的基。我们可以将的任何向量分解为这个基的线性表示。同样，我们可以通过再次计算特征值的幂来简化时序计算。

此外，为了计算稳定状态，我们可以忽略小于 1 的项，因为随着时间的推移，这些项会减小为 0。

让我们来讨论一个真正的数十亿美元的想法，以充分发挥其潜力。让我们简化讨论，假设整个互联网只包含三个网页。矩阵的元素是用户在页面时进入页面的概率。

Markov 矩阵，所有行的和为1。

即A的所有列相加等于 1.0，这种矩阵被称为过渡矩阵或马尔科夫矩阵。

马尔可夫矩阵具有一些重要特性。或的结果总是与列相加为一。右边项是每次点击后分别进入第 1、2 和 3 页的几率。因此很明显，它的总和应为 1。

列向量求和为1

任何马尔可夫矩阵 A 的特征值都是 1，想为什么，考研经常考，其他非 1 特征值的绝对值必须小于 1。这种行为非常重要。在我们的例子中

对于马尔可夫矩阵，我们可以选择 λ=1 的特征向量，使其元素总和为 1。因此，向量可以使用 A 的特征向量进行分解，等于 1，如下:

因为趋于0.

由于是特征向量，可用 λᵏ 代替。除特征值 λ=1 外，马尔可夫矩阵的特征值（λᵏ）的幂将逐渐减小。因此，无论初始状态如何，系统都会达到接近特征向量的稳态。稳态将等于特征向量，如下图所示

从我们的例子来看，我们登陆到第 1、2 和 3 页的几率分别约为 0.41、0.34 和 0.44。这一概念有许多潜在的应用。例如，许多问题都可以很容易地用马尔可夫过程和马尔可夫/转换矩阵来建模。

马尔可夫过程和过渡矩阵

网页排名

当我说这是一个价值十亿美元的想法时，我并没有夸大其词。 PageRank 算法也是基于类似的概念。它是公司最早的搜索排名算法，即使现在已经进行了大量修改，增加了排名算法，以改善用户体验，避免人为操纵。

其核心理念概念化如下。PageRank 输出的是网页上的链接经过多次点击后可能到达的页面的概率分布。这个概率将作为网页的排名。当许多网页链接到你的网页时，Google 就会将其排名靠前，并将其视为受欢迎程度的良好指标。

在前面的示例中，我们没有讨论如何得出马尔可夫矩阵中的值。对于网页排名，我们的计算方法是：链接到该网页的其他网页排名总和除以该网页的外链网页总数。

在数学上，PageRank 试图求解下式中的 PageRank 向量 R（特征向量）。它一开始就以相等的概率初始化 R，然后反复进行计算，直到达到稳定状态。

：从页面到页面的出站次数与页面的总出站次数之比。如果我们忽略阻尼系数 d，这个等式与我们之前讨论的例子非常相似。之所以引入这个因子，是因为我们不会永远随机行走。

对于公司来说，他们不会直接计算特征向量。在我们之前的例子中，A 的幂级数收敛得非常快，的列已经收敛到特征向量。

PageRank 论文证明，在有 1 亿个页面链接的情况下，解决方案在 52 次迭代中就收敛到了可容忍的极限。因此，该解决方案的扩展性出乎意料地好。

根据马尔可夫矩阵，我们可以得出以下方程，稳态取决于一个主成分。

在机器学习中，信息与原始数据纠缠在一起。智能的基础是在一堆数字中提取信息主要成分的能力。在数学上，特征值和特征向量提供了识别它们的方法。特征向量识别成分，特征值量化其重要性。作为预览，下面的等式将 A 中的信息分解为成分。我们可以根据特征值的平方根对其进行优先排序，忽略 α 值较小的项。这样可以减少噪音，帮助我们提取 A 中的核心信息。

特征值和特征向量在机器学习中的应用

应用

网页排名

更多想法