大数跨境
0
0

特征值和特征向量在机器学习中的应用

特征值和特征向量在机器学习中的应用 数据分析学习与实践
2024-11-28
2
导读:特征值和特征向量在机器学习中的应用
特征值的应用.png

特征值和特征向量可能是线性代数中最重要的概念之一。谁能想到 这样一个简单的等式会如此重要?从机器学习到量子计算,许多问题都可以通过找到矩阵的特征值和特征向量来解决。在本文中,我们将了解为什么它如此重要,以及如何应用它。我们还将研究一下某搜索引擎的核心部分--网页排名(PageRank),看看它与特征向量有什么关系。

根据定义,标量 λ 和向量 vA 的特征值和特征向量,如果:

从视觉上看, 与特征向量 位于同一条直线上。

image.png

通常不等于 。只有一些特殊向量满足这一条件。下面是一些特征向量的例子。

如果特征值大于 1,相应的 将扩大。如果小于 1,则会缩小。

image.png

应用

不过,在了解细节之前,让我们先静下心来欣赏一下这个抽象概念的美妙之处。具体来说,许多问题都可以用线性代数来建模,并通过特征值和特征向量得出解决方案。

让我们先从一个抽象的例子开始,然后再进入一个真正价值的想法--某搜索的 PageRank。在许多系统中,我们可以用一个向量来表示其状态,其变化率与当前状态成线性关系(例如,人口增长率与当前人口和 GDP 成线性关系)。一般等式为:

其中   个属性组成。

因此,让我们来猜测一下 满足上述方程的解。由于指数函数的导数等于其本身,因此我们可以从 的指数函数假设,并与向量 相乘。输出也将是一个向量,接下来我们将计算 的值。

  1. 假设:
  1. 求导:
  1. 代入 上式右边:
  1. 由于 线性关系:
  1. 综上,

根据上述计算,如果 的特征向量和特征值,那么我们的猜测将满足

  1. 是矩阵 A 的特征值
  2. 是矩阵 A 的特征向量

在我的系统中,这个问题可以用特征值和特征向量来重新表述和解决。

接下来,让我们找到它的完整解。我们的一阶导数方程是一个线性函数。

对于线性函数,完整的解就是特定解的线性组合。如果 是解,那么 也是解。在最上面的例子中,特征值为 λ = 4, -2 和 -2 时,完整解将是。

如果一个系统要达到稳定状态,那么所有特征值都必须为负。否则,非负项将不断变化。在时间 时,我们可以测量初始状态 ,即 ,并求解常数 C₁C₂C₃

让我们用谐波振荡器来说明这个想法。我们之所以选择这个例子,是因为谐波振荡器及其近亲--量子谐波振荡器--是研究粒子物理学、量子力学、弦理论或一般物理学的基础。让我们从著名的 方程开始,利用特征值和特征向量求解二阶导数。由于我们可以自由选择质量单位,物理学家通常设定   ,以简化讨论,即:

我们将谐振子问题重新表述为下面右下角的矩阵形式。构建方程组:

线性方程表示:

阻尼谐振子

这与上一个例子的形式相同,因此,我们可以使用 A 的特征值和特征向量来形成完整的解。

这并不是一个展示特征值 应用 的唯一例子。大自然在进行设计时,似乎有一本特征向量的字典。著名的与时间无关的薛定谔方程就是用特征值和特征向量表示的。在量子力学中,所有观测到的特性都是由特征值建模的。其他例子还有很多,包括机器学习。计算出的最大特征向量之一是PageRank,它是搜索的核心部分。

  • 薛定谔方程:
  • 量子力学中的可观测性

从根本上说,许多系统都可以建模为:

让我们来研究时序模型,以达到机器学习的目的。

首先,我们假设初始状态 的特征向量。因此,它的未来状态可以计算为:

将矩阵的幂次 换成标量的幂次,就可以简化这个方程,计算起来也容易得多。接下来,让我们把问题推广到初始状态。考虑到 个线性独立的特征向量,它们构成了 的基。我们可以将 的任何向量分解为这个基的线性表示。同样,我们可以通过再次计算特征值的幂来简化时序计算。

此外,为了计算稳定状态,我们可以忽略 小于 1 的项,因为随着时间的推移,这些项会减小为 0。

让我们来讨论一个真正的数十亿美元的想法,以充分发挥其潜力。让我们简化讨论,假设整个互联网只包含三个网页。矩阵 的元素 是用户在 页面时进入 页面的概率。

Markov 矩阵,所有行的和为1。

A的所有列相加等于 1.0,这种矩阵被称为过渡矩阵马尔科夫矩阵

马尔可夫矩阵具有一些重要特性。 的结果总是与列相加为一。右边项是每次点击后分别进入第 1、2 和 3 页的几率。因此很明显,它的总和应为 1。

  • 列向量求和为1

任何马尔可夫矩阵 A 的特征值都是 1,想为什么,考研经常考,其他非 1 特征值的绝对值必须小于 1。这种行为非常重要。在我们的例子中

对于马尔可夫矩阵,我们可以选择 λ=1 的特征向量,使其元素总和为 1。因此,向量 可以使用 A 的特征向量进行分解, 等于 1,如下:

因为 趋于0.

由于 是特征向量, 可用 λᵏ 代替。除特征值 λ=1  外,马尔可夫矩阵的特征值(λᵏ)的幂将逐渐减小。因此,无论初始状态 如何,系统都会达到接近特征向量 的稳态。稳态将等于特征向量 ,如下图所示

从我们的例子来看,我们登陆到第 1、2 和 3 页的几率分别约为 0.41、0.34 和 0.44。这一概念有许多潜在的应用。例如,许多问题都可以很容易地用马尔可夫过程和马尔可夫/转换矩阵来建模。

1_CEBOewT41cC7vfCsK87d-w.jpg

马尔可夫过程和过渡矩阵

网页排名

当我说这是一个价值十亿美元的想法时,我并没有夸大其词。 PageRank 算法也是基于类似的概念。它是公司最早的搜索排名算法,即使现在已经进行了大量修改,增加了排名算法,以改善用户体验,避免人为操纵。

其核心理念概念化如下。PageRank 输出的是网页上的链接经过多次点击后可能到达的页面的概率分布。这个概率将作为网页的排名。当许多网页链接到你的网页时,Google 就会将其排名靠前,并将其视为受欢迎程度的良好指标。

在前面的示例中,我们没有讨论如何得出马尔可夫矩阵中的值。对于网页排名,我们的计算方法是:链接到该网页的其他网页排名总和除以该网页的外链网页总数。

image.png

在数学上,PageRank 试图求解下式中的 PageRank 向量 R(特征向量)。它一开始就以相等的概率初始化 R,然后反复进行计算,直到达到稳定状态。

:从页面 到页面 的出站次数与页面 的总出站次数之比。如果我们忽略阻尼系数 d,这个等式与我们之前讨论的例子非常相似。之所以引入这个因子,是因为我们不会永远随机行走。

对于公司来说,他们不会直接计算特征向量。在我们之前的例子中,A 的幂级数收敛得非常快, 的列已经收敛到特征向量

PageRank 论文证明,在有 1 亿个页面链接的情况下,解决方案在 52 次迭代中就收敛到了可容忍的极限。因此,该解决方案的扩展性出乎意料地好。

根据马尔可夫矩阵,我们可以得出以下方程,稳态取决于一个主成分。

image.png

在机器学习中,信息与原始数据纠缠在一起。智能的基础是在一堆数字中提取信息主要成分的能力。在数学上,特征值和特征向量提供了识别它们的方法。特征向量识别成分,特征值量化其重要性。作为预览,下面的等式将 A 中的信息分解为成分。我们可以根据特征值的平方根对其进行优先排序,忽略 α 值较小的项。这样可以减少噪音,帮助我们提取 A 中的核心信息。

更多想法

特征值量化了沿特征向量线的信息的重要性。有了这些信息,我们就知道哪些信息可以忽略,以及如何压缩信息(SVD、降维和 PCA)。这也有助于我们在开发机器学习模型时提取特征。有时,由于减少了纠缠不清的信息,模型更容易训练。此外,它还能将纷繁复杂的原始数据可视化。其他应用包括推荐系统或金融风险分析。例如,我们会根据您的个人观影行为和其他人的观影行为向您推荐电影。我们还可以使用特征向量来了解数据之间的相关性。我们还可以利用特征向量来了解数据之间的相关性,发展信息的趋势,并对信息进行聚类,从而找到共同的因素,比如引发某种疾病的基因组合。而所有这些都始于一个简单的等式:

矩阵并不是一成不变的。了解机器学习中一些常见矩阵的特性非常重要。





【声明】内容源于网络
0
0
数据分析学习与实践
数据分析,数据科学,线性代数,统计学,AI,python,可视化,excel
内容 343
粉丝 0
数据分析学习与实践 数据分析,数据科学,线性代数,统计学,AI,python,可视化,excel
总阅读4
粉丝0
内容343