机器学习：从基础原理到实际案例- 大数跨境

AI科技在线

2026-03-20

关键词

一、人工智能与机器学习的关联

在当今科技迅猛发展的时代，人工智能无疑是最热门的话题之一。2024年，诺贝尔物理学奖和化学奖的获得者都与人工智能研究紧密相关，2025年初DeepSeek在全球尤其是国内的火爆，更是让大众对这一领域充满好奇。机器学习作为人工智能的关键技术分支，对推动人工智能的发展起着举足轻重的作用，了解机器学习的基本原理，能帮助我们更好地接纳和运用日益强大的人工智能。

图1 2024年诺贝尔物理学奖得主JohnHopfield和GeoffreyHinton以及他们的获奖原因

1950年，艾伦·图灵发表论文《计算机器与智能》，提出“图灵测试”，开启了现代人工智能理论的大门。从技术角度看，人工智能的核心目标是让机器拥有类似人类的智能，能够完成认知、学习、推理等复杂任务，其致力于模拟人类的广泛智能，涵盖感知、推理、决策以及行为等多个领域；而机器学习则侧重于从数据中自动学习规律，提升机器的思维能力，进而做出更合理的预测和决策。可以说，若把人工智能看作有目标和行为能力的实体，机器学习就是实现目标的方法和控制实体行为的核心。

图2 艾伦·图灵以及他的论文《computing machinery and intelligence》

关键词

二、机器学习的核心要素

（一）数据

数据在我们生活中无处不在，它是对客观事物或规律的记录和表示，蕴含着丰富的知识和信息。但计算机只能识别二进制数字信号，如何处理现实世界中的各种数据呢？这就需要进行数据预处理，也就是特征工程。如图3，对于物质化学式，我们可以构建一个118维列向量，对应元素周期表中的元素，根据元素在化学式中的出现位置和数量进行相应赋值，这样就能将化学式转化为计算机可处理的数字形式。

图4对物质化学式的一种机器学习编码方法

（Green Energy Environ 2024,9,877-889）

而对于图像信息，如图4所示，将一张彩色图片的每一个像素点以一组数字代表（通常为三个，分别代表R G B三种原色，图四仅标出一个原色图层的一部分表示），而后将这些数据点按一定顺序排列起来形成的向量矩阵即可代表这一张图片。

图4 对彩色图片的一种机器学习编码方法

（YouTube 3Blue1Brown《But what is a convolution?》

（二）模型

经过数据收集和特征工程，得到规整的数字数据后，就要选择或开发合适的机器学习模型进行“学习”。机器学习任务分为分类、回归、聚类、降维等，不同任务有相应的模型。

模型是对数据模式和规律的数学抽象，就像一个智能函数，能根据输入数据给出我们想要的输出。如图5，以最简单的线性回归模型为例，它可以通过分析植物生长时间和高度的数据，找到两者之间的关系，从而预测不同生长时间下植物的高度。需要注意的是，线性回归的“线性”指的是模型对参数的线性关系，最终拟合的结果可能是直线，也可能是曲线。

图5 植物高度与其生长时间的线性回归预测关系图

然而，对于高维数据，如描述一个化合物的118维数据或一张1080p彩色图像的6220800个（1920*1080*3，像素点*通道数）数据点，仅考虑单一因素难以有效处理。这时，我们会使用更复杂的模型，比如人工神经网络。人工神经网络模拟生物大脑神经元的信息处理机制，适合处理信息丰富的数据。图6涉及的机器学习以识别手写数字作为最终目标，具体展示了一张黑白手写数字图片转化为784维列向量的直观过程。

图六对黑白手写数字图片的机器学习编码

（YouTube 3Blue1Brown《But what is a neural network?》）

而处理好的784维图像信息会输入如图7所示的神经网络进行具体处理。网络的第一层圆圈（输入层）接收数据，最后的输出层有10个节点分别代表了0-9，每一个中间层中圆圈（神经元）会对输入的数字数据进行一次函数运算。隐藏层的神经元会对数据进行计算和传递，随着大量数据的输入，模型不断调整内部函数形式，这使得模型预测结果与真实标签差异越来越小，当模型的失误率达到最小值时，我们就得到了一个能解决特定问题的机器学习模型。

图7人工神经网络示意图

（YouTube 3Blue1Brown《But what is a neural network?》）

（三）优化

很多机器学习工作者戏称自己是“调参机器”，调参其实就是对模型参数进行优化。常见的机器学习模型除了线性回归和人工神经网络，还有决策树、支持向量机等。大多数人基本都是在现有模型基础上进行单个模型的优化或多个模型的组合使用以提升性能。

以应用最为广泛的人工神经网络为例，在一个确定的人工神经网络框架下，隐藏层数量、神经元数、神经元内函数形式等细节都有多种选择，这使得模型参数组合近乎无限，为解决各种现实问题提供了可能。但性能优良的人工智能模型免不了要使用大量的参数模型（如ChatGPT-4模型约有2000亿个参数），这使得机器学习模型的调参过程通常是批量化且带有一定随机性的。到这，我们也可以从机器学习随机性的角度初步理解一些对于“失控人工智能”的担忧，因为到目前为止，机器学习的过程是无法被人类完全掌控的，这给人工智能的发展也带来了不确定性，对相关技术发展进行规范化并加强立法监督显然是必要的。

图8 欧洲议会于2023年6月对人工智能法案草案进行投票

（Nature 2023,622,693-696）

此外，提高机器学习的可解释性从而发展更加透明化和可控化的人工智能体也越来越成为相关研究者的共识，否则，谁也无法保证电影《黑客帝国》中具备自主意识和行动能力的机器智能体控制甚至奴役人类的剧情不会在现实中上演。

图9 《黑客帝国》电影片段

（YouTube WasabiDrama《经典科幻巨作<黑客帝国>三部曲》）

关键词

三、机器学习的简单实例

接下来，我们通过决策树算法来更加深入的了解机器学习一般原理。决策树算法是基于树结构来进行决策的，这恰是人类在面临决策问题时的一种很自然的处理机制。例如，我们要对“这是好瓜吗？”这样的问题进行决策时，往往会进行一系列的判断：我们先看“它是什么颜色的”，如果是“青绿色”，那我们再看“它的根蒂是什么形态”，如果“根蒂是蜷缩的”，再判断“它敲起来的声音”，最终得出决策：这是一个好瓜，整个决策过程如图10所示。

图10 西瓜问题的一棵决策树

决策树的核心思想是通过属性选择和数据划分，逐步构建一个能够最大化区分数据的树结构。显然，决策过程的最终结论对应了我们所希望的判定结果，例如“是好瓜”或者“不是好瓜”；在决策过程中提出的每个判定问题都是对某个属性的测试，例如“色泽=？”、“根蒂=？”；每个测试的结果或是导出最终结论或进一步的判定问题，其考虑范围都是在上次决策结果的限定范围内的，图10决策树对应数据划分如图11所示。

图11 西瓜问题决策树对应的数据划分

接下来继续以西瓜分类任务为例，详细介绍决策树算法的学习流程。

首先，准备训练数据。现在我们是要区分好瓜和坏瓜，所以需要一些好瓜和坏瓜的具体属性信息，例如：色泽、根蒂、敲声等，如此一来，一个样本数据就可以看做（属性1信息，属性2信息，...，属性d信息，实际分类结果），其中参数d需要提前指定。属性数据可以是西瓜的“色泽”（青绿、乌黑）、“根蒂”（蜷缩、稍蜷、硬挺）、“敲声”（清晰、模糊）等。图12是西瓜数据集的部分样本，其中d=6，可以将编号1的样本看成（色泽青绿，根蒂蜷缩，敲声浊响，纹理清晰，脐部凹陷，触感硬滑，好瓜）。

图12 西瓜样本

数据确定之后，接下来的关键问题就是如何选属性？比如先问色泽还是先问根蒂？决策树会挑“最能区分好坏西瓜的属性”先区分。比如“色泽”如果能把好坏西瓜完全分开，就优先用这个属性对数据进行划分。

这里我们得先引入一个信息熵的概念，信息熵是度量样本集合纯度的一种常用指标，其具体计算公式为：

其中pk表示样本集合D中第k类样本所占比例，例如区分西瓜的样本数据中总共有两类样本，分别是好西瓜类和坏西瓜类。

信息熵的值越小，可以认为样本集合D中的数据越纯，若利用属性a划分后的样本集的信息熵比划分前的样本集合的信息熵更小，那么就认为利用a划分后得到了信息增益，选取使得当前样本划分后信息增益最大的属性做当前结点的属性测试。直到当前结点包含的样本都属于同一类、当前没有可选择的属性、或者所有样本的属性值都相同时，不再继续往下划分，得到最终的决策树模型如图12所示。之后，利用得到的决策树模型就可以对任意的西瓜进行分类。

图12 西瓜问题最终决策树

关键词

四、总结

机器学习的核心是将各种信息转化为数字表示，建立数据与输出之间的函数关系。通过优化算法最小化损失函数，模型不断调整参数，找到数据与输出结果之间的最佳映射。虽然这些优化后的参数人类难以直接理解，但它们是机器认识和解释世界的“法则”。随着技术的不断发展，机器学习在更多领域发挥着重要作用，未来也将给我们的生活带来更多改变。

图片素材来源于网络，如有侵权请联系

参考文献：

【声明】内容源于网络

AI科技在线

1234

内容 1272

粉丝 0

AI科技在线 1234

总阅读7.9k

粉丝0

内容1.3k