区块链与信任
过去几年,区块链的炒作已经被人工智能的炒作所取代。这两种技术都相对较新。人工智能的历史更悠久,其概念可以追溯到傀儡和人类古代。区块链可以被认为是从哈希函数和分布式编程开始的。Leslie Lamport在分布式系统上的工作将时间顺序和信任结合在一起,这对于解决分散信任问题以及区块链是必不可少的。因此,区块链至少有 40 多年的历史,而人工智能的当前形式有 80 多年的历史。
分布式计算用于协作解决问题,需要时间顺序以及从一组计算机中创建真实版本的方法,其中一些计算机可能有故障或恶意。分布式计算和存储是去中心化的必要条件。分布式机器的独立治理为我们带来了去中心化。因此,去中心化基于控制分布式计算和存储基础设施的实体的性质和分布。按照这些标准,即使是比特币也不能被视为去中心化的,因为 5 个矿池控制着挖矿,包括交易所在内的一群大型机构控制着进出比特币生态系统的通道。鲸鱼持有 93% 的比特币。
人工智能的挑战
众所周知的人工智能问题包括私人数据泄露、能源使用不受管理、持续训练重复使用自己的输出、孤立和私人数据可用于定制解决方案以及为训练模型中使用的私人数据获得报酬。其中一些问题可以通过将区块链集成到人工智能中来解决。第一部分概述了一般挑战。
人工智能通常由单一实体控制。我们所说的人工智能是指类似于 ChatGPT 的基于深度学习的大型语言模型 (LLM)、体现在 Stable Diffusion v1.5 中的图像生成、音频转文本和反之亦然(文本转音频),以及终极视频生成,例如 Sora 或 Movie-Gen,因为它结合了图像、音频等。未来,人工智能有可能成为“数据中心的天才之国”。当前的人工智能训练方法需要大量数据。这些数据几乎包括人类生产的所有数字化和可访问的东西。海量数据可防止过度拟合。过度拟合迫使模型专门用于少量数据,因此无法准确预测。开源模型打破了这种说法。
这种数据密集型方法存在一些问题。首先,如果模型使用的数据之前是由人工智能生成的,那么数据的语气和内容就不会具有原始内容的细微差别和多变性。人工智能开始吞噬自己的输出,并可能退化为偏见和无效。一个简单的希腊语词“自噬”描述了这种现象。这种发展并不是一个幻想的未来场景,随着人工智能生成的内容量激增,这种发展已经广泛出现。其次是数据的隐私性。用于训练人工智能的所有数据都属于公共领域或公开可用,即使这些数据受版权保护。这包括从门户网站抓取数据,而这些门户网站从未打算以这种方式使用,例如大量的 YouTube 视频或《纽约时报》的所有内容。
DeepSeek:一个开放的人工智能模型
DeepSeek等开发成果已展现出可比的性能,无需大量数据、最新芯片或花费大量时间进行训练。使用 DeepSeek 进行推理的时间和计算量(实际使用量)确实有所增加。DeepSeek 也是一个开放模型。
开放模型意味着模型的所有源代码都是开放的。此外,这意味着模型权重是可见的。任何人都可以修改模型并使用自己的数据重新训练或改进模型。OSI的这一定义遭到了反对,因为模型开源时不必共享训练数据。批评者认为,训练数据是人工智能的源代码。如果不共享训练数据,模型就不能被称为开源。OSI 为他们的定义辩护。
任何开放模型都会被采用,然后在联盟的医院上进行连续训练。换句话说,医院 1 采用成熟的、经过训练的开放模型,并在其私有数据上进行训练。然后,医院 1 将其重新训练的模型发布给联盟,医院 2 在其私有数据上训练相同的人工智能。这一直持续到联盟中的所有医院都完成了训练。通过联盟的私有数据改进的人工智能仅在联盟中可用。区块链部分旨在证明改进并获得贡献者的报酬以及保持数据私密。
在每个训练步骤中,模型权重都会被哈希化并放入联合账本中。每家医院都会根据其所做的工作获得一些代币。每次改进后,模型的质量也会被衡量,获得质量评级和代币数量。之后,当模型被使用时,每家医院都会根据使用情况支付代币。当我在 2024 年 10 月听说这件事时,开源模型很笨重,效果也不好。随着 DeepSeek 在 2025 年 2 月的出现,这种批评就失去了说服力。
另一个论点是,训练数据可能会以某种方式通过某些技术从模型中泄露或提取,因此需要采取额外的安全预防措施。这些措施包括清理可识别信息的私人数据,以及针对去匿名化技术的其他保护措施,这些技术是备受诟病的《欧盟人工智能法案》的一部分。
免责声明:
关注我们,一起探索AWM!
近期热点
2025-02-01
2025-02-06
2024-12-14




