随着生成式AI对利用非结构化数据(如文本、图像、音频及其他模态)建模的需求日益增长,通过向量(也称为嵌入)对非结构化数据中的信息进行数学表示的深度学习算法越来越受欢迎,也越来越复杂。过去几年,向量数据库在语义搜索方面的功能不断加强,并在2023年随着大模型应用的出现达到了一个新的转折点。
一旦确定需要使用向量数据库,在选择需要集成向量数据库的哪些功能时,企业需要考虑应用的要求以及上线时需要的性能、部署、管理和成本结构。
目前,市场上主要有四种类型的向量数据库供应商,每种类型的供应商都为技术应用的某些需求提供了可选性。下图展示了对4种类型供应商的描述:
01
专业开源供应商
一些专业供应商采用开源商业化模式,专注于销售向量数据库,并且可能是某个开源项目的贡献者或托管者。这些供应商通过在商业层中提供额外的功能和操作(例如部署、安全、管理、监控、扩展等)来实现盈利。大多数开源项目允许开发者在应用程序所在的任何地方部署数据库(注意:始终要检查开源软件(OSS)许可证的商业化参数)。
专业开源供应商最适合于:
• 希望快速、低成本地尝试向量数据库的产品团队;
• 拥有工程能力来部署、扩展和管理向量数据库架构的团队;
• 希望在部署和管理中控制应用程序所有组件的团队;
• 希望减少依赖第三方服务可能带来的安全风险和响应时间延迟的团队;
• 愿意承担长期支持开源数据库的成本,从而节省购买和部署专有数据库成本的团队。
02
专业闭源供应商
一些专业供应商采用闭源商业化模式,与专业开源供应商不同的是,专业闭源供应商提供的是专有向量数据库。
专业闭源供应商最适合于:
• 没有能力或者资源和时间来管理向量数据库的基础设施、部署和管理的产品团队;
• 希望快速验证应用价值,并且希望快速启动服务的团队;
• 信息安全配置允许调用第三方托管服务的用例;
• 具有明确业务收益,能够覆盖成本的用例。
03
多模态数据库
传统数据库供应商在其数据库中增加另一种工作负载模式以支持向量结构。这些供应商已经在当前市场中占据了一定地位,并希望将数据库管理的协同效应扩展到向量数据库支持的用例中。在这一市场中,支持关系型数据库(SingleStore、Oracle、ClickHouse、Rockset)和非关系型数据库(MongoDB、Redis、Neo4j、DataStax、Cassandra)之间存在区别,每种数据库都有其自身的用例。
多模态数据库最适合于:
• 已经具备使用数据库供应商提供的数据存储解决方案(可能是SQL或NoSQL数据库)来开发应用程序和用例的专业产品团队;
• 拥有专业服务团队的技术供应商,这些团队专注于提供数据库的交付服务,甚至远程管理和维护服务。
04
云生态系统服务
云生态系统服务是指超大规模云服务提供商增加自己的向量数据服务,这些服务经过优化可在其生态系统内运行,以便与其他组件集成,构建应用程序。
云生态系统服务最适合于:
• 专注于构建SaaS应用或在云服务提供商的环境中部署产品的团队,这些团队还可能参与到云服务商的合作伙伴生态中;
• 提供专业服务的技术供应商,他们的服务团队不仅负责将应用程序交付到云服务商的环境中,而且还提供远程管理服务,包括应用程序的配置、监控、故障排除和更新等。
* 以上为报告内容节选,完整报告请查看:

