大数跨境
0
0

常投格物·产研说(总第49期)| 授人以渔?以DeepSeek为代表探讨大模型 在金融投研中的垂域应用

常投格物·产研说(总第49期)| 授人以渔?以DeepSeek为代表探讨大模型 在金融投研中的垂域应用 常州人才科创集团
2025-03-07
2

 要点 


DeepSeek大模型采用混合专家(MoE)架构与强化学习(RL)训练范式,显著降低训练成本开源策略支持私有化部署与垂域定制化开发,结合知识蒸馏技术推出不同参数规模的模型版本,兼顾复杂推理与本地化部署需求。

►需高度重视大模型固有的幻觉问题,可结合知识图谱、检索增强生成(RAG)与多模型验证缓解风险。

►金融投研应用可通过提示词角色扮演(低成本)、多模态工作流构建(中成本)及垂域二次开发(高成本)三类途径实现。

►建议以提示工程优化为核心,结合开源平台构建轻量级AI Agent(如数据采集-分析-报告生成工作流),通过人工复核筛选幻觉内容,实现效率与风险可控的平衡。

►需充分认识到以Manus等新技术为代表的技术迭代风险,避免针对某些模型大规模二次开发投入可能面临的技术过时问题,采用灵活适配的轻量级方案。


一、深度分析DeepSeek的特点 











(一)DeepSeek概述

DeepSeek是由深度求索公司研发的大语言模型(LLM,大模型)。本质上说,其技术原理与GPT等模型同属Transformer架构体系,但DeepSeek之所以获得如此广泛的关注,除了因为它是由国内企业自主研发的之外,还因为该模型具备独特优势:

1. 训练成本大幅降低:DeepSeek相比GPT等同属Transformer架构的模型,最聪明的更新点在于其通过架构创新与训练策略优化实现了性能与成本的平衡。具体而言,DeepSeek采用混合专家(MoE)架构,将输入数据根据任务类型分割成多个区域,并将每个区域的数据分配给一个或多个专家模型,这使得DeepSeek-V3在每次推理时仅激活部分参数(例如370亿参数),而不是整个模型的所有参数(6710亿参数),显著降低了计算资源消耗。

图表1:MoE架构图解(来源:Noam Shazeer等,Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer, arXiv:1701.06538[cs.LG])

同时,其纯强化学习(RL)训练范式摒弃传统监督微调(SFT),直接以答案准确性为奖励信号优化模型,大幅减少标注数据需求和计算开销,甚至触发模型自主推理的“顿悟时刻”。此外,3D并行训练技术将数据、模型、流水线拆分并行处理,结合计算通信重叠和全局负载均衡算法,最大化GPU利用率并降低延迟。这些方法论层面的突破,使得DeepSeek在保持顶级性能的同时,将训练成本压缩至同类模型的1%-5%(如DeepSeek-V3训练成本仅557.6万美元),显著提升商业落地可行性。

图表2:几个大语言模型的对比效果(来源:GitHub-DeepSeek)

2.开源带来部署优势:通过开源基座模型(如DeepSeek-R1)和配套工具链,一方面便于同行进行二次开发,进一步拓展DeepSeek的能力边界;另一方面使企业能够以较低算力成本完成金融、医疗等垂直领域的定制化训练。另外,DeepSeek的开源特性允许用户构建私有化部署环境,以规避敏感数据泄露风险。

(二)从大模型落地流程看DeepSeek的后训练优势

1.大模型研发落地的流程

大模型从研发到落地的完整流程可划分为预训练、后训练、对齐优化部署应用四个阶段,这一方法论已成为行业主流实践框架。

 

图表3:预训练和微调的关系(来源:节世博,邓志鸿,预训练视觉模型的参数高效微调,中国人工智能学会通讯)

【如需获知详尽内容,请扫文后二维码与我们联系】

2.DeepSeek在后训练阶段的优势

由上述可以发现,后训练并非DeepSeek独有,而是行业通用的范式。后训练的开展可分为官方与用户两个层面:基础模型发布前,厂商会完成通用领域后训练;同时,开源模型(如DeepSeekR1)允许用户基于自有数据进行二次后训练。DeepSeek 在后训练阶段通过减少监督微调(SFT)步骤、采用强化学习(RL)技术、设计高效的奖励系统以及采用模板化的训练方法,显著减少了对大规模标注数据的依赖,优化了计算资源的使用效率(下面我们也会看到这么做带来的一些问题),从而降低了企业在进行垂域大模型二次开发时的成本。DeepSeek的Colossal-AI团队发布了开源大模型后训练工具箱,便于进行二次开发。

(三)现有的DeepSeek模型版本

图表4:DeepSeek在GitHub上公布的模型(来源:GitHub-DeepSeek)

DeepSeek公布的“满血版”模型为DeepSeek-R1(6710亿参数MoE架构),专为复杂推理任务设计,但需高算力支持;蒸馏版模型则是基于满血版生成的数据对开源模型(如Qwen、Llama)微调的小参数版本,涵盖1.5B至70B不同参数规模,在保持部分推理能力的同时显著降低硬件需求,适合本地部署或中低复杂度任务,但复杂任务表现弱于满血版。两者核心区别在于参数规模、推理能力与适用场景,满血版追求极致性能,蒸馏版侧重效率与可部署性。DeepSeek蒸馏模型基于知识蒸馏技术,即通过将大型教师模型的知识迁移至轻量级学生模型,实现模型压缩与加速双重目标,在保持95%以上准确率的同时显著降低计算需求和部署成本,这一步主要贯穿于模型的后训练阶段

【如需获知详尽内容,请扫文后二维码与我们联系】

(四)DeepSeek的思维链

思维链(Chain-of-Thought, CoT)并非DeepSeek独有,这一概念最早由Google Research在2022年提出,并应用于PaLM等模型中,目的是通过显式生成推理步骤来提升解决复杂问题的能力。CoT的实现并非通过训练“问题→思维链、思维链→答案”两个独立的子模型,而是基于单一模型的端到端生成机制,其本质是模型在解码过程中自发产生的中间推理步骤序列。具体而言,CoT的体现依赖于模型的注意力权重分布和参数空间中隐含的推理模式:在预训练阶段,模型通过海量包含逻辑推导的文本(如数学解题过程、哲学论证)学习到将复杂问题分解为逐步推理的潜在能力;在推理阶段,通过特定的提示词激活这些隐式模式,引导模型生成显式的中间结论(如公式推导、事实检索),最终合成答案。

【如需获知详尽内容,请扫文后二维码与我们联系】

(五)幻觉问题:当前制约大模型应用场景的重要因素

1.什么是幻觉(Hallucination)问题

大模型的幻觉问题是指其在生成内容时输出看似合理但实际存在事实错误或逻辑矛盾的虚构信息。这种现象可分为两类:事实性幻觉,即生成内容与可验证的现实世界事实不符,如将多伦多错误描述为加拿大首都;忠实性幻觉,即生成内容偏离用户指令或上下文,如要求总结2023年新闻却输出2006年事件。

【如需获知详尽内容,请扫文后二维码与我们联系】

2.为什么DeepSeek更容易出现幻觉问题

DeepSeek相较于GPT系列模型更易出现幻觉问题,主要源于其技术路线在模型架构、训练机制和数据工程上的差异在提升效率的同时带来的不良影响。

【如需获知详尽内容,请扫文后二维码与我们联系】

3.应对幻觉问题的思路

目前学界和业界主要通过引入知识图谱、检索增强生成(RAG)、多模型交叉验证改进解码策略等手段进行缓解,但本质上幻觉仍是大模型技术发展过程中需持续攻克的认知边界难题

【如需获知详尽内容,请扫文后二维码与我们联系】

4.一点隐忧

需要注意的是,随着大模型被广泛应用,网络上有越来越多的语料其实是大模型生成的,而这其中也必然存在不实内容,导致真实准确的信息越来越难获取。事实上,现在网络检索出的许多内容,本身就是DeepSeek等大模型生成的,其真实性也许存疑。例如,部分网络信息本身就是大模型生成的虚假内容(如伪造的信件、学术论文或法条),当这些信息被其他模型通过RAG技术引用时,虚假内容会被二次强化,甚至被加工成更“合理”的形态。这种正反馈机制恰恰类似于深度学习中的梯度爆炸——错误信息在多次迭代中指数级放大,最终导致真实信息被淹没。更严重的是,恶意攻击者可能会故意污染语料库,通过批量生成虚假语料污染公共数据集,使得后续模型训练难以获取干净数据。要打破这种循环,需要多维度治理,例如引入权威信源白名单、通过对抗训练增强模型对虚假信息的识别能力等,但仍需要更系统的应对方案。






 二、DeepSeek金融投研应用及二次开发探讨 










目前除DeepSeek官方外,已有部分第三方平台部署了DeepSeek大模型。最直接的使用方法是通过设计提示词(prompt)引导通用模型进行角色扮演,模拟特定领域专家回答问题(二次开发要求较低)。这一过程本质上是像一位全科医生临时在专科门诊接诊,无需对大模型进行底层调整即可快速适配场景,由此促进了提示工程技术的应用。由于DeepSeek当前主要支持文本模态,为扩展其功能边界,开发者可通过扣子、Dify等第三方平台构建多模型协作的工作流,例如结合视觉模型处理图像输入(二次开发要求中等),就像全科医生联合影像科医生和检验科医生组建会诊团队。此外,DeepSeek提供完整的开源代码和微调指南,支持开发者基于其基座模型进行垂直领域的深度优化,例如通过领域数据继续训练实现专业化升级(二次开发要求较高),类似于优秀的医学院毕业生通过某一科室培训成长为某一科的专家医师。

(一)利用官方模型通过提示词角色扮演(二次开发要求较低)

(二)结合其他多模态大模型和通用模块构建工作流和Agent(二次开发要求中等)

(三)充分利用DeepSeek后训练优势进行垂域二次开发(二次开发要求较高)

【如需获知详尽内容,请扫文后二维码与我们联系】





 三、结论 










综合以上讨论,对于地方投资团队,建议以官方模型通过提示词角色扮演进行投研赋能为主,适度利用开源平台探索AI Agent的工作流,可以相对最低的成本最大化大模型的效果,同时人力的较大程度介入有助于筛选掉大模型幻觉带来的不实信息。这也是当前市面上各大机构相对常见的策略。

另外,在当下这一节点,AI大模型似乎越来越临近技术奇点。大模型对生产力的帮助和提升是滚雪球式的,因此大模型本身的迭代速度也可能类似指数曲线。此刻针对某一大模型进行大规模二次开发和部署可能并不是最佳策略。就在笔者写作本文之时,由中国团队Monica推出的全新AI Agent Manus横空出世。据网络信息,Manus可能是全球首款真正意义上的通用AI Agent,与市面上常见的聊天机器人或单一任务处理工具不同,Manus被设计为一个能够独立思考、规划并执行复杂任务的智能体,其核心在于“知行合一”的理念,不仅能够理解用户的需求,还能主动调用各种工具来完成从构思到实践的全过程,使得它更像是一个具备高度灵活性的人类同事而非简单的工具。目前,Manus目前仍处于内测阶段。

相信AI的奇点时刻可能就在不远处。






产研说2.0 焕新升级

元毅公司焕新推出“产研说2.0”品牌服务

▶免费发布宏观经济及财经时事相关分析报告。

部分免费提供行业深度、热点赛道分析、知识专题内容,并按读者需求提供完整单篇全文、行业合订本、月度合订本、半年度合订本等付费知识服务(请扫描专属二维码并留下联系方式)。

采取收费服务模式,定制化提供深度研究报告:

1.宏观经济研究:利用计量模型,对经济数据及产业指标进行分析。

2.行业深度研究:对于具体产业赛道,结合地区现状进行分析。

3.地方产业链分析:结合地区区位禀赋、产业链优势,分析产业方向。

4.具体项目分析:对具体的企业和项目,进行建模分析,出具完整的深度研究报告。

文字:陈泽源(元毅投资)
编辑:恽馥溢
审核:徐   

【声明】内容源于网络
0
0
常州人才科创集团
常州人才科创集团坚持“政府引导、市场运作”的工作思路,聚焦“人才+科创+资本”服务模式,系统构建“科创人才招引、科创项目孵化、科创投资集聚、科创生态服务”四大功能平台,助推新兴产业人才项目落地壮大。
内容 140
粉丝 0
常州人才科创集团 常州人才科创集团坚持“政府引导、市场运作”的工作思路,聚焦“人才+科创+资本”服务模式,系统构建“科创人才招引、科创项目孵化、科创投资集聚、科创生态服务”四大功能平台,助推新兴产业人才项目落地壮大。
总阅读5
粉丝0
内容140