大数跨境

解锁新世界~Dify/ComfyUI沉迷记~AI推理加速&Infra工程师熊猫直呼: LLM应用 yes!

解锁新世界~Dify/ComfyUI沉迷记~AI推理加速&Infra工程师熊猫直呼: LLM应用 yes! AI不止算法
2026-01-06
6

CES 2026在今天1月6日开启大幕,各大公司都在秀肌肉,我和我同事也来蹭一下热度哈哈,"秀"一下开年第一天的吹水

2026新年假期刚结束,上班的第一天,食堂饭后,我(熊猫,推理加速工程师)和同事小张(同组infra工程师)慢悠悠走着,消食兼闲聊

我:诶,今天只有咱俩,xx还没回来呢?

小张:是啊,这小子不想上班了,你这收假回来状态可以啊,这假期没少歇吧?

我:确实没少歇,在床上睡了个够,头都谁晕乎了,你呢

小张:我也没瞎跑,宅家居多,偶尔翻了翻新出的推理优化论文,顺带补了补觉,避开了景点下饺子。看你这屁股都平了,您这是躺的平的很啊?

我:还行还行,么有么有,假期一朋友知道我做LLM,想要让我帮他搭建一个agent应用,我心想,卧槽我一做推理优化天天拉通对齐的哪懂什么搭建应用啊,于是乎,我心想,反正假期不想出去下饺子,干脆了解一下目前哪些工具能够用来搭建LLM/agent应用,再于是乎,搜了一下,玩了玩Dify、ComfyUI、NV NeMo-Agent这些上层LLM应用工具,发现还挺有意思的。咱们平时天天扎在推理引擎的架构设计和各种优化手段,眼里全是延迟、吞吐量,反倒没关注过这些应用工具把咱们的优化成果用得这么丝滑。要不是我这朋友找我搭建应用,我没准真的都不好说我是做AI相关工作的

小张:哦?我也听过这几个工具,但一直觉得是产品、运营等等一些不写代码的普通用户用来搭应用的,感觉跟咱们做推理优化的关系不大啊?

我:是但也不是,我跟你讲,主要看你的用途,如果你是想单纯搭建一个应用出来帮你解决实际问题,那确实如你所说,但如果你是带着推理优化的先验知识去玩,会有不一样的感受的,首先,我在玩的时候像个白痴一样woc,我的问题非常多:不知道怎么搭建应用,怎么创建一个best practice的工作流,我也是到处搜刮资料学会的,比如Dify里面也有个叫DSL的名词,woc,我还以为搭建应用也要写DSL啊,DSL还真是在AI全栈都流行呢,没想到人家这里的DSL就是个yml文件用来配置你的应用而已。。。可不是什么kernel DSL。。

我:幸好我机智,很快就摸清楚了怎么个玩法,会了之后,我发现这些工具一定程度上可以把咱们底层的优化成果翻译成了用户能直接感受到的体验,而且反过来还能给咱们的优化方向指路。就说Dify吧,低代码平台,定位特别明确=>帮人快速搭AI应用,比如客服助手、知识库问答,甚至咱们之前对接的PPT生成工具,用它搭个工作流就能跑。

小张:这我知道,我以为它就是个“傻瓜式”工具,难道里面还能看出咱们熟悉的优化逻辑?

我:必须的,它还有一个戳我的点是把推理优化做成了真正顾名思义上的”推理引擎“,当用户执行应用的时候,是真的在引擎加速啊。比如部署本地模型时,它直接支持Ollama、NVIDIA triton inference server、vllm等等这些推理引擎,不需要自己写接口适配,已经帮我们封装好,我们就是点几下的事情,本质就是做了多模型的推理接口标准化,跟咱们做的多模型推理网关思路一模一样。还有搭RAG应用时,内置的重排序模型、批量文档嵌入,背后基本是剪枝、batch inference等等这些咱们天天琢磨的策略。

我:更关键的是Dify生态集成了无数tool(做应用的同学对这东西熟悉的不行)供我们使用,(人为什么比动物强,一个重要原因是人会使用tool),比如如果我们需要一些LLMOps能力,达到实时追踪请求链路和资源消耗,找到一些Tracer tool就能实现端到端对话链路追踪。搭建工作流的时候,如果我们想要实现一个逻辑:GPU资源紧张的时候,能自动把深度思考模式的模型切换成轻量化模型,那么我可以创建一个if else节点来判断这个紧张情况,从而实现推理降级策略。另外它支持的模型生态特别全,不管是OpenAI的商业模型,还是本地用ollama/vLLM加速的开源模型,都支持接入,不用写代码。我假期用它搭了个PPT生成demo来玩一下,非常非常简单的一个demo,分别接了原始模型和TRTLLM优化后的模型,此外也可以调用已有的ppt生成tool,也可以自己custom一个tool(这里就需要写点代码了),非常直观可以看到TRTLLM优化前后对应用带来的实质影响。

我:Moreover,我还再一次理解到了一些小模型的用武之地(相对LLM几十几百B地"小"),比如我搭建工作流的时候,我需要先从用户千奇百怪的输入提取出一些结构化文本,这个时候,用一个几百万到几亿参数的“小”模型完全够用了,比如encode only的bert系列、指令微调的decode only系列,这不由让我想起之前知乎的一个问题,见qwen3-0.6B这种小模型有什么实际意义和用途吗? - 知乎

小张:有点儿东西,我好奇,NV有没有类似的工具?

我:有,但是不适合非技术人,而是面向的是更专业的人,需要写代码,我暂时还没深度用过,先不评价了。我只知道和Dify一样,都需要配这配那的,都与一个yml文件有关联,我感觉LLM/agent应用难道也遵循all you need规律?yml is all you need??

小张:哈哈,可以,那么除了Agent,多模态场景有没有对应的工具?我之前想调文生图的推理参数,光跑脚本就给我整吐了。

我:可以试试ComfyUI,它是一种节点式可视化设计,把多模态推理pipeline变成了一张可拖拽的画布,用我们推理加速infra的视角来看,那就是一张DAG。咱们平时抽象的“文本编码→特征处理→生成→解码”流程,在它里面全拆成了独立节点,比如CLIP编码、UNet推理、VAE编解码,每个节点都是一个可优化的推理单元。想测TRT加速效果的话直接换个集成了TensorRT的UNet自定义节点就行;想对比FP32和FP16的耗时,加个性能监控插件就实时能看。

小张:哎,说到可视化节点,Dify好像也有可视化工作流吧?这俩不一样吗?我之前还以为是一类东西。

我:不一样的,这也是我假期玩的时候才有了一点了解的。表面都是“节点拖拽”,核心逻辑差远了==>Dify是业务应用组装,节点都是高封装的业务单元,比如“RAG检索”“工具调用”,隐藏了所有底层推理细节,它的目标是快速做出可落地的产品,比如你搭完工作流直接就能生成应用链接给用户用。

我:ComfyUI则是“生成过程拆解”,节点是细粒度的推理单元,比如KSampler采样,LoRA权重调整,模型精度/分辨率选择,attn种类选择:有SDPA,flash attention还有什么SageAttention,显存消耗这些也能调。它的目标是让你调参精准控制生成效果,比如调调采样步数、换个注意力机制,就能明显且快速的看到图像细节或视频流畅度的变化,无需重新加载模型。简单说,Dify是帮你把优化后的推理能力做成“可用的产品”,ComfyUI是帮你把推理优化过程变成“可调试的实验”,我们做性能优化验证的话,两者能互补。

小张:这么一说就懂了!那ComfyUI对你来说,好玩的点在哪?

我:很多,第一当然是玩,文生图,图生图,文生视频等等多模态任务可以照着一些模板和教程搭起来玩,看看实际效果,二是搭推理优化对比工作流来了解推理加速infra层面的效果,我粗略搞了个“文生图+OCR+LLM总结”的全流程,左边用原生模型无优化,右边用量化+TensorRT加速+批处理,并排运行就能看到总耗时从2n秒压到n秒。

我:还有个符合咱们痛点的玩法==>显存优化调试。之前你不是说调参总爆显存吗?ComfyUI里有专门的显存管理节点,我试了两种方案:一种是在工作流末尾加个空载任务,跑完图自动清空显存,避免残留占用导致OOM;另一种是用插件里的cleanGpuUsed节点,不过这个对我环境没生效,可能是我还没配对。另外我在看一哥们教学视频的时候发现了一个有趣的现象,他说他用了两种不同后缀 (fp8_e4m3和fp8_e4m3_fast) 的Wan2.2去生成视频发现总是前者视频的质量更高,不过后者确实会更快,我当时就盯着他,看他能不能说出原因,哈哈,他没有说出来,我当时就得意的笑了,这不就是我们推理加速AI infra人的领域了嘛?我当时就震惊了(雷布斯语气),我要是懂infra又懂应用,我岂不是无敌?

小张:这波工具玩得够深啊,说真的,听你这么一聊,我突然觉得咱们的推理优化不再是黑盒技术了,我们绝大多数人做这玩意整天盯着吞吐和延迟,确实很少在应用层面直观感受到这些指标,能直接对应到用户的体验和业务价值上确实很有成就感。

我:对的,这些应用工具真的挺好玩的,其实我个人觉得它们不能称是完全的终端工具,dify更像一个应用工具的基架或者infra,我们可以在上面搭建自己喜爱的应用,不过话说回来,Dify RAG场景的高频使用,也提醒咱们要重点优化Embedding生成和向量检索的链路效率,ComfyUI里大家很爱用低显存优化节点,说明显存约束是用户核心痛点

小张:100%,回头把你那几个好玩的工作流模板发我一份,我也试试从用户视角看看咱们的优化成果。

我:没问题,现在网上其实已经有很多好玩的工作流模板了,awesome打头去搜就完事。

小张:nb,收假第一聊,收获比开一周技术会还大,走,回工位,我先把ComfyUI装起来试试!

我:可以,不过你记得下午先把我要的数据帮我测出来啊哥!


【声明】内容源于网络
0
0
AI不止算法
AI-HPC/AI工程/AI推理加速/AI算子开发的技术分享和入门转行学习的全套解决方案提供
内容 92
粉丝 0
AI不止算法 AI-HPC/AI工程/AI推理加速/AI算子开发的技术分享和入门转行学习的全套解决方案提供
总阅读93
粉丝0
内容92