听见京东 618：大模型时代下的声音供应链- 大数跨境

首页

听见京东 618：大模型时代下的声音供应链

京东JoyAI

2026-05-28

导读：京东JoyAI语音大模型LiveTTS全面升级！

“请帮我生成一个甜美、台湾腔、细腻的知性女声，用这个充满治愈感的声音讲一个故事，并且每一段切换不同方言。”

这段 Demo 展示了 LiveTTS 在同一音色下完成多方言切换、情绪表达与自然叙事的综合能力

如果是在过去，这样一条复杂指令，几乎等同于给语音合成系统出难题：既要指定音色，又要控制口音、情绪、语速，还要在不同方言之间自然切换。但现在，AI语音正在变得越来越“听得懂人话”。

这背后，是京东自研的 JoyAI 语音大模型 LiveTTS。它不仅可以实现“捏声音”、方言切换、情绪控制和小语种合成，还已全面接入京东 JoyClaw。用户在 JoyClaw 技能商店中进入“内容创作”分类，安装 LiveTTS 技能后即可使用。

「一句话，让声音更懂场景」

JoyAI 语音大模型 LiveTTS 的核心能力，可以概括为“五个支持”：

支持多语种：覆盖中文、英文、粤语、德语、法语、西班牙语、日语、韩语、荷兰语、阿拉伯语等多种语言；
支持情绪解耦：可根据文本与指令，实现不同情绪的自然表达；
支持语速解耦：可灵活调节语速，适配不同内容节奏；
支持捏声音色：通过融合多个音色声纹，生成新的声音形象；
支持一句话音色克隆：仅需 3—10 秒语音，即可完成高质量音色克隆。

这些能力意味着，语音合成不再只是“把文字读出来”，而是能够根据具体业务场景，生成更自然、更有情绪、更具辨识度的声音。

「从智能终端到直播间，

声音正在成为体验入口」

在京东的多个业务场景中，LiveTTS 已经展现出实际应用价值。

JoyInside 智能终端

JoyInside 生态涵盖玩具、机器狗、学习机、台灯等多元智能终端。不同年龄、不同地域的用户，对语音交互的亲切感要求并不相同。通过 LiveTTS 的方言解耦能力，终端可以用更贴近用户习惯的方式进行表达。

目前，LiveTTS 已支持东北话、河南话、闽南话、天津话、四川话、陕西话、粤语、上海话等 8 种方言，并可实现方言与哼唱合成，让智能终端真正“开口即亲近”。

这段 Demo 展示了 LiveTTS 在智能硬件交互场景中的自然对话与方言表达效果

JoyAI App

作为“能聊能办”的万能数字助手，JoyAI App 既具备工具属性，也具备陪伴属性，并深度融入京东供应链能力。用户打开 JoyAI App，即可体验万能博士的对话效果。目前，每天都有大量用户与万能博士进行聊天、咨询和任务办理。

在这一场景中，声音不只是信息传递工具，更承担着塑造助手人格、提升交互温度的重要作用。

这段 Demo 展示了 LiveTTS 在数字助手场景中兼具清晰表达与陪伴感的语音效果

京东数字人 JoyStreamer

直播带货拼的不只是商品信息，更是情绪价值。一个有感染力、有节奏感、有情绪张力的声音，能够显著提升直播间的表达效率与用户停留体验。

京东数字人 JoyStreamer 目前已累计服务超 7 万商家。借助 LiveTTS，数字人主播可以拥有更饱满、更灵活的声音表现，在不同商品、不同节奏、不同直播氛围中自如切换表达方式。

这段 Demo 展示了 LiveTTS 在直播带货场景中的情绪调动、节奏控制与营销表达能力

AI 播客

AI 播客正在成为用户获取知识的新方式。相比密集的文字和碎片化短视频，播客更适合承载深度内容，也更考验声音的呼吸感、节奏感和真实感。

打开 JoyAI App，即可体验 LiveTTS 的 AI 播客能力。它能够将长文本内容转化为更具陪伴感的拟真人声，让知识像专属电台一样自然抵达用户耳边。

这段 Demo 展示了 LiveTTS 将图文内容转化为自然播客音频的能力，适合知识科普、内容解读等长文本场景

「大模型重塑语音合成，

也重塑618体验」

声音是情感与情绪的重要载体。近年来，大语言模型的发展正在重塑语音合成技术范式：语音被转化为 Token 序列进行深度建模，语音生成也从“参数调节”走向“自然语言指令控制”。

依托大模型能力，LiveTTS 只需一句 Prompt，就能让同一个音色切换多语种、多方言，并精准控制情绪、语速与表达风格。这也打破了传统 TTS 中音色与方言绑定、情绪不够饱满、语速调节不自然等问题。

在 618 这样超大规模的工业场景中，语音交互正在成为底层基础设施。它以“润物细无声”的方式，支撑智能客服、营销、内容创作、数字人直播、智能终端等数十个场景，在每日千万级、全场景、高并发的实时交互中，实现低延迟、高稳定性的语音输出。

面向未来，语音交互将从单向信息传递，走向更深层的情感共鸣。随着音色、语种、方言、情绪的全维解耦，AI 声音将跨越语言与场景边界，更自然地理解语境、调整韵律，并融入笑声、叹息、清唱等拟人化表达。

在大模型时代，声音不再只是技术能力的一环，而正在成为连接用户、内容、商品与服务的新型供应链。

- End -

更多精彩内容

【声明】内容源于网络

京东JoyAI

京东旗下大模型品牌，与你一起EnjoyAI！

内容 30

粉丝 0

京东JoyAI 京东旗下大模型品牌，与你一起EnjoyAI！

总阅读170

粉丝0

内容30