大数跨境

听见京东 618:大模型时代下的声音供应链

听见京东 618:大模型时代下的声音供应链 京东JoyAI
2026-05-28
0
导读:京东JoyAI语音大模型LiveTTS全面升级!


“请帮我生成一个甜美、台湾腔、细腻的知性女声,用这个充满治愈感的声音讲一个故事,并且每一段切换不同方言。”


这段 Demo 展示了 LiveTTS 在同一音色下完成多方言切换、情绪表达与自然叙事的综合能力


如果是在过去,这样一条复杂指令,几乎等同于给语音合成系统出难题:既要指定音色,又要控制口音、情绪、语速,还要在不同方言之间自然切换。但现在,AI语音正在变得越来越“听得懂人话”。


这背后,是京东自研的 JoyAI 语音大模型 LiveTTS。它不仅可以实现“捏声音”、方言切换、情绪控制和小语种合成,还已全面接入京东 JoyClaw。用户在 JoyClaw 技能商店中进入“内容创作”分类,安装 LiveTTS 技能后即可使用。


1

一句话,让声音更懂场景」


JoyAI 语音大模型 LiveTTS 的核心能力,可以概括为“五个支持”:


  • 支持多语种:覆盖中文、英文、粤语、德语、法语、西班牙语、日语、韩语、荷兰语、阿拉伯语等多种语言;

  • 支持情绪解耦:可根据文本与指令,实现不同情绪的自然表达;

  • 支持语速解耦:可灵活调节语速,适配不同内容节奏;

  • 支持捏声音色:通过融合多个音色声纹,生成新的声音形象;

  • 支持一句话音色克隆:仅需 3—10 秒语音,即可完成高质量音色克隆。


这些能力意味着,语音合成不再只是“把文字读出来”,而是能够根据具体业务场景,生成更自然、更有情绪、更具辨识度的声音。


2

从智能终端到直播间,

声音正在成为体验入口」


在京东的多个业务场景中,LiveTTS 已经展现出实际应用价值。


JoyInside 智能终端


JoyInside 生态涵盖玩具、机器狗、学习机、台灯等多元智能终端。不同年龄、不同地域的用户,对语音交互的亲切感要求并不相同。通过 LiveTTS 的方言解耦能力,终端可以用更贴近用户习惯的方式进行表达。


目前,LiveTTS 已支持东北话、河南话、闽南话、天津话、四川话、陕西话、粤语、上海话等 8 种方言,并可实现方言与哼唱合成,让智能终端真正“开口即亲近”。


这段 Demo 展示了 LiveTTS 在智能硬件交互场景中的自然对话与方言表达效果


JoyAI App 


作为“能聊能办”的万能数字助手,JoyAI App 既具备工具属性,也具备陪伴属性,并深度融入京东供应链能力。用户打开 JoyAI App,即可体验万能博士的对话效果。目前,每天都有大量用户与万能博士进行聊天、咨询和任务办理。


在这一场景中,声音不只是信息传递工具,更承担着塑造助手人格、提升交互温度的重要作用。


这段 Demo 展示了 LiveTTS 在数字助手场景中兼具清晰表达与陪伴感的语音效果


京东数字人 JoyStreamer


直播带货拼的不只是商品信息,更是情绪价值。一个有感染力、有节奏感、有情绪张力的声音,能够显著提升直播间的表达效率与用户停留体验。


京东数字人 JoyStreamer 目前已累计服务超 7 万商家。借助 LiveTTS,数字人主播可以拥有更饱满、更灵活的声音表现,在不同商品、不同节奏、不同直播氛围中自如切换表达方式。


这段 Demo 展示了 LiveTTS 在直播带货场景中的情绪调动、节奏控制与营销表达能力


AI 播客


AI 播客正在成为用户获取知识的新方式。相比密集的文字和碎片化短视频,播客更适合承载深度内容,也更考验声音的呼吸感、节奏感和真实感。


打开 JoyAI App,即可体验 LiveTTS 的 AI 播客能力。它能够将长文本内容转化为更具陪伴感的拟真人声,让知识像专属电台一样自然抵达用户耳边。



这段 Demo 展示了 LiveTTS 将图文内容转化为自然播客音频的能力,适合知识科普、内容解读等长文本场景


3

大模型重塑语音合成,

也重塑618体验」


声音是情感与情绪的重要载体。近年来,大语言模型的发展正在重塑语音合成技术范式:语音被转化为 Token 序列进行深度建模,语音生成也从“参数调节”走向“自然语言指令控制”。


依托大模型能力,LiveTTS 只需一句 Prompt,就能让同一个音色切换多语种、多方言,并精准控制情绪、语速与表达风格。这也打破了传统 TTS 中音色与方言绑定、情绪不够饱满、语速调节不自然等问题。


在 618 这样超大规模的工业场景中,语音交互正在成为底层基础设施。它以“润物细无声”的方式,支撑智能客服、营销、内容创作、数字人直播、智能终端等数十个场景,在每日千万级、全场景、高并发的实时交互中,实现低延迟、高稳定性的语音输出。


面向未来,语音交互将从单向信息传递,走向更深层的情感共鸣。随着音色、语种、方言、情绪的全维解耦,AI 声音将跨越语言与场景边界,更自然地理解语境、调整韵律,并融入笑声、叹息、清唱等拟人化表达。


在大模型时代,声音不再只是技术能力的一环,而正在成为连接用户、内容、商品与服务的新型供应链。


- End -


更多精彩内容




【声明】内容源于网络
0
0
京东JoyAI
京东旗下大模型品牌,与你一起EnjoyAI!
内容 30
粉丝 0
京东JoyAI 京东旗下大模型品牌,与你一起EnjoyAI!
总阅读170
粉丝0
内容30