
随着人工智能技术的迅猛发展,语音合成技术已广泛服务于金融、电信、能源、交通、教育、司法、公安、医疗、互联网等多个领域。尤其随着大语言模型的兴起,TTS技术不仅能够生成更高质量的语音,还能够对生成的语音在情感、韵律和音色方面进行细粒度的控制,应用效果再次跃升。
捷通华声作为国内最早从事智能语音等人工智能技术研发与产业化应用的企业,通过持续的技术迭代与优化创新,推出新一代语音合成技术。灵云语音合成在音色丰富度、情感表现力、发音的稳定性、自然度与流畅度等方面实现了重大突破,语音表达更自然,情感表现更丰富。同时,还支持声音定制,能够更好地适应不同的应用场景和用户需求,提供更加自然、清晰、个性化的语音交互体验。
自2001年在国内率先推出面向市场的语音合成技术以来,捷通华声凭借领先的灵云语音合成技术,为全国高铁、北京奥运会、上海世博会广播、各大银行、车站、医院叫号提供流畅自然的语音服务,得到了国内外市场的广泛赞誉。

高铁、机场等公共服务场所的广播系统肩负着信息传递的重要职责,其准确性与清晰程度直接关乎乘客的出行体验。传统的广播系统往往依赖于人工录音,存在录制成本高、更新不及时等问题。灵云语音合成技术的引入,有效地解决了这些问题。
得益于声学核心的深度学习化与高音质声码器,灵云语音合成效果干净饱满又饱含细节、个人特色还原到位,声线细腻、情感丰富、语速真实、媲比真声。在高铁/机场广播中,这一技术不仅确保了信息的准确传达,而且以其高品质的合成效果大幅提升了语音合成的自然度和表现力,为乘客带来了优质的听觉体验。
公共服务场所的广播内容需要频繁更新,如车次信息、到站提醒等。最新灵云语音合成技术,通过引用“全并行架构声学模型”将运行速度提升10倍,实时率显著提升,这意味着在人机交互中,用户几乎感受不到任何等待时间,语音合成从点击“播放”开始即刻完成。捷通华声可根据用户需求,通过录制和制作语音合成定制音库,在极短时间内定制出各式各样的高度仿真的人工智能声音,效果自然且逼真。
灵云语音合成具备智能判断中英文语境功能。在英文语境方面,又细分为中英混读和西式英文两种语境。中英混读语境下,采用同一音色,以中文腔调来播报英文内容;西式英文语境则以西方音色、纯正西式腔调对英文进行播报。
在金融客服与政务服务领域,语音合成技术需要根据不同的业务需求和场景变化进行个性化定制。例如在金融行业,进行交易提醒、账户信息播报等场景时,语音合成技术应确保发音准确、清晰,同时根据不同的金融产品和服务特点,采用合适的语气和风格,使客户能够快速准确地理解信息,增强客户对金融机构的信任度。
面向智能客服场景,捷通华声推出的灵云智能语音外呼解决方案,采用新一代TTS技术,让文本处理前端拥有强大的分词、多音字、韵律环境预测能力,使合成的语音听起来更加符合人类发音习惯和说话节奏。
同时,在金融、政务等专业领域的发音上也进行了优化:例如标点的韵律停顿更接近真人;金额、日期等数字发音效果更加自然;“年月日元”、“百分之”、“点”等分词朗读时的发音也更加顺畅;对标注为人名的文字可直接按姓氏读音,提高了技术使用便捷性。
考虑到不同地域、不同场景下的业务需求,灵云语音合成技术不断对多语种合成能力进行研发,实现为金融领域多场景赋能。拥有包含多国语种的音库,包括普通话、英语、维语、粤语等20多个语种, 男声、女声、童声、卡通声等多种音色,热情、甜美、严厉等多种风格。
例如,银行的智能客服需要温柔动听的声音,从而给客户良好的服务体验,而金融行业的欠款催收场景,则需要选择相对严厉的声音,起到警示和催促的作用。这种个性化的语音服务不仅提升了客户满意度,还显著提高了营销效率。
捷通华声支持多种语音合成接入方式。针对银行客服中心,提供可私有云部署的语音合成能力平台。通过与客户IVR系统对接,提供稳定高效的语音合成服务,实现用机器人来服务海量用户,满足用户安全性、私有化、高并发等特性需求。
捷通华声是国内早期从事人工智能核心技术研发与产业化应用的高新技术企业,专精特新“小巨人”企业。基于行业领先的智能语音、智能语义、智能视觉、大数据分析等核心技术,企业构建了由算法、技术、平台、应用全覆盖的人工智能产品生态体系,服务金融、电信、能源、政企等各领域数千家客户。