-
特征提取:音频模拟信号输入,将其转为数字信号,提取声音特征,供声学模型提取合适有代表性的特征向量; -
声学模型:将声学和发音学的知识进行整合,以特征提取部分生成的特征为输入,并为可变长特征序列生成声学模型分数; -
语言模型:通过训练语料/数据(通常是文本形式)学习词之间的相互关系,来估计假设词序列的可能性,找出该声言特征最有可能对应的文字序列; -
解码搜索:对给定的特征向量序列和若干假设词序列计算声学模型分数和语言模型分数,将总体输出分数最高的词序列作为识别结果。
1、引擎
2、流式引擎的接入
3、电话系统的接入
4、整体的部署
📣 欢迎向「InfoQ 数字化经纬」投稿,与我们共享您的思考、洞见和实践经验!投稿可邮箱至 editors@geekbang.com(邮件标题前注明【数字化投稿】)

-
关注「InfoQ数字化经纬」公众号,回复「2023」领取2023年全部盘点资料。
-
关注「InfoQ数字化经纬」公众号,回复「抽奖」可以参与本周活动,有机会获得精美礼品。
-
关注「InfoQ数字化经纬」公众号,回复「进群」加入数字化读者群交流。
今日好文推荐

