11月17日至18日,芥末堆在北京举办以“教育有 AI ,学习无界”为主题的 GET 2025教育科技大会。声网教育行业产品负责人钱奋以《从内容到对话 - 对话式 AI 驱动教育场景新模式》进行了主题分享。
钱奋在分享中,系统梳理了 AI +教育的产业变化、应用趋势与技术路径。他指出,在过去十年中,教育科技的内容化与工具化已相对成熟,而对话式 AI 的出现正在重构教学互动方式,使学习从“工具型使用”走向“陪伴式体验”。随着 AI 技术发展,以及教育信息化政策推进、AI 老师与 AI 助教等新形态产品兴起,对话式 AI 正成为推动场景创新、提升教学效率的重要力量。
以下为演讲实录,经编辑:
大家上午好,我是来自声网的钱奋,目前负责声网教育行业的产品落地和解决方案。很高兴再次来到 GET 大会,与各位交流我们在教育领域的实践经验。
我今天分享的主题是《从内容到对话 - 对话式 AI 驱动教育场景新模式》,将重点探讨对话式 AI 技术如何赋能教育新场景。
过去十年,教育科技在内容数字化与工具化方面已相当完善。尤其是近两年大模型技术的突破,将内容生成能力推向极致。我们注意到,越来越多教育机构开始探索对话式 AI 的技术演进,并将其融入实际教学场景中。
声网作为全球实时音视频与对话式 AI 云服务的开创者,在此领域具备深厚积累。目前,我们在实时互动市场份额位居行业首位,拥有50多项自主创新技术,全球累计注册应用超过74万。在10月举办的 RTE 2025大会上,我们宣布实时互动分钟数首次突破万亿。
当前,声网的实时互动技术已广泛覆盖教育全场景,包括素质教育、通用教育等细分领域。
AI+教育:确定性的增长赛道与细分机会
从2024年至2030年, AI+教育市场规模预计将实现近十倍增长。这清晰表明,该赛道正处于确定性增量阶段,为产品与服务创新提供了广阔空间。
去年我们内部评估时还相对保守,认为教育行业在“双减”后迭代较慢,不太可能出现爆发式增长。但今年以来,随着“百模大战”与教育大模型的兴起,内容生成能力已趋极致, AI 老师、 AI 助教等新形态产品纷纷涌现,整个赛道呈现出高度活跃态势。
从研报数据来看,当前 AI+教育主要围绕两大方向展开:
一是教育信息化。在政策推动下,越来越多学校与机构开始布局 AI 能力,并将其纳入教学体系。
二是课外培训与 K12 应用,包括 AI 老师、 AI 助教、语言学习与作业辅导等。此外,帮助教师提升工作效率的 AI 工具也迅速普及。
素质教育和早教领域目前市场规模较小,尚未出现现象级应用,仍处于探索阶段。
2024年教育行业共发生81起融资事件,其中21起与 AI 技术相关。而今年上半年,25起融资中22起涉及 AI 。这表明, AI 已从“可选项”转变为教育项目的“必选项”。
我们将 AI 教育场景的成熟度划分为 L1 至 L4 四个等级:
K12 校外应用(如解题、口语陪练、出海产品)成熟度最高;
教育信息化、教学效率工具、学情分析等处于快速发展阶段;
学习机与教育硬件 AI 化也已较为成熟;
而中老年教育、早幼教等领域仍处于探索期。
当前教育应用排行榜中,教辅工具与语言学习类产品占据主流,其商业化路径也相对清晰。
若想在 AI 教育领域打造产品,应紧扣刚需、高频场景,单纯售卖 AI 能力并无亮点。语言学习、解题辅导等场景用户付费意愿强,商业规则清晰,具备度量和复制的可能性,容易形成规模化产品。
AI 教育产品正从“功能导向”迈向“体验导向”
从需求侧看,随着 AI 技术演进,产品形态正从“工具型”向“陪伴型”转变。目前,创业者、教育从业者与机构负责人普遍意识到, AI 教育产品的核心诉求已从早期的“答案是否正确”转向“产品是否好用”。
在大模型发展初期,用户更关注 AI 能否给出正确答案;而随着技术成熟,用户开始重视使用体验——例如交互是否流畅、能否随时打断错误回答、背景噪音是否影响交互等细节。这说明, AI 教育产品正从“功能导向”迈向“体验导向”。
AI 教育产品的演进路径:
早期工具时代:以内容生成与文字识别为主,可提供答案但缺乏互动,本质上仍是工具;
对话式 AI 2.0时代:支持语音交互与多轮对话记忆, AI能说会道,更像教学助手;
未来拟人化阶段: AI 以数字人形象实现实时互动,兼具知识引导与情感反馈能力。
从人机交互演进来看,最终方向一定是语言交互。对话式 AI 正推动机器以更智能的方式与人沟通。
自 GPT-3到 GPT-4o,对话式 AI 不断突破。特别是在 GPT-4o 发布时,实时人机对话令人惊艳,标志着真正对话式交互场景的到来。
但目前 AI 与真人对话体验仍有差距。真人交流中,我们能自动过滤背景噪音、保持注意力集中,而 AI 尚不能完全做到。要提升 AI 的教育场景体验,需解决延时、打断、注意力锁定、情感表达等关键问题。这也正是声网在对话式 AI 领域重点投入的方向。
声网对话式 AI 引擎2.0:如何打造“真人级”对话体验?
如果你打算做客户端 APP ,或是各类硬件——现在教育硬件非常火,比如各种陪伴式机器人;也包括传统的电话接入业务——虽然它不完全属于核心教学场景,但所有教育机构几乎都有客服或售前电销的需求,这里面同样蕴藏着丰富的 AI 对话应用机会。
声网在这一块打造的引擎,目标就是把对话体验做好、做得足够像真人,让 AI 听起来就像一个真实的人在与你交流——这类技术非常关键。
我们做了很多底层工作,例如语音检测——能准确判断你是否真的在说话,而不是一有背景杂音就触发回复;还有降噪、混音消除、注意力锁定等一系列能力。
引擎引入 AI 智能中枢。正常人说话一秒大约2~3个字,最快也不过3~5个字。人和人之间对话的传输是基本固定的,也就是码率或数据量大致稳定,但人和 AI 之间的传输机制则完全不同。用户在说完话之后,AI 需要快速处理文本 Token 并生成回应。
为此,我们在应用中加入了‘预生成缓存’功能:用户说话时,系统会提前将 AI 的回应内容预先生成并缓存到客户端。即使网络条件不佳,对话仍能保持流畅——因为回应内容已提前存储,可直接调用。这就是我们的 AI 智能传输技术。
在技术底层,我们对接了丰富的能力,包括 ASR 、大模型、 TTS ,以及数字人等。我们提供了大量接口,方便大家接入自己偏好的模型或技术供应商。我们深知,在业务层,各位比声网更懂教育场景,因此这一块必须贴合大家的实际需求。
那么,具体怎么选择合适的方案呢?声网推出了AI 模型评测平台(对话式),它能从多个维度帮你判断:什么样的对话场景,该选什么样的模型、 TTS 或 ASR 才最合适。如果你追求整体最优,可以选择“综合最优”;如果场景对实时性要求极高,就选“响应最快”;如果更看重成本,我们也提供“成本最优”的选项。
如果业务部署在不同地区,你也可以按区域灵活选择。在我们的平台上,你可以自由选用主流语音识别模型,每家厂商的延时、价格都一目了然。这样,无论是选型还是选供应商,你都能清晰做出最适合自己的决策。
此外,声网还推出了对话式 AI Studio 。你可以把它理解为一个可视化编排工具——就像刚才几位老师介绍他们的产品那样,你可以轻松配置对话流程、模型参数、ASR设置,比如设定打断时长、交互模式等等。 Studio 也支持接入第三方插件,拓展场景能力。我们还内置了多款对话模板,例如当前热门的英语陪伴、作文批改、硬件交互等,基本上可以实现无代码接入。
目前,已经有不少客户与我们一起打磨产品,实现了场景升级。比如一些口语学习应用,从原来“你说一句, AI 回一句”的模式,升级为真正自由对话的 AI 老师;高途的课后辅导、豆神的双师课堂,也接入了我们的对话式能力,引入了 AI 助教;还有一些智能口语陪练硬件,也通过对话式 AI ,从单纯的内容播放器,转型为陪伴式教学伙伴。
AI 客服与外呼场景虽然不完全属于教学核心,但很多教育机构都在使用,这类场景能够显著压缩成本、提升人效,同样非常适合搭载对话式 AI 能力。
我的分享就到这里,谢谢大家!






