CastFox 借力 Gemma 3n 打造互动式播客新体验
Guru Network Limited 是一家全球化的娱乐与游戏公司,其推出的 CastFox 应用上线仅 3 周,下载量即突破 100 万次。该应用通过将传统被动收听的播客内容转化为可交互的知识库,重塑用户收听体验。
为实现语义检索、智能亮点提取和节目内聊天等核心功能,CastFox 工程团队需要一个高效、稳定且成本可控的 AI 模型。基于初创企业的预算考量,团队最终选择 Gemma 3n 作为技术引擎,加速产品规模化落地。
△ Gemma 3n 赋能 CastFox 应用中的语义检索、智能亮点提取和节目内聊天功能
面临的挑战
CastFox 致力于将播客从单集收听升级为基于主题的深度探索。用户可通过语义概念而非关键词进行搜索,快速获取内容概览,并与音频内容实时互动。
为此,团队需高效处理海量英语、日语和韩语音频数据,以支持摘要生成、亮点提取和问答功能。然而,早期测试发现,多数 API 模型在大规模应用时成本过高,且难以满足多语言场景下的灵活性需求。
解决方案
在评估 GPT、Claude 及 Whisper 流水线后,CastFox 开发者选定 Gemma 3n E4B,因其在精度、速度与成本之间实现了最佳平衡。该模型支持多语言处理,并能可靠输出 JSON 等结构化数据,具备开放性和自托管优势,显著降低部署门槛。
Guru Network Limited 的 AI 负责人吴充表示:“Gemma 成本低且易于部署,助力团队实现快速迭代与低成本规模化,是真实场景下 AI 集成的理想切入点。”
团队采用 Ollama 在轻量级 GPU 和 CPU 基础设施上运行 Gemma 3n,避免了再训练的高成本。通过提示工程与轻量级后处理(如 JSON 格式验证与时间戳平滑),即可获得高精度结果。
Gemma 3n 高效、开放并且在多语言环境下表现卓越,是初创公司构建 AI 富集型应用的理想之选。
- 吴充,Guru Network Limited 的 AI 负责人
目前,该架构已全面支撑 CastFox 的音频理解后端。系统在预处理阶段完成音频转录、文本解析,并生成摘要、自动分段及候选问答,所有数据以 JSON 格式存储,供后续检索使用。Gemma 3n 已成为其实现语义搜索与交互功能的核心引擎。
吴充指出:“AI 让我们能够将播客等被动媒体转变为主动学习的体验。如果没有它,CastFox 将仅仅是一个普通的播客播放器。”
影响
Gemma 3n 在英语、韩语和日语中均表现出稳定准确的理解能力,处理效率优异:30 秒音频约耗时 40 秒处理,300–400 字符摘要生成约 6 秒,长文本生成推荐问题约 12 秒。
Gemma 3n 不仅具备强大的英语、韩语和日语理解能力,而且响应能力快速稳定。一款紧凑型模型能达到这种水平,确实令人赞叹。
- 吴充,Guru Network Limited 的 AI 负责人
通过自托管方案,单次请求成本低至约 0.0007 美元。团队利用 AWS Spot 实例运行预处理任务,日均处理成本控制在 10 美元左右,大幅提升了经济效益。
用户对 AI 功能反馈积极,留存率高,“与播客聊天”等功能广受好评。在 Gemma 支持下,CastFox 上线三周下载量破百万,成功构建起高度活跃的用户群体。
吴充总结道:“Gemma 3n 证明了小规模开放模型也能产生切实影响力。”

