Google NotebookLM 中文语音功能体验
Google NotebookLM 最近更新了对中文的支持,其生成的中文音频自然流畅,效果令人印象深刻。
官方体验地址:https://notebooklm.google.com/notebook/
首先,需要在 NotebookLM 的设置中将语言选择为中文。
然后,上传你需要进行语音化处理的文档或资料。
点击“音频预览”或相关按钮后,NotebookLM 会根据上传的内容生成一段自然流畅的中文语音摘要。例如,根据上传的文档生成了一个长达 14 分钟的音频。
生成的音频可以通过链接在线收听:
https://notebooklm.google.com/notebook/fd8bb75d-4384-4e29-9b67-53fec0feced6/audio
(注:此链接可能为示例或有时效性)
Gemini 2.5 Pro 视频理解与编程能力展示
接着我们再来看看近期备受关注的 Google Gemini 2.5 Pro 模型,特别是它强大的视频理解和编程能力。
我们可以上传视频文件,或者直接复制粘贴一个 YouTube 视频链接到 Gemini 的对话框中。
然后输入提示词,要求 Gemini 根据视频内容制作一个交互式幻灯片页面:
“请制作一个交互式幻灯片,解释视频中介绍的概念。请生成包含所有 javascript 和 css 代码的 HTML 页面。请在适当的地方提供模拟,以帮助学习者更好地了解相关主题。请随意使用 d3 js 等可视化工具来提供有助于解释概念的其他可视化效果。”
Gemini 2.5 Pro 会分析视频内容,并生成一个包含 HTML、CSS 和 JavaScript 的完整交互式页面。以下是生成页面的效果截图:
补充知识:Gemini 2.5 Pro 介绍
基本信息
Gemini 2.5 Pro 是 Google DeepMind 在 2025 年 3 月发布的大规模多模态 AI 模型,其核心特点是内置了“思考”能力来处理复杂任务。2025 年 5 月 6 日,谷歌发布了其升级版本 Gemini 2.5 Pro I/O(或称 Preview I/O 版),并已向 Google AI Studio 开发者、Vertex AI 企业用户及 Gemini App 普通用户开放。
模型特点
- 强大的推理能力:
与传统预测模型不同,Gemini 2.5 Pro 设计用于深度分析信息、进行逻辑推导、整合上下文,并在响应前进行“思考”。这使其在处理复杂任务时表现更佳,准确性更高。据称其在门萨 IQ 测试中突破 130 分,数学能力强于多数研究生。 - 出色的编程能力:
编程性能显著提升,能够根据高级提示词创建复杂软件(如交互式 Web 应用)。在 SWE-Bench Verified 基准测试中得分高达 63.8%。其 I/O 升级版在 LM Arena 多个榜单(包括编程)登顶,超越了 Claude 3.7 和 GPT-4.1。 - 原生多模态支持:
能够理解和处理文本、图像、音频、视频和代码的混合输入,灵活性强。例如,可以将草图转为代码、将自然图像转为代码图案、根据 YouTube 视频生成交互式学习网站。 - 超长上下文窗口:
拥有 100 万 token 的上下文窗口(计划扩展至 200 万),能处理海量信息并在长对话中保持连贯性,尤其适合处理代码、图像、视频等长内容。 - 精准解析 PDF 布局:
不仅能提取 PDF 文本,还能理解图表、表格等视觉结构和整体排版,是首款能完全理解 PDF 布局的 AI 模型,IoU 精度领先。
使用与定价
使用方式
-
开发者可通过 Google AI Studio 和 Vertex AI 的 Gemini API 使用。 -
已在 Gemini App 上线,支持 Canvas 等功能。 -
允许用户通过单个提示编写代码和构建交互式 Web 应用。
定价
-
作为专有模型,主要通过 Google 云服务平台付费使用。 -
目前升级版的价格与原 2.5 Pro 保持一致:每百万输入 token $1.25,每百万输出 token $10(上下文窗口最多 20 万 token)。此价格相比竞品(如 Claude 3.7 Sonnet)具有一定优势。
行业评价
Gemini 2.5 Pro 的升级版本(特别是 I/O 版)获得了多位知名开发者和平台负责人的高度评价,认为其在编程能力、复杂任务处理、性能与延迟平衡等方面表现突出,已成为许多场景下的首选模型。
需要更多免费AI工具、最新Ai信息、详细使用和丰富Ai教程、Ai变现方法的小伙伴可以加入 路上侠客的知识星球!
一年会员,原价199元,现在只需 99元!

