大数跨境
0
0

Google NotebookLM支持的中文音频自然对话和Gemini 2.5 Pro视频理解和编程让人鸡皮疙瘩掉一地

Google NotebookLM支持的中文音频自然对话和Gemini 2.5 Pro视频理解和编程让人鸡皮疙瘩掉一地 路上侠客
2025-05-28
0
导读:Google NotebookLM 中文语音功能体验Google NotebookLM 最近更新了对中文的支持

Google NotebookLM 中文语音功能体验

Google NotebookLM 最近更新了对中文的支持,其生成的中文音频自然流畅,效果令人印象深刻。

官方体验地址:https://notebooklm.google.com/notebook/

首先,需要在 NotebookLM 的设置中将语言选择为中文。

然后,上传你需要进行语音化处理的文档或资料。

点击“音频预览”或相关按钮后,NotebookLM 会根据上传的内容生成一段自然流畅的中文语音摘要。例如,根据上传的文档生成了一个长达 14 分钟的音频。

生成的音频可以通过链接在线收听:

https://notebooklm.google.com/notebook/fd8bb75d-4384-4e29-9b67-53fec0feced6/audio

(注:此链接可能为示例或有时效性)

Gemini 2.5 Pro 视频理解与编程能力展示

接着我们再来看看近期备受关注的 Google Gemini 2.5 Pro 模型,特别是它强大的视频理解和编程能力。

我们可以上传视频文件,或者直接复制粘贴一个 YouTube 视频链接到 Gemini 的对话框中。

然后输入提示词,要求 Gemini 根据视频内容制作一个交互式幻灯片页面:

“请制作一个交互式幻灯片,解释视频中介绍的概念。请生成包含所有 javascript 和 css 代码的 HTML 页面。请在适当的地方提供模拟,以帮助学习者更好地了解相关主题。请随意使用 d3 js 等可视化工具来提供有助于解释概念的其他可视化效果。”

Gemini 2.5 Pro 会分析视频内容,并生成一个包含 HTML、CSS 和 JavaScript 的完整交互式页面。以下是生成页面的效果截图:

补充知识:Gemini 2.5 Pro 介绍

基本信息

Gemini 2.5 Pro 是 Google DeepMind 在 2025 年 3 月发布的大规模多模态 AI 模型,其核心特点是内置了“思考”能力来处理复杂任务。2025 年 5 月 6 日,谷歌发布了其升级版本 Gemini 2.5 Pro I/O(或称 Preview I/O 版),并已向 Google AI Studio 开发者、Vertex AI 企业用户及 Gemini App 普通用户开放。

模型特点

  • 强大的推理能力:
     与传统预测模型不同,Gemini 2.5 Pro 设计用于深度分析信息、进行逻辑推导、整合上下文,并在响应前进行“思考”。这使其在处理复杂任务时表现更佳,准确性更高。据称其在门萨 IQ 测试中突破 130 分,数学能力强于多数研究生。
  • 出色的编程能力:
     编程性能显著提升,能够根据高级提示词创建复杂软件(如交互式 Web 应用)。在 SWE-Bench Verified 基准测试中得分高达 63.8%。其 I/O 升级版在 LM Arena 多个榜单(包括编程)登顶,超越了 Claude 3.7 和 GPT-4.1。
  • 原生多模态支持:
     能够理解和处理文本、图像、音频、视频和代码的混合输入,灵活性强。例如,可以将草图转为代码、将自然图像转为代码图案、根据 YouTube 视频生成交互式学习网站。
  • 超长上下文窗口:
     拥有 100 万 token 的上下文窗口(计划扩展至 200 万),能处理海量信息并在长对话中保持连贯性,尤其适合处理代码、图像、视频等长内容。
  • 精准解析 PDF 布局:
     不仅能提取 PDF 文本,还能理解图表、表格等视觉结构和整体排版,是首款能完全理解 PDF 布局的 AI 模型,IoU 精度领先。

使用与定价

使用方式

  • 开发者可通过 Google AI Studio 和 Vertex AI 的 Gemini API 使用。
  • 已在 Gemini App 上线,支持 Canvas 等功能。
  • 允许用户通过单个提示编写代码和构建交互式 Web 应用。

定价

  • 作为专有模型,主要通过 Google 云服务平台付费使用。
  • 目前升级版的价格与原 2.5 Pro 保持一致:每百万输入 token $1.25,每百万输出 token $10(上下文窗口最多 20 万 token)。此价格相比竞品(如 Claude 3.7 Sonnet)具有一定优势。

行业评价

Gemini 2.5 Pro 的升级版本(特别是 I/O 版)获得了多位知名开发者和平台负责人的高度评价,认为其在编程能力、复杂任务处理、性能与延迟平衡等方面表现突出,已成为许多场景下的首选模型。

需要更多免费AI工具、最新Ai信息、详细使用和丰富Ai教程、Ai变现方法的小伙伴可以加入 路上侠客的知识星球

一年会员,原价199元,现在只需 99元

【声明】内容源于网络
0
0
路上侠客
谈讨、研究、实践AI智能和跨境电商之间的联系和应用。旨在和科技浪潮对冲时产生一些火花,提高工作效率。网站:www.roadheroai.com
内容 818
粉丝 0
路上侠客 谈讨、研究、实践AI智能和跨境电商之间的联系和应用。旨在和科技浪潮对冲时产生一些火花,提高工作效率。网站:www.roadheroai.com
总阅读477
粉丝0
内容818