关注「索引目录」公众号,获取更多干货。
你喜欢Nano-Banana吗?用它制作过所有朋友的人偶图像,以及所有敌人的鬼脸?现在,这款尺寸更大的“ Gemini 3 Pro Image ”机型来了,你们肯定会更喜欢称它为Nano Banana Pro!
Flash 版(Nano Banana)以其速度和价格优势著称,而 Pro 版则引入了“思考”功能、搜索功能和高保真 4K 输出。是时候用它轻松应对复杂的创意任务了!
本指南将引导您使用Gemini Developer API了解 Nano Banana Pro 的高级功能。
本指南将涵盖以下内容:
-
在 Google AI Studio 中使用 Nano Banana Pro -
项目设置 -
初始化客户端 -
基本生成(经典) -
“思考”过程 -
搜索接地 -
高分辨率 4K 世代 -
多语言能力 -
高级图像混合 -
专业版专属演示
注意:要查看此帖子的交互式版本,请查看python cookbook或 AI Studio 的Javascript Notebook。
1) 在 Google AI Studio 中使用 Nano Banana Pro
虽然最终用户可以通过Gemini 应用访问 Nano Banana Pro ,但对于开发者而言,进行原型设计和测试的最佳环境是Google AI Studio。AI Studio 是一个实验平台,开发者可以在编写任何代码之前体验所有可用的 AI 模型,它也是使用 Gemini API 进行构建的入口点。
您可以在 AI Studio 中使用 Nano Banana Pro。要开始使用,请访问aistudio.google.com,使用您的 Google 帐户登录,然后从模型选择器中选择Nano Banana Pro (Gemini 3 Pro 图像)。
与 Nano-Banana 不同,专业版没有免费层级,这意味着您需要选择一个启用计费功能的 API 密钥(请参阅下面的“项目设置”部分)。
提示:您也可以直接在 AI Studio (ai.studio/apps)中编写 Nano Banana Web 应用程序,或者浏览代码并重新混合现有应用程序之一。
2)项目设置
要按照本指南操作,您需要以下物品:
- 来自Google AI Studio 的
API 密钥。 -
为您的项目设置计费方式。 - 适用于Python
或JavaScript/TypeScript 的 Google Gen AI SDK 。
如果您已经是 Gemini API 的资深用户,掌握了以上所有知识,那就太好了!直接跳过本节,进入下一节。否则,以下是入门指南:
步骤 A:获取您的 API 密钥
首次登录 AI Studio 时,系统会自动创建一个 Google Cloud 项目和一个 API 密钥。
打开API 密钥管理界面,点击“复制”图标复制您的 API 密钥。
步骤二:启用计费功能
由于 Nano Banana Pro 没有免费套餐,您必须在 Google Cloud 项目中启用结算功能。
在API 密钥管理屏幕中,单击项目旁边的“设置计费”,然后按照屏幕上的说明进行操作。
Nano Banana Pro 的价格是多少?
使用 Nano Banana Pro 生成图像比使用 Flash 版本成本更高,尤其是生成 4K 图像时。截至本文发布时,生成一张 1K 或 2K 图像需要花费0.134 美元,而生成一张 4K 图像需要花费0.24 美元(外加输入和文本输出的代币成本)。
请查看产品文档以获取最新定价详情。
专业提示:使用批量 API可以节省 50% 的生成成本。但作为交换,您可能需要等待最多 24 小时才能获取图像。
步骤 C:安装 SDK
选择您首选语言的 SDK。
Python:
pip install -U google-genai
# Install the Pillow library for image manipulation
pip install Pillow
JavaScript / TypeScript:
npm install @google/genai
注意:以下示例使用 Python SDK 进行演示。使用 Nano Banana 的等效 JavaScript 代码片段请参见此JS Notebook。
3)初始化客户端
要使用专业版,您需要使用gemini-3-pro-image-preview型号 ID。
from google import genai
from google.genai import types
# Initialize the client
client = genai.Client(api_key="YOUR_API_KEY")
# Set the model ID
PRO_MODEL_ID = "gemini-3-pro-image-preview"
4)基本生成(经典)
response_modalities在深入探讨更高级的功能之前,我们先来看一个标准的生成过程。你可以使用(获取文本和图像或仅获取图像)和来控制输出aspect_ratio。
prompt = "Create a photorealistic image of a siamese cat with a green left eye and a blue right one"
aspect_ratio = "16:9" # "1:1","2:3","3:2","3:4","4:3","4:5","5:4","9:16","16:9" or "21:9"
response = client.models.generate_content(
model=PRO_MODEL_ID,
contents=prompt,
config=types.GenerateContentConfig(
response_modalities=['Text', 'Image'], # Or just ['Image']
image_config=types.ImageConfig(
aspect_ratio=aspect_ratio,
)
)
)
# Save the image
for part in response.parts:
if image:= part.as_image():
image.save("cat.png")
聊天模式也是一个选项(实际上,我推荐在进行多轮编辑时使用聊天模式)。可以参考第 8 个示例“Polyglot Banana”。
5)“思考”过程(它是鲜活的!)
Nano Banana Pro 不仅仅是画图;它还会思考。这意味着它能够理解你最复杂、最刁钻的提示,然后再生成图像。最棒的是什么?你可以窥探它的“大脑”!
要启用此功能,请include_thoughts=True在thinking_config.
prompt = "Create an unusual but realistic image that might go viral"
aspect_ratio = "16:9"
response = client.models.generate_content(
model=PRO_MODEL_ID,
contents=prompt,
config=types.GenerateContentConfig(
response_modalities=['Text', 'Image'],
image_config=types.ImageConfig(
aspect_ratio=aspect_ratio,
),
thinking_config=types.ThinkingConfig(
include_thoughts=True # Enable thoughts
)
)
)
# Save the image and thoughts
for part in response.parts:
if part.thought:
print(f"Thought: {part.text}")
elif image:= part.as_image():
image.save("viral.png")
你应该会收到类似这样的内容:
## Imagining Llama Commuters
I'm focusing on the llamas now. The goal is to capture them as
daily commuters on a bustling bus in La Paz, Bolivia. My plan
involves a vintage bus crammed with amused passengers. The image
will highlight details like one llama looking out the window,
another interacting with a passenger, all while people take
photos.
[IMAGE]
## Visualizing the Concept
I'm now fully immersed in the requested scenario. My primary
focus is on the "unusual yet realistic" aspects. The scene is
starting to take shape with the key elements established.
这种透明度有助于您了解模型如何理解您的要求。就像在和您的艺术家对话一样!
6)搜索接地(实时魔法)
其中一项最具变革性的功能是“搜索实时性”。Nano Banana Pro 不拘泥于过去;它可以访问来自 Google 搜索的实时数据,生成准确、最新的图像。想看天气?没问题。
例如,您可以让它显示当前天气预报:
prompt = "Visualize the current weather forecast for the next 5 days in Tokyo as a clean, modern weather chart. add a visual on what i should wear each day"
response = client.models.generate_content(
model=PRO_MODEL_ID,
contents=prompt,
config=types.GenerateContentConfig(
response_modalities=['Text', 'Image'],
image_config=types.ImageConfig(
aspect_ratio="16:9",
),
tools=[{"google_search": {}}] # Enable Google Search
)
)
# Save the image
for part in response.parts:
if image:= part.as_image():
image.save("weather.png")
# Display sources (you must always do that)
print(response.candidates[0].grounding_metadata.search_entry_point.rendered_content)
7)要么大干一场,要么回家:4K 世代
需要打印级图像?Nano Banana Pro 支持 4K 分辨率。因为有时候,越大越好。
prompt = "A photo of an oak tree experiencing every season"
resolution = "4K" # Options: "1K", "2K", "4K", be careful lower case do not work.
response = client.models.generate_content(
model=PRO_MODEL_ID,
contents=prompt,
config=types.GenerateContentConfig(
response_modalities=['Text', 'Image'],
image_config=types.ImageConfig(
aspect_ratio="1:1",
image_size=resolution
)
)
)
注意:4K 技术成本较高,请谨慎使用!
8) 多语言香蕉(具备多语言能力)
该模型可以生成图像中的文本,甚至可以将其翻译成十几种语言。它基本上就是一个为你的眼睛量身打造的通用翻译器。
# Generate an infographic in Spanish
message = "Make an infographic explaining Einstein's theory of General Relativity suitable for a 6th grader in Spanish"
response = chat.send_message(message,
config=types.GenerateContentConfig(
image_config=types.ImageConfig(aspect_ratio="16:9")
)
)
# Save the image
for part in response.parts:
if image:= part.as_image():
image.save("relativity.png")
# Translate it to Japanese
message = "Translate this infographic in Japanese, keeping everything else the same"
response = chat.send_message(message)
# Save the image
for part in response.parts:
if image:= part.as_image():
image.save("relativity_JP.png")
9) 混合搭配!(高级图像混合)
Flash 版最多可混合 3 张图片,而 Pro 版最多可处理14 张图片!一次操作即可呈现丰富多彩的内容。非常适合制作复杂的拼贴画或展示您的全线产品。
# Mix multiple images
response = client.models.generate_content(
model=PRO_MODEL_ID,
contents=[
"An office group photo of these people, they are making funny faces.",
PIL.Image.open('John.png'),
PIL.Image.open('Jane.png'),
# ... add up to 14 images
],
)
# Save the image
for part in response.parts:
if image:= part.as_image():
image.save("group_picture.png")
注意:如果您想要非常高保真度的角色,请将角色数量限制在 5 个以内,这对于一个派对之夜来说已经绰绰有余了!
10)炫技时刻!(专业版专属演示)
以下是一些只有 Nano Banana Pro 才能实现的功能示例。准备好被惊艳吧!
个性化像素艺术(搜索基础)
提示:“上网搜索,然后生成一张等距透视的、精细的像素艺术图像,展现纪尧姆·凡尔纳德的职业生涯。”
它利用搜索定位来查找有关某人的具体信息,并以特定风格将其可视化。
复杂文本整合
提示:“请用一首关于香蕉的十四行诗,制作一张关于十四行诗结构的信息图,并附上对这首诗的详细文学分析。风格要复古美观。”
该模型可以生成连贯的长篇文本,并将其完美地融入复杂的布局中。
高保真模型
提示:“一张百老汇演出节目单的照片,内容是关于集换式卡牌游戏玩家的,照片中的人物坐在舒适的剧院座椅上,节目单制作精良,光面印刷,我们可以看到封面和一页舞台照片。”
创建具有精确光照和纹理的印刷材料逼真模型。
11) Nano Banana 和 Nano Banana Pro 的最佳实践和提示技巧
为了使用Nano Banana模型获得最佳效果,请遵循以下提示指南:
- 务必做到非常具体:
你提供的关于主题、颜色、光线和构图的细节越多,你对最终效果的控制力就越强。 - 提供背景和意图:
解释图像的目的或预期氛围。模特对背景的理解会影响其创作选择。 - 迭代和改进:
不要指望第一次就能做到完美。利用模型的对话能力,逐步修改并完善你的图像。 - 使用分步说明:
对于复杂的场景,请将提示分解成一系列清晰、按顺序的说明。 - 使用积极的框架:
不要使用“没有汽车”之类的消极提示,而是积极地描述理想的场景:“一条空旷荒凉的街道,没有车辆通行的迹象”。 - 控制摄像机:
使用摄影和电影术语来指导构图,例如“广角镜头”、“微距镜头”或“低角度透视”。 - 充分利用搜索基础:
当你希望模型使用实时或真实世界的数据时,务必非常精确地描述。“在网上搜索关于里昂奥林匹克队最近几场比赛的信息图并制作信息图”比仅仅说“制作里昂队最近几场比赛的信息图”(虽然后者也能用,但不要冒险)效果更好。 - 使用批量 API降低成本并获得更多配额
:批量 API 允许您一次性发送少量或大量的请求。处理时间可能长达 24 小时,但作为交换,您可以节省 50% 的生成成本。而且配额也更高!
要深入了解最佳实践,请查看文档中的提示指南以及官方博客上发布的 Nano Banana提示最佳实践。
包起来
Nano Banana Pro(Gemini 3 Pro Image)为人工智能图像生成开辟了新的领域。它具备思考、搜索和渲染 4K 图像的能力,是专业创作者(以及追求极致乐趣的人)的理想工具。
准备好试一试了吗?前往Google AI Studio,尝试或自定义我们的应用,或者查看使用指南。
关注「索引目录」公众号,获取更多干货。

