我们将介绍如何设置一个支持视觉的 AI 代理,该代理通过安全的 WebRTC 代理连接到 Meta Ray-Ban 眼镜。
建筑
该设置包含多个层,以确保可穿戴设备和人工智能之间实现低延迟、安全的通信:
- Meta Ray-Ban 眼镜
:可拍摄视频和音频,并通过蓝牙连接到您的手机。 - 手机(Android/iOS)
:充当网关,通过WebRTC连接到 LiveKit 云。 - LiveKit Cloud
:作为 Gemini Live API 的安全、高性能代理。 - Gemini Live API
:通过 WebSocket 处理流,实现实时多模态交互。
后端:构建 Gemini Live Agent
我们使用 LiveKit Agents 框架作为 Gemini Live API 的安全 WebRTC 代理。该代理加入 LiveKit 房间,监听音频,并处理来自眼镜的视频流。
设置助手
我们代理的核心是AgentSession。我们使用该google.beta.realtime.RealtimeModel来与 Gemini 进行交互。至关重要的是,我们video_input在中启用RoomOptions,以使代理能够“看到”。
@server.rtc_session()
async def entrypoint(ctx: JobContext):
ctx.log_context_fields = {"room": ctx.room.name}
session = AgentSession(
llm=google.beta.realtime.RealtimeModel(
model="gemini-2.5-flash-native-audio-preview-12-2025",
proactivity=True,
enable_affective_dialog=True
),
vad=ctx.proc.userdata["vad"],
)
await session.start(
room=ctx.room,
agent=Assistant(),
room_options=room_io.RoomOptions(
video_input=True,
)
)
await ctx.connect()
await session.generate_reply()
通过设置video_input=True,代理会自动请求房间内的视频轨道,在本例中,该视频轨道是来自眼镜的 1FPS 流。
运行代理
要以开发模式启动代理并通过 LiveKit Cloud 使其在全球范围内可访问,只需运行:
uv run agent.py dev
请在LiveKit 文档中查找完整的 Gemini Live 视觉代理示例。
连接与身份验证
要将前端连接到 LiveKit,您需要一个有效期较短的访问令牌。
CLI 令牌生成
对于测试和演示,您可以使用 LiveKit CLI 快速生成令牌:
lk token create \
--api-key <YOUR_API_KEY> \
--api-secret <YOUR_API_SECRET> \
--join \
--room <ROOM_NAME> \
--identity <PARTICIPANT_IDENTITY> \
--valid-for 24h
在生产环境中,您应该始终从安全的后端颁发令牌,以确保您的 API 密钥安全。
前端:Meta Wearables 集成
本示例针对安卓设备(例如 Google Pixel)。您需要Meta Wearables Toolkit和特定的示例项目。
- 克隆示例
:获取Android 客户端示例。 - 配置 local.properties :根据Meta SDK 的要求
添加您的 GitHub Token 。 - 更新连接详情
:在 中 StreamScreen.kt,将服务器 URL 和令牌替换为您的 LiveKit 详细信息:
// streamViewModel.connectToLiveKit
connectToLiveKit(
url = "wss://your-project.livekit.cloud",
token = "your-generated-token"
)
- 运行应用
:通过 USB 连接设备,然后从 Android Studio 进行部署。
结论
通过 LiveKit 将 Meta Wearables 与 Gemini Live 连接起来,我们打造了强大且低延迟的视觉 AI 体验。该架构具有可扩展性和安全性,为下一代可穿戴 AI 应用奠定了基础。
资源
- LiveKit 代理文档
- 双子座实时视觉食谱
- Meta Wearables 开发者门户

