用手机翻译外语,已经足够应付很多场合。问路、点餐、看一段说明,输入或说出一句话,等系统给出译文,问题基本可以解决。
但面对面聊天对翻译工具的要求更高。一个人说完,等识别、翻译、播放,另一个人再接着说。几轮之后,信息可以传过去,交流节奏却很难保持。尤其在商务会面、家庭交流或稍长时间的对话里,低头看屏幕、等待机器处理、来回操作设备,都会让对话变得不自然。

在BEYOND Expo 2026物理AI峰会“无界智能:为全球用户本地化人工智能”对话中,时空壶CEO田力(Leal Tian)把时空壶的产品定位放在“沉浸式翻译”上。两个人各戴一只耳机,在双语或多语对话中同时说、同时听,尽量减少手持设备对交流的干扰。
耳机在这里先改变的是交流动作。人不用一直拿着手机,也不用在说话时频繁切换注意力。眼神、停顿、接话和身体语言,都能更自然地留在对话里。田力提到,过去使用Google Translate或手机翻译App时,工具经常会进入对话流程,时空壶希望减少的正是这种介入感。
从手持设备换到耳机之后,问题很快进入硬件层面。田力解释,普通蓝牙耳机并不支持两个人同时收音、同时传输和同时翻译。设备需要判断谁在说话,声音如何上传,译文应该返回到哪一侧耳机,两个人同时开口时系统如何处理。时空壶早期做的多通道通信协议,解决的就是这一类问题。
这些技术细节最后会转化成几个很具体的感受:翻译是否慢半拍,声音是否会串,系统是否打断对话。实时翻译只要多等几秒,在产品指标里可能只是延迟,在面对面交流里就会变成一段空白。田力提到,现场启动一次翻译大约用了5秒。放到两个人正在进行的对话里,5秒足够让人犹豫是继续说,还是等机器先处理完上一句。
耳机要维持交流节奏,翻译引擎还要处理语言差异。田力现场提到,时空壶支持50种语言,任意两种语言之间互译,会形成2000多个语言组合。英语、韩语、日语、西班牙语、葡萄牙语,各自还有不同口音、语速、语境和本地表达习惯。单一引擎很难覆盖所有组合。
因此,时空壶采用的是混合引擎。英语相关语言对可能Google、Microsoft表现更好,韩语、日语或者一些地区语言,本地服务商的识别率可能更高。时空壶也会使用OpenAI、Anthropic、DeepSeek等模型能力,并在部分语言对上保留自研。用户听到一句译文之前,系统需要先判断哪套能力更适合处理当前语言对。
韩国市场可以说明这种复杂性。韩语翻译难度较高,时空壶花过不少时间寻找合适引擎。韩国市场又相对集中,销售主要集中在首尔附近。对这类产品来说,本地化不只发生在界面和渠道层面,也发生在语言识别、引擎选择和具体使用习惯里。
然而,对翻译引擎来说,它的数量越多,成本问题也会随之出现。James问到,用户买了硬件以后,如果长时间使用实时翻译,模型调用费用怎么覆盖。田力的回答比较直接:时空壶产品价格在300美元以上,本身就不走低价路线。AI翻译在今天已经有持续服务成本,用户也逐渐理解token和算力需要付费。

面对大公司可能进入类似赛道的问题,田力没有把回答重点放在防御上。他给了一个主观判断:如果满分100,Google Translate大概是30分,时空壶现在可能在70到80分之间。这个数字不适合作为测评结果,更像他对体验差距的判断。实时翻译能用,和跨语言对话足够自然,中间还有很长距离。
这种距离也解释了他为什么提到科幻作品。时空壶英文名Timekettle来自阿西莫夫《永恒的终结》里的时间机器。他还提到《星际迷航》里的Universal Translator和《银河系漫游指南》里的Babel Fish。科幻作品里的翻译器几乎不占用人的注意力,现实产品还远没有达到那种状态。
时空壶最初设想的主要使用场合是旅行,用户反馈后来把产品带到了更多地方。有人用它谈商务合作,有人用它和不会同一种语言的岳父岳母交流,也有人在跨国恋爱中使用。坐在沙发上聊天、徒步旅行、多人会议,对设备形态和翻译方式的要求并不一样。
也就是说,翻译耳机不再只是旅行工具。商务里需要接住语气,家庭里需要降低沟通门槛,亲密关系里需要让对话继续往下走。翻译产品要解决的,也就不只是语言转换,还有工具如何少打扰人。
当James问到未来更想聚焦的方向时,田力把答案收回到一对一交流。旅行、会议、商务、家庭都可以扩展,但两个人面对面坐下来说话,仍然是时空壶最想先做好的部分。
这也是翻译耳机和普通翻译工具之间比较微妙的差别。后者解决的是一句话的意思,前者还要照顾一句话发生时的关系、节奏和注意力。翻译能力越来越容易获得以后,产品之间的差异,可能会更多回到这些细小的体验里。不同语言的人能不能把话继续说下去,有时也取决于机器能不能少打扰一点。
扫码关注我们
2027
澳门
不见不散

