质子梯度从成立一开始就致力于在端侧设备上进行模型推理和能源效率的优化。
为此,我们在端侧设备上进行了许多有趣而又暴力的实验。并在此过程中发现Chrome的一个隐藏的彩蛋,那就是V3Nano多模态模型。
因为我们需要下载大量的模型,并在原模型基础上进行各种量化等,所以我们就对本地磁盘做了全面的扫描以便找到出哪些大文件冗余可删除。然后我们在分析Chrome目录的时候就这么偶然间的发现了。
{ "manifest_version": 2, "name": "Optimization Guide On Device Model", "version": "2025.8.11.1", "BaseModelSpec": { "name": "v3Nano", "version": "2025.06.30.1229", "supported_performance_hints": [ 2, 1 ] } }
/Users/YOUR_NAME/Library/Application Support/Google/Chrome/OptGuideOnDeviceModel/2025.8.8.1141
1,浏览器输入:"chrome://chrome-urls/",搜索:"Internal Debugging Page URLs",点击"Enable internal debugging pages"
2,浏览器输入:"chrome://flags/#prompt-api-for-gemini-nano",然后把可开启的选项都打开吧
由于V3Nano是多模态模型,所以不仅支持文字还支持图片语音(wav)等。不过我们尝试了高长度语音文件,但是Chrome应该做一些上下文的限制,MaxToken有限制。
我们在测试的时候发现,V3Nano在内存占用上极低,本身权重为4GB大小。但是推理的时候内存占用约为2GB左右。
也许,大部分的Token计算应该是免费的,共享的,如何让边缘设备更好的协同,并且混合云的计算才是最终的归途,也因为此V3Nano才会出现。
更多的端侧推理产品:https://www.echostream-ai.com/