Shraman Kar 还记得那个改变一切的 Arduino 套件。那年他七八岁,哥哥 Shreyas 比他大一岁,两人在父母客厅里拆开包装,第一次接触可用代码控制的电子元件。
此后十年,兄弟俩几乎将全部课余时间投入硬件焊接、黑客马拉松与算法优化。2025 年,两人双双考入斯坦福大学计算机科学专业,顺理成章。
图丨Shraman 和 Shreyas Kar(来源:Golpo)
从斯坦福辍学,专注解决“讲不清”的问题
2025 年初,19 岁的 Shraman 与 20 岁的 Shreyas 决定从斯坦福辍学,全职运营其创办的 AI 视频公司 Golpo(孟加拉语意为“故事”)。
“一年前,我还坐在高中最后一节课的教室里,满心期待去斯坦福。”Shraman 后来对媒体说,“如果那时有人告诉我,一年后我会辍学和哥哥一起创业,我肯定会笑出声来。”
但在斯坦福 AI 实验室期间,两兄弟观察到一个被主流忽视的矛盾:生成式视频技术飞速发展——Sora 可渲染月球上跳舞的狗,Veo 能生成逼真街景——但当用于制作技术教程、产品演示或课程讲解时,这些模型却频频出错:T 恤上的单词拼写错误、数学公式表达混乱、逻辑链条断裂。
他们意识到,行业狂奔于“视觉奇观”,却忽略了大量真实需求:企业培训部门年投入数十亿美元制作入职视频;教师熬夜剪辑课件录屏;产品经理亟需快速可视化复杂功能流程。这类用户不需要电影级画面,而需要一段 30 分钟内讲清复杂概念、当天即可交付的视频。
Golpo 的差异化路径:白板动画 + 逐帧编辑
Golpo 选择白板动画路线——类似可汗学院或 TED-Ed 的手绘解说风格。这一策略看似“朴素”,实则基于明确的工程与商业判断:
- 计算复杂度远低于扩散模型,单位成本显著降低:生成 6 分钟视频的成本≈Veo 生成 8 秒视频,便宜约 45 倍;
- 支持最长 30 分钟连贯输出,最新版宣称可达 1 小时;
- 核心创新在于“逐帧编辑”:用户可在生成后审查任意帧,并单独重绘/重生成特定片段,无需整段重来。
BNVT Capital 管理合伙人 Chris Corbishley 在投资时表示:“逐帧编辑是 AI 视频领域重大突破,它将不可控的‘抽卡式’生成,转变为可控、可靠的工作流。”
落地验证与商业模式
早期客户已覆盖教育与企业场景:
- 美国宾夕法尼亚州 Garnet Valley 学区,用 Golpo 制作多语言互动课程;
- 安永(EY)部分办公室用于内部培训材料生成;
- 教育科技公司 Educator AI 和 Voltran App 通过 Golpo API 已生成数千个学习模块。
商业模式采用订阅制,按视频生成次数及高级功能(如逐帧编辑、互动问答)分层定价。同时提供开发者 API,支持将 PDF、PPT、Word、CSV 乃至 GitHub 代码库自动转为视频,并内置 40 多种语言配音与字幕生成能力——这使 Golpo 不仅是内容工具,更成为企业知识管理基础设施。
图丨Golpo 在 2025 年 8–9 月的 MRR(来源:Golpo)
2025 年 10 月,Golpo 宣布完成 410 万美元种子轮融资,由 BNVT Capital 领投,Y Combinator、Emergence Capital 和 Afore Capital 跟投。据称融资严重超额认购,创始人主动拒收部分资金。资金将用于扩充销售团队、加强市场推广,并推动客户结构从个人及中小企业向大型企业升级。
技术底色与长期挑战
Shraman 曾在斯坦福 Ehsan Adeli 教授实验室研究 AI,并参与哈佛医学院药物标签风险项目,该研究关联美国最高法院 Hikma 诉 Vanda 案;Shreyas 在李飞飞实验室工作,同时是美国数学奥林匹克选手。两人还联合发起 Community AI 项目,覆盖全球 38 国及全美各州。
尽管开局顺利,Golpo 仍面临现实挑战:企业培训与教育市场决策链长、销售周期慢、价格敏感度高;白板动画虽契合讲解场景,但视觉表现力有限;若 Sora、Veo 下一代在长度、准确性与可控性上大幅跃升,其差异化优势可能被削弱。
但在此刻,这对自幼焊电路板的兄弟,正以一种反潮流的方式,在拥挤的 AI 视频赛道中锚定自身坐标——不追求“哇”,只专注“懂”。他们的实践印证了一个本质:技术竞争的胜负手,从来不只是参数与算力,而是对真实需求的理解与回应。
“我们从来不想做一个让人‘哇’一声的东西,”Shreyas 说,“我们想做的,是让人真正学到点什么。”

