随着中国大模型智能产品及应用加速出海进程,其在价值对齐、安全合规等方面亦面临严峻的跨境适应挑战。为此,必须从源头着手,构建可信赖的全球化AI安全底座。
近日,上海人工智能实验室(上海AI实验室)与OPPO达成多语言安全语料与AI可信安全相关合作,双方将聚焦智能手机及设备全球化场景,基于“万卷·丝路”开源语料库提供高质量多语言语料,并深度融合MakeSafeAI内生安全技术,在助力企业降低合规成本、规避文化冲突,实现更高效率“出海”的同时,共同探索从技术共建到体系化能力输出的新路径,以人工智能原创技术赋能全球合作。
基于“万卷·丝路”多语言语料库,上海AI实验室已成功助力众多企业业务出海。
“万卷·丝路”开源链接:https://opendatalab.com/?industry=14865&sort=all
AI45平台链接:https://ai45.shlab.org.cn/
双方本次就多语言语料与AI安全可信达成合作,围绕模型可信溯源、模型攻击等关键方向推进技术合作。一是多语言语料库:针对智能手机、智能硬件及“一带一路”国家与地区的全球化出海场景,围绕AI多语言语料库需求开展定制化技术探索。二是AI安全可信:联合打造语义安全算法、智能安全检测算法及模型高级攻击检测体系,实现安全能力升级。
大模型时代,高质量数据是决定人工智能应用性能能力的关键因素之一。针对当前高质量语料短缺、多语言语料库发展不平衡的研究现状,上海AI实验室打造了大规模、多模态、多领域、高质量语料库——“万卷·丝路”,并面向全球开发者开源。“万卷·丝路”涵盖8种低资源语种,包括6大数据模态共计1150万条数据,并运用精细化处理技术使数据质量达到“工业级”标准,实现“开箱即用”,旨在破除AI全球化进程中“语言孤岛”与“文化断层”双重壁垒,为AI普惠、跨国合作搭建数字桥梁。
在AI安全可信方面,为提升模型在多语言环境下的安全性,上海AI实验室科研团队基于系统性安全评测能力,并行开展多语言安全能力建设工作,包括形成多元安全数据分级分类框架,构建覆盖多元风险场景的高质量数据词库,过程中与小语种专家和母语使用者紧密配合;创建了兼顾广度与深度的多级别安全评测集,涵盖自动数据构造、专家精翻等多个环节,强调小语种地区的风险理解与处理,以精准测试模型的风险识别与规避能力。为确保评估体系的严谨性,团队还根据不同小语种的本土文化与社会特征制定了对应的评测规则,更加有针对性地进行模型安全风险筛查。
此次合作将进一步强化双方在AI安全与模型攻击检测领域的技术积累,通过科研创新与场景落地的双向驱动,为全球用户构建“可知、可管、可控、可信”的隐私保护屏障,为中国企业高质量出海筑牢安全根基。

