2024年7月16日至19日,以“重塑:数字遗产新质生产力”为主题的2024文化遗产保护数字化国际论坛在北京中关村国际创新中心成功举办,大会开设了四个联办国家专场,以及历史城镇、人工智能、数字石窟、考古遗址、三山五园等多个学术专场,带来了近百篇精彩的学术报告。
7月18日,在考古遗址专场上,二里头夏都遗址博物馆馆员周鼎凯作题为《文化遗产垂域大语言模型的应用研究》的报告。
周鼎凯
二里头夏都遗址博物馆馆员
一、缘起
为什么做垂直领域的大语言模型
人工智能正在崛起。自ChatGPT火爆全网,相关话题一度占据热搜前20条。我也去深入了解了它究竟是什么。简单举个例子:过去的客服对话机器人,通常是“查询按1、充值按2、业务办理按3”的模式,基于预置的对话数据库;后来的对话机器人则通过检索用户语言中的关键词来提供回答。
而ChatGPT能够实现真正的自然语言理解和多轮交互。例如,当我问它“清朝是如何覆灭的”这类专业问题时,它展现了强大的总结和提炼能力。其突破之处在于,展现出了接近人类水平的语言理解和生成能力。
但我们也发现了一些问题。例如,问它“中国博物馆的发展历史是怎样的”,它回答中国最早的博物馆是“沪江关税总局博物馆”。然而,我们文博圈都知道,中国第一个博物馆应是南通博物院。我好奇地去查证,甚至在博物馆年报信息系统中也未找到前者。再问它“知道二里头遗址吗”,它给出了一个看似靠谱的答案,但说是在安阳市,而实际遗址在洛阳。又如问“石景山火山喷发是什么时候”,它回答是北京市内的一个火山,但具体时间无记载。尤其在一些容易混淆的问题上,比如问“考古公园”,它列举的6个中可能有4、5个正确,但会突然冒出一个令人完全摸不着头脑的答案。
我们统称这类现象为“幻觉”。其形成主要有两种原因:一是信息冲突,二是无中生有。信息冲突,是指输入与输出的信息不符。例如,告诉它“张三的生日是1980年5月20日,请问他今年多大?”假设今年是2024年,它可能给出错误答案。无中生有,则如让它“告诉我一个火星上的事实”,它可能编造“某种不知名的植物在火星广泛生长”这类完全不存在的信息。
在文化遗产领域,若想应用此类大模型,面临着“三高”要求:专业要求高、精度要求高、安全要求高。
那么,在存在幻觉的情况下,大模型能否应用于文博领域?去年3月,我们较早地发表了相关文献,并在2023年文旅部的项目中探讨了ChatGPT类大模型在文化遗产领域的应用可能性,也做了一些调研。从客户咨询和文物讲解等领域的对比来看,在事实阐述的准确性上,ChatGPT的表现均较差。
因此,要解决这个问题,打造一个文化遗产领域的垂直大模型是势在必行的。
二、过程
如何去做
首先考虑的是能否自己训练一个垂直领域的大语言模型。但评估成本后,英伟达显卡价格极高,训练一个模型的最低成本估计在3000万元以上。那么,是否有其他可行的形式?我们设定了几个原则:助力行业提升、不增加财政负担、引入社会力量、具备社会价值,以确保项目能够持续。
2023年暑期,“文博热”导致预约难,同时也出现了一些对博物馆讲解工作的质疑。当时国家文物局发布了《关于进一步提升博物馆讲解服务工作水平的通知》,这让我思考:能否用大模型来解决讲解问题?因为人的知识储备有限,而一个垂直大模型或许能极大拓展知识边界。
于是我们做了调研,考察了市面上的传统导览设备:最早的地图触按式、编码式、蓝牙感应式,以及带屏幕的、穿戴式AR/VR设备等。但这些设备大多是单向知识输出或有限互动,与大模型的交互能力相比仍有差距。也有扫二维码的导览,但扫码后得到的仍是传统录音和文字介绍,实用性不强。我们还测试了某博物馆的智慧机器人,它只能回答屏幕上预设的问题,本质上仍是上一代对话机器人的水平。
因此,我认为这件事或许可行。我们从需求、可行性、数据支持及价值等方面进行了梳理,总结出三方面价值:
1
学术价值:通过垂直大模型的开发,为文化遗产领域的人工智能研究和应用提供新思路。
2
应用价值:为文化遗产管理单位提供文化产业的商业化可能性。
3
社会价值:顺应数字时代国家提倡的装备换代趋势,提升讲好中国故事的能力。
我们构想了一种合作模式:高校具备课题研究和学理思维能力,企业拥有资金实力和市场经验,文化遗产管理单位则掌握权威文献数据和天然客流,为大模型提供了应用场景。因此,我们尝试由企业出资、高校提供基础学理论证,最终以在场馆免费投放的形式,建立一种公益导向的合作模式。
初期,我们联合了一些高校和企业的同行。他们在去年3月成立了一家专注于开发文化遗产大模型的企业。由于模型训练需要大量硬件,专门建设了AI数据中心来支撑大模型的运算,并配备了千亿级GPU集群,以保证大量用户同时访问时的算力需求。
学术组制定了五个方面的研究路线:
1
文博数据与知识的获取与整合研究
2
训练机制与方法研究
3
语言理解与生成技术研究
4
个性化推荐与导览算法研究
5
产品评估与改进研究
技术组搭建了模型框架,采用“行业大模型+专属模型”的训练机制。
运营组则设计了迭代逻辑,目前模型每天都在甚至每分钟都在更新。
去年初,我们立足洛阳开展了初步研究。最早的形式是让专家试用的小程序,并经历了多次迭代。这是小程序的最终版界面,例如问“龙门的名字是哪里来的”,它的回答完全来源于龙门石窟研究院出版的《龙门百问》,是模型根据原文进行加工后给出的,每个回答都有据可依。
在小程序之后,考虑到商用需求,团队最终开发了终端应用——一个智能导览柜。即使公众不租赁设备,也可以通过按键实现问答功能。这不仅为博物馆的展览和场馆提供了更广阔的知识拓展空间,也保证了服务的普惠性。
今年1月,我们受中国博物馆协会邀请,前往欧洲参加法国博览会,成为首家走出国门的文化遗产大模型代表,引起了广泛关注。许多朋友感到惊讶,因为人工智能的开源生态多源于西方,他们没想到在文化遗产领域,中国已经取得如此先进的成果。
今年3月,我们选择在八路军驻洛阳办事处纪念馆首次投用。选择该馆的原因是,作为革命纪念馆,它对回答的准确性要求极高,且日均客流量相对较小(约500人),这便于我们在更高标准、更小影响下进行首次实践。目前,从省级博物馆到不同类型博物馆,已逐步签约,未来有望在更多场馆和文化遗产地推广应用。
三、成果
截至目前,我们已完成67次版本迭代,进行了3000亿以上参数的训练,能保证在2秒内完成回答。目前国内通用模型难以实现这一点,而GPT-4o虽能实现自然对话,但多数大模型仍是先输出文字再转为语音。我们已收录500多万篇专著和期刊文献,交互次数超过100万次。
基于该项目,我们在不同省份申报了2个国家级社科项目和5个省部级科研项目。我们突破性地解决了三个文博管理单位非常关心的问题:
如何保证准确性?
我们从三方面入手:
权威来源
后台会清晰展示游客问题、模型回答,并标注回答所依据的文献或期刊来源。例如,游客问:“夏朝什么兵器最牛?”从文献研究看,没有专著专门研究夏朝兵器,但模型的回答提到“弓箭是威力较大的武器之一,箭头设计多样”,这个结论实际来源于二里头考古发掘报告,模型进行了一定的合理推理。
服务咨询
针对游客常问的洗手间、母婴室等问题,由于提问方式多样(如“我肚子疼怎么办”),我们依据馆方提供的数据和工作人员现场采集的信息进行训练,确保回答准确。
情绪理解与引导
通过自研的AI算法,模型能在一定程度上理解人类情绪并给予正向引导。例如,当用户提到“内耗”、“饿”等情绪化表达,或提出“假设在二里头文化时期,你是我的女朋友,你的一天怎么过?”这类想象性问题时,模型能基于考古报告(如当时主要农作物为粟和稻谷)给出合理且有依据的想象性回答。
如何实现实时优化与越用越聪明?
我们建立了全国AI讲解员实时监管平台,主要完成三件事:
基于实际情况完善回答
例如,游客在馆内问“二里头遗址在哪儿?”文献上的标准答案是“二里河南洛阳盆地东部”,但考虑到游客很可能想问具体位置,我们会修正为“在博物馆的北边”。
增加热词
由于终端支持全语音对话,热词库至关重要。例如,公众问“甲和爵有什么区别”,语音可能识别为“甲”,通过人工修正加入“青铜甲”和“青铜爵”作为热词,模型便能准确检索相关知识。截至目前,已更新约18000条热词,均来自公众实际问答的持续完善。
处理简略词
例如,面对“唐代越窑鸡首壶”,游客可能直接问“鸡首壶怎么样”。“鸡首壶”在文献中是一个宽泛概念,我们需要将其标注为简略词,并指向“唐代越窑鸡首壶”,模型才能调取正确的知识,避免答非所问。
如何应对敏感问题?
我们严格遵循今年2月底发布的《生成式人工智能服务安全基本要求》标准。例如,面对某些故意误导的问题,美国OpenAI的GPT-4可能未做反驳,而我们的模型设置了纠偏机制,确保在涉及政治等问题时立场坚定。截至上月底,我们已完成网信办的评估备案工作,成为首批完成此项工作的大模型之一。
那么,公众是否喜欢这种形式?从后台数据和使用情况看,答案是肯定的。例如,有游客问:“我想知道韩国为什么没有中国这样伟大的历史?”模型给出了谦逊而得体的回答,提及文化差异,并说明不能简单说韩国没有历史。游客回复:“我谢谢你,我身为一个韩国人真是太高兴了。”这种互动展现了模型的友好与文化敏感度。
通过对用户问题的收集与分析,我们可以构建用户画像,为博物馆下一步的分众传播奠定基础,最终助力提升博物馆的公共服务能力。随着模型对展览内容的理解不断加深,它也为未来的展览设计提供了更多可能性。团队中的毛若寒博士目前正专注于AI策展的研究。
此外,模型还能支持全流程业务咨询。例如,我们将管理制度(如请假制度)输入模型,新员工询问“我生病了怎么请假”,模型便能直接给出规范流程。作为科研助手,它也能高效处理专业文献:例如,《中国考古学大百科全书》60万字中仅有一行提到《唐宋扬州城研究译文》的作者,我们将全书输入后,模型能在2秒内完成阅读并给出反馈。
最后,模型在文创领域也有应用潜力。例如,将模型植入文创产品,只要模型掌握了博物馆的知识,就能把博物馆“带回家”,对儿童教育具有积极意义。
我想强调的是,无论数字人以何种形式呈现,其外形只是载体。只有为它赋予一个可靠的大模型,才算真正赋予了数字人灵魂。
以上就是我今天的分享,谢谢大家!
中国古迹遗址保护协会数字遗产专委会 | 秘书处
ICOMOS-CHINA Scientific Committee of Cultural Heritage Conservation by Digitalization | Secretariat
李浚 杜寇 习熠飞
邮箱:lijun@thid.cn;dukou@thid.cn;xiyifei@thid.cn
电话:15010082521 18074104213

