大数跨境
0
0

Chat凉宫春日:基于大型语言模型的动漫角色复活项目,提供接近原作语气、个性和剧情的聊天体验,支持零样本角色扮演和RAG角色构造

Chat凉宫春日:基于大型语言模型的动漫角色复活项目,提供接近原作语气、个性和剧情的聊天体验,支持零样本角色扮演和RAG角色构造 AIGC Studio
2024-06-09
2
导读:Chat凉宫春日 Chat-Haruhi-Suzumiya:基于大型语言模型的动漫角色复活项目,提供接近原作语气、个性和剧情的聊天体验,支持零样本角色扮演和RAG角色构造。
首先一个问题,什么是ChatHaruhi?
ChatHaruhi是一个专注于模仿动漫影视角色人物、让用户可以和这些虚拟任务聊天对话的技术框架。

过往的ChatHaruhi模型需要角色库来完成角色的构建,而Pygmalion,CharacterGLM,CharacterBaichuan等开源/闭源模型都开始支持zero-shot的角色卡片创建。目前,从Haruhi-Zero-0.3开始,已经基本支持Zero-shot角色扮演。如凉宫春日、李云龙、于谦和神里绫华等角色都已经支持。

项目的目标

  • 一个通用的,同时支持Zero-shot和RAG角色构造的角色扮演模型。
  • ChatHaruhi 3.0的inference class,能够将角色卡片等形式转化为message,再对接Haruhi-Zero模型或者api进行inference。
  • 支持原来Haruhi的角色卡片,以及30本新小说的抽取的角色,使用中英文通用的embedding,相比于pygmalion模型,增加动态rag的角色卡片
  • Haruhi-Zero的模型接入Silly Travern生态。
  • 训练各个尺寸的模型,并且进行合适的量化,使得一些免费的云服务机以及本地显卡可以进行运行。
  • 完成一个tech report并发布在arxiv。
  • 一个卡片分享的网站,以及支持用户上传小说进行角色记忆库的抽取。

资源汇总

  • Code:https://github.com/LC1332/Zero-Haruhi
  • 0.3 模型:https://huggingface.co/silk-road/Haruhi-Zero-7B-0_3
  • 0.4 模型:https://huggingface.co/silk-road/Haruhi-Zero-14B-0_4
  • 抽取模型:https://huggingface.co/silk-road/Haruhi-dialogue-action-extract-7B
  • 0.4 50本小说的500个人物:https://huggingface.co/datasets/silk-road/50-Chinese-Novel-Characters

模型介绍

Chat凉宫春日是模仿凉宫春日等一系列动漫人物,使用近似语气、个性和剧情聊天的语言模型方案。

随着凉宫春日-Zero模型的建立,Chat凉宫春日项目将主要包含三个部分,

  • 可以接入不同语言模型,包括闭源商用API和Haruhi-Zero模型的推理class,用于管理人物的记忆库和过往的历史信息并进行prompt的构造。
  • 使用120k左右量级对话数据得到的开源角色扮演模型,凉宫春日-Zero,方便每个开发者构建自己的人物模型
  • 完整的小说抽取方案,以及一个开源可本地部署的对话-动作抽取模型。

ChatHaruhi 3.0 的说明

ChatHaruhi 3.0是Chat凉宫春日的推理库

  • 支持使用或者不使用RAG的角色的载入
  • 支持直接载入sugar角色,或者从hugging face载入预先设定好的角色 支持用户自建角色
  • 在ChatHaruhi 2.0的基础上做了message和llm的分离,方便接入不同的模型

模型后续迭代计划

  • Haruhi Like的小说数据(0.5版本加入)
  • 用对话抽取模型,重新构造2k级别的小说人物,均匀抽取小说的chunk,进行人物system prompt总结
  • 看看Janitor最好的人物是怎么构造的
  • 使用抽取抽取50k级别的小说的人物,用其他角色的长对话进行query
  • RAG的时候每个对话出现2-3次,然后在测试集出现一次
  • 80%的openai和20%的claude

感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~



【声明】内容源于网络
0
0
AIGC Studio
一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
内容 876
粉丝 0
AIGC Studio 一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术。这里不仅有简单易懂的AIGC理论实践和AI学习路线,还有大厂工作经历和体会分享。如果有幸能给你一些帮助就更好啦!
总阅读44
粉丝0
内容876