食品大语言模型-食天（FoodSky）- 大数跨境

首页

食品大语言模型-食天（FoodSky）

食品工业科技编辑部

2024-07-02

导读：本期分享我们在arxiv上的研究工作“FoodSky: A Food-oriented Large Language Model that Passes the Chef and Dietetic E

导语

本期分享我们在arxiv上的研究工作“FoodSky: A Food-oriented Large Language Model that Passes the Chef and Dietetic Examination”(Pengfei Zhou, Weiqing Min, Chaoran Fu, Ying Jin, Mingyu Huang, Xiangyang Li, Shuhuan Mei, Shuqiang Jiang)。该工作由中国科学院计算技术研究所食品计算团队、来自中科深健（苏州）科技有限公司和中科苏州智能计算技术研究院的团队联合完成。

民以食为天。食品承载着满足人体基本营养健康需求、传承文化以及促进社会交流的多重使命。食品智能通过食品感知和推理赋能菜谱生成、智能化营养配餐和膳食推荐、食品-疾病关联挖掘和理解等食品相关的各种任务，从而推动菜谱烹饪数字化、膳食管理智能化和营养推荐精准化。为推动食品智能的发展，基于大语言模型（Large Language Models，LLMs）强大的任务泛化和领域泛化能力，本文构建了面向食品的大语言模型-食天（FoodSky），该模型能够实现菜谱生成、食品热量计算、智能化营养配餐、面向不同人群的个性化膳食推荐、饮食-疾病关联挖掘等一系列食品领域任务。考虑到中国饮食的复杂性和典型性，本工作面向中国食品领域，首先基于多种权威来源的食品数据构建了一个大规模中国食品语料库FoodEarth，用于FoodSky模型的学习。进一步，本文提出了基于主题的选择性状态空间模型和分层主题检索增强生成机制，通过集成主题相关信息与检索外部知识库，增强了FoodSky捕获细粒度食品语义和生成上下文感知的食品相关文本的能力。大量的评估表明了FoodSky在食品领域的优势，特别的，在中国国家厨师考试和国家营养师考试中的准确率分别为67.2%和66.4%，明显优于通用LLM。FoodSky有望成为食品、烹饪、营养和健康相关领域的个人助手，从而推动食品智能的进一步发展。

论文链接：

https://arxiv.org/abs/2406.10261

系统链接：

http://222.92.101.211:8200

课题组主页：

http://123.57.42.89/FoodComputing__Home.html

引言

食品是人类赖以生存的物质基础[1-2]。多样化的食品丰富了饮食体验[3-4]，并积累了大量与烹饪操作[5-6]、消费模式[1,7-8]和营养成分[9-10]相关的数据。作为实现食品智能的新兴跨学科领域，食品计算旨在利用海量食品数据实现烹饪创作、慢性疾病防控、食品智能制造等应用[11-13]。烹饪和营养作为食品计算中的关键主题，直接影响着人类日常生活和福祉。近年来已有成分识别、食谱检索和营养评估等相关食品计算研究，涉及烹饪和疾病等各类复杂多样的现实因素。当前主流研究通常对这些任务分别进行研究，忽略了这些任务的融合交互给食品计算研究和应用带来的潜在好处。

随着当前食品系统的发展，已经在各个食品领域产生并积累了大规模数据，这为食品计算提供了新的研究思路，也为LLM的发展奠定了基础[14-15]。面向医学、教育和金融等不同垂直领域的LLM模型已经展现了卓越能力。通过在海量数据集的预训练和指令微调，这些模型能精确理解和生成针对特定领域的自然语言，完成复杂任务。同样，面向食品领域的LLM也存在巨大的潜力，可以利用海量食品数据集获得大的食品感知和推理能力，解决饮食分析、食品推荐、营养饮食和烹饪建议等各类任务。近来已有研究人员开始将LLM应用于饮食助手的开发。例如，研究[16]提出了一个基于知识图谱的食品LLM框架FoodGPT，但并未发布训练模型。研究[17]专注于使用食品语言模型建立具有成分替换和食谱推荐功能的助手。研究[18]创建了一个多任务饮食助手FoodLMM，基于多模态模型同时识别食品并估计营养。但它们仍然存在一些局限性。以往的食品LLM基于通用语言模型预训练，这些模型无法准确处理食品信息的细粒度特征，并缺乏烹饪和饮食知识，限制了成分替代和营养评估等实际食品应用。此外，现有LLM未充分涵盖不同文化的饮食习惯，存在对西方食品知识表现出偏见，处理多样化背景的查询时可能不正确或文化不敏感[19]。

为此，构建面向食品垂直领域的大语言模型显得尤为迫切。然而，构建食品大语言模型面临着多重挑战。首先，缺乏大规模食品语料库，数据分散且质量参差不齐，增加了数据清洗的复杂性；其次，食品领域涵盖主题广泛，包括食材、菜系、饮食习惯和营养信息等，对模型全面理解和处理多样化主题提出了挑战；最后，食品的跨文化特性要求模型能够处理不同文化背景下的食品知识，不同地区和文化的饮食习惯、口味偏好和烹饪传统，从而增加了LLM处理来自不同背景的食品问询的复杂性。

为了克服这些挑战，本文考虑中国饮食的典型性和复杂性，构建了面向中国食品领域的中文大语言模型——食天FoodSky。首先，本文通过全面的食品数据收集和处理，建立了大规模中文食品数据集FoodEarth。该数据集包含来自电子书和网站等多种权威来源的811K条指令数据。经过多种数据过滤方法处理，形成了高质量的数据集。为使模型能够理解全面且多样的领域知识并处理不同主题任务，本文进一步提出了一种基于主题的选择性状态空间模型（TS3M），以捕获细粒度的食物语义并适应不同的主题。此外，本文还提出了一种分层主题检索增强生成（HTRAG）机制，并通过知识增强处理来自不同文化背景的食品信息，以增强模型的泛化能力。

大量的评估表明，FoodSky在厨师和营养师考试中均展现出色的性能，与现有的LLM（如InternLM2[20]和ChatGPT-3.5[21]）相比，在这些考试中均表现更佳，分别以67.2%和 66.4%的零样本准确率通过了中国国家厨师考试和国家营养师考试，证明了能够为各种烹饪和营养问题提供可靠建议的巨大潜力。图1展示了FoodSky在不同人群和不同场景下的应用。

图1 FoodSky在不同人群和不同场景下的应用

数据集

FoodEarth数据集的构建流程如图2所示。该数据集来自营养数据库、学术期刊以及专业网站等权威中文资料。为确保数据质量，本文首先对数据层次结构进行了整理，并进行半自动化数据过滤与数据标注，以获得逻辑正确的指令数据。为降低数据集中的重复率和提升数据的专业性，本文进行了基于相似性的筛选和专家审查，完成了数据集构建。最终，FoodEarth包含811,491条问答对，为食品和营养领域的LLM微调提供了坚实数据基础。

图2 FoodEarth构建流程

方法介绍

在FoodSky中，本文提出了基于主题的选择性状态空间模型（TS3M）与分层主题检索增强生成（HTRAG）方法，通过集成主题相关信息与检索外部知识库，增强了FoodSky捕获细粒度食品语义和生成上下文感知的食品相关文本的能力。

图3 FoodSky模型

FoodSky模型建立在预训练中文大语言模型（如LLaMA-2）基础上，该模型在通用领域的中文指令数据集上进行了微调，形成了骨干模型（CLLaMA2）。为使模型适应食品领域的独特性，本文在FoodEarth数据集上对骨干模型进行针对食品领域的微调，以提升对食品相关指令和问题的理解与回答能力。

为增强模型对食品语义精准捕捉与回应信息的丰富性，本文提出了基于主题的选择性状态空间模型（TS3M）和分层主题检索增强生成（HTRAG）方法。TS3M通过集成主题相关信息，优化模型输出的准确性。它采用内容表示分支和主题状态表示分支来捕捉输入指令中的语义关系。内容表示分支通过线性和卷积层逐步提炼语义嵌入，而主题状态表示分支则通过状态空间模型选择性地更新潜在状态，从而将输入指令的主题信息有效整合到输出中。最终，这些表示通过门控机制融合，生成一个主题指示符，该指示符在推理过程中引导LLM生成与主题相关的响应。HTRAG模块则旨在通过在推理过程中检索外部知识库来增强生成能力。它首先利用TS3M获取的主题指示符，从外部知识库中检索相关信息，并将该信息与原指令表示结合生成增强表示，然后输入到LLM中获得最终响应。通过分层检索与集成外部知识，HTRAG显著提高了模型生成响应的准确性和信息丰富度，使模型能够处理复杂和个性化的食品相关查询。

此外，本文还采用了指令微调技术，包括一般指令微调和针对食品领域的指令微调，以进一步提升模型对食品专业术语和挑战的理解能力，从而进一步确保FoodSky在食品领域的专家考试中的性能。

实验

本文对FoodSky模型进行了大量评估，以验证在食品领域的专业性能。为了研究模型大小对性能的影响，在两种骨干模型CLLaMA2-7B和CLLaMA2-13B上进行了实验，并将针对食品领域微调后的模型称为FoodSky-7B和FoodSky-13B。本文分别在8卡NVIDIAA100（80G）的服务器上训练FoodSky-13B，在8卡NVIDIA V100（32G）的服务器上训练FoodSky-7B，使用LoRA[22]参数高效微调方法进行训练，并基于Pytorch的transformers和 peft库进行训练。为了平衡训练效率和性能，使用ZeRO-3实现fp12精度和基于DeepSpeed的梯度累积策略，将单个响应（包括历史记录）的长度限制为1,500，并使用0.1、10^-5的dropout率和基于Adam[23]的余弦学习率。

表1 不同LLMs在CDE基准上的零样本和少样本（5样本）性能比较（%）

表2 不同模型在不同主题子类别上的性能比较（%）

表3 不同模型在FoodQA基准测试中的性能比较（%）

表4 模型消融实验结果（%）

图4 训练数据量的消融实验结果

实验结果显示，FoodSky-13B在零样本设置下，在厨师考试和营养学考试中分别达到了67.2%和66.4%的准确率（如表1所示），显著超越了包括ChatGLM-6B[24]、Mistral-7B[25]、InternLM2-7B[20]、Qwen-7B[26]和ChatGPT-3.5[21]在内的基线模型，证明了在食品领域的专业性能。表2展示了针对不同主题子类别的评估结果，FoodSky-13B在膳食科学和食品风味特性等子类别中，均取得了最高性能，平均准确率达到67.1%，展现了其在处理食品和营养领域内多样化问题上理解和回答能力的提升。表3展示了FoodQA基准测试的评估结果，FoodSky-13B在BLEU-1、BLEU-4、GLEU和ROUGE-1[27]等自然语言处理指标上均取得了较高的性能，进一步证实了FoodSky在生成准确、丰富和相关回答方面的能力。消融实验如表4所示，当同时使用TS3M和HTRAG时，FoodSky在CDE基准测试上的总准确率达到了60.5%，相比仅使用单一模块或基础模型的性能有所提升。此外，针对训练数据量的实验结果如图4所示，随着训练样本数量的增加，FoodSky-13B的准确率稳步提升，当样本数量达到811K时，准确率高达67.1%。然而，仅增加数据量并不一定带来性能提升，数据质量同样至关重要。

定性结果如图5所示。在青少年饮食教育、厨师烹饪建议、婴幼儿饮食建议、健身人群营养补充、老年人健康维护、医疗工作者学术启发、慢性病患者诊断、脑力劳动者饮食规划、体力劳动者营养推荐、孕妇饮食禁忌等场景中，FoodSky能够提供精确且具有针对性的回复，而其他模型如Intern和ChatGPT在某些情况下出现冗余且缺乏重点的现象。这些示例展示了FoodSky在理解用户需求和提供专业建议等不同方面的实际应用潜力。

（a）不同模型在青少年饮食教育场景下的问答比较

（b）不同模型在厨师烹饪建议场景下的问答比较

（c）不同模型在婴幼儿饮食建议场景下的问答比较

（d）不同模型在健身人群营养补充场景下的问答比较

（e）不同模型在老年人健康维护场景下的问答比较

（f）不同模型在医疗工作者学术启发场景下的问答比较

（g）不同模型在慢性病患者健康诊断场景下的问答比较

（h）不同模型在脑力劳动者饮食规划场景下的问答比较

（i）不同模型在体力劳动者营养推荐场景下的问答比较

（j）问答比较不同模型在孕妇饮食禁忌场景下的问答比较

图5 定性实验展示

案例展示

图6-11展示了食品营养、菜品菜谱、菜谱热量、菜谱搭配、健康饮食等各种常见食品相关的场景中FoodSky的表现。

如图6所示，通过FoodSky对多道菜品进行了制作方法与包含食材的查询。FoodSky提供了详细的烹饪介绍与准备食材的过程，从而帮助用户轻松掌握烹饪技巧。此外，图中也展示了FoodSky对用户提出食材选择建议的功能。从中可以看出，FoodSky不仅能够提供标准化的做法，还能根据用户的口味和需求进行个性化调整，满足各种烹饪需求。

图6 菜谱制作问答

FoodSky可以对各种菜品的营养成分进行精确分析。图7展示了食天大语言模型对于豆腐煲等菜品包括卡路里、蛋白质、脂肪、碳水化合物、维生素和矿物质含量等共计超过20种微量元素信息的回答。此外，图中还展示了其对高膳食纤维菜品推荐、烹饪与营养的关系。通过这些信息，用户可以更好地管理自己的饮食，确保营养均衡。

图7 菜谱营养元素问答

FoodSky支持对菜品热量的快速查询。图8展示了多道菜品的热量信息的问答，用户可以通过输入菜品名称或食材，立即获得该菜品或食材的热量值。此外，图中也展示了烹饪方法对热量的影响，食材搭配与热量关系的查询功能。这对于希望控制热量摄入的用户来说尤为实用，可以帮助他们做出更健康的饮食选择。

图8 菜品热量问答查询

在菜谱搭配方面，FoodSky能够根据不同菜品的营养成分和用户饮食偏好，推荐最佳的三餐菜谱组合。例如，用户输入“三餐搭配原则是什么”，FoodSky能提供科学合理的搭配建议，帮助用户实现美味与健康的双重享受。此外，FoodSky还能够对个性化需求展开推荐，例如健身期间的三餐如何搭配。

图9 菜品搭配问答查询

FoodSky能够提供精准的健康饮食方案。图10展示了关于包括营养均衡饮食推荐，减肥方法和健康饮品推荐的问答过程，用户可以通过提问直接获得相应的健康饮食推荐，帮助用户能够更好地了解健康饮食的内容。

图10 健康问答查询

FoodSky在疾病饮食管理方面也具有优势。通过对特定疾病的饮食禁忌和营养需求进行分析，模型可以为患者提供科学的饮食建议。图11中展示了一系列针对痛风、高血压、糖尿病等常见疾病饮食方案的问答交互过程。用户可以根据自己的需求，对FoodSky进行提问，查询疾病饮食禁忌与推荐。

图11 慢性病饮食原则问答查询

为了方便用户了解和使用食天大语言模型，可以通过访问http://222.92.101.211:8200（图12），体验食天大模型的功能。用户仅需要通过发送邮件至meish@iict.ac.cn，获取登录账号，便可进行体验。

图12 食天大模型体验登陆界面

结论

食品大语言模型食天（FoodSky）是一个食品专用LLM，为食品科学等领域的研究和应用提供了一种新范式。为构建FoodSky，本文首先建立了包含各种食品相关指导数据的大规模高质量食品语料库，为模型的训练提供了基础。其次，本文提出了基于主题的选择性状态空间模型（TS3M）和分层主题检索增强生成（HTRAG），以增强FoodSky捕获细粒度食品语义和生成上下文感知的食品相关文本的能力。大量实验表明，FoodSky在食品领域的理解和生成方面表现出优越的性能，在厨师和营养学考试上均优于现有的通用LLM。未来，FoodSky可以从以下几个方面进一步探索。首先，可以通过与基于用户反馈的强化学习相结合，不断完善FoodSky的理解和生成能力。其次，FoodSky可扩展为多模态大语言模型（MLLM），如通过食材图像生成食谱建议，通过一日三餐的图像预测体重变化。此外，还可以进一步引入更多食品行业数据，打造涵盖食品设计、食品安全、供应链管理等重点领域的食品行业LLM，从而助力食品产业智能化转型升级。

参考文献

[1] P.Behrens,J.C.Kiefte-deJong,T.Bosker,J.F.Rodrigues,A.DeKon- ing, and A. Tukker, “Evaluating the environmental impacts of dietary recommendations,” Proceedings of the National Academy of Sciences, vol. 114, no. 51, pp. 13 412–13 417, 2017.

[2] Y. M. Asano and G. Biermann, “Rising adoption and retention of meat- free diets in online recipe data,” Nature Sustainability, vol. 2, no. 7, pp. 621–627, 2019.

[3] Z. Mehrabi, M. J. McDowell, V. Ricciardi, C. Levers, J. D. Martinez, N. Mehrabi, H. Wittman, N. Ramankutty, and A. Jarvis, “The global divide in data-driven farming,” Nature Sustainability, vol. 4, no. 2, pp. 154–160, 2021.

[4] B. Basso and J. Antle, “Digital agriculture to design sustainable agricultural systems,” Nature Sustainability, vol. 3, no. 4, pp. 254–256, 2020.

[5] J. Marın, A. Biswas, F. Ofli, N. Hynes, A. Salvador, Y. Aytar, I. Weber, and A. Torralba, “Recipe1m+: A dataset for learning cross-modal embeddings for cooking recipes and food images,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 43, no. 1, pp. 187– 203, 2021.

[6] D. Damen, H. Doughty, G. M. Farinella et al., “The epic-kitchens dataset: Collection, challenges and baselines,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 43, no. 11, pp. 4125– 4141, 2020.

[7] M. Siegrist and C. Hartmann, “Consumer acceptance of novel food technologies,” Nature Food, vol. 1, no. 6, pp. 343–350, 2020.

[8] G. Popovski, B. K. Seljak, and T. Eftimov, “Foodbase corpus: a new resource of annotated food entities,” Database, vol. 2019, p. baz121, 2019.

[9] Q. Thames, A. Karpur, W. Norris, F. Xia, L. Panait, T. Weyand, and J. Sim, “Nutrition5k: Towards automatic nutritional understanding of generic food,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 8903–8911.

[10] S. Haussmann, O. Seneviratne, Y. Chen, Y. Ne’eman, J. Codella, C.-H. Chen, D. L. McGuinness, and M. J. Zaki, “Foodkg: a semantics-driven knowledge graph for food recommendation,” in Proceedings of the International Semantic Web Conference, 2019, pp. 146–162.

[11] W. Min, S. Jiang, L. Liu, Y. Rui, and R. Jain, “A survey on food computing,” ACM Computing Surveys (CSUR), vol. 52, no. 5, pp. 1– 36, 2019.

[12] K. Grace, S. Siddiqui, and B. F. Zaitchik, “A framework for interdisci- plinary research in food systems,” Nature Food, vol. 2, no. 1, pp. 1–3, 2021.

[13] W.Min,P.Zhou,L.Xu,T.Liu,T.Li,M.Huang,Y.Jin,Y.Yi,M.Wen, S. Jiang et al., “From plate to production: Artificial intelligence in mod- ern consumer-driven food systems,” arXiv preprint arXiv:2311.02400, 2023.

[14] F. Gaupp, C. Ruggeri Laderchi, H. Lotze-Campen, F. DeClerck, B. L. Bodirsky, S. Lowder, A. Popp, R. Kanbur, O. Edenhofer, R. Nugent et al., “Food system development pathways for healthy, nature-positive and inclusive food systems,” Nature Food, vol. 2, no. 12, pp. 928–934, 2021.

[15] W. Min, Z. Wang, Y. Liu, M. Luo, L. Kang, X. Wei, X. Wei, and S. Jiang, “Large scale visual food recognition,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no. 8, pp. 9932– 9949, 2023.

[16] Z. Qi, Y. Yu, M. Tu, J. Tan, and Y. Huang, “Foodgpt: A large language model in food testing domain with incremental pre-training and knowledge graph prompt,” arXiv preprint arXiv:2308.10173, 2023.

[17] R. Cunningham, S. Farnum, S. Kang, and R. Saxena, “Foodgpt: Amachine learning approach to ingredient substitution and recipe recommendation,” 2023.

[18] Y. Yin, H. Qi, B. Zhu, J. Chen, Y.-G. Jiang, and C.-W. Ngo, “Foodlmm: A versatile food assistant using large multi-modal model,” arXiv preprint arXiv:2312.14991, 2023.

[19] L. Zhou, T. Karidi, N. Garneau, Y. Cao, W. Liu, W. Chen, and D. Hershcovich, “Does mapo tofu contain coffee? probing llms for food-related cultural knowledge,” arXiv preprint arXiv:2404.06833, 2024.

[20] H. C. Zheng Cai, Maosong Cao et al., “Internlm2 technical report,” 2024.

[21] L. Ouyang, J. Wu, X. Jiang et al., “Training language models to follow instructions with human feedback,” 2022.

[22] E. J. Hu, Y. Shen, P. Wallis, Z. Allen-Zhu, Y. Li, S. Wang, L. Wang, and W. Chen, “Lora: Low-rank adaptation of large language models,” 2021.

[23] D. Kingma and J. Ba, “Adam: A method for stochastic optimization,” in Proceedings of the International Conference on Learning Representations, 2015, pp. 1–15.

[24] A.Zeng,X.Liu,Z.Duetal.,“Glm-130b:Anopenbilingualpre-trained model,” arXiv preprint arXiv:2210.02414, 2022.

[25] A. Q. Jiang, A. Sablayrolles, A. Mensch et al., “Mistral 7b,” 2023.

[26] Y. C. Jinze Bai, Shuai Bai et al., “Qwen technical report,” arXiv preprint arXiv:2309.16609, 2023.

[27] K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu, “Bleu: a method for automatic evaluation of machine translation,” in Proceedings of the Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2002, pp. 311–318.

END

编辑 | 金颖梅舒欢周鹏飞