生成式人工智能领域日益扩大。7月19日,Meta 发布了一个新的 AI 模型系列Llama 2,旨在驱动 OpenAI 的ChatGPT、Bing Chat和其他现代聊天机器人等应用程序。Meta 声称,经过混合公开数据的训练,Llama 2 的性能比上一代 Llama 模型有了显着提高。
Llama 2 是 Llama 的后续版本,Llama 是一组模型,可以根据提示生成文本和代码,与其他类似聊天机器人的系统相当。但 Llama 只能根据要求提供;由于担心被滥用,Meta 决定限制对模型的访问。(尽管采取了预防措施,Llama 后来还是在网上泄露并在各个人工智能社区传播。)
相比之下,Llama 2(可免费用于研究和商业用途)将以预训练的形式在 AWS、Azure 和 Hugging Face 的 AI 模型托管平台上进行微调。Meta 表示,由于与微软以及搭载高通 Snapdragon 片上系统的智能手机和 PC 扩大了合作伙伴关系,它的运行将更加容易,针对 Windows 进行了优化。(高通表示正在努力在 2024 年将 Llama 2 引入 Snapdragon 设备。)那么 Llama 2 与 Llama 有何不同?Meta 在一份冗长的白皮书中以多种方式强调了所有这些。
Llama 2 有两种版本:Llama 2 和 Llama 2-Chat,后者针对双向对话进行了微调。Llama 2 和 Llama 2-Chat 进一步细分为不同复杂程度的版本:70 亿个参数、130 亿个参数和 700 亿个参数。(“参数”是从训练数据中学习的模型的一部分,本质上定义了模型解决问题的技能,在本例中生成文本。)
Llama 2 接受了 2 万亿个 token 的训练,其中“token”代表原始文本,例如“fan”、“tas”和“tic”代表“fantastic”一词。这几乎是 Llama 训练数量(1.4 万亿)的两倍,而且一般来说,代币越多,生成人工智能就越好。据报道,谷歌当前的旗舰大语言模型 (LLM) PaLM 2接受了360 万个令牌的训练,据推测 GPT-4 也接受了数万亿个令牌的训练。Meta在白皮书中没有透露训练数据的具体来源,只是说它来自网络,大部分是英文的,而不是来自公司自己的产品或服务,并强调文本的“事实”性质。
文章翻译自:techcrunch;原文链接:
https://techcrunch.com/2023/07/18/meta-releases-llama-2-a-more-helpful-set-of-text-generating-models/

