
想把握最新的科技进展和研究成果,却发现自己的阅读速度根本赶不上文献产出的速度?
别担心,AMiner AI会帮助你高效检索和阅读文献!
AMiner AI,一款集发现论文、分析论文、理解论文、写作论文于一体的科研小助手。它会帮助你更加游刃有余地穿梭在学术海洋中,让科研变得更加有趣和高效!
大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。
2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
今日精选了5篇LLM领域的优秀论文,为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可扫码查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。
本文提出了一种基于区域描述的区域感知文本到图像生成方法RAG,旨在实现精确的布局构图。该方法通过将多区域生成分解为两个子任务——确保区域提示正确执行的个体区域构建(区域硬绑定)以及取消视觉边界并增强相邻交互的整体细节细化(区域软细化)来克服已有方法的局限性。RAG创新地实现了重绘功能,用户可以在保持其他区域不变的情况下,修改最后一次生成中不满意的特定区域,而无需依赖额外的修复模型。该方法无需调优,可作为对其他框架提示跟随属性的增强。定量和定性的实验结果表明,RAG在属性绑定和对象关系方面优于之前的无需调优方法。

链接:https://www.aminer.cn/pub/6732e39201d2a3fbfc337a72/?f=wx阅读原文
这篇论文提出了一种创新的3D生成框架,解决了传统方法在输入格式、潜在空间设计和输出表示方面的挑战。该框架使用变分自编码器(VAE)和多视角RGB-D(深度)-N(法线)渲染作为输入,设计了一种独特的潜在空间,保留了3D形状信息,并采用级联潜在扩散模型来提高形状与纹理的解耦效果。论文中提出的方法,GaussianAnything,支持多模态条件下的3D生成,能够处理点云、文本描述以及单视角或多视角图像输入。该方法特别之处在于,其潜在空间自然地实现了几何与纹理的分离,使得3D感知编辑成为可能。实验结果显示,该方法在多个数据集上的表现优于现有技术,无论是在文本还是图像条件下进行3D生成。

链接:https://www.aminer.cn/pub/6734445c01d2a3fbfca1283a/?f=wx阅读原文
本文介绍了一种名为Xmodel-1.5的新型亿级参数多语言大规模预训练模型,该模型在约2万亿个标记上进行了训练。该模型在多种语言中表现出强大的性能,尤其在泰语、阿拉伯语和法语方面取得了显著成果,同时在中国和英语方面也表现出有效性。研究团队还公开了一个包含泰国学生标注的数百个问题的评估数据集,以促进学术研究。尽管成果令人鼓舞,但研究者认为仍有改进空间。该工作旨在推动多语言人工智能研究的进展,并提升各种自然语言处理任务中的跨语言理解能力。相关模型和代码已在GitHub上公开。

链接:https://www.aminer.cn/pub/673ad0cc01d2a3fbfc578d82/?f=wx阅读原文
本文通过案例研究,探讨了Claude 3.5 Computer Use这一前沿AI模型在图形用户界面(GUI)代理领域的应用。研究团队设计了一系列跨多个领域和软件的精心任务,以评估该模型在实际复杂环境中的能力。研究结果显示,Claude 3.5 Computer Use在端到端的语言到桌面操作中表现出前所未有的能力。同时,研究还提供了一个即插即用的代理框架,用于部署基于API的GUI自动化模型,并详细分析了该模型的功能和局限性。研究旨在提出关于规划、行动和评估的考量,以促进未来的改进。研究者希望通过这一初步探索,激发GUI代理领域的研究兴趣。所有测试案例均可通过项目链接尝试:https://github.com/showlab/computeruseootb。

链接:https://www.aminer.cn/pub/673ad78401d2a3fbfc8b2c76/?f=wx阅读原文
该论文提出了一种名为“生成世界探索者”(Generative World Explorer,简称Genex)的框架,旨在让智能体通过心理探索大规模三维世界(如城市场景)并获取想象中的观察结果,以更新其世界观。这种方法模拟了人类通过心理想象来更新信念的能力,而不必始终进行物理探索。论文中还创建了一个合成城市场景数据集Genex-DB用于训练。实验结果表明,Genex能够在长时间探索大型虚拟物理世界时生成高质量且一致的观察结果,并且使用这些生成的观察结果更新信念,可以辅助现有决策模型(如LLM智能体)做出更优的计划。

链接:https://www.aminer.cn/pub/673df289a58ea83693d5559a/?f=wx阅读原文
如何订阅每日新论文?
打开AMiner首页,点击管理订阅,选择所在领域的关键词、学者和机构即可。

此外,可以选择将订阅内容发送至邮箱或微信。输入邮箱或扫描二维码授权登录,即可接收个性化的科研信息。


