大数跨境
分享
哈佛大学发布开源AI训练数据集「Institutional Books 1.0」,包含馆藏近百万册图书
2025-06-17 11:34 星期二
6月16日消息,上周,在微软与OpenAI的支持下,哈佛大学法学院图书馆正式发布了其首个用于AI训练的开放数据集“Institutional Books 1.0”。该数据集包含了哈佛大学馆藏中的98.3万本图书,覆盖245种语言,总计达2420亿个Token。 据了解,该数据集中约40%的书籍为英文出版物,主要集中在19世纪和20世纪出版。所有书籍内容被划分为20个主题类别,同时每本书均提供完整的元数据信息,包括作者、出版年份、语言和原始来源等。 哈佛大学法学院图书馆表示,研究人员将继续扩充这一数据集的内容,并已与波士顿公共图书馆展开合作,计划将数百万份历史报纸通过数字化方式纳入该数据集。 此外,图书馆还计划开发一系列AI工具,以提高馆藏资料的整理与开放效率,并推动形成负责任的数据使用规范。
新闻推荐 查看更多
大数新闻社群
7x24h跨境新闻推送
加入卖家交流群