大数跨境
0
0

数据启元计划 | 精选高质量数据集合集第一弹

数据启元计划 | 精选高质量数据集合集第一弹 天聚地合2479.HK
2025-12-10
0
导读:「数据启元计划」精选高质量数据集合集第一弹来啦!快来看看有没有你想要的数据吧~
图片
近期,由聚合数据与苏州市人工智能有限公司联合举办的高质量 AI 数据集征集活动「数据启元计划」正在火热进行中。通过我们的严格筛选及权威审核,保证数据集具备权威性、时效性与合规性。目前精选数据集正在聚合数据官网持续上架中,涵盖教育、金融、体育、社会治理等多行业领域,为开发者、科研机构及企业提供"即取即用"的数据集燃料。

本期,我们挑选了五大高质量数据集作为精选合集第一弹,它们分别是:


  • 全球运营商基站数据集

  • 维普中文学术期刊语料数据集

  • 机器人反光板对接数据集

  • K12 小初高 数字资源内容+高质量题库+教辅体系数据集

  • PCB 瑕疵检测数据集

全球运营商基站数据集


数据集概述

全球运营商基站数据集是一个社区驱动的、全球蜂窝基站位置数据库,收集全球各国家或地区基站的经纬度与关联参数。其核心价值在于提供全球范围的蜂窝基站地理位置及相关参数,使系统在缺乏 GPS 信号或低功耗场景下,仍可基于基站信息进行位置推算。

图片点击获取该数据集详情


数据集特色

  • 全球覆盖性:囊括多国多运营商数据。

  • 多维度构成:集齐经纬度、MCC/MNC/LAC/CID 与制式精度。

  • GB 级规模:解压后吉字节 CSV 按需分包,随时间戳持续更新。

  • 众包更新机制:持续上报新基站与修正,数据自我生长。

  • 时间序列保留:同一 Cell 存多时段测量。

  • 置信度分档:附带观测次数与精度指标。


应用场景

  • 低功耗定位:Cell ID 替代 GPS,适用于 IoT/室内场景。

  • 网络覆盖:分析基站密度,优化规划盲区。

  • 轨迹追踪:Cell ID 推算物流/资产移动路径。

  • 安全校验:防位置伪造与伪基站风险。

  • 科研应用:通信设施与城市数据联合分析。



维普中文学术期刊语料数据集


数据集概述 

收录期刊15000余种,文章总量达7800余万篇,年更新量180余万篇;收录年份从1989年至今,部分可追溯到1920年;独有内刊1500余种;国内三大核心期刊:北大核心、CSSCI、CSCD,均完整收录。

图片点击获取数据集详情


数据集特色

  • 拥有完善的文献数字化加工生产体系,具备10年以上加工经验

  • 元数据标准、规范,不同来源的数据都完成了唯一ID的归并去重

  • 按照原文保存文献字段,不漏录,不错录,不多录

  • 元数据质量良好。数据在源文献达到15个字段深度,参考文献达到10个字段深度。 

  • 全文图像分辨率:A4黑白和彩色图像,采用JPG格式,采用70%的压缩率,文件平均大小≤700KB。 

  • 全文图像亮度适中,清晰可见,自动检测图片大小,自动旋转图片。

  • 全文 PDF 全文页码正确,无错页、缺页,保证文章完整性,如原文缺页,必须以空白页填补,保证逻辑页码完整性。

  • 成品全文 PDF 需通过质检程序,每一页图片与原文保持一致。


应用场景

  • 医疗领域:打造循证医学驱动的临床智能助手。

  • 法律领域:构建深度研判与合规预警的智能法务。

  • 金融领域:构建更敏锐的市场风险预测模型与智能投研系统。

  • 教育/科研领域:构建能够理解知识脉络的模型。

  • 制造业领域:打造智能运维与故障预测机器人。

  • 新闻领域:协助媒体人完成权威的新闻稿件撰写。


机器人反光板对接数据集


数据集概述

本数据集收录了机器人在视觉导航过程中,与反光板进行精准对接的全流程数据,该数据集核心价值在于提供真实机器人运行场景下的完整对接数据,为训练和验证机器人对接控制深度学习或强化学习模型提供了高质量的数据样本。

图片点击获取该数据集详情


数据集特色

  • 对激光雷达的内外参、车轮半径、轮距等进行精确标定。

  • 实时监控程序检查数据是否在合理范围内。

  • 随机抽取 5%-10% 的对接序列数据,进行数据有效性的“交叉验证”

  • 依赖于轮式里程计和 IMU,其精度为毫米级

  • 依赖于激光雷达的精度,激光雷达的绝对精度在毫米级。


应用场景

  • 工业自动化精密装配:电子元件、机械部件等高精度对接场景。

  • 机器人协作作业场景:通过速度、控制序列数据优化机器人间动作配合。

  • 复杂环境对接优化:利用位姿与控制序列的关联数据提升算法的环境适应性。

  • 算法测试与验证:用于算法性能评估与参数调优。



K12 小初高

数字资源内容+高质量题库+教辅体系数据集


数据集概述 

这是一个“三位一体”的复合型数据集,将数字资源内容高质量题库教辅体系紧密联系在一起,聚焦新高考、新课标、新教材、整合全学段优质测评资源,日更新速度1万+的教育专有数据集。其核心目标是为自适应学习系统、智能题库、AI 助教、个性化作业平台、学情分析引擎等教育AI应用提供数据燃料,旨在实现“因材施教”的规模化。

图片点击获取数据集详情


数据集特色

  • “三位一体”:涵盖数字资源内容、高质量题库和教辅体系。

  • 覆盖全学段:整合全学段优质测评资源。

  • 高速更新机制: 每日新增,日更新速度1万+。

  • 紧跟教材改革: 聚焦新高考、新课标、新教材。

  • 成熟资源与技术体系: 支持 API 接口对接、定制化题库共建等。


应用场景

  • AI 智能批改与讲题:自动批改主观题、生成错题报告。
  • 个性化作业布置:根据班级和学生个人的学情智能生成专属作业。
  • 精准学情诊断:精准定位班级和个人的薄弱环节。
  • 智能组卷:根据教师的设定自动生成高质量试卷。


PCB 瑕疵检测数据集


数据集概述

该数据集包含9 种 PCB 表面缺陷类别,这些缺陷根据其成因、位置和形态进行分类,旨在推动基于深度学习的 PCB 表面缺陷检测研究。

图片点击获取该数据集详情


数据集特色

  • 9种 PCB 表面缺陷类别,涵盖常见瑕疵类型

  • 克服了以往数据集样本不足、标签不均衡的一些不足。

  • 专注制造业质检,针对印刷电路板表面缺陷

  • 深度学习优化,适用于 AI 模型训练

  • 替代人工检测,解决传统目视检查效率低、主观性强的问题。


应用场景

  • PCB 制造质检自动化检测生产线上的电路板缺陷

  • 品质管控识别外观和性能瑕疵,提升产品质量

  • AI 模型训练用于深度学习算法的缺陷识别模型开发

  • 智能工厂实现制造业智能化、自动化检测升级


我们期待这些数据成为创新的基石,「数据启元计划」正在努力打造开放、共享、安全的数据创新生态。期待更多开发者、企业与我们携手同行,提交体验优质数据集,共同书写数据赋能产业的崭新篇章。如果对以上数据集感兴趣,欢迎访问聚合数据官网了解更多!大量精选数据集请持续关注本公众号内容~



END



【更多精选内容】


天聚地合中标得尔达“智慧物流平台生成式AI功能模块”项目

AI加速度!天聚地合接入DeepSeek,数据服务能力再提升!

入选国家数据局优秀项目案例:天聚地合“基于工业模型的数据要素流通交易平台”项目

天聚地合×阿里云:赋能云端网络安全,共筑可信生态

天聚地合与江苏跨境数科强强联合,聚合数港创新启航


图片



天聚地合(苏州)科技股份有限公司(股票代码:2479.HK/天聚地合)。成立于2010年,总部位于苏州,是国内领先的AI数据科技公司,公司致力于为客户提供数据处理技术服务和数据AI应用服务,先后荣获首个国家大数据产业发展试点示范项目、国家级“专精特新”企业认定、吴文俊科技进步奖等奖项。截至目前,公司已开发超1000个API及数据集,赋能阿里、百度、腾讯、美团、字节跳动等超过200万企业客户,年调用超1800亿次。公司为国内第一家上市的AI数据科技公司。



点击【阅读全文】,了解聚合↓↓

【声明】内容源于网络
0
0
天聚地合2479.HK
聚合数据(股票代码:2479.HK / 天聚地合)是一家综合性API数据流通服务商,致力于为客户提供标准的API服务和企业、政府机构提供定制化的数据治理解决方案,专注于使用数据技术赋能数字经济。
内容 921
粉丝 0
天聚地合2479.HK 聚合数据(股票代码:2479.HK / 天聚地合)是一家综合性API数据流通服务商,致力于为客户提供标准的API服务和企业、政府机构提供定制化的数据治理解决方案,专注于使用数据技术赋能数字经济。
总阅读0
粉丝0
内容921