本文系统梳理了全球范围内超过100个顶级的数据集平台、专业领域数据集以及从数据处理、标注到可视化的全链路工具。
无论您是机器学习工程师、数据科学家、学术研究者还是AI爱好者,这份清单都将成为您项目开发与研究中不可或缺的必备清单。
一、 数据集平台
A. 国际主流与综合平台
-
Kaggle Datasets: 全球最大的数据科学与机器学习竞赛社区。平台提供了数百万个由用户和企业上传的真实数据集,覆盖CV、NLP、金融、健康、社交等多个领域,是实践和探索性数据分析的绝佳起点。 -
链接:https://www.kaggle.com/datasets -
Google Dataset Search: 谷歌官方推出的数据集搜索引擎,旨在统一发现散落在网络各处的数据。它索引了来自数千个数据存储库的数千万个数据集,用户可通过关键词找到来自政府、科研机构和个人分享的数据。 -
链接:https://datasetsearch.research.google.com/ -
Hugging Face Datasets: 领先的开源模型和数据集平台,在NLP领域影响力巨大。它提供了数万个数据集(如SQuAD、GLUE),并能通过其 datasets库实现一键加载、预处理和流式处理,与transformers模型库无缝集成。 -
链接:https://huggingface.co/datasets -
DataHub: 一个社区驱动的开源项目,致力于收集、标准化和分发高质量数据集。它提供了一系列经过清洗和打包的核心数据集(“Core Data”),方便用户直接使用。 -
链接:https://datahub.io/ -
Awesome Public Datasets (GitHub): 一个在GitHub上维护的高质量公共数据集精选列表(“awesome list”)。它按主题(如农业、生物、气候、金融)对全球范围内的优质数据集进行了分类整理,是一个优秀的数据集导航目录。 -
链接:https://github.com/awesomedata/awesome-public-datasets -
BigQuery Public Datasets: 谷歌云提供的公共数据集,用户可以在BigQuery平台内直接进行查询和分析,涵盖基因组学、天气、交通等多种大规模数据集。 -
链接:https://cloud.google.com/bigquery/public-data -
Data.gov: 美国政府官方的开放数据门户,提供包括气候、人口、交通、金融等在内的大量高质量政府数据。 -
链接:https://data.gov/
B. 学术与研究导向平台
-
UCI Machine Learning Repository: 由加州大学欧文分校维护的经典数据集仓库,是机器学习领域最古老和最著名的来源之一。它包含数百个规模多为中小型、经过清洗的经典数据集(如Iris、Wine),非常适合学术研究和教学。 -
链接:https://archive.ics.uci.edu/ -
Papers with Code: 一个将学术论文、代码和数据集三者关联起来的平台。它收录了数千个与最新研究论文配套的数据集,是追踪特定任务(SOTA, State-of-the-art)模型和基准数据的最佳资源。 -
链接:https://paperswithcode.com/datasets -
OpenML: 一个专注于可复现和协作式机器学习的在线平台。它不仅提供数千个数据集,还记录了在这些数据集上运行的数百万次实验流程和结果,便于研究人员比较和复现模型性能。 -
链接:https://www.openml.org/ -
Zenodo: 由欧洲核子研究中心(CERN)支持的开放获取研究数据存储库。它托管了数百万份研究产出,包括大量与学术论文相关的各类科学数据集,并为每个上传内容提供DOI,确保可追溯性。 -
链接:https://zenodo.org/ -
Figshare: 一个供研究人员分享、发现和管理其研究成果(包括图表、数据集、论文等)的平台。它鼓励数据公开,许多发布在期刊上的研究都会将配套数据集存储于此。 -
链接:https://figshare.com/ -
Keras Datasets: Keras深度学习框架内置的数据集接口,包含如MNIST、CIFAR-10/100、IMDB等经典的小型数据集,方便快速调用和实验。 -
链接:https://keras.io/api/datasets/
C. 国内主流平台
-
阿里云天池 (Tianchi): 阿里巴巴集团旗下的数据科学与AI竞赛平台。天池提供了数百个源自真实业务场景的高质量数据集,尤其在金融、电商、物流、医疗等领域积累深厚,数据规模通常较大。 -
链接:https://tianchi.aliyun.com/dataset -
百度 AI Studio: 百度推出的AI学习与实训社区,深度集成了其飞桨(PaddlePaddle)深度学习框架。平台提供数百个数据集,在中文NLP、语音识别、自动驾驶等领域具有特色和优势。 -
链接:https://aistudio.baidu.com/aistudio/dataset -
DataFountain: 国内领先的数据科学竞赛和协同创新平台。与政府和企业合作紧密,发布了大量具有挑战性的行业数据集,尤其在智慧城市、金融科技和医疗健康领域资源丰富。 -
链接:https://www.datafountain.cn/ -
HyperAI 超神经: 一个专注于为AI开发者提供高质量、高可用性数据集的平台。它整理并托管了大量经过优化的数据集,特别是中文领域的语料和行业数据,致力于简化数据获取流程。 -
链接:https://hyper.ai/cn/datasets -
遇见数据集搜索: 一个方便快捷的数据集元搜索引擎。它聚合了国内外多个主流数据集平台的资源,用户可以通过一个入口进行跨平台检索,提高了寻找特定数据集的效率。 -
链接:https://www.yujiandataset.com/
二、 专业领域数据集
A. 计算机视觉 (CV)
-
ImageNet: 计算机视觉领域里程碑式的大规模图像数据集。完整版包含超过1400万张已标注图像和2万多个类别。其子集(ILSVRC)包含120万张训练图像和1000个类别,它的出现极大地推动了深度学习的发展。 -
链接:https://www.image-net.org/ -
COCO (Common Objects in Context): 一个大规模、高质量的图像数据集,专为目标检测、实例分割和图像描述等复杂任务设计。它包含超过33万张图像,以其复杂的日常场景和每张图包含多个物体的特点而著称。 -
链接:https://cocodataset.org/ -
Open Images Dataset: 由谷歌发布的一个超大规模、标注丰富的图像数据集。包含约900万张图像,带有图像级标签、物体边界框、实例分割掩码和视觉关系标注,是目前规模最大的带精细标注的图像数据集之一。 -
链接:https://storage.googleapis.com/openimages/web/index.html -
Cityscapes: 专注于城市街道场景语义理解的大规模数据集,提供高质量的像素级标注。 -
链接:https://www.cityscapes-dataset.com/ -
MNIST: 经典的手写数字识别数据集,包含6万张训练图像和1万张测试图像,是计算机视觉入门的“Hello World”。 -
链接:http://yann.lecun.com/exdb/mnist/ -
CIFAR-10/100: 包含10个或100个类别的小尺寸(32x32)彩色图像数据集,常用于新算法的快速验证和实验。 -
链接:https://www.cs.toronto.edu/~kriz/cifar.html
B. 自然语言处理 (NLP) 与语音
-
Common Crawl: PB级的公开网络爬取数据,包含海量原始网页文本,是训练大规模语言模型(LLM)最重要的语料来源之一。 -
链接:https://commoncrawl.org/ -
Wikipedia Dumps: 维基媒体基金会提供的维基百科全站内容的离线数据库备份。它包含数百种语言的文本语料,数据规模达到TB级别,同样是训练LLM的重要语料来源。 -
链接:https://dumps.wikimedia.org/ -
BookCorpus: 一个包含超过11,000本未出版英文书籍文本的大型数据集,常用于语言模型的预训练。 -
链接:https://yknzhu.wixsite.com/mbweb -
CC100 (Common Crawl 100): 从Common Crawl网络爬取数据中提取并清洗后形成的大规模多语言语料库。它覆盖100种语言,常用于预训练跨语言模型。 -
链接:https://data.statmt.org/cc-100/ -
THUCNews (清华): 由清华大学自然语言处理实验室整理的大规模中文新闻分类数据集。包含约74万篇新闻文章,覆盖14个新闻类别,是中文长文本分类任务的常用基准。 -
链接:http://thuctc.thunlp.org/ -
今日头条新闻标题数据集: 一个大型中文短文本分类数据集,包含约38万条由今日头条App生成的新闻标题,共分为15个类别。非常适合用于训练和评估短文本分类模型。 -
链接:https://github.com/fate233/toutiao-text-classfication-dataset -
ChnSentiCorp: 一个常用的中文情感分析数据集,主要包含对酒店、书籍、电子产品等的评论。数据规模约1.2万条,已标注为正面或负面,是情感分类任务的入门级经典数据。 -
链接:https://github.com/pengming617/bert_classification (项目中使用该数据集的示例) -
IMDB Reviews: 经典的情感分析文本数据集,包含从IMDB网站收集的5万条电影评论,用于二元情感分类。 -
链接:https://www.imdb.com/interfaces/ -
SQuAD (Stanford Question Answering Dataset): 斯坦福大学推出的阅读理解和问答任务的经典基准数据集。 -
链接:https://rajpurkar.github.io/SQuAD-explorer/ -
GloVe (Global Vectors for Word Representation): 斯坦福大学发布的预训练词向量,通过词共现矩阵进行训练,效果优异。 -
链接:https://nlp.stanford.edu/projects/glove/ -
LibriSpeech: 基于有声读物的大规模(约1000小时)英语语音识别数据集,发音清晰,质量高。 -
链接:http://www.openslr.org/12/
C. 金融、经济与商业(含部分付费)
-
Quandl (Nasdaq Data Link): 一个提供金融、经济和另类数据的领先平台(现为Nasdaq Data Link的一部分)。它聚合了来自数百个来源的数百万个时间序列数据集,可通过API访问,是量化金融分析的重要数据源。 -
链接:https://data.nasdaq.com/ -
Yahoo Finance: 一个广受欢迎的免费金融数据源。它提供了全球数万个股票的实时和历史行情数据、财务报表、期权链以及其他市场数据,是个人开发者和小型机构进行金融分析的常用工具。 -
链接:https://finance.yahoo.com/ -
World Bank Open Data: 世界银行发布的全球宏观经济与发展指标数据,如GDP、人口、贸易、教育等。 -
链接:https://data.worldbank.org/ -
FRED Economic Data: 美联储经济数据库,提供大量美国和国际经济时间序列数据,如利率、就业、通胀等。 -
链接:https://fred.stlouisfed.org/ -
Eurostat: 欧盟统计局的官方数据库,提供关于欧盟成员国经济、社会、环境等方面的高质量统计数据。 -
链接:https://ec.europa.eu/eurostat -
Bloomberg Terminal: 全球顶级的金融市场数据和分析工具,提供实时行情、新闻、研究报告等(需昂贵订阅)。 -
链接:https://www.bloomberg.com/professional/ -
Refinitiv Eikon (LSEG): 路孚特(原汤森路透金融与风险部门)提供的金融市场数据与基础设施(需订阅)。 -
链接:https://www.lseg.com/en/data-analytics/products/eikon -
Crunchbase: 权威的全球初创公司、投资机构和市场趋势数据库(有免费和付费版)。 -
链接:https://www.crunchbase.com/ -
Statista: 提供全球市场和消费者数据的综合统计数据平台,包含大量图表和报告(部分付费)。 -
链接:https://www.statista.com/ -
PitchBook: 专注于私募股权、风险投资和并购市场的深度数据与研究平台(付费)。 -
链接:https://pitchbook.com/ -
SEMrush / SimilarWeb: 市场营销与网站流量分析工具,提供竞争对手分析数据(付费)。 -
链接:https://www.semrush.com/, https://www.similarweb.com/ -
Gartner: 全球领先的科技行业研究与顾问公司,提供权威的行业分析报告和数据(付费)。 -
链接:https://www.gartner.com/ -
LexisNexis: 提供法律、新闻、公共记录和商业信息的大型数据库(付费)。 -
链接:https://www.lexisnexis.com/
D. 医疗与生物科学
-
MIMIC-III: 一个大型、免费、公开的重症监护(ICU)患者匿名健康记录数据库。它包含超过4万名患者的临床数据,是医疗AI研究的黄金标准数据集。 -
链接:https://physionet.org/content/mimiciii/1.4/ -
TCGA (The Cancer Genome Atlas): 由美国国家癌症研究所发起的大型癌症基因组学项目。它包含了33种癌症类型的数千个肿瘤样本的基因组学数据,是癌症研究的基石。 -
链接:https://www.cancer.gov/tcga -
Human Protein Atlas: 一个旨在绘制人体所有蛋白质在组织和细胞中分布图谱的大科学项目。它提供了数百万张显微镜图像和大量的蛋白质表达数据。 -
链接:https://www.proteinatlas.org/ -
CDC Data: 美国疾病控制与预防中心的官方健康与公共卫生数据。 -
链接:https://data.cdc.gov/ -
NIH Clinical Trials: 美国国立卫生研究院维护的全球临床试验数据库,提供正在进行和已完成的临床研究信息。 -
链接:https://clinicaltrials.gov/ -
OpenCOVID-19: 致力于提供全球新冠疫情开放数据的项目。 -
链接:https://github.com/opencovid19-data/
E. 地理与环境科学
-
OpenStreetMap: 一个由全球志愿者社区创建和维护的开源世界地图。其数据包括街道、建筑、兴趣点、土地利用等丰富的地理空间信息,可免费下载使用。 -
链接:https://www.openstreetmap.org/ -
NASA EarthData: 美国宇航局(NASA)地球科学数据的官方门户。它提供了来自卫星、机载任务和实地测量的海量数据,是气候变化和环境研究的核心数据源。 -
链接:https://earthdata.nasa.gov/ -
USGS Earth Explorer: 美国地质调查局的数据门户,提供丰富的地质与遥感影像数据。 -
链接:https://earthexplorer.usgs.gov/ -
NOAA Climate Data: 美国国家海洋和大气管理局的气候与海洋数据中心。 -
链接:https://www.ncei.noaa.gov/ -
Global Biodiversity Information Facility (GBIF): 全球生物多样性信息网络,提供物种分布数据。 -
链接:https://www.gbif.org/ -
Google Maps API: 提供地理编码、路线规划、地点搜索等功能的API服务(付费)。 -
链接:https://developers.google.com/maps
F. 推荐系统与社会科学
-
MovieLens: 由GroupLens研究小组发布的一系列电影评分数据集,是推荐系统领域的经典基准。数据集规模从10万条评分到超过2700万条评分不等。 -
链接:https://grouplens.org/datasets/movielens/ -
Yelp Open Dataset: Yelp发布的包含商家评论、用户画像等的商业数据集,适合推荐系统、情感分析等研究。 -
链接:https://www.yelp.com/dataset -
亚马逊商品评论数据集: 一个包含了数百万条亚马逊商品评论的大型多语言数据集。它覆盖了从书籍、电子产品到家居用品等多个类别,是研究情感分析、评论摘要和产品推荐的宝贵资源。 -
链接:https://registry.opendata.aws/amazon-reviews/ (官方托管) -
大众点评评论数据集(中文): 一个包含中文餐饮评论的数据集,通常包括用户ID、商家信息、评分、评论文本和消费行为等字段。是进行中文情感分析、用户画像和推荐系统研究的实用数据。 -
链接:https://github.com/SophonPlus/Chinese-Sentiment-Analysis-Dataset (一个开源实现) -
FiveThirtyEight Data: 著名数据新闻网站FiveThirtyEight公开的用于其报道的社会科学、民意调查与政治数据集。 -
链接:https://data.fivethirtyeight.com/
三、 数据工具与框架
A. 数据处理、分析与计算
-
Pandas: Python数据分析与操作的核心库。 -
链接:https://pandas.pydata.org/ -
NumPy: Python科学计算的基础库,提供强大的N维数组对象。 -
链接:https://numpy.org/ -
Apache Spark: 用于大规模数据处理的统一分布式计算引擎。 -
链接:https://spark.apache.org/ -
Apache Flink: 一个流批一体的分布式处理框架,以其低延迟的流处理能力著称。 -
链接:https://flink.apache.org/ -
Apache Beam: 提供统一的、可移植的编程模型,用于定义批处理和流处理数据管道。 -
链接:https://beam.apache.org/ -
Dask: Python原生的并行计算库,可与Pandas、NumPy、Scikit-learn无缝集成以处理大数据。 -
链接:https://dask.org/ -
Polars: 基于Rust开发的高性能DataFrame库,在速度和内存效率上通常优于Pandas。 -
链接:https://pola.rs/ -
Vaex: 专为核外(out-of-core)大规模数据集设计的内存高效型DataFrame库,可以流畅地探索上亿行的数据。 -
链接:https://vaex.io/ -
Talend: 强大的ETL(提取、转换、加载)工具,提供开源和商业版本,用于数据集成。 -
链接:https://www.talend.com/
B. 数据标注、生成与增强
-
LabelImg: 一款简洁、开源的图形化图像标注工具,主要用于目标检测任务中的边界框(bounding box)标注。 -
链接:https://github.com/HumanSignal/labelImg -
CVAT (Computer Vision Annotation Tool): 由英特尔开发的强大开源标注工具。它支持图像和视频的目标检测、图像分割和分类等多种任务,功能丰富,支持团队协作。 -
链接:https://github.com/opencv/cvat -
Label Studio: 一款非常灵活的开源数据标注工具,支持图像、文本、音频、时间序列等多种数据类型。 -
链接:https://labelstud.io/ -
Labelbox: 一个企业级的商业数据标注平台,提供从数据管理、标注到模型评估的全流程服务。 -
链接:https://labelbox.com/ -
Scale AI: 提供数据标注、生成和评估服务的大型商业平台,服务于众多顶级AI公司。 -
链接:https://scale.com/ -
MakeSense.ai: 一个免费、轻量级的在线图像标注工具。无需注册或安装,直接在浏览器中即可使用。 -
链接:https://www.makesense.ai/ -
Supervisely: 一个专业的端到端计算机视觉平台,不仅提供强大的数据标注功能,还集成了数据管理、模型训练和部署等功能。 -
链接:https://supervise.ly/ -
VoTT (Visual Object Tagging Tool): 微软推出的开源图像与视频标注工具。其特色是支持从视频中追踪对象并自动生成连续帧的标注。 -
链接:https://github.com/microsoft/VoTT -
VIA (VGG Image Annotator): 由牛津大学视觉几何组(VGG)开发的轻量级独立标注软件。它仅是一个HTML文件,无需安装即可在浏览器离线使用。 -
链接:https://www.robots.ox.ac.uk/~vgg/software/via/ -
Doccano: 一款非常受欢迎的开源文本标注工具,尤其适合中文NLP任务。它支持文本分类、序列标注(如命名实体识别)和序列到序列等多种任务。 -
链接:https://github.com/doccano/doccano -
Prodigy: 一款由spaCy开发者打造的高效文本标注工具。它采用“主动学习”策略,让模型在标注过程中不断学习,极大提高了标注效率(收费)。 -
链接:https://prodi.gy/ -
pyannote-audio: 一个用于音频处理的开源Python工具包。它专注于说话人日志(diarization)、语音活动检测和说话人识别。 -
链接:https://github.com/pyannote/pyannote-audio -
Albumentations: 一个性能极高、功能丰富的图像数据增强库。它提供了超过70种图像变换操作,支持与主流深度学习框架无缝集成。 -
链接:https://github.com/albumentations-team/albumentations -
ImgAug: 一个灵活且强大的图像数据增强库。它允许用户组合多种增强技术,并能以随机顺序和强度应用于批量图像。 -
链接:https://github.com/aleju/imgaug -
TextAttack: 一个用于NLP模型对抗性攻击、数据增强和模型训练的Python框架。 -
链接:https://github.com/QData/TextAttack -
Faker: 一个用于生成虚假数据的Python库。它可以快速创建姓名、地址、电话号码、文本段落等多种类型的伪数据,非常适合用于数据库填充和应用测试。 -
链接:https://github.com/joke2k/faker -
Synthea: 一个开源的合成患者数据生成器。它能够创建符合现实统计特征的虚拟患者电子健康记录(EHR)。 -
链接:https://github.com/synthetichealth/synthea -
Snorkel: 一个由斯坦福大学开发的、用于以编程方式构建训练数据集的系统。它采用“弱监督”思想,允许用户编写多个带噪声的“标注函数”来为海量未标注数据生成概率性标签。 -
链接:https://www.snorkel.org/ -
Unity Perception: Unity游戏引擎的一个插件,用于生成大规模、多样化且带完美标注的合成数据集。 -
链接:https://unity.com/products/computer-vision
C. 数据清洗与治理
-
OpenRefine: 一款功能强大的开源工具,用于处理和清洗凌乱的结构化数据。它提供了一个类似电子表格的可视化界面,可以轻松地进行数据探索、聚类、转换和对齐。 -
链接:https://openrefine.org/ -
Trifacta (by Alteryx): 一款企业级的智能数据准备平台,其核心技术也被Google Cloud Dataprep采用。它通过可视化的交互方式和智能建议,帮助用户快速地对大规模数据进行清洗、转换和规范化。 -
链接:https://www.alteryx.com/products/trifacta -
ydata-profiling (原Pandas Profiling): 一个能从Pandas DataFrame中一键生成详细探索性数据分析(EDA)报告的Python库。报告内容包括变量类型、缺失值、分布直方图、相关性矩阵等。 -
链接:https://github.com/ydataai/ydata-profiling
D. 数据可视化
-
Matplotlib: Python最基础、使用最广泛的绘图库。 -
链接:https://matplotlib.org/ -
Seaborn: 基于Matplotlib的统计数据可视化库,界面更美观,语法更简洁。 -
链接:https://seaborn.pydata.org/ -
Plotly: 用于创建精美、交互式图表的Python库,也支持其他语言。 -
链接:https://plotly.com/python/ -
D3.js: 一个用于基于Web标准创建动态、交互式数据可视化的JavaScript库,功能极为强大。
* 链接:https://d3js.org/ -
Tableau Public: 强大的免费数据可视化软件,可轻松创建和分享交互式仪表盘。
-
链接:https://public.tableau.com/
-
链接:https://powerbi.microsoft.com/
-
链接:https://gephi.org/
-
链接:https://observablehq.com/
结尾
希望这份权威指南,能为您在未来的数据与AI工作中提供实实在在的帮助,成为您数据探索旅程中的得力助手。
我们强烈建议您将此页收藏,以便在需要寻找数据、工具或平台时能够随时查阅,即刻获取所需资源。掌握这些高质量的资源是您在AI时代保持竞争力的关键第一步。


