开源数据集

Hakuna 2024-01-24 2025-02-07 873 字 5 minutes Datasets

Table of Content

以下是一些从网络上搜集的常用的 开源数据集，可用于机器学习任务，涵盖多个领域，如计算机视觉、自然语言处理、推荐系统、医学等。

通用数据集

UCI Machine Learning Repository：包含多个任务的数据集（分类、回归、聚类）。
Kaggle Datasets：丰富的开源数据集，包括结构化数据、文本、图片和音频数据。
Google Dataset Search：搜索引擎，可搜索全球范围内的公开数据集。

图像和计算机视觉

MNIST 手写数字识别的经典数据集。
CIFAR-10/100 包括 10 类或 100 类的彩色图像，常用于图像分类任务。
COCO (Common Objects in Context) 用于图像分割、目标检测和关键点检测的复杂数据集。
ImageNet：包含超过 1000 类类别的大规模图像分类数据集，是深度学习研究的重要基准。
Open Images Dataset：一个大型数据集，适合图像分类、物体检测和分割任务。

自然语言处理 (NLP)

IMDB Movie Reviews：用于情感分析的电影评论数据集。
SQuAD (Stanford Question Answering Dataset)：用于阅读理解和问答系统任务。
Common Crawl ：超大规模的网页爬取数据集，用于语言模型训练。
GloVe：预训练的词向量，可用于词嵌入。
The Wikipedia Corpus：包含 Wikipedia 文章数据，用于文本生成和主题建模。

时间序列和金融

Yahoo Finance ：提供股票、基金和市场的历史数据。
PhysioNet ：医疗领域的时间序列数据集，如心电图数据。
UCI Electricity Load Dataset：电力负载预测的时间序列数据。

推荐系统

MovieLens：电影评分数据集，用于推荐系统研究。
Goodbooks-10k：包含图书评分和评论的数据。
Jester Dataset：用于个性化推荐的笑话数据集。

医学和生物信息学

MIMIC-III：ICU 电子病历数据，用于医学文本分析和预测任务。
Kaggle RSNA Medical Datasets：医学影像数据，包括 X 射线图像和标签。
Human Genome Project：包含基因组序列和相关数据。

声音与语音

LibriSpeech：英语演讲音频数据集，常用于语音识别。
VoxCeleb：用于说话人识别的音频数据集。
Free Spoken Digit Dataset：用于简单语音识别任务。

地理空间和遥感

Landsat Satellite Data：NASA 提供的地球遥感图像。
OpenStreetMap：提供地理信息数据，可用于路径规划、地图可视化等。
Sentinel-2：欧洲航天局的地球观测数据。