以下是一些从网络上搜集的常用的 开源数据集,可用于机器学习任务,涵盖多个领域,如计算机视觉、自然语言处理、推荐系统、医学等。
通用数据集
-
UCI Machine Learning Repository:包含多个任务的数据集(分类、回归、聚类)。
-
Kaggle Datasets:丰富的开源数据集,包括结构化数据、文本、图片和音频数据。
-
Google Dataset Search:搜索引擎,可搜索全球范围内的公开数据集。
图像和计算机视觉
-
MNIST 手写数字识别的经典数据集。
-
CIFAR-10/100 包括 10 类或 100 类的彩色图像,常用于图像分类任务。
-
COCO (Common Objects in Context) 用于图像分割、目标检测和关键点检测的复杂数据集。
-
ImageNet:包含超过 1000 类类别的大规模图像分类数据集,是深度学习研究的重要基准。
-
Open Images Dataset:一个大型数据集,适合图像分类、物体检测和分割任务。
自然语言处理 (NLP)
-
IMDB Movie Reviews:用于情感分析的电影评论数据集。
-
SQuAD (Stanford Question Answering Dataset):用于阅读理解和问答系统任务。
-
Common Crawl :超大规模的网页爬取数据集,用于语言模型训练。
-
GloVe:预训练的词向量,可用于词嵌入。
-
The Wikipedia Corpus:包含 Wikipedia 文章数据,用于文本生成和主题建模。
时间序列和金融
-
Yahoo Finance :提供股票、基金和市场的历史数据。
-
PhysioNet :医疗领域的时间序列数据集,如心电图数据。
-
UCI Electricity Load Dataset:电力负载预测的时间序列数据。
推荐系统
-
MovieLens:电影评分数据集,用于推荐系统研究。
-
Goodbooks-10k:包含图书评分和评论的数据。
-
Jester Dataset:用于个性化推荐的笑话数据集。
医学和生物信息学
-
MIMIC-III:ICU 电子病历数据,用于医学文本分析和预测任务。
-
Kaggle RSNA Medical Datasets:医学影像数据,包括 X 射线图像和标签。
-
Human Genome Project:包含基因组序列和相关数据。
声音与语音
-
LibriSpeech:英语演讲音频数据集,常用于语音识别。
-
VoxCeleb:用于说话人识别的音频数据集。
-
Free Spoken Digit Dataset:用于简单语音识别任务。
地理空间和遥感
-
Landsat Satellite Data:NASA 提供的地球遥感图像。
-
OpenStreetMap:提供地理信息数据,可用于路径规划、地图可视化等。
-
Sentinel-2:欧洲航天局的地球观测数据。