开源数据集

Hakuna 2024-01-24 2025-02-07 873 字 5 minutes Datasets

以下是一些从网络上搜集的常用的 开源数据集,可用于机器学习任务,涵盖多个领域,如计算机视觉、自然语言处理、推荐系统、医学等。

通用数据集


图像和计算机视觉

  • MNIST 手写数字识别的经典数据集。

  • CIFAR-10/100 包括 10 类或 100 类的彩色图像,常用于图像分类任务。

  • COCO (Common Objects in Context) 用于图像分割、目标检测和关键点检测的复杂数据集。

  • ImageNet:包含超过 1000 类类别的大规模图像分类数据集,是深度学习研究的重要基准。

  • Open Images Dataset:一个大型数据集,适合图像分类、物体检测和分割任务。


自然语言处理 (NLP)


时间序列和金融


推荐系统

  • MovieLens:电影评分数据集,用于推荐系统研究。

  • Goodbooks-10k:包含图书评分和评论的数据。

  • Jester Dataset:用于个性化推荐的笑话数据集。


医学和生物信息学


声音与语音


地理空间和遥感