- N +

莞,全网100个大型机器学习数据集汇总,这个网站非保藏不行 | 资源,健身

原标题:莞,全网100个大型机器学习数据集汇总,这个网站非保藏不行 | 资源,健身

导读:

想要获取大型数据集,还要挨个跑到各数据集的网站,两个字:麻烦。为了响应广大网友的呼声,网友u/UpdraftDev将全网最大的机器学习数据集整理汇集,并对这些数据集进行了分类和...

文章目录 [+]

铜灵 发妖孽王爷的洋娃娃王妃自 凹非寺

量子位 出品| 大众号 QbitAI

想自己构建机器学习模型,没想到莞,全网100个大型机器学习数据集汇总,这个网站非保藏不可 | 资源,健身首先就卡在了第一步。

网上各种数据集鱼龙混杂,质量也良莠不齐,简直让人挑花了眼。想要获取大型数据集,还要挨个跑到各数据集的网站,两个字:费事

怎么才干高效找到机器学习范畴规划最大质量最高的数据集?

为了呼应广阔网友的呼声,网友u/UpdraftDev将全网最大的机器学习数据集收拾聚集,并对这些数据集进行了分类和介绍。

想找心仪数据集,现在一望而知。网友纷纷表示:很满足!


全网100个大型机器学习数据集汇总,这个网站非保藏不可 | 资源


太便利了

这个网站上,共收集到了100多个业界最大型的数据集。

依据使命类别,这些数据会集又分为三大abp211类:计算机视觉(CV)、自然语言处理(NLP)和音频数据集。


全网100个大型机器学习数据集汇总,这个网站非保藏不可 | 资源


在网绚烂人生第二部佳恩站主页,一眼扫过去能够看到数据集称号、发布时刻、扼要介绍、开源协议杨吉被杀本相、相关论文等重要信息,查找起来十分便利。


全网100个大型机器学习数据集汇总,这个网站非保藏不可 | 资源


点进去就直接跳转到网站主页了,悄悄一点,免去了你挨个查找每个逆战雷鸣枪芯数据集地址的费事。

神仙数据集

清单中罗列的数据会集,不乏一些风趣的业界闻名数据集,黄分田在许多的机器学习使命中,这些数据集都是最有用、呈现场次最高的那一批。

都是哪些神仙数据集?

计封山村算机视觉范畴

先来看一下CV范畴,汇总中收纳了70个大型数据集,许多常常遇到的经典数据集都在里余火灵面。

看看你能认出几个:



其间,包含了英伟达上一年12月开源的田斌健康猫人脸数据集FFHQ(Flickr-Faces-HQ),内含7万张10241024分辨率的高清人脸大图。



它供给了高度多样化、高质量的人脸数据,而且涵盖了比现有高分辨率数据集(如CelebA-HQ)更多的改变,比方更多佩带眼镜、简马玉玺帽子的相片。

也有一些了解的我国狙击女神天使企业身影。

比方百度敞开的自动驾驶数据集ApolloSca进贡娘娘pe,包含感知、仿真场景、路网数据等数十万帧逐像素语义切割标示的高分辨率图画数据。

数据集采用了逐像素语义切割标示的方法,是环境黑道悲情3在线阅览杂乱、标示精准、数据量大的自动驾驶数据集。



腾讯开源的Tencent ML-Images项目,其多标签图画数据集ML-Images包含了1800万图画和1.1万多种常见物体类别,比谷歌开源的Open Images数据集还丰厚不少。

当然,像莞,全网100个大型机器学习数据集汇总,这个网站非保藏不可 | 资源,健身ImageNet、KITTI、COCO、Cityscapes等这样的老牌经典数据集也都在里边。

自然语言处理(NLP)范畴

NLP范畴现在有26个数据集:



斯坦福大学NLP组的SQuAD 2.0你得了解一下,和一代比较,2.0版在添加对立性问题的一起,也新增了一项“判别一个问题能否依据供给的阅览文本作答”的使命。

SQuAD 2.0中不只包含十万个问题-答案对,还有超越五万个由人类众包者对立性地规划的无法答复的问题。



CoQA数据集也是斯坦福开发的对话数据集,包含来自8k组对话的127k个带有答案的问题。这些对话触及 7 个不同范畴,每组对话的均匀长度为15轮莞,全网100个大型机器学习数据集汇总,这个网站非保藏不可 | 资源,健身,每一轮对话都由问题和答复组成。



此外,DeepMind的Q&A问答数据集、微软的MS MARCO机器阅览了解数据集莞,全网100个大型机器学习数据集汇总,这个网站非保藏不可 | 资源,健身、三名我国学生推出的HotpotQA新式问答数据集等,都能够在这份清单中一键直达。

音频数据集

还有四个大型音频数据集:



谷歌的大规划音频数据集AudioSet,包含莞,全网100个大型机器学习数据集汇总,这个网站非保藏不可 | 资源,健身63曹祖瑜2类的音频类别以及2084320 条人工符号的每段10秒的声响编排片段,掩盖大范围人类与动物、乐器与音乐门户、日常环境声响。



谷歌NSynth数据集,收录了从1000种乐器中收集的许多注释的音符,包含不同的音高和速率,比同类的公共数据集大了一个数量级。

草创公司Mozilla发布的Common Voice数据集,内含2万名英语殊死特务连志愿者500小时、40万份录音,语料库也在不断扩大中。



还有LibriSpeech ASR corpus语音数据集,包含1000小时的英莞,全网100个大型机器学习数据集汇总,这个网站非保藏不可 | 资源,健身文发音和对应文字,数据来自LibriVox项目的有声读物,是一个大型的语料数据库。

传送门

这份清单中还有许多有用风趣的数据集,记住自己也去探究一遍。

现在,数据集集合还在继续更新中,记住及时保藏。

数据集地址:

https://www.datasetlist.com/

作者系网易新闻网易号“各有情绪”签约作者

诚挚招聘韩颖玥

量子位正在招募修改爱打牌的老婆莞,全网100个大型机器学习数据集汇总,这个网站非保藏不可 | 资源,健身/记者,工作地点在北京中关村。等待有才华、有热心的同学参加咱们!相关细节,请在量子位大众号张天雄(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI 头条号签约作者

'ᴗ' 追寻AI技能和产品新动小菊的冬季态

有好的文章希望我们帮助分享和推广,猛戳这里我要投稿

返回列表
上一篇:
下一篇: