资源 | 想进行数据科学项目却没有数据集?26个数据集网站汇总

news/2024/5/12 8:08:05/文章来源:https://blog.csdn.net/zw0Pi8G5C1x/article/details/80164278

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

导读:如果用一个句子总结学习数据科学的本质,那就是:


学习数据科学的最佳方法就是应用数据科学。


如果你是初学者,那么每完成一个项目你的能力就会大大提高。如果你是有经验的数据科学从业者,那么你应该懂这个道理。


但是,当我向人们给出这个建议时,他们通常会问:我可以在哪里获得练习的数据集呢? 他们没有意识到存在大量开放的数据集可使用。他们没有意识到通过这些项目,能够不断学习,从而促进自己的职业发展。


如果你认为这符合你的情况,那么你来对地方了!本文将列出一些数据集网站、资源的列表,你可以从使用当中的数据来进行自己的 pet project,甚至创造自己的产品。



00 如何使用这些资源?


如何使用这些数据源是没有限制的。唯一限制你的是创造力和实际应用。


使用它们的最简单方法是进行数据项目并发布到网上。这不仅可以提高数据和可视化技能,还可以改善你的结构化思维。


另一方面,如果你打算或正在处理基于数据的产品,这些数据集可以通过提供新的输入数据来增加产品的活力。


我已经将这些资源分类,从简单,通用和易于处理的数据集,到大型、行业相关的数据集。接着,介绍用于特定目的的数据集:文本挖掘,图像分类,推荐引擎等。


(友情提示:以下网站均需翻墙)



01 简单、通用的数据集


1. data.gov  

( https://www.data.gov/ )


美国政府公开数据。该网站在发布时包含超过 19 万个数据点。这些数据包括气候,教育,能源,金融等领域的数据。


640?wx_fmt=png


2. data.gov.in 

( https://data.gov.in/ )


印度政府公开数据。可以查找各行业,气候,医疗保健等数据。还可以在这里得到一些可视化的灵感。根据所在国家,你也可以从其他几个网站上查看类似的网站。


640?wx_fmt=png


3. World Bank

( http://data.worldbank.org/ )  


世界银行的开放数据。该平台提供 Open Data Catalog,世界发展指数,教育指数等几个工具。

 

4. RBI  

( https://rbi.org.in/Scripts/Statistics.aspx )


印度储备银行提供的数据。包括国际收支,银行业务和一些产品使用的货币市场运作指标。

 

5. Five Thirty Eight Datasets 

( https://github.com/fivethirtyeight/data )


Five Thirty Eight,亦称作 538,专注与民意调查分析,政治,经济与体育的博客。该数据集为 Five Thirty Eight Datasets 使用的数据集。每个数据集包括数据,解释数据的字典和Five Thirty Eight 文章的链接。如果你想学习如何创建数据故事,不能错过。



02 大型数据集


6. Amazon Web Services(AWS)datasets

( https://aws.amazon.com/cn/datasets/ )


亚马逊提供了一些大数据集,可以在他们的平台或本地计算机上使用。还可以通过 EMR,使用 EC2 和 Hadoop 在云端分析数据。亚马逊的热门数据集包括完整的 Enron 电子邮件数据集,Google Books n-gram,NASA NEX 数据集,百万歌曲数据集等。


640?wx_fmt=jpeg


7. Google datasets

( https://cloud.google.com/bigquery/public-data/ )


Google 提供了一些数据集作为其 Big Query 工具的一部分。包括 GitHub 公共资料库的数据,Hacker News 的所有故事和评论。


8. Youtube labeled Video Dataset

( https://research.google.com/youtube8m/ )


几个月前,谷歌研究小组发布了 YouTube 标签数据集,该数据集由 800 万个 YouTube 视频 ID 和 4800 个视觉实体的相关标签组成。这来自数十亿帧的预先计算和最先进的视觉功能。


640?wx_fmt=png

 


03 预测建模与机器学习数据集


9. UCI Machine Learning Repository

( https://archive.ics.uci.edu/ml/datasets.html ) 


UCI 机器学习存储库显然是最着名的数据存储库。如果你正在寻找与机器学习库相关的数据集,那么这是不可错过的资源。当中包括各种各样的数据集,从泰坦尼克号的幸存数据,到最近的空气质量、GPS 轨迹等待。存储库包含超过 350 个数据集,其中包含域名,问题目的(分类/回归)等标签。你可以使用这些过滤器来确定需要的数据。


640?wx_fmt=png


10. Kaggle 

( https://www.kaggle.com/datasets ) 


Kaggle 推出了一个平台,人们上传数据集,其他社区成员可以投票并在其上运行脚本。共有 350 多个数据集 ,特征数据集超过 200 个。


640?wx_fmt=png


11. Analytics Vidhya

(https://datahack.analyticsvidhya.com/contest/all/ )


你可以参与和下载我们的练习问题以及黑客马拉松问题的数据集。数据集基于现实生活中的行业问题,并且相对较小,因为它们是针对 2-7 天的黑客马拉松活动。


640?wx_fmt=png


12. Quandl 

( https://www.quandl.com/ )


Quandl 通过起网站、API 或一些工具的直接集成提供了不同来源的财务、经济和替代数据。他们的数据集分为开放和付费。所有开放数据集为免费,但高级数据集需要付费。通过搜索仍然可以在平台上找到优质数据集。例如,来自印度的证券交易所数据是免费的。


640?wx_fmt=png


13. Past KDD Cups

( http://www.kdd.org/kdd-cup )


KDD Cup 是 ACM Special Interest Group 组织的年度数据挖掘和知识发现竞赛。


14. Driven Data

( https://www.drivendata.org/ )


Driven Data 发现运用数据科学带来积极社会影响的现实问题。然后,他们为数据科学家组织在线模拟竞赛,从而开发出最好的模型来解决这些问题。


640?wx_fmt=png



04 图像分类数据集


15. The MNIST Database 

( http://yann.lecun.com/exdb/mnist/ )


最流行的使用手写数字的图像识别的数据集。包括 6 万个火车示例和一个 1 万个示例的测试集。这通常是进行图像识别的第一个数据集。

 

16. Chars74K 

(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )


如果你已经掌握手写数字,可以进一步使用该数据集。当中包括自然图像中的字符识别,包含 74,000 个图像。 


17. Frontal Face Images 

(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )


如果你已经完成了前两个项目,并且能够识别数字和字符,那么在图像识别的下一个挑战就是正面脸部图像。这些图像由 CMU & MIT 收集,并排列在四个文件夹中。


18. ImageNet 

( http://image-net.org/ )


是时候构建一些通用的东西了。根据 WordNet 层次的图像数据库(目前仅为名词)。层次结构的每个节点都被描述为数百个图像。目前,这个集合平均每个节点有超过 500 个图像,并且在增加中。



05 文本分类数据集


19. Spam – Non Spam 

(http://www.esp.uem.es/jmgomez/smsspamcorpus/)


区分短信是否为垃圾邮件是一个有趣的问题。你需要构建一个分类器将短信进行分类。

 

20. Twitter Sentiment Analysis

(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)


该数据集包含 1578627 个分类推文,每行被标记为1的积极情绪,0位负面情绪。数据依次基于 Kaggle 比赛和 Nick Sanders 的分析。

 

21. Movie Review Data

(http://www.cs.cornell.edu/People/pabo/movie-review-data/)


本网站提供电影评论文件的集合,标注其总体情绪极性(正面或负面)和主观评分(例如“两星半”)等。



06 推荐引擎的数据集


22. MovieLens  

( https://grouplens.org/ )


MovieLens 是一个帮助人们查找电影的网站。它有成千上万的注册用户。他们进行自动内容推荐,推荐界面,基于标签的推荐页面等在线实验。这些数据集可供下载,可用于创建自己的推荐系统。

 

23. Jester  

(http://www.ieor.berkeley.edu/~goldberg/jester-data/)


在线笑话推荐系统。



07 来自各种来源的数据集网站


24. KDNuggets 

(http://www.kdnuggets.com/datasets/index.html)


KDNuggets 的数据集页面一直是人们搜索数据集的参考。列表全面,但是某些来源不再提供数据集。因此,需要谨慎选择数据集和来源。

 

25. Awesome Public Datasets 

(https://github.com/caesar0301/awesome-public-datasets)


具有按域分类的数据集列表的 GitHub 存储库。数据集被整齐地划分在不同的领域,然而没有关于存储库本身的数据集的描述

 

26. Reddit Datasets Subreddit

(https://www.reddit.com/r/datasets/)


由于这是一个社区驱动的论坛,可能与之前的两个数据源相比会一些混乱。但是,你可以根据热度和投票来对数据集进行排序,以查看最流行的数据集。另外,它还有一些有趣的数据集和讨论。



结语


我希望这份资源清单对那些想做项目的人有所帮助。这绝对是一个金矿。


原作者:Kunal Jain

编译:Mika

来源:CDA数据分析师(ID:cdacdacda)

原文:

https://www.analyticsvidhya.com/blog/2016/11/25-websites-to-find-datasets-for-data-science-projects/


推荐阅读


日本老爷爷坚持17年用Excel作画,我可能用了假的Excel···

看完此文再不懂区块链算我输:手把手教你用Python从零开始创建区块链

为什么要学数学?因为这是一场战略性的投资

180页PPT,讲解人工智能技术与产业发展



Q: 你平时都通过哪些途径获取数据?

欢迎留言与大家分享

觉得不错,请把这篇文章分享给你的朋友

转载 / 投稿请联系:baiyu@hzbook.com

更多精彩文章,请在公众号后台点击“历史文章”查看

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_709053.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

这11个免费学习的网站,个个堪称神器,不收后悔!

导读:神奇的网站有很多,今天推荐11个和学习有关的,而且都是免费的,希望对大家有所帮助。01 Ruby regular expression editor正则表达式编辑器rubular.com正则表达式太复杂了总也写不对?Rubular是一个Ruby-based的正则 表达式在线…

开源小程序CMS网站, JeeWx-App-CMS 1.0 首版本发布

JeeWx-App-CMS 是jeewx开发的小程序网站开源项目,基于小程序wepy语言,具备cms网站的基本功能,能够打造简单易用的小程序公司官网。项目结构简单,逻辑清晰,代码规范,非常适合作为小程序开发的入门项目。 当前…

JEECG-P3首个开源插件诞生!CMS网站插件 Jeecg-p3-biz-cms1.0版本发布!

Jeecg-P3-Biz-Cms ( JEECG 首个微服务插件,支持小程序的CMS系统)是基于JEECG-P3 微服务框架开发的CMS建站系统,可轻量级集成进jeecg系统,定制各类网站模板,维护网站的广告、栏目、文章内容,让…

开源小程序CMS网站,JeeWx-App-CMS 持续更新ing~

JeeWx-App-CMS开源小程序CMS网站,持续更新ing~ JeeWx-App-CMS 是jeewx开发的小程序网站开源项目,基于小程序wepy语言,具备cms网站的基本功能,能够打造简单易用的小程序公司官网。项目结构简单,逻辑清晰,代…

入侵网站的黑客被我抓到了!

转自:小白学黑客今天在知乎看到一个提问:在下面回答区,我看到网友分享的真实案例,大家可以看一下,顺便了解一下网络溯源是怎么一回事,也给大家一些启示。我朋友在创业,听说他公司被人搞了&#…

一群参与境内外赌博网站的开发的程序员被抓,网友:切勿面向监狱编程...

近期,广州警方侦破一宗为赌博团伙提供黑灰产业链支撑帮助信息网络犯罪活动专案,抓获嫌疑人91名。据悉,该案是广州市近年来打击跨境网络赌博生态犯罪中,涉及黑灰产环节最多、地域跨度最广、链条最完整的案件。今年1月,从…

phpcms网站搬家至服务器

phpcms网站搬家至服务器 想要自己的网站让人们看到那就要上传服务器空间后,这样才会通过搜索域名进行网页访问。 但是在上传的过程中肯定会有很多东西要修改,例如数据库怎么上传、路径怎么修改等。。。。。这些对于生手可能会慌乱,不用害怕&a…

故宫首开夜场门票秒空官网崩溃:7本书让网站挺住

导读:明天就是元宵节了,先祝大家节日快乐,阖家幸福! 相信你已经了解到了,今年元宵节你有一个新“过法”,那就是——夜游故宫!这是故宫94年来首开夜场,而且免费! 但是&…

网站扛住 100 亿次请求?我们来压测试一试

来源:http://mtw.so/63aU0y1. 前言2. 背景知识3. 确定目标4. 基础软件和硬件5. 技术分析和实现6. 代码实现及分析7. 实践8. 分析数据总结1. 前言 前几天,偶然看到了 《扛住100亿次请求——如何做一个“有把握”的春晚红包系统”》(url&#x…

SugarHosts糖果主机香港虚拟主机cPanel面板建站入门推荐

SugarHosts,又称糖果主机。从2009年开始就推出虚拟主机业务,在当下大部分虚拟主机商都被收购、关闭、丢弃的时候,SugarHosts商家一直在稳定发展。可以说目前如果需要选择海外虚拟主机商家,糖果主机SugarHosts是必选择商家之一&…

Apple商业网站封锁Firefox浏览器

Hollis的新书限时折扣中,一本深入讲解Java基础的干货笔记!出品 | OSC开源社区(ID:oschina2013)据外媒 Ghacks 报道,用户在 Mozilla Firefox 浏览器中打开 Apple 的商业网站 business.apple.com 时&#xff…

建站用什么cms_我想做独立站,我应该用什么建站工具?

听说现在独立站很火,我想做独立站,但是上网一搜,五花八门,我该使用什么建站?那么我今天在这里给大家介绍一下使用过的建站工具,分别有什么区别?到目前为止,我使用过的建站工具有Mage…

气数已尽!运营 23 年,昔日“国内第一大电商网站”黄了。。。

Hollis的新书限时折扣中,一本深入讲解Java基础的干货笔记!7月23日消息,电商网站易趣网络平台发布了关闭公告,决定停止易趣网络平台运营,关闭易趣网站。2022年8月12日24:00,易趣网将关闭网站所有商品、商铺的…

原始数据哪里找?这些网站要用好!200个国内外数据网站大全

导读:资料搜集是个相当繁琐与累的工作,也是数据分析入门的基本,良好的信息资料搜集能力有利于我们快速了解基本情况,为后续的调研及一手资料的获得打下较好的基础。作者:王术,发表于知乎来源:ht…

制作钓鱼网站(克隆网站)

克隆网站主要指模仿相关网页的页面格式,自己制作页面颜色、标识均与原网站视觉效果相同,且域名差别不大,被用于谋取利益的非法网站。 利用social-enginner-toolkit(set)可制作多种钓鱼网站,下面是其中一种:获取用户凭证信息的网站。 准备:kali linux(IP192.168.xx…

婚恋交友网站比相亲更靠谱!幸福婚姻算法了解一下

导读:算法真的能帮助你找到灵魂伴侣吗?当你访问OKCupid时,会看到一条带着些许骄傲情绪的标题——“我们用数学为你找到约会对象”。作者:马库斯杜索托伊(Marcus du Sautoy)来源:大数据DT&#x…

QT TextEdit设置背景、明文加密、弹出网站、弹出自定义对话框、gif动态图片、程序启动动画、打包程序、关闭事件

TextEdit设置背景 前提必须已添加了资源图片 铭文加密 ui->passLineEdit->setEchoMode(QLineEdit::Password); 弹出网站 #include <QUrl> #include <QDesktopServices> //用于访问桌面服务的类QDesktopService::openUrl(QUrl("http://www.zhaoyun.co…

使用基本MVC2模式创建新闻网站

一、项目目录 二、运行结果 登陆 显示新闻 编辑 查看 删除id为3的新闻 添加 三、链接 链接&#xff1a;https://pan.baidu.com/s/1DpLMoYOfaXmRcvDGWs5L9Q 提取码&#xff1a;g8ce 转载于:https://www.cnblogs.com/lzc396732672/p/10886088.html

chrome浏览器开发者工具F12中某网站的sources下的源码如何批量保存?

目录 chrome浏览器 开发者工具F12中某网站的sources下的源码如何批量保存1. 常用保存Sources源码的两种方法1.1单个文件1.2 单个页面2. 问题3.解决方案chrome浏览器 开发者工具F12中某网站的sources下的源码如何批量保存 1. 常用保存Sources源码的两种方法 1.1单个文件 可以直接…

10款 非常酷炫的网站首页焦点图 兼容ie浏览器

1、jquery skitter幻灯片插件图片类似百叶窗切换效果 查看演示>> 2、jquery ui幻灯片插件带进度条自动轮播滤镜百叶窗图片切换 查看演示>> 3、jQuery全屏焦点图片带图标导航自动切换 查看演示>> 4、jQuery全屏焦点图片带图标导航按钮控制图片滑动切换 查看演…