大数据:70多个网站让你免费获取大数据存储库

news/2024/5/12 5:18:37/文章来源:https://blog.csdn.net/weixin_34306593/article/details/91874595

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

你是否需要大量的数据来检验你的APP性能?最简单的方法是从网上免费数据存储库下载数据样本。但这种方法最大的缺点是数据很少有独特的内容并且不一定能达到预期的结果。以下是70多家可以获得免费大数据存储库的网站。

  Wikipedia:Database :向感兴趣的用户提供所有可用的内容的免费副本。可以得到多种语言的数据。内容连同图片可以下载。

  Common crawl 建立并维护一个所有人都可以访问的开放的网络。这个数据保存在亚马逊s3bucket中,请求者可能花费一些钱来访问它。

  Common crawl :建立并维护一个开放的网络,向所有人开放。

  EDRM File Formats Data Set:由381个文件夹200种文件格式组成。

  Apache Mahout  TLP项目创建一个可扩展的机器学习算法。Mahout有许多免费的和付费的语料库语料。

  EDRM Enron Email Data Set v2由安然公司邮件信息和附件组成,存在两组可下载的压缩文件中:XML和PST。

  ClueWeb09用来支持信息检索和相关人类语言技术研究的资料库。它包含了从2009年1月到2月间收集的大约10亿个网页,包含10种语言。资料库被若干TREC会议的追踪检测使用。

  DMOZ –最大的、最全面的人工编辑的开放式网站目录。它收集了不同类型的网站链接。Dmoz是互联网搜索引擎的一个主要来源。

  theinfo.org –这是一个大数据集网站,在这里学者、设计师、艺术家等可以交流技巧和窍门,一起开发和共享工具,并开始整合他们独有的项目。Project Gutenberg 提供超过36000免费电子书的下载,可以下载到个人电脑、Kindle, Android, iOS or 或其他便携式设备。

  Million song data set:与tracks 和艺术家有关的数据

  AWS (Amazon Web Services) Public Data Sets:提供了可以无缝融入AWS(亚马逊网络服务)云应用的公共数据集的集中存储库。

  BigML big list of public data sources.

  Bioassay data:研究文章“生物测定数据的虚拟筛选”,由Amanda Schierz编写,有21个生物测定数据集(活性/非生理活性成分),可以下载。

  Bitly 1.usa.gov data:匿名点击政府链接

  Canada Open Data:有许多政府和地理空间的数据集的试点项目

  Canada Open Data:许多政府和地理空间数据集的试点项目。

  Causality Workbench:数据存储库

  Corral Big Data repository:在德克萨斯高级计算中心,提供以数据为中心的技术。

  Data Source Handbook:公开数据指南

  Datacatalogs.org:来自美国、欧盟、加拿大、CKAN以及其他的公开政府数据

  Data.gov.uk:英国的公共可用数据(London datastore也是)Data.gov/Education:对于教育数据资源的主要指南,包括高价值的数据集、数据可视化、课堂资源、创建自公开数据的应用程序以及其他。

  DataMarket:可视化的世界经济、社会、自然和工业,拥有来自联合国,世界银行,欧盟统计局和其他重要数据提供者的一亿时间序列。

  Datamob:可以很好利用的公开数据

  DataSF.org:可向City & County of San Francisco, CA.购买的数据集信息交流中心

  DataFerrett:一个用来访问和使用The Data Web的数据挖掘工具,许多网上美国政务数据集的集合。

  EconData:大量经济学的时间序列,由许多美国政府机构编制。

  Enron Email Dataset:来自大约150个用户的数据,这些用户大多数是安然公司高级管理人员

  Europeana Data:包含2000万文字,图片,视频开放的元数据,以及由欧洲数位图书馆收集的声音,对于欧洲文化遗产内容值得信赖的、全面的资源。

  Europeana Data:

  FEDSTATS:一个美国统计资料的综合资源以及更多

  FIMI repository for frequent itemset mining:工具和数据集

  Financial Data Finder at OSU:大型财务数据集目录

  GDELT:关于事件、位置和音调的全球数据,被英国卫报形容为“生命、宇宙和一切的大数据历史”GEO (GEO Gene Expression Omnibus):一个支持MIAME兼容数据提交的基因表达/分子丰度信息库,一个精心策划的网上资源,用于基因表达数据的浏览,查询和检索。

  GeoDa Center:地理和空间数据

  Google ngrams datasets:来自数Google扫描的百万书籍文本

  Grain Market Research:财务数据,包括股票、期货等

  Hilary Mason research-quality Big Data sets收集许多文本和图片数据集

  HitCompanies Datasets:HitCompanies随机取样的1万个英国公司全面的数据,采用人工智能/机器学习进行自动更新。

  ICWSM-2009 dataset:包含2008年8月1日到10月1日之间的4400万个博文

  Infochimps:一个数据开放的目录和集合,允许分享、出售和下载关于任何内容的数据。

  Investor Links:包含财物数据

  KDD Cup center:数据、工作表和结果

  Kevin Chai list of datasets:文本、SNA和其他领域

  KONECT:科布伦茨网络收集,拥有大量各种类型的网络数据集,以便在网络挖掘领域进行研究。

  Linking Open Data 工程,免费向所有人提供数据MIT Cancer Genomics gene expression datasets and publications:来自麻省理工Whitehead Center用于基因组研究

  ML Data:欧盟Pascal2网络数据储存库

  NASDAQ Data Store:提供市场数据

  National Government Statistical Web Sites:来自大约70个网站的数据、报告、统计年鉴、新闻和其他,包括非洲、欧洲、亚洲和拉丁美洲的国家。

  National Space Science Data Center (NSSDC):美国国家航空航天局的数据集,包含行星探索、空间和太阳物理学、生命科学、天体物理学以及其他方面。

  Open Data Census:评估世界各地的开放数据的状态。

  OpenData from Socrata:允许访问超过10000个数据集,包括商业、教育、政府和娱乐

  Open Source Sports:大量运动数据库,包括棒球、足球、篮球和曲棍球

  Peter Skomoroch dataset Bookmarks PubGene(TM) Gene Database and Tools:基因组有关的出版物数据库

  Quandl, a collaboratively curated portal to millions of financial and economic time-series datasets.

  qunb:一个用来发现和可视化的数据资料的平台

  Robert Schiller data:住房建筑、股票市场和更多的来自于他的书 Irrational Exuberance的数据

  SMD: Stanford Microarray Database,存储来自微阵列实验的原始的和标准的数据Jerry Smith dataset collection:财经、政府、机器学习、科学和其他数据

  SourceForge.net Research Data:包含大约10万个项目和超过100万注册用户的活动的历史和现状的统计数据的项目管理网站。

  StatLib,卡内基梅隆大学数据档案

  STATOO Datasets part 1和 STATOO Datasets part 2

  Time Series Data Library

  Visual Analytics Benchmark Repository.

  UCI KDD Database Repository :适用于机器学习和知识发现研究的大数据集

  UCI Machine Learning Repository.

  UCR Time Series Data Archive:提供数据集、论文、链接和代码

  United States Census Bureau.

  Wikiposit:一个(虚拟的)融合了来自许多不同网站的数据(大多数是金融的),允许用户合并来自不同来源的数据

  Wolfram Alpha disease and patient level dat.

  Yahoo Sandbox datasets:语言、图表、评级、广告与营销、竞赛

  Yelp Academic Dataset:30家大学的250个最接近商业的所有数据和评论,为学生和学者来探讨和研究


转载于:https://my.oschina.net/zwmobi/blog/306560

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_763435.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

10个很棒的学习Android 开发的网站

1. Android Developers 作为一个Android开发者,官网的资料当然不可错过,从设计,培训,指南,文档,都不应该错过,在以后的学习过程中慢慢理解体会。 2. Android Guides - CodePath CodePath是国外一…

严重推荐一个网站!!!

众里寻他千百度,蓦然回首那“人”却在灯火阑珊处~~~有一个网站号称“领先的 Web 技术教程 - 全部免费” 真的8错~~~严重推荐~~~ 网站地址:http://www.w3school.com.cn/index.html 首页截图: 转载于:https://www.cnblogs.com/dushouke/archiv…

网站性能优化

转载于:https://www.cnblogs.com/dashan9zj/archive/2009/03/23/1419510.html

分离到底!用XML+XSLT+CSS+JQuery+WebService组建Asp.Net网站

前言 早在Web标准化风潮到来之前,我就考虑过XMLXSLT建站了,我以为这是一种非常优雅、高效、低耦的方案,必将大行其道。 然而时至今日,使用这种方案建站的人依然寥寥无几,大家还都在抱着Web标准化不撒手,其实…

Gitblog官方网站发布上线

2019独角兽企业重金招聘Python工程师标准>>> Gitblog官方网站发布上线 一. 简介 Gitblog是一个简单易用的Markdown博客系统,它不需要数据库,没有管理后台功能,更新博客只需要添加你写好的Markdown文件即可。它摆脱了在线编辑器排版…

HTML5移动Web开发(一)——HTML5和移动网站基本概念以及一些模拟器

当前,手机设备发展迅猛、屏幕尺寸各不相同、存储和性能仍有局限性,如何结合HTML5的功能,在多平台上创建高性能、响应式的移动网站,是Web开发者所要面对的首要挑战。HTML5以及移动网站都是很有前景的技术,本身也仍在不断…

Mozilla新特性只支持https网站

Mozilla的官方博客2015.4.30正式宣布了淘汰HTTP的方案。 其中包括:设定一个日期,所有的新特性将只提供给HTTPS网站;HTTP网站将逐步被禁止访问浏览器功能,尤其是那些与用户安全和隐私相关的功能。Mozilla此举是向Web开发者社区发出…

为大多数懒人,大多数非网站项目扩展Asp.net1.1里面的DataGrid控件

或许本人才疏学浅,在做项目的时候都是用到DataGrid的内置分页(没办法,公司要提高工作效率呀,至于性能,不是我们的事情了,那是老板的事情,老板只要结果。)如果你想要存储过程分页,请参考Sqlserver存储过程和C#分页类简化…

分享一些与算法相关的网站

我在网上到处找了一些与算法相关的网站,也包括一些acmer的OJ。 大家有什么好的网站也可以推荐推荐。 Virtual Judge (好吧,网站打开了喵,但现在好像域名(http://acm.hust.edu.cn)用不了喵) 与算法相关的当然会想到ACM了…

如何隐藏MOSS2010的网站操作菜单

1、 用SPD2010打开要修改的站点&#xff0c;找到【母版页】-【V4.Master】&#xff0c;如下图&#xff1a; 2、 【签出】-【在高级模式下编辑文件】&#xff0c;如下图&#xff1a; 3、 找到【网站操作】的控件--【SharePoint:SiteActions】 在<span class"ms-siteacti…

VS2005在开发网站时的一个编译BUG

这两天我在用C#做一个WEB网站&#xff0c;用的是VS2005&#xff0c;碰到一个编译问题&#xff0c;害我查了很长时间&#xff0c;终于找到原因了-_- 放上来&#xff0c;如果有碰到相同问题的兄弟正好看看。现象&#xff1a;编译时&#xff0c;当页面对应的cs文件有错误时&#…

一个网站的head和body是如何进行优化的

我们知道任何一个网站都要被解析成html后&#xff0c;浏览器才能识别&#xff0c;换句话说&#xff0c;用任何一门技术做的网站&#xff0c;都是被浏览器解析成为html。因此我们必须懂得&#xff0c;一个html页面由三部分组成&#xff0c;那就是html的开始标签和结束标签&#…

站长dedecms网站被挂马清理过程与分析解决

最近收到一位客户的反馈&#xff0c;告知网站又被挂马&#xff0c;&#xff08;织梦程序真让人头疼总是被挂马,dedecms经常是被挂马真晕了是的~&#xff09;相信站长们都有遇到过网站被挂马或代码恶意植入的问题。下面把处理流程写下来&#xff0c;帮助大家了解并简单处理的过程…

网站设计中常犯的错误

平面|包装|广告|环艺|工业|网页|服装|数码|摄影|绘画|人才|论坛|沙龙|字体首页网页资讯网页作品酷站欣赏设计文章网页沙龙我的空间网页论坛网页人才在线留言联系我们中国设计网改版上线!欢迎来到中国设计网!中国设计网改版上线!欢迎来到中国设计网! 分类 网页设计 网页编程 网站…

海淘也疯狂 跨境电商网站8月监测报告

跨境电商新税制改革的全面实施&#xff0c;宣告海淘免税时代的终结&#xff0c;然而税金增长却无法阻挡消费者的购物热情。韩国统计厅8月3日发布数据&#xff0c;2016年第二季度韩国跨境电商出口额为4974亿韩元(约合人民币29.53亿元)&#xff0c;同比增加83%&#xff0c;对华跨…

秋式网站日志分析器[IISLogViewer] V3版本发布

离上一个版本&#xff0c;过了好久好久了。 V1.0时&#xff0c;叫&#xff1a;CYQ.IISLogViewer。V2.0时&#xff0c;给了个中文名&#xff0c;叫&#xff1a;点格网站日志分析器V2.0升级到3.0了&#xff0c;给改了个名字&#xff0c;叫&#xff1a;秋式网站日志分析器V3.0本次…

构建ASP.NET网站十大必备工具

【51CTO 11月30日外电头条】最近使用ASP.NET为公司构建了一个简单的公共网站&#xff08;该网站的地址&#xff1a;http://superexpert.com/&#xff09;。在这个过程中&#xff0c;我们使用了数量很多的免费工具&#xff0c;如果把构建ASP.NET网站的必备工具总结一下&#xff…

纸壳CMS可视化建站系统创建多语言网站

纸壳CMS是可视化建站系统&#xff0c;现已经从架构上支持多语言。但是多语言功能默认是没有开启的。您可以从设置中开启多语言&#xff0c;或者随时关闭它&#xff0c;您可以随时进行切换。 开启多语言 如果您没有在系统设置中看到多语言设置菜单&#xff0c;首先先确认一下您的…

译|精选9个高质免费图片素材网站

2019独角兽企业重金招聘Python工程师标准>>> 1. Gratis Photography Gratis Photography每周定期发布一些高品质的免费照片&#xff0c;虽然数量仍然很小&#xff0c;但是使用&#xff08;不管是个人使用还是商业利用&#xff09;没有限制。 2. New Old Stock New O…

基础篇|PHP如何解决网站大流量和高并发

2019独角兽企业重金招聘Python工程师标准>>> 基础篇 高并发架构基础概念和优化思路 高并发架构相关概念 并发&#xff0c;在操作系统中&#xff0c;是指一个时间段中有几个程序都处于已启动运行到运行完毕之间&#xff0c;且这几个程序都是在同一个处理机上运行&…