数据获取网站分享

news/2024/5/9 16:22:10/文章来源:https://blog.csdn.net/qq_39020934/article/details/80371381

内容来自悟空智能科技公众号,侵权删。

1公开的数据库

- 国家数据 -

http://data.stats.gov.cn/index.htm

数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据,并且在月度、季度、年度都有覆盖,较为全面和权威,对于社会科学的研究不要太有帮助。最关键的是,网站简洁美观,还有专门的可视化读物。

 

- CEIC -

http://www.ceicdata.com/zh-hans

最完整的一套超过128个国家的经济数据,能够精确查找GDP, CPI, 进口,出口,外资直接投资,零售,销售,以及国际利率等深度数据。其中的“中国经济数据库”收编了300,000多条时间序列数据,数据内容涵盖宏观经济数据、行业经济数据和地区经济数据。

 

- wind(万得)-

http://www.wind.com.cn/

万得被誉为中国的Bloomberg,在金融业有着全面的数据覆盖,金融数据的类目更新非常快,据说很受国内的商业分析者和投资人的亲睐。

 

- 搜数网 -

http://www.soshoo.com/

 

已加载到搜数网站的统计资料达到7,874本,涵盖1,761,009张统计表格和364,580,479个统计数据,汇集了中国资讯行自92年以来收集的所有统计和调查数据,并提供多样化的搜索功能。

 

- 中国统计信息网 -

http://www.tjcn.org/

 

国家统计局的官方网站,汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息,建立了以统计公报为主,统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排行等。

- 亚马逊aws -

http://aws.amazon.com/cn/datasets/?nc1=h_ls

 

来自亚马逊的跨科学云数据平台,包含化学、生物、经济等多个领域的数据集。

 

- figshare -

https://figshare.com/

研究成果共享平台,在这里你会发现来自世界的大牛们的研究成果分享,同时get其中的研究数据,内容很有启发性,网站颇具设计感。

 

- github -

https://github.com/caesar0301/awesome-public-datasets

如果觉得前面的数据源还不够,github上的大神已经为大家整理好了一个非常全面的数据获取渠道,包含各个细分领域的数据库资源,自然科学和社会科学的覆盖都很全面,简直是做研究和数据分析的利器。

随便上几个图,满满的都是资源啊

 

 

 

 

2数据交易平台

 

- 钱塘大数据交易中心 -

http://www.qtjiaoyi.com/

钱塘大数据交易中心是为工业制造行业提供数据交易,预处理交易,算法交易及大数据分析,平台开发,技术服务,数据定价,数据金融,交易监督等综合服务的机构,中心并基于数据金融资产化方向提供撮合,买卖,典当,融资,抵押,贷款等多种合作模式,为工业制造行业各经济主体盘活数据存量资源提供全面的解决方案。

- 优易数据 -

http://www.youedata.com/

由国家信息中心发起,拥有国家级信息资源的数据平台,国内领先的数据交易平台。平台有B2B、B2C两种交易模式,包含政务、社会、社交、教育、消费、交通、能源、金融、健康等多个领域的数据资源。

 

- 数据堂 -

http://www.datatang.com/

 

专注于互联网综合数据交易,提供数据交易、处理和数据API服务,包含语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别等方面的数据。

 

3网络指数

- 百度指数 -

http://index.baidu.com/

 

大家都很熟悉的指数查询平台,可以根据指数的变化查看某个主题在各个时间段受关注的情况,进行趋势分析、舆情预测有很好的指导作用。除了关注趋势之外,还有需求分析、人群画像等精准分析的工具,对于市场调研来说具有很好的参考意义。同样的另外两个搜索引擎搜狗、360也有类似的产品,都可以作为参考。

- 阿里指数 -

https://alizs.taobao.com/

国内权威的商品交易分析工具,可以按地域、按行业查看商品搜索和交易数据,基于淘宝、天猫和1688平台的交易数据基本能够看出国内商品交易的概况,对于趋势分析、行业观察意义不小。

 

- 艾瑞咨询 -

http://www.iresearch.com.cn/

 

艾瑞作为老牌的互联网研究机构,在数据的沉淀和数据分析上都有得天独厚的优势,在互联网的趋势和行业发展数据分析上面比较权威,艾瑞的互联网分析报告可以说是互联网研究的必读刊物。

- 友盟指数 -

http://www.umeng.com/

 

友盟在移动互联网应用数据统计和分析具有较为全面的统计和分析,对于研究移动端产品、做市场调研、用户行为分析很有帮助。除了友盟指数,友盟的互联网报告同样是了解互联网趋势的优秀读物。

 

- 爱奇艺指数 -

http://index.iqiyi.com/

 

爱奇艺指数是专门针对视频的播放行为、趋势的分析平台,对于互联网视频的播放有着全面的统计和分析,涉及到播放趋势、播放设备、用户画像、地域分布、等多个方面。由于爱奇艺庞大的用户基数,该指数基本可以说明实际情况。

 

- 猫眼专业版-

http://piaofang.maoyan.com/

 

电影票房统计分析平台,猫眼专业版有实时的票房统计,影片的排盘情况、上座率和影院数据,对于当前电影的分析是必不可少的。

 

4网络采集器

 

网络采集器是通过软件的形式实现简单快捷地采集网络上分散的内容,具有很好的内容收集作用,而且不需要技术成本,被很多用户作为初级的采集工具。

- 火车采集器 -

http://www.locoy.com/

 

一款专业的互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据,最常用的就是采集某些网站的文字、图片、数据等在线资源。接口比较齐全,支持的扩展比较好用,懂代码的话,可以使用PHP或C#开发任意功能的扩展。

 

- 八爪鱼 -

http://www.bazhuayu.com/

 

简单实用的采集器,功能齐全,操作简单,不用写规则。特有的云采集,关机也可以在云服务器上运行采集任务。

 

- 集搜客 -

http://www.gooseeker.com/

 

一款简单易用的网页信息抓取软件,能够抓取网页文字、图表、超链接等多种网页元素,提供好用的网页抓取软件、数据挖掘攻略、行业资讯和前沿科技等。

 

5网络爬虫

 

作为极客们最喜欢的数据收集方式,爬虫高度的自由性、自主性都使其成为数据挖掘的必备技能,当然精通python等语言是必要前提。

利用爬虫可以做很多有意思的事情,当然也可以获取一些从其它渠道获取不到的数据资源,更重要的是帮你打开寻找和搜集数据的思路。

 

- 利用爬虫爬取网络图片 -

爬取的图像素材

你看到某个网站上的图片恰好是你需要的,但是量大单个下载太麻烦,那么利用爬虫你可以快速地进行抓取,并可以根据标签、特征、颜色等信息进行分类储存。从此不缺设计素材,不缺美女图片,连斗图都多了几分自信。

 

- 利用爬虫爬取高质量资源 -

爬取的音乐资源

我们总是想快速地去搜集高质量的网络资源,但是人工查找比对实在太麻烦,利用爬虫你就可以轻松解决。比如爬取知乎点赞最多的文章列表,爬取网易云音乐评论最多的音乐,爬取豆瓣网高评分的电影或图书……总之,你可以从此拒绝平庸。

 

- 利用爬虫获取舆情数据 -

爬取的某招聘网站职位信息

 

比如你可以批量爬取社交平台的数据资源,可以爬取网站的交易数据,爬取招聘网站的职位信息等,可以用于个性化的分析研究。

总之,爬虫是非常强大的,甚至有人说天下没有不能爬的网站,因而爬取数据也成为了很多极客的乐趣。开发出高效的爬虫工具可以帮助我们节省很多时间,可以完全按照自己的需求来订制,想想这个世界就太美好。

 

6小工具

- Web Plot Digitizer -

http://arohatgi.info/WebPlotDigitizer/app/

 

比如我们在查看期刊文献的时候看到一张成型的图表,但其本身数据是缺失的,你想获得这个图表的相关数据怎么办?有了这个小工具就非常easy了。直接上传我们需要获得数据的图表,如下:

 

然后我们就会获得如下的数据反馈,感觉运筹帷幄有木有,对于一些不需要十分精确的分析研究足够使用。

 

当然并不推荐用这个作为量化分析的依赖,对于定性的分析,做ppt级的数据统计分析就足够了。

- you-get -

https://you-get.org/

 

这是一个程序员基于python 3开发的项目,已经在github上面开源,支持64个网站,包括优酷、土豆、爱奇艺、b站、酷狗音乐、虾米……总之你能想到的网站都有! 还有一个黑科技的地方,即使是名单上没有的网站,当你输入链接,程序也会猜测你想要下载什么,然后帮你下载。

 

下载优酷视频

批量下载图片

当然you-get要在python3环境下进行安装,用pip安装好后,在终端输入“you get+你想下载资源的链接”就可以等着收藏资源了。

 

7数据导航

收集数据是一种能力,学习收集数据也是一种能力,数据的来源是没有穷尽的,转换一种思维,你就可以获得不一样的数据,下面推荐几个可以用到的大数据导航,从这里面你可能会发现一些你自己想要的东西。每个人喜欢的收集数据的渠道不尽相同,只有尽量多地去见识和实践才会发现更多的适合自己的数据获取方式。

- 199IT大数据导航 -

http://hao.199it.com/

 

- 数据分析网导航 -

http://www.afenxi.com/hao

 

- 大数据人导航 -

http://hao.bigdata.ren/

在互联网高度发达的今天,数据资源异常的丰富和庞大,如何高效地获取数据成为一种重要的能力,毕竟获取数据是一切用数据说话的前提。当然往往只需要熟练掌握一两种方法,便足够大多数人应付大多数场景和需求,所以选择合适的数据获取渠道还需要亲自探究。

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_846565.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

浅谈前端中的onmouseover 事件

修改别人的模板遇到一个问题,分类图的切换默认是五个,我想增加四个,一直没有增加成功。它使用的onmouseover 事件。 去查了一下: 定义和用法 onmouseover 事件会在鼠标指针移动到指定的对象上时发生。 语法 οnmοuseοver"…

Docker系列器十:docker-compose和网站的负载均衡

Docker应用中,为了达到高可用,可以做很多的web服务,保持服务的稳定性,在web的出口处是haproxy等负载应用。 命令: 在和yml文件的同文件下,执行任何的docker-pose的命令,否则是提示找不到文件的…

大型网站系统架构的演化

http://www.cnblogs.com/leefreeman/p/3993449.html 前言 一个成熟的大型网站(如淘宝、京东等)的系统架构并不是开始设计就具备完整的高性能、高可用、安全等特性,它总是随着用户量的增加,业务功能的扩展逐渐演变完善的&#xff0…

软件体系结构---优酷网站架构分析

1.web环境下架构特性 可扩展、可靠、简单核心、模块化 2.优酷网站分析 1)前端框架 模块分离、前端可扩展、分层UI分离 2)存储结构 在体系结构上,优酷网采用分布式的结构,服务器和存储设备分布在全国各地,用户就近访问,…

大型网站架构系列:分布式消息队列(一)

以下是消息队列以下的大纲,本文主要介绍消息队列概述,消息队列应用场景和消息中间件示例(电商,日志系统)。本次分享大纲消息队列概述消息队列应用场景消息中间件示例JMS消息服务(见第二篇:大型网…

JS基础17-网站效果

一、鼠标移入触发显示框和更改属性 要实现的效果 window.οnlοadfunction(){ //获取到div框里的li数组var oToplistdocument.getElementById(top-list);var oToplistlioToplist.getElementsByTagName(li);var oPulldocument.getElementById(pull-down);//鼠标移入时&#xff0…

Python_记一次网站数据定向爬取实现

记一次网站数据定向爬取实现 by:授客 QQ:1033553122 测试环境: Python版本:Python 3.4 Win7 请勿用于商业及非法用途,仅供学习研究用,否则后果自负 数据爬取场景 如下,打开网站查询页面,输入关…

大型网站架构演变和知识体系

之前也有一些介绍大型网站架构演变的文章,例如LiveJournal的、ebay的,都是非常值得参考的,不过感觉他们讲的更多的是每次演变的结果,而没有很详细的讲为什么需要做这样的演变,再加上近来感觉有不少同学都很难明白为什么…

v2013调试无法访问此网站 localhost 拒绝了我们的连接请求

问题描述: 别人给的服务器代码,在本地部署以后调试的,localhost:8080 可以访问,localhost:2524访问不了需要改什么配置吗 解决思路: 这种只能在服务器上访问,可能端口号2524…

如何优化您的网站以提高速度

大家好! 今天,我们有一个来宾帖子,介绍有关如何加快网站速度的一些提示! 他目前正在一家电子商务网站上工作,他的任务之一是使网站快速加载。 因此,请在下面阅读! 〜迈克 网站速度已成为诸如Go…

如何优化程序提高运行速度_如何优化您的网站以提高速度

如何优化程序提高运行速度大家好! 今天,我们有一个来宾帖子,介绍有关如何加快网站速度的一些提示! 他目前正在一家电子商务网站上工作,他的任务之一是使网站快速加载。 因此,喜欢在下面阅读! 〜…

网站托管平台_托管Kubernetes平台综述

网站托管平台在容器协调器的竞争中,Kubernetes不断前进。 但是,就像我在Docker主机上撰写我的文章时一样,人们经常被困在将基础架构投入生产的步骤上。 与我最初写这篇文章时不同,该行业取得了长足的发展,正如您将看到…

PHP的网站主要攻击方式有哪些?

1、命令注入(Command Injection) 2、eval注入(Eval Injection) 3、客户端脚本攻击(Script Insertion) 4、跨网站脚本攻击(Cross Site Scripting, XSS) 5、SQL注入攻击(SQL injection) 6、跨网站请求伪造攻击(Cross Site Request Forgeries, CSRF) 7、Session 会话劫持(Session …

Xshell命令行学习,宝塔创建网站

参考链接 :https://blog.csdn.net/u014074697/article/details/86241642 宝塔创建面板-在安全组新添加一个端口 浏览器输入Bt-panel网址,登入用户名和密码即可进入

curl网站开发指南

整理curl命令: curl www.sina.com curl -o [文件名] www.sina.com curl -L www.sina.com curl -i www.sina.com curl -I www.sina.com curl -v www.sina.com curl --trace output.txt www.sina.com curl --trace-ascii output.txt www.sina.com php-curl这个库也不…

电商购物网站(登陆注册购物车详情页等)(仿jd)

电商购物网站(仿jd) 源码链接: https://gitee.com/ZRXXUAN/shopping https://github.com/ZRXXUAN/shopping 介绍 仿照jd写的电商购物网站 可以实现基本功能,登录、注册与数据库交互,购物车,详情页&…

BS4+Openpyxl循环爬取114网站黄页信息存入excel + tinker界面输入(开源代码)

使用beautifulSoup框架爬取114黄页数据。 代码开源在gitee地址: https://gitee.com/aismarter/ScrapySpider_bs4_openpyxl_tinker github地址: https://github.com/Aismarter/ScrapySpider_BS4_openpyxl_tinker 分析网站 首先打开网页,分析爬取网页的…

简易购物网站JSP

下载源码 开发工具: 1.myeclipse2014 2.SQLServer2012 开发思路: 开发思路及过程请详看附件内开发文档 项目构造: 数据库说明: 需创建一个数据库(shopDB),三个表(users、goods、shopCart),空表即可,后…

宝塔部署java项目建站最全爬坑博客-为啥叫最全,因为我爬的坑最多

1.首先你要有阿里云域名,然后在阿里云上解析A类你的域名,这就不多说了 2.进入宝塔面板后,你要先安装环境,最好是编译安装,因为求稳,急速安装不稳定,但是像tomcat这类app程序没有编译安装哦 环境如果都安装好了,那么我们就开始配置项目了 首先,要看我们需要运行的项目是什么,…

Java-POI大数据分析 -实体店选址POI数据分析-5天,多网站爬虫数据融合处理

实体店选址大数据分析-保定地区-POI数据-powermap-爬虫获取真实数据讲一下项目的思路 预期通过获得poi数据进行分析,以为实体店选址进行决策 数据源 58同城店铺转让数据 安居客小区详细信息数据 安居客小区平均房价数据 上爬虫代码 package wubaSpider;import java.io.FileO…