Python数据分析——数据基础

news/2024/5/19 10:36:10/文章来源:https://blog.csdn.net/Day_and_Night_2017/article/details/127022879

数据的分类

 

结构化数据

结构化数据遵从一定的数据规范和格式,一般存储在结构化的文件中,或者结构化数据库中。

 例如这就是一条结构化的数据,按照Company、Date、Stock这样的数据格式进行存储,数据类型是确定的,数据的格式也是确定的。优点是数据格式统一,便于处理。

非结构化数据

非结构化数据没有任何规范和格式可言,尤其是图像、声音、视频等信息,一般通过解析帧数据,频谱计算、RGB化等方式提取有效信息。对于自然语言文本来说,我们有NLP处理技术,提取有效信息。

 例如这就是一种非结构化的数据。

半结构化数据

半结构化数据介于两者之间,遵从一定的数据规范和格式要求,但不像结构化数据那么完全统一,也不像非结构化数据那样完全没有规律可言。通常是JOSN或者XML数据格式。

数据格式有一定的规范,不完全统一。

时序数据

时序数据可以是结构化的,也可以是非结构化的数据。之所以称之为时序的,也就是说跟时间有关系,随着时间的推移获取到的数据。

 其中的时序,可以是次序,1,2,3。。。也可以是时间戳。

常见数据源

 API:需要使用Request包

WebPage:需要使用Request、BeautifulSoup包

DataBase:使用SQL语句查询

File:open打开文件,使用相关的工具处理不同格式的数据

数据处理流水线

数据获取 :从各种渠道获取到待处理的数据,这是首要步骤。

数据清洗:检查、修正不正确的数据、移除无效数据,移除无用数据,为后续的处理做准备

数据转换:将非结构化、不规范的数据,转换成便于分析处理的结构化数据

数据分析:对数据进行分析,得出一些有用的结论或进行决策

数据存储:一般分析结果会存储到数据库或文件中,便于后续的使用

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_13105.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

福特汽车是美股电动汽车行业值得投资的股票吗?

来源:猛兽财经 作者:猛兽财经 福特是一个值得投资的电动汽车股票吗? 猛兽财经认为福特(F )是美股电动汽车行业中一支不错的电动汽车股票,该公司在7 月下旬对其电动汽车计划的更新就证明了这一点。 2022 年…

【Js】JS的历史:认识JS的来龙去脉

文章目录1 JavaScript 历史2 JavaScript是什么?3 JavaScript的作用4 Html/Css/Js的关系4.1Html/CSS 标记语言---描述类语言4.2 Js脚本语言 -- 编程类语言4.3 执行的区别5 JS的组成5.1 ECMAScript5.2 Dom5.3 Bom6 JS书写位置6.1 行内式6.2 内嵌式(★&…

Unity Shader: multi_compile一个文件变幻多个shader

multi_compile 我们在写shader时,经常会出现同一个shader在面对不同的一些需求时,可能需要出现一些局部的变化,比如有些地方需要描边,有些地方不需要描边,由于在shader中不适合使用if,所以最好就是再写一份…

sklearn包使用Extra-Trees和GridSearchCV完成成人死亡率预测

成年人死亡率指的是每一千人中 15 岁至 60 岁死亡的概率(数学期望)。这里我们给出了世界卫生组织(WHO)下属的全球卫生观察站(GHO)数据存储库跟踪的所有国家健康状况以及许多其他相关因素。要求利用训练数据…

Fiddler使用

最近老是使用fiddler工具,用了忘所以特此来记录。先说说fiddler吧,这是一款功能强大的抓包工具,平时可以拿来抓抓小程序的包,直接通关羊了个羊,安装就不说了,都是无脑下一步,提供下地址&#xf…

阿里巴巴面试题- - -多线程并发篇(三十八)

前言:七月末八月初的时候,秋招正式打响,公司会放出大量的全职和实习岗位。为了帮助秋招的小伙伴们,学长这里整理了一系列的秋招面试题给大家,所以小伙伴们不用太过焦虑,相信你们一定能超常发挥,收到心仪公司的Offer~~ 内容涵盖:Java、MyBatis、ZooKeeper、Dubbo、Elast…

商汤AI象棋机器人到底谁在买?北大象棋大师已签收

金磊 衡宇 发自 凹非寺量子位 | 公众号 QbitAI郭晶晶家的象棋家教——没错,就是商汤AI象棋机器人“元萝卜”(SenseRobot),近日正式现货发售。从近2个月前开始预售的那刻起,各种讨论就萦绕在它周围:AI象棋机…

非零基础自学Java (老师:韩顺平) 第21章 网络编程 21.3 Socket 21.4 TCP网络通信编程

非零基础自学Java (老师:韩顺平) ✈【【零基础 快速学Java】韩顺平 零基础30天学会Java】 第21章 网络编程 文章目录非零基础自学Java (老师:韩顺平)第21章 网络编程21.3 Socket21.3.1 基本介绍21.4 TCP网络通信编程21.4.1 基本介绍21.4.2 应用案例1 -…

网络法规——知识产权及侵权鉴别学习笔记

一、知识产权概念 《中华人民共和国民法通则》规定,知识产权是指民事权利主体(公民、法人)基于创造性的智力成果。 1、知识产权分类 知识产权可分为工业产权和著作权。 工业产权 工业产权包括专利、实用新型、工业品外观设计、商标、服务…

随机生成植物生长及舞动算法

几年前写过一套随机树木的生成算法,其中使用了分形和放样建模。那时候还不知道有speedtree这款软件,写的比较粗糙,最近看了speedtree的演示把原算法改进了一下,算是一个speedtree的简化版本。 重构主要是把原先使用递归函…

使用Consul做注册中心简示

基地版同一个地点 不同的风景

JAMA子刊:孕妈妈每天喝半杯咖啡,可能让胎儿发育迟缓

爱心提示本文不仅适用于喜欢咖啡的孕妇,也适用于喜欢茶(包括奶茶)、巧克力、能量饮料、可乐和其他含有咖啡因的食物或饮料的孕妇。核心要点题目及新发现的相关背景;已知各权威机构对孕期咖啡因摄入量的建议;业主的个人…

Java数据结构之二叉树的基本操作

二叉树的基本操作1 二叉树的基本概念2 二叉树的遍历3 代码实现二叉树的遍历4 代码实现前序、中序、后序查找5 代码实现二叉树指定节点的删除1 二叉树的基本概念 (1)树有很多种,每个节点最多只能有两个子节点的树就是二叉树。 (2&…

[CISCN 2019 初赛]Love Math

<?php error_reporting(0); //听说你很喜欢数学&#xff0c;不知道你是否爱它胜过爱flag if(!isset($_GET[c])){show_source(__FILE__); }else{//例子 c20-1$content $_GET[c];if (strlen($content) > 80) {die("太长了不会算");}$blacklist [ , \t, \r, \n…

【C++11新特性】类的新功能,可变模板参数,包装器

文章目录一、类的新功能1.default2.delete二、可变参数模板1.参数包2.参数包的插入与解析(1)参数包的个数(2)添加参数解析(3)逗号表达式展开(4)emplace_back三、包装器1.function(封装)2.bind(绑定)一、类的新功能 1.default 在继承与多态中&#xff0c;我们介绍了final与ove…

Feign的简单介绍及配置参数

contextId用于区分实例,类似beanName

mysql存储过程的写法

示例表 area_code_2022 &#xff1a; DROP TABLE IF EXISTS area_code_2022; CREATE TABLE area_code_2022 ( code bigint(12) unsigned NOT NULL COMMENT 区划代码, name varchar(128) NOT NULL DEFAULT COMMENT 名称, level tinyint(1) NOT NULL COMMENT 级别1-5,省市…

python识别选中文本

目标&#xff1a;识别鼠标选中区域的文本 be like : 这是我在模拟键鼠操作时遇到的情况&#xff0c;我需要根据某个位置返回的值进行判断&#xff0c;但是只是依赖pyautogui是做不到的。 方法一 经过上网冲浪寻找答案&#xff0c;被告知了此方法&#xff0c;经测试可行 impor…

Django项目想要在 Python Console里面进行操作 报错找不到对应模块

Django项目想要在 Python Console里面进行操作 报错找不到对应模块 问题描述 ModuleNotFoundError: No module named django ’ 问题原因 在进行对 Python console操作 进行管理查询要导入对应的模块&#xff0c;但是和项目中的models.py文件中的 导包引入 冲突了 导致在Py…

可持久化Trie

可持久化指的是可以记录所有的历史版本&#xff0c;即记录下来每一步操作后的状态 下图模拟过程 题目&#xff1a; 最大异或和 给定一个非负整数序列 a&#xff0c;初始长度为 N。 有 M 个操作&#xff0c;有以下两种操作类型&#xff1a; A x&#xff1a;添加操作&#xff0…