数据的分类
结构化数据
结构化数据遵从一定的数据规范和格式,一般存储在结构化的文件中,或者结构化数据库中。
例如这就是一条结构化的数据,按照Company、Date、Stock这样的数据格式进行存储,数据类型是确定的,数据的格式也是确定的。优点是数据格式统一,便于处理。
非结构化数据
非结构化数据没有任何规范和格式可言,尤其是图像、声音、视频等信息,一般通过解析帧数据,频谱计算、RGB化等方式提取有效信息。对于自然语言文本来说,我们有NLP处理技术,提取有效信息。
例如这就是一种非结构化的数据。
半结构化数据
半结构化数据介于两者之间,遵从一定的数据规范和格式要求,但不像结构化数据那么完全统一,也不像非结构化数据那样完全没有规律可言。通常是JOSN或者XML数据格式。
数据格式有一定的规范,不完全统一。
时序数据
时序数据可以是结构化的,也可以是非结构化的数据。之所以称之为时序的,也就是说跟时间有关系,随着时间的推移获取到的数据。
其中的时序,可以是次序,1,2,3。。。也可以是时间戳。
常见数据源
API:需要使用Request包
WebPage:需要使用Request、BeautifulSoup包
DataBase:使用SQL语句查询
File:open打开文件,使用相关的工具处理不同格式的数据
数据处理流水线
数据获取 :从各种渠道获取到待处理的数据,这是首要步骤。
数据清洗:检查、修正不正确的数据、移除无效数据,移除无用数据,为后续的处理做准备
数据转换:将非结构化、不规范的数据,转换成便于分析处理的结构化数据
数据分析:对数据进行分析,得出一些有用的结论或进行决策
数据存储:一般分析结果会存储到数据库或文件中,便于后续的使用