金融数据分析之路【TG思考篇】

news/2024/4/20 14:00:58/文章来源:https://blog.csdn.net/qq_42374697/article/details/130033077

晃眼间,从研究生毕业到从事金融数据分析已经有半年多时间,如果算上实习期,我也工作有两年了。

回想大学,我最开始是学习的化学专业,后来转到了应用统计学,然后一直学习统计近6年的时间,这期间我也在不断的输出总结我所学习的统计理论知识,从我的博客也可以看出,我写得内容基本都是统计相关的。

在毕业后,我从事了这个专业相对最对口的工作——数据分析师,工作的行业也从运营商行业转换到了金融行业

说起来,虽然工作了这么久,但目前还处于初级分析师的状态,因为这个岗位入门不难,但要做好还是有一定要求的,所以我接下来的路还很长,我还需要不断的将学到的知识体系化,由点到线、由线及面,冲!

回到这篇文章,其实我是想将我学习的以及结合工作以来对这个岗位的一些理解做一下简单且浅层的输出,对自己有一个总结回顾的同时,也希望能对也像我一样踏入数据分析行业的人有所帮助,共同进步。

对数据分析的理解

首先,大部分人对这个岗位的理解可能是SQL boy、SOL girl或者“表哥”、“表姐”,也就是一个取数机,平时做做报表、画画图这样,如果要把这些工作说的高级点呢,那就是:数据支撑、数据分析以及数据应用。

其实,我对于表哥表姐这个说法不是特别认可,因为我们虽然有很多工作确实是提供数据支撑,但是我们在这个过程中,也不只是给了数据就完事,我们在满足业务取数需求的同时,也在不断的理解为什么业务需要这个数据,这个数据背后要实现的策略是什么,以及达到效果后还需要怎么去优化等等,也就是尽可能的通过与业务结合,提高我们的业务感知,最终帮助业务解决问题。

所以我对数据分析的理解是这样的:

——数据分析,分析数据,数据为什么要分析?分析数据后要做什么?如何进行分析?

我常常将数据分析从字面上拆解为 数据+分析,数据是基础,分析才是重点

其中数据可以理解为是对客观事物的记录,并可以鉴别的一种符号,也就是说,只要是客观存在的,我们都能通过一种“符号”加以记录,这种符号不限于数字,可以是文字、字母、一堆数字符号、图片、视频、音频等等,哪怕是一个小小的记号,也可以是数据。当数据产生后我们需要进行收集、整合以及处理,最终的目的是将原始数据转化为可行的见解,也就是提取出“有用的信息”,这个信息将改善我们的业务,解决业务问题,最后促进业务增长。

另外,因为我的工作还有很大一部分是依靠算法来助力业务的,所以我还想谈谈对数据算法的理解,这里数据算法我也拆解为数据和算法,以数据为核心,以算法为辅助,挖掘分析出数据中潜在“规则”,这个规则我后面也会提到。对于算法,有很多人会觉得是一种非常高级的存在,其实在我看来,并不是那些高级复杂的数学模型才叫做算法,简单的计算公式或者规则,只要能够解决现有业务的痛点,就可以被认为是一个有效的算法。在实际应用中,简单的算法甚至可能比复杂的算法更加实用和高效。所以我在做数据算法这个工作时,也不是首先就考虑机器学习等模型。

其实可以看到,不管是数据分析还是数据算法,我觉得本质上都是找到数据背后的潜在“规则”,这个规则就看你怎么理解。

在这个岗位工作久了以后会发现,其实各种场景下数据分析和使用的内核都是类似的,融会贯通的,所以接下来,我将从数据分析的道、法、术、器四个方面来谈谈我的一些思考。

数据分析之道

道以明向

看到这个道字,可能会有些疑惑,数据分析为什么为谈到道,它与道有何关系。其实在古代,道可以理解为“规律”,“规则”,在《道德经》中就提到一句话叫做 “道可道,非常道”,意思就是说,规律是可以讲清楚的,但是规律又不是一种常态,它是一种有迹可循并且可以预见的变化过程,它强调的是一种方向,也是形而上的价值体系。

所以谈数据分析的道,我理解为是谈数据分析的价值,也是谈对数据分析的理解和认知,是一个价值层面的概念,因为道可以理解为“规律”,而数据分析的终极目的也就是为了找到规律,这才体现了数据分析的价值,即道以明向。

所以我觉得我们应该要明白数据分析存在的价值是啥?它对于业务来说带的价值又是啥?

前面也提到,数据分析真正的价值就是找到潜在的规律,不管是提数也好,报表开发也好,最终拿到数据那一刻,都是想从中找到有用的信息,因此,我也强调一下,在从事这个工作的时候一定要认同它的价值,并且有非常清晰的定位,我们所完成的每一个需求,都应该落在价值交付这个点上,最后总结就三个词:助力、优化、创新

数据分析之法

法以立本

这个法字,我其实就是想强调两个点——约束和思维

对于这个岗位而言,非常重要的就是要有敏锐的数据嗅觉,前面我提到,只要客观存在的都可以用数据来表示,也就是说,我们看待一个事物也好,一个问题也好,是否都可以从数据的角度去标记,去量化,去拆解,甚至去分析。

保持对数据的敏感,不断通过数据驱动思维,所以这里我想到了几个点:

第一个点是要对数据持有一个客观的态度,我理解为要尊敬数据,既要相信数据,也要怀疑数据,这看似是矛盾的,但事实上数据就是后验的,因为数据是会骗人的,很多出名的理论也说明了这一点,比如辛普森悖论、幸存者偏差等等。

其实做数据的,是风险最大的行业之一,这个你可以去领会。所以在做数据分析时,我觉得也应该像做科学一样,实践出真知,数据是怎么来的,怎么形成的,反映了什么问题,这些一定是客观存在的,不以领导等人的意志为转移。

第二个点就是要找到共性,前面我提到,大部分数据分析工作内容可能更多的是准确的取数、计算指标、落表、维护和定位数据异常、分析异常原因、可视化报表开发等等,那我们能不能从这些零零碎碎的工作中不断找到共性的点呢?也许是一种通用的思维方式,也或许是一种复用性强、兼容性广的指标、亦是一个普遍存在的问题等等,我们不只是做一个简单的取数机,我们的价值,也是数据分析的价值,是助力,是优化,是创新。

第三个点就是多维度思考问题,比如我在工作中经常会进行异常问题的排查和修复,如看板上某个指标异常,该如何找到问题?我的做法是进行指标拆解,比如将这个聚合指标一层一层的拆解,甚至拆到明细,从不同的维度去做分析思考并相互验证,最终找到异常点。我觉得这也和代码bug修复类似,我常常会将有问题的代码用以小放大的方式做处理,来完成bug修复。所以维度你可以理解为角度,将某个问题做拆解为维度一、维度二、维度三……最终总会找到答案,也就是复杂问题简单化。从另一个方面来讲,多维度看世界,也许会更美好!

数据分析之术

术以立策

那数据分析之术,想谈的就是数据分析方法,其实我在我的博客中也整理了不少数据分析方法,如常用的海盗法则AAARR分析法、5W2H分析法、群组分析法、机器学习模型等等。

那不同的场景,不同的需求或者问题,都会沉淀出各自的方法,其实我觉得方法都是其次,就像我前面说算法一样,不管是用模型也好,还是用简单的excel公式也好,只要能解决问题,那就可以了(当然这要看怎么解决以及解决得怎么样),我们常说抓住耗子的猫就是好猫,在使用数据分析方法时,要选择合适的方法,而不是复杂的方法。

这些方法,作为数据分析师是需要具备的,对于方法我理解就是我前面提到的——找到共性,把许多相似问题的解决方法进行抽象归纳,变成一个通用的方法。而这些大部分方法,你仔细思考,底层也是存在共性的,我总结为“细分”、“对比”、“趋势”,细分是为了拆解,对比是为了找到差异,趋势则是为了看出变化。

最后,关于这个术,也有一个说法,就是有道无术,术尚可求也;有术无道,止于术!

数据分析之器

器以成事

最后一个“器”,很好理解,就是工具嘛

其实数据分析可以用的工具很多很多,比如我常用的就是python、R、excel、SQL、tableau,当然如果要归类的话,可以是excel类(excel、vba、Power BI……)、统计类(SPSS、matlab、eviews、stata……)、BI类(tableau、帆软、power BI……)、数据库类(mySQL、Hive、SparkSQL……)、编程类(python、R……)等等,我理解这些都是工具层面的东西,最重要的还是道法术,但巧用工具是能够显著的提升我们能力和效率的,助力业务增长,做到事半功倍。

当然,我也在不断探索和学习这些工具,比如python,我会经常关注python处理数据、分析数据、模型构建等的一些技巧和方法,拿数据读取这个例子来说,很多人常用的是read_csv、read_excel、read_table,但是如果我们面对的数据量级非常大,我们是否可以考虑其他的读取方式来提高效率,比如我之前写过一篇博客:(2条消息) Python Dataframe之excel、csv、pickle、feather、parquet、jay、hdf5 文件存储格式==》存读效率对比_卖山楂啦prss的博客-CSDN博客,不只是,也不局限于。

另外,对于tableau,我也想谈谈

我之前在读大学时候就学习过,不过也只是浅浅了解了一下,而现在工作后每天都会用这个工具,才发现其实这个工具对于数据分析师而言是非常用帮助的,它有三个重要的产品,tableau desktop、tableau prep、tableau server,不同的产品有不同的定位,感兴趣的可以去了解一下。

总之,工欲善其事、必先利其器!

最后及规划

说完了以上这些,自己也对这个岗位有了更深刻的认知,而在最后也想起了我的大领导在某次谈话中,对我们提到的一个模型,叫做——Y模型,我也想分享给大家。我现在理解这个模型有两个含义:

对于第一个含义,Y模型其实可以被看作是一个数学模型中的y=F(x)形式,在分析数据或者解决问题时,我们往往会陷入过多的细节和具体情况之中,容易偏离我们最终要解决的问题或者达成的目标。因此,我们需要在开始分析和解决问题之前,先明确我们最终要解决的问题或达成的目标,这个问题或目标就是我们的y,它是我们分析和思考的核心和中心。通过明确y,我们可以避免在分析过程中偏离问题的本质,同时也可以更加清晰地确定影响y的因素和要素(X:包括外部因素和内部因素)。这样,我们就可以有针对性地进行分析和解决问题,以达到更好的效果。在这个过程中,Y=f(X) 模型可以作为一个有用的工具和思维模式,帮助我们更加系统和全面地思考和分析问题,从而找到更好的解决方案和达成目标。例如,如果我们要解决一个生产效率低下的问题,那么 Y 就是生产效率的提升,X 可能包括生产流程、设备效率、员工素质等多个方面。

对于第二个含义,我把 Y 看作是一个树形结构,其中左边的树枝代表自己通过努力学习所获得的知识和成果,右边的树枝代表借鉴他人的经验和知识所得到的成果,最终两个分叉汇聚形成一个更强大的成果。我觉得这个含义的本质是强调人与人之间的互补和合作,而非单靠一个人的努力就能获得最佳的结果。因此,在学习和工作中,我们需要借鉴他人的经验和知识,不断提高自己的能力和素质,同时也要乐于分享自己的成果和经验,与他人互惠互利,从而实现更大的成就和价值。想到的一句话就是:一个人可以走的很快,而一群人可以走得更远!

所以,接下来我也对自己也有一些小小的规划:

当前我们正处于一个大模型时代,未来一定还会有更多的智能模型出现,如何将这些智能模型、智能工具、智能方法引用在我们的业务场景中、团队的日常工作中,我觉得就是我接下来应该去不断探索和思考的,即尽可能的将我们的数据价值发挥出来,并提高工作效率。目前想到的有以下几点:

1、模型探索,在信贷营销运营场景中,探索及构建更有价值的算法模型,辅助我们的产品业务发展;

2、总结沉淀,总结出整个信贷场景中用户生命周期的数据体系;总结归纳出我们的营销运营体系,思考突破点

3、拥抱AI,思考如何将 AI 全面接入到自己的日常工作中,提升工作效率。并学习和实践提示工程(Prompt Engineering)

4、分享,对学习并思考的内容进行输出,向小组或团队做分享

总之,争取让自己不掉队,持续学习、保持自己的核心竞争力。

以上是我工作以来一些零散的思绪和想法,关于数据分析的理解还有很多不足,欢迎与各位一起探讨!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.luyixian.cn/news_show_283629.aspx

如若内容造成侵权/违法违规/事实不符,请联系dt猫网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java BigDecimal学习

文章目录Java BigDecimal不损失精度的方法Java BigDecimal的几种舍入模式1、UP(BigDecimal.ROUND_UP)2、DOWN(BigDecimal.ROUND_DOWN)3、CEILING(BigDecimal.ROUND_CEILING)4、FLOOR(BigDecimal.ROUND_FLOOR)5、HALF_UP(BigDecimal.ROUND_HALF_UP)6、HALF_DOWN(BigDecimal.ROUN…

QMake宏定义常量和字符串或带空格的字符串(在代码中使用)

答案 宏定义常量 DEFINES EXPIR_TIME123宏定义字符串(不带空格) DEFINES NIHAO\\\"nihao\\\"宏定义字符串(带空格也适用于不带空格的情况) 推荐 DEFINES NIHAO\"\\\"ni" "hao\\\"\"QMAKE宏定义常量 环境: visual studio 2018 …

Java基础之List

文章目录一、List介绍二、List常用方法 List应知应会2.1 调用add()方法增添数据(可指定位置添加)2.2 调用remove()方法删除指定位置元素并返回被删除元素2.3 调用set()方法修改指定位置元素并返回初始数据2.4 调用get()方法返回指定位置元素三、List可重…

SQL注入写入文件方法(获取webshell)

数据库写入文件条件 1、当前数据库用户为 root 权限2、知道当前网站的绝对路径3、secure_file_priv 的参数必须为空或目录地址4、PHP的 GPC 为 off状态;(魔术引号,GET,POST,Cookie)用 sqli-labs 测试查看当前用户权限Python sqlma…

本机连接Vmware虚拟机中win7的SQLServer数据库

在开发中,可能遇到不同数据库或不同版本的问题,为了避免在本机安装卸载造成后续无法再次安装的情况,我们在虚拟机中安装需要的版本进行测试。 本篇介绍如何在本机连接到虚拟机中的数据库。 解决流程如下: 一:进入虚…

学Vue3这一篇就够了!

目录学习Vue的前提是掌握 HTML,CSS,Js中级知识vue介绍声明式渲染条件与循环处理用户输入组件化应用构建Vue与自定义元素的关系应用和组件实例Vue实例根组件组件实例 property生命周期钩子实例的生命周期图模板语法插值文本原始 HTMLAttribute使用 JavaScript 表达式指令参数动态…

Linux驱动开发——字符设备

目录 Linux设备分类 字符设备驱动基础 字符设备驱动框架 虚拟串口设备 Linux设备分类 Linux系统根据驱动程序实现的模型框架将设备驱动分为下面三种。 (1)字符设备驱动:设备对数据的处理是按照字节流的形式进行的,可以支持随机访问,也可以不支持随…

抽象类,接口

抽象类:当父类的某些方法,需要声明,但是又不确定如何实现时,可以将其声明为抽象方法,那么这个类就是抽象类。 package com.hspedu.abstract_;public class Abstract01 {public static void main(String[] args) {} } a…

Linux 操作系统原理 — PCIe 总线标准

目录 文章目录目录总线系统PCIe 总线PCIe 总线的传输速率PCIe 总线的架构PCIe 外设PCIe 设备的枚举过程PCIe 设备的编址方式BDF(Bus-Device-Function)编号BAR(Base Address Register)地址Linux 上的 PCIe 设备查看 PCIe 设备的 BD…

算法强化--两数之和

hi,大家好,今天为大家带来一道题目,求两数之和 题目 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案。但是,数组中同一…

Python 进阶指南(编程轻松进阶):三、使用 Black 工具来格式化代码

原文:http://inventwithpython.com/beyond/chapter3.html 代码格式化是将一组规则应用于源代码,从而使得代码风格能够简洁统一。虽然代码格式对解析程序的计算机来说不重要,但代码格式对于可读性是至关重要的,这是维护代码所必需的…

【剑指offer|4.从尾到头打印单链表】

0.从尾到头打印单链表 单链表:一般给的都是无头节点的 另外:在面试中,如果我们打算修改输入的数据,则最好问一下面试官是不是允许修改 下面这种先把链表节点的值按链表序放到数组中,然后来一个算法库中的reverse属实有…

一文懂KL散度KL Divergence

本文翻译自https://naokishibuya.medium.com/demystifying-kl-divergence-7ebe4317ee68 KL散度中的KL全称是Kullback-Leibler,分别表示Solomon Kullback和Richard A.Leibler这两个人。 一、KL散度的定义 KL散度表明概率分布Q和概率分布P之间的相似性,由…

ARM Linux 内核启动1 —— 汇编阶段

一、Makefile分析 1、Makefile 分析 (1) kernel 的 Makefile 写法和规则等,和 uboot 的 Makefile 是一样的,甚至 Makefile 中的很多内容都是一样的。 (2) kernel 的 Makefile 比 uboot 的 Makefile 要复杂,这里我们并不会一行一行的详细分析…

【20】核心易中期刊推荐——计算机科学电子通信(EI索引)

🚀🚀🚀NEW!!!核心易中期刊推荐栏目来啦 ~ 📚🍀 核心期刊在国内的应用范围非常广,核心期刊发表论文是国内很多作者晋升的硬性要求,并且在国内属于顶尖论文发表,具有很高的学术价值。在中文核心目录体系中,权威代表有CSSCI、CSCD和北大核心。其中,中文期刊的数…

进阶C语言:文件操作

文件操作不仅仅是我们使用鼠标用来操作文件的各项功能,还可以使用C语言来操作文件的内容,可以使用C语言来对文件的读、写、拷贝...等等,话不多说,直接开始: 目录 1.为什么要使用文件 2.什么是文件 2.1程序文件 2.…

蓝桥杯【第14届省赛】Python B组

本题解不一定正确,欢迎大家指正 A:2023 【问题描述】 请求出在 12345678 至 98765432 中,有多少个数中完全不包含 2023 。 完全不包含 2023 是指无论将这个数的哪些数位移除都不能得到 2023 。 例如 20322175,33220022 都完全不包…

python实现获取当前目录下的树形结构

python实现获取当前目录下的树形结构 程序实现 在有些Linux上自带了tree命令来一树状结构显示一个目录,但是在有些linux上没有自带这个程序,所以这里用python写了一个小程序来实现这个功能,代码如下: import osdef print_tree(…

共模电感(扼流圈) 差模电感(扼流圈)

共模电感 共模电感,也叫共模扼流圈。常用于电脑的开关电源,过滤共模的电磁干扰信号。 共模电感器由软磁铁芯(铁氧体磁芯)和两组同相绕制的线圈组成。对于共模信号,由于两组线圈产生的磁场不是抵消。而是相互叠加&…

存量市场之下,电商之战深入腹地且逻辑未变

纵然是在流量依然见顶的大背景下,电商行业的竞争并未结束。无论是以百亿补贴为代表的烧钱策略,还是以跨境出海为代表的规模策略,几乎都是这样一种现象的直接体现。种种迹象表明,未来的电商行业,依然会有新的战役发生。…