一起聊聊数据分析师的那些技能(硬功夫) - CPDA中国数据分析学习网
当前位置 > 首页 > 专栏作者原创 > 一起聊聊数据分析师的那些技能(硬功夫)

一起聊聊数据分析师的那些技能(硬功夫)

来源:CPDA中国数据分析学习网 | 时间:2018-02-09 | 作者:数据分析学习网

作者:刘顺祥

浙江工商大学统计学硕士,高级数据分析师,曾就职于大数据咨询公司,服务过联想、亨氏、美丽田园、网鱼网咖等企业项目;曾在唯品会大数据部担任数据分析师一职,负责支付环节的数据分析业务。

感受1:SQL很重要

SQL很重要!SQL很重要!SQL很重要!重要的事说三遍,数据库查询对于一个数据分析师来说真的是必备技能。没有它,你的工作真的非常难找,往往在面试的时候,对方都会出一些数据库相关的问题。数据库之所以重要,那是因为你工作中所需要分析的数据基本都是来自于数据库,如果你不会从数据库查询,就等同于“巧妇难为无米之炊”。

学习建议

数据库目前在市面是有很多种,如Oracal、SQL Server、MySQL、Hive等,并不是都要一一学个遍,因为它是结构化的查询语言,各种数据库的语法都非常相似,可以说是一通百通。如果你想从事数据分析岗,但又没有接触过数据库(学生或准备换行的朋友),建议你下载一个MySQL的社区版本(https://dev.mysql.com/downloads/mysql/),然后买一本相对实战且基础的书籍(《SQL必知必会》)进行学习。这本书一共介绍了30个章节的内容,你只需重点吸收数据库的查询、修改、删除、插入、存储过程等知识点,我认为通过这些知识点的吸收和应用,基本上可以满足数据分析岗的面试要求了。当然对于老手来说,这本书里面也有很多其他值得学习和实战的例子(如存储过程、游标、事件、性能等)。

书5-1

感受2:可视化显水平

数据可视化的技能,也是数据分析师的必备要求,因为枯燥的数据表肯定不如一张张图更吸引眼球,更何况这些报表更多的是给那些业务繁忙的Boss看。那报表的展现方式总不能每次发一个PPT给对方吧,如何让对方随时随地的查看到你的报表呢?Tableau

它有两个强大的版本,一个是DeskTop版,即分析人员的可视化设计版本;另一个是Server版,即通过DeskTop将设计好的可视化报表上传至服务器,实现随时查阅报表的功能,而这两个版本的结合就能恰到好处的满足随时随地查报表。最大的好处是你无需编程即可完成高质量的可视化任务,只需通过简单的托拉拽,就让数据可视化想怎么玩就怎么玩。目前越来越多的企业,在招聘时,都会要求或注明有Tableau的使用经验。

学习建议

这里推荐Tableau数据可视化从入门到精通》一书,这也是我看的众多Tableau书籍中比较好的一本,而且该书籍在售书平台上的评价也非常棒。该书一共16个章节,从基础的工具简介、数据读取、字段操作、函数使用到可视化实操,讲到了很多细节方面的内容,最后还以两个案例作为压轴戏,分别是“网上超市运营分析”和“网站流量统计分析”。这两个主题抓的非常贴切,一个从电商运营角度来思考常见的可视化问题;另一个则从网站运营角度来分析有哪些核心指标可供选择和及对应的展现方式。这两个角度都顺应了互联网时代下的需求,我相信当你读完并操作完数里面的案例,会对你的可视化能力有一个质的提升,也是进入数据分析行业的加分项。

书5-2

感受3:Excel很普及

作为一个数据分析师或BI,其实很多工作内容都可以通过SQL提数和Excel的加工就可以任务完成,困难的是如何梳理好SQL的提数逻辑和灵活的应用Excel减轻你的工作量。之所以说它应用很普及,是因为它不仅仅是个装数据的容器,更多的是会借助于强大函数、可视化等帮你完成工作。

各式各样的字符串函数(LEFT、RIGHT、MID、LEN、REPLACE、TRIM、FIND、SEARCH、CONCATENATE、REPT等)、数值函数(ABS、EXP、LOG、POWER、SQRT、CEILING、FLOOR、MOD、ROUND、SIGN等)、日期函数(DATE、YEAR、MONTH、DAY、WEEKDAY、WORKDAY、TODAY等)、统计函数(MIN、MAX、AVERAGE、MEDIAN、VAR.S、SUM、SUMIFS、COUNT、SKEW、NORM.DIST等)、匹配函数(ROWS、COLUMNS、MATCH INDEX、VLOOKUP)等可以让你在数据处理过程中变的非常简单而轻松;强大的可视化功能(如饼图、条形图、柱状图、折线图、面积图、散点图、气泡图、雷达图等)也会为你的数据分析助一臂之力,但面对大数据量时就显得非常捉急,这也是无法跟Tableau媲美的;灵活的宏功能,可以避免我们不断的做重复性工作,从而节约时间,提高我们的工作效率,宏语句是由一系列的命令和函数组织起来的,尽管它在工作中用的并不是那么的频繁,但一有机会,你去用它来开发报表或表计算的话,会大大提高你的成就感,当然,我希望你能够会一些宏语句,这样你身边的朋友或同事都会觉得你很了不起呢!

学习建议

这里向大家推荐《Excel函数与公式速查手册》《Excel2016宝典》两本书。第一本书涵盖了近600个函数的讲解,而且这些函数都是借助于一个个实例来完成的,有助于读者的操作和理解,可以说,读完这本关于函数的书就可以在工作中使用函数时显得游刃有余;第二本光从书名就知道是一本知识点比较全面的书籍,该书涉及Excel的公式和函数、图表可视化以及Excel的各种设置。个人建议可以把这两本书当作工具来使用,没必要系统的过一遍,当你需要某个知识点时,从目录去查找相关关键词,然后操作几遍就记得如何使用了。

书5-3

数据挖掘秀肌肉

我相信,当你找数据分析相关的工作岗位时,基本上都会看见对方要求你会数据挖掘或数据建模方面的能力,同时也会附上一条熟练使用Python、R等工具。此时你会掂量掂量自己,这方面的技能我会吗?工具使用的熟悉程度能够达到对方的预期吗?我有哪些相关的建模经验?

在面试或工作中比较常见的数据挖掘算法有四类,分别是预测、分类、聚类和关联,个人觉得前两类的使用频率会更高一些。这里提几个重要的挖掘算法:线性回归、Logistic回归、决策树、贝叶斯、SVM、随机森林、K均值和关联规则。希望不熟或不会数据挖掘的朋友可以先从这几个着手学习,而且学习的时候先通过代码完成落地,然后再去慢慢研究其理论知识

学习建议

如果你是统计学或经济学等类似专业的朋友,建议你去学习R语言,而如果你是计算机专业或理工科的朋友,则建议你去学习Python。因为这两个工具的思维有一点点差异,毕竟R语言是由统计学家创建的(偏向于函数概念),而Python是由计算机学家创建的(偏向于类概念)。而且又有一些相似性,同时学习的话会比较容易混淆。如果你选择R语言的话,这里推荐《R语言实战》《机器学习与R语言》这两本书,前一本书偏向于语法编程,同时也会含有案例来说明统计学方面的知识点,后一本则通过实战的方式来介绍常用的数据挖掘技术,能够助你快速的进入R语言的挖掘状态;如果你选择Pythond的话,同样介绍两本书,即《利用Python进行数据分析》《Python数据分析与挖掘实战》,第一本更多的是介绍数据分析方面的Python库,如numpy、pandas和matplotlib,这也是一本基础书,第二本则是教你如何按部就班地完成每一个实战案例,具有代入感,让读者学习起来很顺畅;如果你还想补一补数据挖掘的理论知识,则推荐《数据挖掘概念与技术》,个人看了好几遍,不是很难,有比较好的操作性。

书5-4

书5-5

书5-6

OK,如上就是我从事数据分析岗位的一些学习经验和感悟,希望对各位读者有一点点的帮助。学习是一种投资,需要耐得下性子,坐得住板凳,敲得住键盘,同时,还要不断的坚持。只有这样,我相信一定会成为数据分析或挖掘的强者。