数据分析是个啥
这一回主要了解什么数据分析,做好一次分析需要什么步骤,因此要想做好一名合格的数据分析师需要什么条件。最后了解一些数据分析中常见的基础数据指标,掌握其计算方式和意义。总结来说就是以下四点。
- 何谓数据分析
- 数据分析步骤
- 数据分析师的职业要求
- 基础数据指标及其意义
何谓数据分析
简单来说数据分析就是对数据进行分析。具体来说就是用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,把隐藏在一大批量看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。
数据分析又可以划分为描述性数据分析、探索性数据分析以及验证性数据分析。
数据分析 | ||
---|---|---|
描述性数据分析 | 探索性数据分析 | 验证性数据分析 |
描述性数据分析是指运用制表和分类,图形以及计算概括性数据来描述数据特征的各项活动。例如通过调查数据计算发现在2018年第四季度(10月-12月)这段时间内,A地区得肺炎人数比B地区得肺炎人数多100人,其中两地得肺炎人数中男性是120人,女性80人等这类分析就是描述性数据分析。常见分析方法有对比分析法、平均分析法、交叉分析法等。
探索性数据分析是指对已有的数据(特别是调查或观察得来的原始数据)通过假设进行探索,发现数据之中得新特征。特别是当我们对这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析时,探索性数据分析就会非常有效。而验证性数据分析侧重于验证已有假设得真伪。常见得分析方法有相关分析、因子分析、回归分析等。比如通过收集到的数据(GDP和粮食产量),我们推测GDP的高速发展会推动粮食产量快速增长。然后计算发现两者成正相关,并且算出两者关系的系数。也就是GDP增长多少,相对应粮食增长多少。这类分析就是探索性数据分析和验证性数据分析。(这一段是个人根据以往学习和网上文章内容自己总结出来的,正确性现阶段不敢完全保证。今后学习会不断改进)
数据分析之后,主要从三个方面起作用。第一现状分析。比如企业的场合。通过数据分析,比如销售额、成本水平、利润率、投资回报率等,可以了解企业现阶段运营情况,是在盈利还是亏本,哪在盈利哪在亏。还能了解企业各项业务的构成等情况。
第二原因分析。例如某年运营收入环比下降5%,是什么原因导致的呢?是各项业务收入都出现下降,还是个别业务收入下降引起的?这就需要开展原因分析,然后有针对的解决问题。
第三预测分析。了解企业运营现状后,有时还需要对企业未来发展做出预测,为制订企业运营目标及策略提供有效的参考与决策一句,保证企业的可持续健康发展。比如已经发现某项业务的市场动向开始走向衰退,还不断加大投资力度,只会增加成本而没有收入。最终只会营销企业的持续发展。
数据分析步骤
总的来说,数据分析包括以下6个步骤。明确分析目的和思路、数据收集、数据处理、数据分析、数据展现、报告撰写。六个步骤相互独立又互有联系。
明分析目的和思路
做任何事都要有个目标、目的。数据分析也不例外。比如这次数据分析我就是想了解企业的盈利水平,或者为了进一步提升企业竞争力,需要摒除一些落后业务,因此需要具体了解各个业务的盈利水平、成本水平、改善空间等。这就是目的。有了目的,才能知道自己应该去收集什么数据,怎么去收集。目的明确之后,就要梳理分析思路,搭建分析框架。把目的分解成若干不同的分析要点。比如目的是想了解各项业务的盈利水平,我们知道利润=销售额-成本。因此首先需要知道销售额和成本情况,再进一步,比如销售额,可以再以时间轴去了解一段时间内销售额变化动向,或者跟同行企业的该项业务销售水平进行比较等,就是明确分析思路,才能更有效地找到有用数据。
数据收集
通过数据库、公开出版物、互联网、市场调查等方式获取相关数据。
数据处理
收集到的数据一般来说都是杂乱无章的,难以理解的,因此需要对数据进行数据清洗、数据转化、数据提取、数据计算等处理。比如清除掉一些无关的数据,将数量单位统一,非数字数据转换成数字数据,计算平均值等。比如,现在收集到一百只猫的相关数据,一开始如下。
ID | 姓名 | 身长 | 体重 | 性别 | 毛色 | 兄弟姐妹 |
---|---|---|---|---|---|---|
1 | 小白 | 30cm | 1kg | 雌 | 白 | 兄、姐 |
2 | 小白白 | 32cm | 1200g | 雄 | 白 | 妹3只 |
3 | 小黑 | 28cm | 1.1kg | 雄 | 黑 | 无 |
4 | 小茶 | 350cm | 1.5kg | 雌 | 茶色 | 兄2只,弟2只 |
... | ... | ... | ... | ... | ... | ... |
100 | 小灰 | 31cm | 1.4 | 雌 | 灰色 | 兄、姐、妹、妹 |
对于上面这个表格里的数据需要进行以下处理。
- 一个格子添加一个数据
- 数值单位统一
- 单位不用写在每个格子里,在第一行里列出
- 不足数值、离奇数值进行确认(如第四只猫的身长)
处理之后,数据更方便进行统计分析。
ID | 姓名 | 身长(cm) | 体重(kg) | 性别 | 毛色 | 兄 | 弟 | 姐 | 妹 |
---|---|---|---|---|---|---|---|---|---|
1 | 小白 | 30 | 1.0 | 雌 | 白 | 1 | 0 | 1 | 0 |
2 | 小白白 | 32 | 1.2 | 雄 | 白 | 0 | 0 | 0 | 3 |
3 | 小黑 | 28 | 1.1 | 雄 | 黑 | 0 | 0 | 0 | 0 |
4 | 小茶 | 35 | 1.5 | 雌 | 茶色 | 2 | 2 | 0 | 0 |
... | ... | ... | ... | ... | ... | ... | ... | ... | ... |
100 | 小灰 | 31 | 1.4 | 雌 | 灰色 | 1 | 0 | 1 | 2 |
数据分析
通过数据分析工具,对整理好的数据按照先前制订的分析目的和分析思路进行分析。
数据展现
一般情况下,数据是通过表格和图形的方式来呈现的。数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等。也可以对这些图表进一步整理加工,使之变为我们所需要的图形,如金字塔图、矩阵图、漏斗图、帕雷托图等。
报告撰写
数据分析报告是对整个数据分析过程的一个总结和呈现,供决策者参考。一份好的数据报告,首先需要好的分析框架,并且图文并茂,层次分明,能够让读者一目了然。另外,数据分析报告需要有明确的结论。最后,需要提出有效的建议或解决方案。
数据分析师的职业要求
- 懂业务
- 懂管理
- 懂分析
- 懂工具
- 懂设计
懂业务
数据分析工作前提是需要懂业务。例如某公司运营收入是1000万元,不懂业务的数据分析师看到只是1000万这个数字,而懂业务的数据分析师则会去思考这1000万元是由哪几个业务收入构成,哪个业务收入占主要,最高业务收入的地区在哪等。
懂管理
懂管理主要是从分析企业运营的角度来看的,比如懂得SWOT分析、市场营销4P、产品周期等企业管理理论,就可以收集更有效的数据,有针对性地对数据分析结论提出指导意义的建议。
懂分析
数据收集完后,最重要还是要去提取出数据背后隐藏的意义。因此要懂得分析方法。
懂工具
现在是大数据时代,一般收集到的数据量也是非常庞大的,如果不懂得使用数据分析工具,分析起来的效率会非常低。
懂设计
懂设计是指运用图表有效表达数据分析师的分析观点,使分析结果一目了然。比如图形的选择、版式的设计等。
基础数据指标及其意义
通过下列数据了解基础数据指标及其意义。
ID | 姓名 | 身长(cm) | 体重(kg) | 性别 | 毛色 | 兄 | 弟 | 姐 | 妹 |
---|---|---|---|---|---|---|---|---|---|
1 | 小白 | 30 | 1.0 | 雌 | 白 | 1 | 0 | 1 | 0 |
2 | 小白白 | 32 | 1.2 | 雄 | 白 | 0 | 0 | 0 | 3 |
3 | 小黑 | 28 | 1.1 | 雄 | 黑 | 0 | 0 | 0 | 0 |
4 | 小茶 | 35 | 1.5 | 雌 | 茶色 | 2 | 2 | 0 | 0 |
5 | 小灰 | 31 | 1.4 | 雌 | 灰色 | 1 | 0 | 1 | 2 |
平均数
这里提到的平均数指算术平均数。即全部数据累加后除以数据个数。
计算公式:平均值 = 各数据总和 / 数据个数
比如上述数据里,5只猫的平均身长为,(30+32+28+35+31)/5 = 31.2
绝对数与相对数
绝对数是反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合性指标,如GDP、总人口等。上面那个表里身长的每个数值就是一个绝对值。比如,小白猫的身长30cm,小白白猫的身长32cm,小白白比小白长2cm。
相对数是指由两个有联系的指标对比计算而得到的数值,用以反映客观现象之间数量联系程度的综合指标。计算公式是:相对数=比较数值(比数)/ 基础数值(基数)
例如将小白身长作为一个基数,并定义为1。那么小白白的身长指标就是:32/30 = 1.07。
百分比与百分点
百分比是相对数中的一种,表示一个数是另一个数的百分之几。比如今年公司利润是110万,比去年提高了10%。那么去年的利润就是110/(1+0.1)= 100万,
频数与频率
频数是指一组数据中个别数据重复出现的次数。例如上面5只猫中,雌性猫出现3次,因此雌性猫频数为3,雄性猫出现2次,雄性猫的频数为2。
频率是每组类别次数与总次数的比值,它代表某类别在总体中出现的频率程度,一般采用百分数表示。例如雌性猫的频率为60%,雄性猫的频率为40%。
比例与比率
比例是指在总体中各部分的数值占全部数值的比重,通常反映总体的构成和结构。例如一共有5只猫,雌性猫3只,雄性猫有2只,因此雌性猫的比例为3:5,雄性猫的比例为2:5。
比率是指不同类别数值的对比,反映的是一个整体中各部分之间的关系。比如刚才的例子里,雌性猫3只,雄性猫2只,雄雌性别的比率为3:2。
同比与环比
同比指与历史同期进行比较得到的数值,该值反映的事物发展的相对情况。例如2018年12月与2017年12月相比。
环比指与前一个统计期进行比较得到的数值,该指标反映的是事物逐期发展的情况。例如2018年12月与2018年11月相比。