Python数据分析入门与实战
上QQ阅读APP看书,第一时间看更新

1.1 重新认识数据分析

最近几年,“大数据”与“数据分析”一直都是异常火爆的名词。其实,数据分析可以追溯到很久以前,而伴随着Python等众多开源软件的兴起有了更大的应用范围。传统的数据分析一般只是使用Excel来进行数据的汇总与展示,并将数据做成可视化的形式。但是Excel也有自己的局限,特别是在现在数据量迅速增多且数据格式不太确定的情况下。本书将使用Python进行数据分析,选择Python的原因其实很简单:一方面是因为Python的功能是非常强大的,能够快速处理数据来进行分析,使用起来非常方便;另一方面是因为Python是免费的。为了方便读者更好地学习本书,本章从对数据的认识开始,介绍使用Py-thon进行数据分析的方方面面。

1.1.1 数据的定义

随机调研一些互联网从业者,即便是数据相关的开发者,对“数据”这个概念的理解也不够全面。通常被调研者会这样回答:数据就是简单的数字;数据就是能够记录的一些基本的数字相关的信息;数据就是财务相关的一些统计报表信息;数据就是国家公布的那些重要信息,如GDP、银行的存款利率等;数据就是社交软件中产生的那些聊天记录、朋友圈发的信息和照片……可能还不仅仅是这些,毕竟在数字时代每个人对“数据”都有一份自己的理解。倒也不能说这些“数据”的理解是错的,但只是说出了数据的一些简单特征或者一部分定义,并没有给出一个相对来说比较完整的定义。在开启数据分析之旅前,有必要给出一个“数据”的定义,以便让读者有一个共同的认知基础。

简单地从拆字的角度来说,“数据”这个词是由两个字组成的。一个是“数”,一个是“据”。大家可以先思考一下“数”代表的是什么意思呢?肯定会想到数字、数学和数字化这样的字眼,它代表的是一些以数字形式存储的关键信息;而“据”这个字呢?读者肯定容易联想到“证据”或“依据”这样的概念,严格来说,这个“据”在和“数”拼接在一起时可以理解为“证据”的意思。可以得到一个“数据”的简单定义:数字化的证据和依据,是某些事物在发展过程中的一些成长轨迹或者是数据化的记录,是事物发展过后留存下来的证据。拥有了一份这样的“数据”,就意味着用户不仅仅看到的是简单的数字化的信息,还可以从多个角度理解这个数据。若是没能从中获取数据的内在含义,就不能称之为本书所讨论的“数据”,因为那样的数据只是一些简单的“数”而已。

为了更好地理解“数据”的含义,下面详细举例说明。例如,“王叔叔的体重是52kg”这个表述就是一个相对比较完整的“数据”化表述,而单纯地说“52kg”时,就没有提供太多的信息,因此只能认为“52kg”是一个“数”。以此类推,“北京地铁13号线的车厢有10节”“今年公司的GDP超过了100亿元”等这些信息都符合所说的数据特征。若是失去了相关的描述性信息而没有凸显“证据性”,这样的信息就不能称为“数据”。

1.1.2 分析数据的重要性

大部分公司产生的数据都可以使用Python的相关模块进行处理和分析。例如,在分析电商公司的销售数据时,分析师可以对数据中的点击率、流量、用户活跃度、订单量和营销费用做分析,形成一份分析报告来支持公司的运营活动。

人们早就在利用一些相关的历史数据研究历史学、气象学和天文学等学科,总结出事物在漫漫历史长河发展过程中的一些规律,从而指导生活和实践生产活动,而人类正是靠着不断进行历史总结才得以进步。企业利用历史数据信息也是一样的道理,公司通过把之前的数据积累和沉淀,然后不断分析和总结公司在一些关键决策上的成功经验,研究过去的得失,避免类似的错误,优化企业内部的生产环境;通过对发展规律的分析和探索,可以指导企业的经营和管理决策,让企业的经营决策更加符合市场的需求。这正是数据分析所能产生的重要的商业价值。

一家公司所能积累的历史数据越多,数据分析所能起到的作用也就越大。一些公司都在内部构建了一套数据化管理系统,称之为“数据湖”。其基本的设计思路就是不断地丰富企业内部“数据”的积累程度,这些数据可以用来研究市场的发展规律,成为预测未来市场、形成商业洞察的依据。很多企业在经营和管理过程中记录了大量的数据,而这些数据仅仅被企业用来当作一种证据,包括同客户签署的合同、财务记录的交易流水单等。其实这些数据有更大的商业价值。如果企业能够充分利用数据、分析数据,以及挖掘数据背后的生产经营活动的规律,无疑对指导企业快速发展有很大的帮助。