1.1 大数据系统产生背景及应用场景
1.1.1 产生背景
大数据技术直接源于互联网行业。随着互联网的蓬勃发展,用户量和数据量越来越多,逐步形成了大数据,这成为大数据技术的基础。根据有关技术报告知道,国内百度、腾讯和阿里巴巴等公司数据规模如下:
❑ 2013年百度相关技术报告称,百度数据总量接近1000PB,网页的数量大是几千亿个,每年更新几十亿个,每天查询次数几十亿次。
❑ 2013年腾讯相关技术报告称,腾讯约有8亿用户,4亿移动用户,总存储数据量经压缩处理以后在100PB左右,日新增200TB到300TB,月增加10%的数据量。
❑ 2013年阿里巴巴相关技术报告称,总体数据量为100PB,每天的活跃数据量已经超过50TB,共有4亿条产品信息和2亿多名注册用户,每天访问超过4000万人次。
为了采集、存储和分析大数据,互联网公司尝试研发大数据技术,在众多技术方案中,开源系统Hadoop与Spark成为应用最广泛的大数据技术,由于它们的用户量巨大,已经初步成为大数据技术规范。
1.1.2 常见大数据应用场景
目前大数据技术被广泛应用在各个领域,它产生于互联网领域,并逐步推广到电信、医疗、金融、交通等领域,大数据技术在众多行业中产生了实用价值。
1.互联网领域
在互联网领域,大数据被广泛应用在三大场景中,分别是搜索引擎、推荐系统和广告系统。
❑ 搜索引擎:搜索引擎能够帮助人们在大数据集上快速检索信息,已经成为一个跟人们生活息息相关的工具。本书中涉及的很多开源大数据技术正是源于谷歌,谷歌在自己的搜索引擎中广泛使用了大数据存储和分析系统,这些系统被谷歌以论文的形式发表出来,进而被互联网界模仿。
❑ 推荐系统:推荐系统能够在用户没有明确目的的时候根据用户历史行为信息帮助他们发现感兴趣的新内容,已经被广泛应用于电子商务(比如亚马逊、京东等)、电影视频网站(比如爱奇艺、腾讯视频等)、新闻推荐(比如今日头条等)等系统中。亚马逊科学家Greg Linden称,亚马逊20%(之后一篇博文称35%)的销售来自于推荐算法。Netflix在宣传资料中称,有60%的用户是通过推荐系统找到自己感兴趣的电影和视频的。
❑ 广告系统:广告是互联网领域常见的盈利模式,也是一个典型的大数据应用。广告系统能够根据用户的历史行为信息及个人基本信息,为用户推荐最精准的广告。广告系统通常涉及广告库、日志库等数据,需采用大数据技术解决。
2.电信领域
电信领域是继互联网领域之后,大数据应用的又一次成功尝试。电信运营商拥有多年的数据积累,拥有诸如用户基本信息、业务发展量等结构化数据,也会涉及文本、图片、音频等非结构化数据。从数据来源看,电信运营商的数据涉及移动语音、固定电话、固网接入和无线上网等业务,积累了公众客户、政企客户和家庭客户等相关信息,也能收集到电子渠道、直销渠道等所有类型渠道的接触信息,这些逐步积累下来的数据,最终形成大数据。目前电信领域主要将大数据应用在以下几个方面:
❑ 网络管理和优化,包括基础设施建设优化、网络运营管理和优化。
❑ 市场与精准营销,包括客户画像、关系链研究、精准营销、实时营销和个性化推荐。
❑ 客户关系管理,包括客服中心优化和客户生命周期管理。
❑ 企业运营管理,包括业务运营监控和经营分析。
❑ 数据商业化:数据对外商业化,单独盈利。
3.医疗领域
医疗领域的数据量巨大,数据类型复杂。到2020年,医疗数据将增至35ZB,相当于2009年数据量的44倍。医疗数据包括影像数据、病历数据、检验检查结果、诊疗费用等在内的各种数据,合理利用这些数据可产生巨大的商业价值。大数据技术在医疗行业的应用将包含以下方向:临床数据对比、药品研发、临床决策支持、实时统计分析、基本药物临床应用分析、远程病人数据分析、人口统计学分析、新农合基金数据分析、就诊行为分析、新的服务模式等。
4.金融领域
银行拥有多年的数据积累,已经开始尝试通过大数据来驱动业务运营。银行大数据应用可以分为四大方面:
❑ 客户画像应用:客户画像应用主要分为个人客户画像和企业客户画像。个人客户画像包括人口统计学特征、消费能力、兴趣、风险偏好等;企业客户画像包括企业的生产、流通、运营、财务、销售、客户、相关产业链上下游等数据。
❑ 精准营销:在客户画像的基础上银行可以有效地开展精准营销,银行可以根据客户的喜好进行服务或者银行产品的个性化推荐,如根据客户的年龄、资产规模、理财偏好等,对客户群进行精准定位,分析出其潜在的金融服务需求,进而有针对性地进行营销推广。
❑ 风险管控:包括中小企业贷款风险评估和欺诈交易识别等手段,银行可以利用持卡人基本信息、卡基本信息、交易历史、客户历史行为模式、正在发生的行为模式(如转账)等,结合智能规则引擎(如从一个不经常出现的国家为一个特有用户转账或从一个不熟悉的位置进行在线交易)进行实时的交易反欺诈分析。
❑ 运营优化:包括市场和渠道分析优化、产品和服务优化等,通过大数据,银行可以监控不同市场推广渠道尤其是网络渠道推广的质量,从而进行合作渠道的调整和优化;银行可以将客户行为转化为信息流,并从中分析客户的个性特征和风险偏好,更深层次地理解客户的习惯,智能化分析和预测客户需求,从而进行产品创新和服务优化。