1.3.2 关键技术
1. 工业大数据平台
为有效支撑海量多源异构工业数据的存储与查询,有机融入现有知识、经验与分析资产,并消除技能割裂对工业大数据应用和发展的制约,需要构建一套能够支撑工业大数据分析的工业大数据平台及技术,工业大数据平台架构如图1-3所示。
图1-3 工业大数据平台架构
1)多源异构数据存储与查询
通过面向工业数据存储优化的工业大数据湖技术,实现多源异构数据的一体化、低成本、分布式存储;通过面向工业大数据分析负载优化的存储读写技术,实现分析工具对数据的高效存取;通过一体化元数据技术,实现对数据的工业语义化组织与高效检索。面向分析优化的工业大数据存储架构如图1-4所示。其支持时序数据存储、关系数据存储、对象数据存储。
工业大数据的强机理与强关联性决定了只有建立业务上下文模型,才能有效进行后续的分析与应用,如设备全生命周期档案(设备智能运维场景)、物料流转与工艺状态档案(质量分析场景)、需求动力学关系图(需求预测场景)等。除了多源异构数据存储引擎的基础能力,还需要提供行业数据建模及数据查询。例如,设备全生命周期档案记录了设备不同维度的信息,包括设备基本信息、设备结构(Bill of Material,BOM)、维修履历、故障记录、异常预警记录、工况等。
图1-4 面向分析优化的工业大数据存储架构
在构建行业数据模型时,不仅要注意多个数据源在数据结构(Data Schema)层面的关联,还要注意在业务语义层面的处理,包括编码间的映射关系(如设备编码规则改变前后的对应问题等)、同义词(如风速在不同时期数据标准中的字段名可能不同等)、字段名相同但业务语义不同(以油气生产中的“产量”为例,井下产量、井口产量、集输产量等不同口径的“产量”,由于测量方式、测量环境、测量标准的不同而存在很大差异)等问题。大数据平台在提供行业数据建模工具时一定要注意业务语义层面的需求。
以行业数据模型为基础,大数据平台提供基于图搜索技术的语义查询模型,以友好的方式支撑设备的管理和分析,以风机为例,如图1-5所示。叶片断裂后,整机制造商的运维主管想要查看并确认是否为叶片批次问题(即与当前风机使用同一批叶片的风机的近期机舱加速度是否正常)。在基于图搜索技术的语义查询模型的支持下,应用开发者无须编写复杂的表间关联语句,大大减少了应用开发的工作量。
图1-5 基于图搜索技术的语义查询模型(以风机为例)
2)工业知识图谱
在设备运维中,除了设备基础数据,通常还存在大量设备故障记录、设备维修过程记录等非结构化数据。这些记录中包含大量故障征兆、排查方法等经验知识,对后续的设备运维来说,具有很高的借鉴和指导价值。通用的文本分析缺乏行业专有名词(专业术语、厂商、产品型号、量纲等)和语境上下文(典型工况描述、故障现象等),导致分析效果欠佳。需要构建特定领域的工业知识图谱,并将工业知识图谱与结构化数据图语义模型融合,以使查询更灵活。
3)工业大数据分析模型的低代码开发与非侵入式并行
通过丰富的分析算法库和可视化分析建模环境,可以实现低代码开发,能够大大降低工业大数据分析的技术门槛。基于非侵入式并行技术,大量的现有分析模型资产可以通过低代码方式迁移到大数据环境中,使开发效率提高数百倍。执行引擎采用MapReduce、Spark、Flink等主流并行计算框架、分组识别和匹配技术、非侵入式封装技术等,能够高效处理海量数据,实现敏捷的工业大数据分析。
大数据平台也需要支持已有分析模型的快速成熟。很多工业企业积累了不少单机分析模型(如Matlab、Python、R等),但缺乏在大数据集上的验证工作。经典的大数据并行化分析系统要求重新编写分析程序,但其算法库(如MLlib、Mahout等)对工业分析方法(如信号处理、系统辨识等)的支持有限。在很多工业分析场景中,并行化数据通常按照有明确业务语义的字段进行分组(如风功率曲线计算按照风机、月份进行并行化等)。因此,工业大数据平台应该支持非侵入式Matlab、Python、R并行化,用户只需指定可并行化分组的数据字段,并对单机分析程序做简单适配,就可以直接在大数据平台上实现分析模型全量并行化,通过大数据的迭代去伪存真,探究海量数据背后的一般性规律,实现企业已有分析资产和实践经验的快速变现。
2. 工业大数据分析
(1)工业分析算法库:丰富的通用分析算法库能够支持更多“公民数据分析师”参与统计分析建模。专业算法库可以降低专业数据分析师解决工程领域数据分析问题的技术门槛。在专业算法上,应该特别注重时序模式算法(针对传感器数据)、工业知识图谱算法(针对日志等文本数据)及针对特定领域的算法,如旋转设备的振动分析算法、压力容器的缺陷识别算法等。
(2)机理模型、经验模型、统计学习模型的融合[4]:在不同场景中,机理模型描述物理过程的精度不同,分析模型的可靠性也不同,将分析模型与机理模型融合能够构建出可解释性更强且精度和可靠性更高的模型。
(3)工业大数据分析方法:指导工业大数据分析问题的识别、落地与执行。
3. 工业大数据治理与管控
工业大数据“用”数据,更要“养”数据。数据质量是数据价值的生命线,数据治理则是已被金融、电信、互联网等行业实践证明的主要的数据质量保障手段。调查显示,我国工业领域只有不到1/3的企业开展了数据治理,51%的企业仍在使用文档或更原始的方式管理数据。工业企业应该把数据治理放在与大数据平台建设同等重要的位置。国际数据管理协会(DAMA)提出了一系列数据质量度量标准和数据治理方法[15]。
工业大数据蕴含工业生产的详细情况及运行规律,承载了市场、用户、供应链等重要信息,是工业企业的核心机密,也是工业互联网的核心要素。因此,需要在数据存储层和运行分析工具时建立统一的安全管理机制,实现对数据的细粒度和全生命周期安全管控;模型资产等知识产权的保护应通过文件级别的高级加密标准进行加密。需要在数据安全、模型安全和系统安全等方面统一考虑系统安全架构,如图1-6所示。数据安全是关键,模型安全是必需品,系统安全是根本,最终的实现需要从技术和管理两个方面进行保障。
图1-6 系统安全架构
4. 工业大数据规划与实施
大数据规划宜采用“业务导向+技术驱动+数据支撑”的方式,客观评估技术可行性,考虑全生命周期和后续迭代,统筹规划建设,具体步骤可参考工业大数据的STEP-DO方法,如图1-7所示。
图1-7 工业大数据的STEP-DO方法
工业大数据是推进工业数字化转型的重要技术手段,需要实现“业务、技术、数据”的融合。这就要求从业务的角度审视当前改进方向;从IT(Information Technology)、OT(Operational Technology)、DT(Data Technology)等角度思考新的运作模式、新的数据平台的应用和分析需求,客观评价技术可行性;从数据的角度审视如何通过信息的融合、流动、深度加工等手段,全面、及时、有效地构建反映物理世界的逻辑视图,支撑业务运作与决策。