中国索引(第七辑)
上QQ阅读APP看书,第一时间看更新

基于知识图谱的智能索引技术研究*

张思龙1 蒋 瑛2 王兰成1,2

(1国防大学政治学院军事信息与网络舆论系 上海 200433)

(2国防大学政治学院图书情报与档案管理博士后流动站 上海 200433)

摘 要 大数据环境下知识图谱相关研究比较前沿,智能索引技术也是热门研究领域。本文介绍了知识图谱和智能索引技术的现状,分析了智能索引编制的一般过程,结合文档预处理、知识图谱构建、索引词表转换和检索等技术细节讨论了智能索引技术的实现过程。通过介绍知识图谱概念及在智能索引研究的应用,以期对GB T22466-2008《索引编制规则(总则)》修订等相关研究工作提供参考。

关键词 智能索引 索引技术 知识图谱 大数据

一、引 言

随着计算机、信息技术、网络技术的发展,人们创造和利用数据的能力不断攀升,全球范围内数据体量迅速增长,当今世界已进入大数据时代。在天文、生物基因、海洋研究、大气研究、气象研究等科学领域,金融、社交网络、智慧交通、民生工程等社会生活领域,大规模电子商务等商业领域,大数据无处不在,每天都在不断产生新的数据。2018年我国大数据产业规模突破6 000亿元,随着大数据在各行业的融合应用不断深化,预计2019年我国大数据市场产值将达到8 080亿元。2019年包括数据挖掘、机器学习、产业转型、数据资产管理、信息安全等大数据技术及应用领域都将面临新的发展突破,成为推动经济高质量发展的新动力。① 大数据时代,结合计算机、网络技术、人工智能、知识图谱等前沿技术,智能索引以及分析型数据库对海量数据的自由计算和极速响应能力,能让用户灵活找寻数据,快速发现数据价值。索引作为一种全新的思维方式,正在成为帮助人们快速在大数据中找到需要的方法和素材的直接工具。① 2008年1 1月3日中国索引学会主持编制的GB/T22466—2008《索引编制规则(总则)》颁布,作为中国索引编制工作的重要指南,对中国索引编制工作发挥了重要作用。经过十余年的发展,中国索引人不断创新出新的成果,也需要将这些成果深化到索引编制规则中去。

二、知识图谱简介

知识图谱的基本元素是概念以及概念与概念之间的关系,其本质是一个语义网络。目前互联网上的大部分信息都是让人阅读的,而不是面向机器的,即其内容的设计都是以人的理解为基础的,计算机程序是不能自动处理的。为了扩展万维网,使其能够表达可被计算机所理解的语义信息,语义网应运而生。基于语义网,2012年5月,谷歌发布了知识图谱,并借助知识图谱改进搜索引擎效果,给用户直观准确的检索体验,从此知识图谱应用的发展迎来一个爆发期。知识图谱以图的形式存储知识,通过资源描述框架(Resource Description Framework, RDF)三元组形式组织知识。知识图谱提供了一种直观的方式观察真实世界中的关系网络,真实世界中的各种事物被抽象为图中的一个个节点,而各种事物的相互关系则被抽象为节点间的连线。谷歌最先将知识图谱应用于其搜索业务的优化,与传统的利用关键词搜索相比,利用知识图谱可以识别用户输入文本中的语义,发现信息中的实体和隐含联系,从而提供更高质量的搜索,用户不必浏览大量网页就可以准确定位和深度获取知识。②

知识图谱在逻辑结构上分为数据层和模式层。在数据层中,知识以“实体—关系—实体”或“实体—属性—值”三元组的形式存储。模式层是对知识进行的规范整合,因本体库可以对规则、约束进行定义从而实现知识的规范化,所以常用本体库对模式层进行管理。③

知识图谱是一种知识组织方式,或者称之为知识库。知识图谱一般可分为通用领域知识图谱、垂直领域知识图谱和跨语言知识图谱等。通用领域知识图谱面向的是常识通用领域,包含大量的常识性知识,类似与百科全书式的知识库,典型代表国外有“DBpedia”“YAGO”“Freebase”等,国内有“百度知心”“搜狗知立方”等。垂直领域知识图谱主要针对某一特定领域,其构建更加专业化,典型代表有百万级数据量的电影资源数据库Linked Movie Database以及地理知识领域知识图谱Geonames等。

三、索引与智能索引技术

1.索引的概念

索引是按一定的系统组织起来的记录和指引文献事项或单元知识的检索工具。索引实现了对文献收集、标引、著录以及有序化存储。索引类似于字典可以通过拼音或偏旁来查找字的页码,索引可以根据关键词快速查找到对应的文档所在的位置。《辞海》对“索引”一词的解释为,“将图书、报刊、资料中的各种事物名称分别摘录,或加注释,记明出处页数,按字顺或分类排列,附在一书之后或单独编辑成册,称为索引。”

索引的目的是要提高信息查询和检索的速度,在计算机发明之前,索引的思想就已经深入我们的生活,索引方便我们快速查找到我们需要的事物和信息,因此在计算机技术以及数据库技术出现以后,数据库上的索引技术也应运而生,并蓬勃发展。张琪玉教授曾指出“现代的索引就是数据库”的观点。① 当前大数据时代,云计算、大数据处理、人工智能等新兴领域对索引编制的要求越来越高,索引研究的范畴和领域也越来越广。当前索引研究工作主要集中在基础理论、信息检索服务、索引事业和前沿领域的索引创新等方面,尤其在地方志索引编制、智能科技检索服务、数据库、互联网、大数据索引研究等方面具有长足发展。

2.大数据时代的智能索引

大数据时代,索引对于特定数据或信息的检索起到至关重要的作用,智能索引是人工智能技术在信息组织与检索领域的一个重要的应用。大数据时代面临的最大挑战是数据体量的极大增长,尤其是海量的文本、视频、音频数据等非结构化数据来源的显着增加。这就带来了大数据管理的两个问题,一是无法及时全面地评估数据的价值,难以确定合适的数据保留和删除策略,造成大量活动数据和非活动数据存储的极大压力;二是随着数据量的爆炸式增长,业务系统数据量可以达到上千万、上亿的规模,需要查询某个数据或信息时会变得十分困难。一般的,文件系统管理员通过元数据定位文件,元数据是描述数据文件基本特征的数据,如何组织和索引海量元数据是大数据时代智能索引研究的一个重要问题。一种方法是创建一个全局统一的文件系统,通过高级元数据进行集成搜索,这种高级元数据能够理解活动和非活动的数据,并提供给用户元数据语义检索功能。通过元数据可以为形态不同的资源集合和数字化信息单元做规范的保存、描述、保护、确认、管理和检索,选择适当的元数据标准以及表示资源属性的修饰词和元素也是构建数据库及其索引的重要步骤。①

另外,索引作为一种全新的思维方式引入大数据时代,是帮助我们快速找到大数据开发需要的方法和素材的直接工具。智能索引借助数据挖掘、知识图谱、人工智能的技术优势和索引的思维优势,可以有效解决当前大数据管理中的存储、组织、索引和检索问题。依靠数据挖掘中的数据分类、聚类和关联方法,实现大数据中语言特征、关键词特征、用户行为特征、事件特征等多个维度的特征提取,这些特征都可用于智能索引的辅助;知识图谱是概念、实体、属性和关系的知识库,通过知识图谱的分析,可以实现“索引——关联数据”的关键突破;人工智能技术虽然无法让计算机创造概念,但它一定程度上可以辅助索引工作者发现新概念以及概念之间的各种关联,并不断完善数据挖掘的算法和知识图谱的知识库。

3.智能索引编制的一般过程

智能索引编制是现代信息组织与检索中的一个关键环节,涉及多种信息技术,可以概况为以下过程,如图1所示。

图1 智能索引编制的一般过程

编制索引时,数据预处理发挥很大作用,一方面,要提取文档的元数据,即描述文档特征的数据,比如文档URL、文档编号、文档的作者、成文日期、发表平台等,这些将作为重点标引内容;另一方面,对文本进行分词处理,对语气词等停用词进行过滤,对特征词进行词性标引,对文档进行向量化处理等。一般而言,名词比形容词、副词等词的标引意义要大。所以对待处理文档要分析出哪些是名词,以及对名词的限定词进行记录。这样实现从词性上对索引词进行预判断,缩小标引范围。另外,要实现智能索引,还需要在自动标引的基础上判断词的上下位关系,初步判定相关词、同类词,为每一个特征词计算特征权重等,在技术上保证用户自然语言表达的需求和相关资源匹配,当前自动分词和词性标注一般基于词表或机器学习,相关公开的算法和工具较多。

构建知识图谱的第一个环节是知识抽取,其目的是从多种数据源中抽取得到知识单元。半结构化和非结构化数据中,因其规范性差一般难以直接识别知识,所以知识抽取需要命名实体识别、实体关系识别和属性抽取等技术步骤。命名实体识别是指通过自动化手段从文本中识别具有特定含义的一类实体概念的技术,也称为实体抽取。命名实体识别的准确性直接决定了关系识别的质量,影响到知识图谱构建的后续环节,因此是整个知识抽取中最重要的地方。从文本中抽取出实体信息,构成的知识图谱只是一系列独立的节点,还需要识别实体间的关系,构建实体与实体关联的边,才能形成完整的知识网络。属性抽取的目的是从数据中采集和实体相关的属性信息以充实实体,完成对实体的勾画。如对员工属性抽取时,需要抽取其姓名、性别、年龄、职务、所在单位等。而换一种角度看属性,可以认为是实体与其他实体间的一种关联关系,比如雇员与其雇佣单位存在雇佣关系等,因此属性抽取问题也可以当作关系抽取问题处理。

从半结构化和非结构化的数据中抽取的知识一般不能直接应用。主要原因在于存在信息冗余,同时信息独立,没有层次化的知识结构关联。因此,需要通过知识融合对抽取的知识进行整理。知识融合过程涉及的关键技术有实体对齐和知识合并。实体对齐技术用于处理实体名称不同,但在现实中表示同一个实体概念的问题,最终在知识图谱中需要将这些表达同一个含义的实体合并为一个唯一实体。例如“中国”和“中华人民共和国”虽然表现不同,却该归并到同一个实体对象。目前针对互联网上的多源异构数据,多采用聚类的方法实现实体对齐,将某些指标上具有较高相似度的实体归并在一起,或者文本相似的实体、具有相同或相似的描述文本的实体、属性相似的实体、具有相同的属性名和属性值对的实体、结构相似的实体等。

知识融合后还需要进行知识处理,以保证抽取的知识符合知识图谱的规范。一般使用本体作为实体和关系表达的规范说明,本体是能在语义和知识层次上描述客观世界的概念模型。本体以树状结构存储,相邻层次的节点之间有严格的包含关系。在知识图谱中,本体位于模式层,作为描述知识的概念模板。一般流程是先计算实体相似度进行归类,然后确定实体上下位包含关系,最后生成本体。

通过构成的知识图谱可以对文本特征词进行合并,比如“中国”和“中华人民共和国”进行合并,选择规范化的词语作为索引词。规范化词语可以参考主题词表等各种索引工具。使用规范化索引词有利于精简索引词表,提高索引词表的准确性,利用知识图谱中词的上下位关系扩展索引词语义,从而实现语义检索。

四、基于知识图谱的智能索引的技术实现

1.文档预处理技术实现

文档预处理主要进行分词和词性标注。目前,自动分词和词性标注工具比较多,国内高校科研院所研究用得比较多的有北京理工大学张华平团队开发的中文分词系统(NLPIR),又名中科院分词系统,是国内非商用软件中分词效果比较好的。NLPIR系统功能丰富,目前已经包含了自动分词、词性标注、全文检索、新词发现、统计分析、术语翻译、大数据聚类与热点分析、大数据文本过滤、自动摘要、关键词提取、文档去重、HTML正文提取、编码自动识别与转换等功能。文档预处理中特征词的提取主要采用TF-IDF算法进行权重分析,提取文档中的TF-IDF值排名靠前的作为文档特征词(比如部分索引可以限定为前50%,全文索引则限定为前100%)。

2.知识图谱的构建

知识图谱对命名实体进行识别,并抽取实体的属性和实体间的关系。在索引编制的过程中,需要本体的参与,本体是关于领域知识概念化、形式化的明确规范,是对领域知识共同的理解与描述,通过本体可以很好地解决知识图谱中的语义描述和二义性问题。所以知识图谱构建中最重要的是本体的构建。本体主要类别有:命名实体,包括人名、组织机构名、地名、度量单位、日期;事实性知识,包括专业性经验、研究、家庭关系、个人关系、事件关系、组织关系等;事件,包括会议、运动、暴力行为、定罪、任命、逮捕等。对象的属性描述了实体之间的关系,比如个人或组织机构的地址、事件发生的日期或者时间。最后,数据类型属性是文本型,描述了命名实体包括名字、类型和值等。这里,以“南海问题新闻资料”索引研究为例,构建“南海问题新闻资料”本体类,如图2所示。

图2 “南海问题新闻资料”本体类

新闻数据主要来源于新华网、新浪网、今日头条等新闻网站,新浪微博、微信等社交媒体,围绕关键词“南海问题+南海争端+南海仲裁”通过网络爬虫、新浪微博API、搜狗微信搜索对相关平台数据进行采集。获取相关新闻资料,以事件过程、涉及国家、涉及岛屿和各方观点为需求,对新闻数据进行处理和分析。针对“南海问题新闻资料”,相关国家包括中国、菲律宾、美国纳入国家类库,涉及岛礁黄岩岛、美济礁、仁爱礁和渚碧礁等纳入岛礁类库,对此事件报道的新华网、新浪网、微博、微信等纳入媒体类,如图3所示。

图3 “南海问题新闻资料”本体库相关实体

3.索引词表的转换和检索

索引词表基于不同的索引策略采用不同的设计方案,比如有倒排索引、正排索引、部分索引和全文索引等策略,索引词表对应有不同设计。比较常用的是倒排索引,倒排索引保存一个索引词和具有该索引词的文档的地址,由于不是由文档来确定索引词,而是由索引词来确定文档的位置,因而称为倒排索引。倒排索引便于根据索引词查询快速定位文档位置。

知识图谱构建过程中对同义词和近义词进行了合并处理,比如对其中出现的“中国”“中华人民共和国”进行合并,在索引词表转换中也需要将“中国”“中华人民共和国”的索引项进行合并。比如原始索引词表“中国:文档1,文档2”“中华人民共和国:文档2,文档4”,那么合并后就是“中国:文档1,文档2,文档4”“中华人民共和国:文档1,文档2,文档4”。

在实际应用中被合并的索引项还需不需要在索引词表中列出,还需要根据检索策略来定。如果检索策略中,用户输入的待检词,检索系统会基于知识图谱自动扩展和修正检索词时,就可以将合并的索引项去除。比如这里用户输入待检词“中华人民共和国”,系统自动修正检索词为“中国”,则不论“中华人民共和国”在不在索引项中,都会被检索到。

五、结束语

现代智能索引技术发展到了一个新的阶段,在知识图谱、人工智能、大数据和机器学习等技术推动下不断趋向成熟。本文介绍了知识图谱和智能索引技术的现状,分析了智能索引编制的一般过程,并结合文档预处理、知识图谱构建、索引词表转换和检索等技术细节讨论了智能索引技术的实现过程,为 GB T22466 2008《索引编制规则(总则)》修订等相关研究工作提供了参考。索引作为一种全新的思维方式,在大数据时代会产生更多新的功能。计算机虽然无法创造概念,但借助于计算机智能信息技术,可以更好地辅助索引工作者不断推陈出新,不断提出新理念、新概念。

张思龙 男,在读博士研究生,国防大学政治学院军事信息与网络舆论系讲师,研究方向:计算机情报分析、网络舆情监测、政工信息化。

蒋 瑛 女,博士后,国防大学政治学院军事信息与网络舆论系副教授,硕士生导师。研究方向:信息管理,信息分析。

王兰成 男,国防大学政治学院军事信息与网络舆论系教授,博士研究生(博士后)导师,研究方向:智能索引,计算机情报分析,网络舆情监测。

Intelligent Index Technology Based on Knowledge Graph

Zhang Silong Jiang Ying Wang Lancheng

Abstract: In big data environment, the knowledge graph and intelligent index technology are advanced and popular.This paper introduced the research status of knowledge graph and intelligent index technology, analyzed the general process of intelligent index compilation, and described the implementation process of intelligent index technology combined with the technical details of document preprocessing, knowledge graph construction, index vocabulary conversion and retrieval.This paper aimed to provide reference for the revision of index standards and guidelines.

Keywords: Index Technology; Intelligent Index; Knowledge Graph; Big Data