面向领域知识图谱的安全情报关联分析技术

发表时间:2021/8/9   来源:《探索科学》2021年6月   作者:张立茹 张辉
[导读] 针对安全情报领域实体抽取不精确、实体关系标注不成熟、多语言、语义鸿沟等问题,聚焦情报挖掘的“广度”和“相关度”, 面向领域知识图谱的安全情报关联分析技术利用神经网络在实体抽取和关联分析推理的优势

中国电子科技集团公司第三十研究所  张立茹  张辉

摘要:针对安全情报领域实体抽取不精确、实体关系标注不成熟、多语言、语义鸿沟等问题,聚焦情报挖掘的“广度”和“相关度”, 面向领域知识图谱的安全情报关联分析技术利用神经网络在实体抽取和关联分析推理的优势,研究多源异构网络安全实体与属性抽取技术、基于卷积神经网络的安全情报知识图谱构建技术和网络安全情报自适应关联分析与推理评价技术,满足对需要进行跨语言、跨类型情报进行关联分析的应用场景,为面向情报数据的态势感知分析提供支撑。
关键词:知识图谱;安全情报;关联
        针对信息碎片化、关键信息隐蔽化等问题,面向领域知识图谱的安全情报关联分析技术将采集到的空间战略、产业现状、设备体系、研究热点等方向的安全情报数据为基础构建安全情报领域的知识图谱,为情报分析人员深入挖掘隐含在情报中信息提供关联分析等技术支撑。初步梳理的知识图谱实体及关系如下表所示:

       

       
        1 多源异构网络安全实体与属性抽取技术
        针对现有的实体识别算法不能实现网络安全领域个性化、精确化的实体识别问题,本项目在采集的海量安全情报数据上,以知识图谱构建框架为依据,构建安全情报的实体、属性标签,采用BiLSTM-CRF算法来进行实体与属性的识别。
        本项目提出的面向安全情报领域的BiLSTM-CRF算法将以网络空间战略、产业现状、设备体系、研究热点、威胁情报等安全情报相关的领域为划分基础,构建安全情报实体以及属性的标签体系,并结合BIO标注方法,形成实体与属性识别的标签体系。面向安全情报领域的BiLSTM-CRF算法分为三层:第一层是表示层,将每个句子表示为词向量和字向量;第二层是BiLSTM层,输入词向量和字向量到模型中的BiLSTM层,该层的输出是句子的每个词的所有标签的各自得分。第三层是CRF层,该层使用BiLSTM层的输出——每个词的所有标签的各自得分,即发射概率矩阵或转移概率矩阵,作为原始CRF模型的参数,最终获得标签序列的概率。

       

         BiLSTM层的输出是每个词的所有标签的各自得分,相当于每个词映射到标签的发射概率值。设BiLSTM层的输出矩阵为P,其中pi,j代表词wi射到tagj的非归一化概率,类比于CRF模型中的发射概率矩阵。CRF层中有一个转移概率矩阵A,Ai,j代表tagi转移到tagj的转移概率。对于输入序列X=(X1,X2,…,Xn)将得到一个预测tag的序列 Y=(y1,y2,…,yn),定义分数为

         (公式12)

        其中Pi,yi为第i个位置softmax输出为yi的概率,Ayi,yi+1为从yi到yi+1的转移概率,当tag个数为n的时候,转移概率矩阵为(n+2)*(n+2),因为额外增加了一个开始位置和结束位置。这个得分函数S就很好地弥补了传统BiLSTM的不足,因为当一个预测序列得分很高时,并不是各个位置都是softmax输出最大概率值对应的tag,还要考虑前面转移概率相加最大,即还要符合输出规则(B后面不能再跟B),比如假设BiLSTM输出的最有可能序列为BBIBIOOO,那么因为我们的转移概率矩阵中B->B的概率很小甚至为负,那么根据s得分,这种序列不会得到最高的分数,即不是可能的输出序列。
面向安全情报领域的BiLSTM-CRF算法需要训练的参数为:(1)BiLSTM中的参数;(2)转移概率矩阵A。对于每个训练样本X,求出所有可能的标注序列y的得分S(X,y),对所有得分进行归一化: 
                      

          面向安全情报领域的BiLSTM-CRF算法的目标就是最大化上式,对上式取负然后最小化,采用梯度下降优化方法来求解参数。在这个过程中,计算最大化真实标记序列的概率,也就训练了转移概率矩阵A和BiLSTM中的参数。
面向安全情报领域的BiLSTM-CRF算法训练完,可根据训练好的参数求出所有可能的y序列对应的s得分,然后取 :       (公式15)
做为预测的结果,以得到抽取的实体信息。
采用CRF层可以限制一些不合理的格式输出,如句子的开始单词的标签类型应该是B或O,而不是I。面向安全情报领域的BiLSTM-CRF算法中CRF层侧重考虑tag之间的依赖关系信息,LSTM层侧重考虑的是输入序列X的上下文信息,以提高实体以及属性识别的准确率。
        4.2 基于卷积神经网络的安全情报知识图谱构建技术
        识别出文本中的实体以及属性后,为建立面向安全情报领域的知识图谱需识别出实体间的关系。面向安全情报领域的实体关系将有其自身的特点,本项目将代码引入安全情报知识图谱的构建,代码与实体间可能存在"使用(如实体为黑客组织)”“设计(如实体为代码的作者)”等关系,故在知识图谱的构建过程中需要体现这些关系。
        现有的有监督学习关系抽取方法已经取得了较好的效果,但它们严重依赖词性标注、句法解析等自然语言处理标注提供分类特征,而自然语言处理标注工具往往存在大量错误,这些错误将会在关系抽取系统中不断传播放大,最终影响关系抽取的效果,另外标注数据的质量也决定了关系识别算法的准确率。故本项目将多示例学习引入递归神经网络框架中以解决少量标注数据下的安全情报关系抽取问题。
        多示例学习可以被描述为:假设训练数据集中的每个数据是一个包(Bag),每个包都是一个示例(instance)的集合,每个包都有一个训练标记,而包中的示例是没有标记的;如果包中至少存在一个正标记的示例,则包被赋予正标记;而对于一个有负标记的包,其中所有的示例均为负标记(这里说包中的示例没有标记,而后面又说包中至少存在一个正标记的示例时包为正标记包,是相对训练而言的,也就是说训练的时候是没有给示例标记的,只是给了包的标记,但是示例的标记是确实存在的,存在正负示例来判断正负类别)。通过定义可以看出,与监督学习相比,多示例学习数据集中的样本示例的标记是未知的,而监督学习的训练样本集中,每个示例都有一个已知的标记;与非监督学习相比,多示例学习仅仅只有包的标记是已知的,而非监督学习样本所有示例均没有标记。但是多示例学习有个特点就是它广泛存在真实的世界中,潜在的应用前景非常大。
        本项目将递归神经网络的关系抽取模型扩展到远程监督数据上,并提出使用多实例学习来改进原始的远程监督方法。基于递归神经网络的关系抽取算法首先对句子进行句法解析,然后为句法树上的每个节点学习向量表示,通过递归神经网络,可以从句法树最低端的词向量开始,按照句子的句法结构迭代合并,最终得到该句子的向量表示,并将其用于实体间的关系分类。

       
        引入多实例学习的方法建立的基于递归神经网络学习框架将实体对对应的有噪音的句子进行过滤,然后利用所有有效句子进行学习和预测,该方法能够根据特定关系为实体对的每个句子分配权重,通过不断学习能够使有效句子获得较高的权重,而有噪音的句子获得较小的权重,模型如图所示。以实体对为单位,对于每个实体对只考虑最能反映其关系的那个句子。该方法无需依赖复杂的特征工程以及领域专家知识,具有很强的泛化能力,能够有效地考虑句子的句法结构信息。
        在抽取的实体和关系的基础上可以构建安全情报领域的知识图谱,为安全情报的关联分析提供数据支撑。
        以黑客组织为例,形成的知识图谱包含的实体类型部分示例如下表所示。

       

       

以黑客组织为例,形成的知识图谱包含的实体关系部分示例如下表所示。

       
        4.3 网络安全情报自适应关联分析与推理评价技术
        (1)多语种网络安全情报自适应关联分析技术
        针对关联分析中的多语言、语义鸿沟等问题,采用机器学习与专家系统相结合方式构建网络安全情报自适应关联分析框架。
        首先,在人工标注一些关联分析规则作为种子训练集,在构建的知识图谱的基础上,采用弱监督学习算法Bootstrapping算法实现关联分析规则的自动扩展。Bootstrapping过程形式化描述为:
        对于给定的任务,选取特定的有指导的训练分类模型的方法。然后需要两个数据集,一般是少量的标注数据集L和未标注的数据集U。然后逐步通过未标注的数据集U来扩大标注的数据集。从而训练出最终的分类器实现具体的处理任务。
        故本项目将人工标注少量的关联分析规则数据集L,同时在建立的知识图谱的基础上形成大量的未标注的关联分析数据集U,通过弱监督学习算法Bootstrapping算法度量未标注的关联分析数据集U的正确性,实现关联分析规则的自动扩展。Bootstrapping算法通过两个主要的过程实现的,首先是提供一个人工标注少量的关联分析规则数据集L,并该标注数据训练分类器;其次是对分类器产生的新的标注语料进行评价,通过评价来获得置信度较高的标注数据,在迭代训练新的分类器,对未标注的数据进行分类,通过迭代就可以获取到更大的标注数据。迭代终止条件是给定一个迭代次数的阈值,或者时产生新的标注数据的数目过少等。Bootstrapping算法过程如下:
        ① 使用已经标注的数据集L,应用支持向量机构建分类器h,h的作用主要是用于标注未标注数据集中的标注分类;
        ② 使用h对U进行标注分类目的是从U中获取到标注的数据;
        ③ 在②中获取的标注数据中选择置信度较高的数据作为标注数据加入到标注数据集;
        ④ 重复上述过程直到满足迭代结束条件。
        标注的、具有较高置信度的关联规则可直接用于关联关系分析,挖掘情报数据中的深层次的信息。
       为解决多语言、语义鸿沟问题,本项目将对建立的人工标注关联分析规则数据集L进行扩展,扩展从两个方面展开:一是跨语言层面;一是语义层面。而对于新标注的置信度较高的关联分析规则也会进行这两方面的扩展,以实现跨语言的、语义的安全情报关联分析。
        (2)网络安全情报推理评价技术
        网络安全情报推理评价技术将关联分析的结果进行推理评价,为情报分析人员展示关联分析结果的置信度,并且具有较高置信度的关联分析结果可用于知识图谱信息的扩展。
        针对关联分析的结果本课题将建立知识正确性的推理规则。并使用这些推理规则来验证或评价关联分析的结论是否正确。推理规则将分为正推理规则和逆推理规则,正推理规则用于表明正确的关系,关联分析结果满足正推理规则,则认为结果是正确的;负推理规则用于表示不可能出现的关系,类似的关联分析结果将被认为是无效的关联结果。

投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: