半岛官网挖掘知识图谱中不同长度规则的可微规则学习模型2.知识图谱由大量的事实三元组构成,其存储了结构化的人类知识。近年来,知识图谱在诸如自然语言处理半岛官方app、智能问答、推荐系统和计算机视觉等领域取得了巨大的成就。常用的知识图谱通常包含数十亿个三元组,但其中仍会存在大量的三元组缺失。因知识图谱的规模极为庞大,人工对图谱进行补全代价高昂。因此,基于知识图谱中的已知链接来自动预测缺失链接的知识图谱推理技术近年来备受关注。
3.常见的知识推理方法包括基于规则的方法和基于知识图谱嵌入的方法。基于规则的方法是基于已知的关系共现信息学习一阶逻辑规则,而基于知识图谱嵌入的方法是学习实体和关系的向量表示。
4.与基于知识图谱嵌入的方法相比,基于规则的方法具有显著优势。例如,基于规则的方法学习得到的逻辑规则是可解释的,而基于知识图谱嵌入的方法生成的向量表示则很难被人类理解。此外,基于规则的方法也可以进行归纳推理,即训练和推理阶段的实体可以是不同的。尽管如此,规则的学习是一个挑战,因为我们不仅需要学习离散空间中的一组逻辑规则,还要从连续空间中学习每个规则的置信度。为了应对这一挑战,研究人员提出了可微规则学习方法,即以端到端的方式同时学习规则的结构和置信度。
5.一个好的规则学习器应该能够挖掘出所有可能长度的规则,而现有的可微规则学习模型(drum模型和neurallp模型)都难以实现这一目标。例如,drum模型定义了一个新的关系和一个单位邻接矩阵来控制规则长度。如果新添加的关系在路径的更多步中具有较高权重,它将学习到更短的规则。但是,实验证明drum模型难以为新关系分配适当的置信度,从而难以学习不同长度的规则。neural lp模型使用注意力机制来学习不同长度的规则,但是,它在挖掘较长的规则时经常会引入错误规则。
7.本发明的目的是提供了一种挖掘知识图谱中不同长度规则的可微规则学习模型,能准确且高效的挖掘知识图谱中不同长度的规则,进而解决现有技术中存在的上述技术问题。
12.所述队长单元,与所述玩家单元通信连接,能从所述玩家单元中选择合适的玩家模块来处理对应的查询,从知识图谱中找到与所述查询对应的链式逻辑规则;
13.所述裁判单元,分别与所述玩家单元和队长单元通信连接,能对所述玩家单元找到的链式逻辑规则进行评估,得出用于所述玩家单元和队长单元改善自身挖掘单一长度规则性能的评估反馈结果。
14.与现有技术相比,本发明所提供的挖掘知识图谱中不同长度规则的可微规则学习模型,其有益效果包括:
15.由于采用玩家单元、队长单元和裁判单元相互配合,能通过队长单元从玩家单元选择合适玩家以竞赛方式从知识图谱中挖掘规则,并由裁判单元评估每个玩家和全部玩家的表现,能保证每个玩家单元挖掘单一长度规则的性能,进而能高效且准确的从知识图谱中挖掘出全部不同长度的规则。
16.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
18.下面结合本发明的具体内容,对本发明实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,这并不构成对本发明的限制。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
20.术语“和/或”是表示两者任一或两者同时均可实现,例如,x和/或y表示既包括“x”或“y”的情况也包括“x和y”的三种情况。
21.术语“包括”、“包含”、“含有”、“具有”或类似语义的描述,应被解释为非排它性的包括。例如:包括某技术特征要素(如原料、组分、成分、载体、剂型、材料、尺寸、零件、部件、机构、装置、步骤、工序、方法、反应条件、加工条件、参数、算法、信号、数据、产品或制品等),应被解释为不仅包括明确列出的某技术特征要素,还可以包括未明确列出的本领域公知的技术特征要素。
组成”表示排除任何未明确列出的技术特征要素。若将该术语用于权利要求中,则该术语将使权利要求成为封闭式,使其不包含除明确列出的技术特征要素以外的技术特征要素,但与其相关的常规杂质除外。如果该术语只是出现在权利要求的某子句中,那么其仅限定在该子句中明确列出的要素,其他子句中所记载的要素并不被排除在整体权利要求之外。
23.除另有明确的规定或限定外,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如:可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本文中的具体含义。
24.当浓度、温度、压力、尺寸或者参数以数值范围形式表示时,该数值范围应被理解为具体公开了该数值范围内任何上限值、下限值、优选值的配对所形成的所有范围,而不论该范围是否被明确记载;例如,如果记载了数值范围“2~8”时,那么该数值范围应被解释为包括“2~7”、“2~6”、“5~7”、“3~4和6~7”、“3~5和7”、“2和5~7”等范围。除另有说明外,本文中记载的数值范围既包括其端值也包括在该数值范围内的所有整数和分数。
25.术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述和简化描述,而不是明示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本文的限制。
26.下面对本发明所提供的挖掘知识图谱中不同长度规则的可微规则学习模型进行详细描述。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。本发明实施例中未注明具体条件者,按照本领域常规条件或制造商建议的条件进行。本发明实施例中所用试剂或仪器未注明生产厂商者,均为可以通过市售购买获得的常规产品。
27.如图1所示,本发明实施例提供一种挖掘知识图谱中不同长度规则的可微规则学习模型,包括:
29.所述玩家单元包括并列设置的若干玩家模块,每个玩家模块能根据输入的从知识图谱中找到不同长度规则的查询,从知识图谱中找到与所述查询对应的链式逻辑规则;
30.所述队长单元,与所述玩家单元通信连接,能从所述玩家单元中选择合适的玩家模块来处理对应的查询,从知识图谱中找到与所述查询对应的链式逻辑规则;
31.所述裁判单元,分别与所述玩家单元和队长单元通信连接,能对所述玩家单元找到的链式逻辑规则进行评估,得出用于所述玩家单元和队长单元改善自身挖掘单一长度规则性能的评估反馈结果。
的转置;为第i个关系所对应的邻接矩阵,i=1至t,t为要挖掘的链式逻辑规则的预设长度。上述模型中,所述玩家模块p
其中,为向量,表示在挖掘长度为t的逻辑规则时,第i步所对应不同关系的权重,1≤i≤t,t为要挖掘的链式逻辑规则的预设长度;w
w),所述是作为队长单元的循环神经网络的可训练参数,input是与查询q对应的嵌入向量,t是预设的链式逻辑规则的最大长度。
所述个人裁判模块,与所述玩家单元通信连接,用于对所述玩家单元的每个玩家模块挖掘其对应单一长度逻辑规则的能力进行评估,得出评估反馈结果;
所述团队裁判模块,与所述队长单元通信连接,用于对所述队长单元选择的全部玩家模块作为整体时挖掘不同长度逻辑规则的能力进行评估,得出评估反馈结果。
其中,lc是所述队长单元为选择的每个玩家模块分配不同权重的评估反馈结果;是所述裁判单元的个人裁判模块衡量所述玩家单元的每个玩家模块的评估反馈结果;是所述裁判单元的团体裁判模块衡量所述队长单元选择的全部玩家模块的评估反馈结果。
上述模型还包括:规则还原单元,分别与所述队长单元和玩家单元通信连接,能根据所述队长单元所学的权重和所述玩家单元的玩家模块p
所学的权重来恢复链式逻辑规则;其中,表示所述队长单元学习的不同长度规则的置信度,表示玩家模块p
上述的规则还原单元按以下方式根据所述玩家和队长单元所学的权重和来恢复链式逻辑规则,包括以下步骤:
设定是长度为t的规则片段构成的集合;其中,每条规则用(α,β)来表示,α是置信度,β是关系序号组成的有序列表;令δ是判断规则是否正确的置信度阈值,是关系集合;
综上可见,本发明实施例的可微规则学习模型利用玩家单元、队长单元和裁判单元相互配合,能从知识图谱中准确且高效的挖掘不同长度的规则。
为了更加清晰地展现出本发明所提供的技术方案及所产生的技术效果,下面以具体实施例对本发明实施例所提供的挖掘知识图谱中不同长度规则的可微规则学习模型进行详细描述。
如图1所示,本实施例提供一种挖掘知识图谱中不同长度规则的可微规则学习模型,该可微规则学习模型可称为mineral,适用于从知识图谱中挖掘不同长度的规则,挖掘知识图谱中规则涉及的技术内容包括:
知识图谱中的规则由规则头和规则主体组成,规则头是一个atomq(x,y),而规则主体是一组atomri(
father(b,a),wife(c,b);在该例子中,规则头为mother(c,a),规则主体为father(b,a),wife(c,b)。
知识图谱中的规则挖掘是用查询q来表示一个关系。给定一个查询q,规则挖掘的目的是学习链式逻辑规则和其对应的置信度,即:
对于每一个规则,不仅需要从离散空间中挖掘规则每一步中关系的选择,还要在连续空间中学习规则的置信度。
参见图1,本发明通过可微规则学习模型(即mineral模型),从知识图谱中同时高效挖掘所有长度的链式逻辑规则,mineral将链式逻辑规则挖掘任务视为一个比赛(competition),该可微规则学习模型由三个单元组成:玩家(player)单元、队长(captain)单元和裁判(referee)单元;其中,
,即仅有第i个元素是1、其余元素为0的向量;该玩家模块将第k个关系的邻接矩阵定义为该邻接矩阵中,位置在(i,j)的元素是1当且仅当则有:
的相对置信度,可以进一步假设然而,上述优化问题需要考虑所有可能的有序关系列表,这是一个离散优化问题,很难求解,为了解决这个问题,将上一个等式重写为:
在每个步骤中使用循环神经网络(rnn)生成权重;具体地说,mineral将每个查询定义为一个嵌入向量,然后使用嵌入向量作为循环神经网络的输入(input);在rnn的每一步中,使用一个softmax函数(即归一化指数函数)将隐藏状态映射到标准化权重。形式上,计算过程是:
其中,是一个向量,表示在挖掘长度为t的链式逻辑规则时,第i步所对应不同关系的权重,1≤i≤t,t为要挖掘链式逻辑规则的预设长度;w
(2)队长模块c:用于选择适合的玩家模块来处理特定的查询。尽管每个玩家模块都尽力将查询表示为其所属长度的链式逻辑规则,但他们的能力可能有固有限制。例如,如果一个查询不能表示为长度为2的链式逻辑规则,那么p2无论如何进行训练,都不可能很好地在该查询上表现很好。因此,如果作为多个选手的玩家模块以“团队”的身份参加比赛,则需要一个队长来将一个给定的查询分配给一个合适的玩家。
队长模块c根据每个玩家模块将一个事实判定为真的置信度(即对一个事实建模的信心)来分配权重。假设在知识图谱中存在一个事实q(e
(3)裁判模块r:用于评估玩家单元p的表现,以便玩家单元p和队长单元c能够根据裁判模块r的反馈来不断改善自己。裁判单元r由个人裁判模块r
用于评估全部玩家模块的整个团队,根据整个团队的表现来评判玩家单元和队长单元的表现。然后,玩家单元可以根据评判结果进行自我改进,队长单元可以根据该反馈优化权重分配策略。与r
本发明的可微规则学习模型使用所学的权重和来恢复链式逻辑规则。具体来说,表示不同长度链式逻辑规则的置信度,包含特定链式逻辑规则的第i步的权重信息。
invniece(b,a),inv_aunt(c,b),aunt(d,c)niece(d,a)
inv_nephew(b,a),inv_aunt(c,b),aunt(d,c)niece(d,a)
其中,inv代表逆关系,如uncle(b,a)表示b是a的叔叔,而inv_uncle(b,a)表示a是b的叔叔。
通过上表可以看出,本发明的可微规则学习模型相较之前的最佳模型neural lp和drum获得了明显的性能提升。表中mrr,h@1,h@10是三个常用的指标,其值越高代表性能越好。
本发明的可微规则学习模型以端到端的方式从知识图谱中挖掘一阶链式逻辑规则,能有效地从知识图谱中得到各种不同长度的链式逻辑规则,该模型将链式逻辑规则学习任务视为一个比赛,它的玩家单元由一组玩家模块组成,每个玩家单元挖掘出特定长度的链式逻辑规则;队长单元选择合适的玩家模块来处理每个挖掘子任务;裁判单元评估玩家模块的表现,以便玩家模块和队长模块根据裁判单元的反馈来提高自己。实验表明,在几个基准数据集上,本发明的可微规则学习模型明显优于现有的最优方法,很好的解决了现有的许多可微规则学习模型要么难以挖掘不同长度的链式逻辑规则,要么经常挖掘出错误链式逻辑规则的问题。
本实施例以本发明的可微规则学习模型从知识图谱中挖掘链式逻辑规则的过程,对其应用进行说明,包括:
给定一个包含若干事实的知识图谱数据集,将其分为一个训练集和一个验证集。利用梯度下降算法对本发明的可微规则学习模型在训练集上整体损失函数进行优化,当其在验证集上的性能稳定后,保存模型的参数;
给定一个查询,将其输入训练后的可微规则学习模型中,并利用(规则还原)中的算法还原得到所挖掘的链式逻辑规则。
综上可见,本发明实施例的可微规则学习模型,能准确、高效的从知识图谱中挖掘全部的链式逻辑规则。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。本文背景技术部分公开的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
1.计算机视觉 2.无线.计算机仿线.网络安全;物联网安全 、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用