“
崔万云
复旦大学知识工场实行室博士生
研究方向为问答体系和知识图谱
第5节复杂题目答复
这一节具体叙述怎样回复兴杂题目。起首第5.1.节将题目情势化为一个最优化题目。第5.2.节和第5.3.节分别叙述优化量度和算法。
5.1.题目报告
本节偏重关注由一系列BFQ构成的复杂题目,比方表1.1中的题目○f可以被分解为两个BFQ:(1)BarackObama’swife(MichelleObama);(2)WhenwasMichelleObamaborn?(1964年)。显然,第二个题目的答案依靠于第一个题目的答案。在解复兴杂题目时,分而治之框架可以天然而然地被利用:(1)体系起首把题目分解为一系列BFQ,(2)然后体系依次答复每个题目。既然在第3节已经给出了怎样答复BFQ,那么这一节中的关键步调就是题目分解。
必要夸大的是,在一个题目分解的序列中,除了第一个题目之外的每个题目都是一个具有实体变量的题目。只有当变量被指派到一个特定实体之后,题目序列中的题目才华被具体化,而这个特定实体也就是前一个题目的答案。回到之前的例子中去,第二个题目WhenwasMichelleObamaborn?在题目序列中是Whenwas$eborn?。在这里,$e作为一个变量来代表第一个题目BarackObama’swife答案。从而当给定一个复杂题目q后,体系必要将其分解为由k个题目形成的序列A=(qˇi)ki=0,使得:
每个qˇi(i0)都是一个有实体变量ei的BFQ,其值为qˇi?1的答案。
qˇ0是一个BFQ,着实体便是q的实体。
例5.5(题目序列)思量表1.1中的题目○f。一个天然题目序列是qˇ0=BarackObama’swife和qˇ1=whenwas$e1born?体系也可以更换恣意一个子串来构造题目序列,诸如qˇ′0=BarackObama’swifeborn和qˇ′1=Whenwas$e?。但由于qˇ′0既不是一个可答复的题目也不是一个BFQ,以是后者是无效的。
给定一个复杂题目,体系用递归的方式构造一个题目序列。体系起首用一个实体变量来更换一个子串。假如这个子串是可以被直接答复的BFQ,使它为q0。否则对子串重复以上步调直到得到一个BFQ大概子串是一个单独的词汇。然而,正如例5.5所示,很多题目分解是不可行的(或不可答复的)。因此,体系必要度量一个分解的序列有多大大概被答复。更情势化地,使A(q)成为q全部分解大概的聚集。对于一个分解A∈A(q),规定P(A)为A是有效(可答复)题目序列的概率。从而题目被简化为:
接下来的第5.2.节和第5.3.节将分别叙述对P(A)的估计以及怎样有效求解最优化题目。
5.2.度量标准
根据直觉,假如题目序列A=(qˇi)ki=0中的每个题目qˇi都是有效的,那么该序列是有效的。因此,必要起首估计P(qˇi)(qi是有效的概率),然后将每个P(qˇi)合起来来盘算P(A)。
算法用QA语料库来估计P(qˇi)。qˇ是一个BFQ。假如可以通过将q的一个子串更换为$e得到qˇ,那么以为题目q与qˇ是匹配的。本节称匹配是有效的,当被更换的子串是q中的实体时。比方WhenwasMichelleObamaborn?匹配whenwas$eborn?和whenwas$e?。但是,只有前者是有效的由于只有MichelleObama是一个实体。本节用fo(qˇ)来表现QA语料库中匹配qˇ的全部题目的数量,用fv(qˇ)来表现有效匹配qˇ的题目数量。
fv(qˇi)和fo(qˇi)都从QA语料库得到计数。如许算法估计P(qˇi)为:
这个式子显着是公道的:匹配数越多,qˇi可答复的大概性越大。fo(qˇi)被用来处罚过于笼统的题目样式。下面给出一个P(qˇi)的例子。
例5.6.令qˇ1=Whenwas$eborn?,qˇ2=Whenwas$e?,QA语料库如表5.2所示。显然,q1满意qˇ1和qˇ2的样式。但是,由于只有当q1匹配qˇ1时,被更换的子串才对应一个有效实体“BarackObama”,因此只有q1是qˇ1的有效样式。从而得到fv(qˇ1)=fo(qˇ1)=fo(qˇ2)=2。且有qˇ0≡0。由式5.26,P(qˇ1)=1,P(qˇ2)=0。
对于每个给定的P(qˇi),界说P(A)。假设A中的每个qˇi有效是独立变乱。则当且仅当题目序列A中全部qˇi有效时,该序列有效。以是P(A)可以盘算如下:
5.3.算法
给定P(A),算法的目标是找到使P(A)最大的题目序列。由于搜刮空间巨大,因此这步不能忽略。思量一个长度也就是字数为|q|的复杂题目q。q中共有O(|q|2)个子串。假如q终极被分解为k个子题目,那么总搜刮空间为O(|q|2k),这是不能被担当的。本节提出一个基于动态规划的方法来求解最优化题目。该方法复杂度为复杂度为O(|q|4)。方法利用了最优化题目的局部最优解性子。定理5.7证明白这个性子。
定理5.7(局部最优解)对于复杂题目q,令A*(q)=(qˇ*0,...,qˇ*k)是q的最优分解,则?1≤i≤k,?qi?q,A*(qi)=(qˇ*0,..,qˇ*i)也是qi的最优分解。
基于定理5.7,可以得到一个动态规划(DP)算法。思量q中的一个子题目qi是(1)一个初始BFQ(不可分解)或(2)一个可被进一步分解的题目串中的此中一个。对于情况(1),A*(qi)包罗一个元素也就是qi本身。对于情况(2),A*(qi)=A*(qj)?r(qi,qj),此中qj?qi有最大P(r(qi,qj))P(A*(qj)),r(qi,qj)是通过将qi中的qj用一个占位符“$e”更换而天生的题目。从而得到动态规划方程:
此中δ(qi)是决定q1是否为初始BFQ的指示函数。也就是说,当qi是初始BFQ或δ(qi)=0时,δ(qi)=1。
算法2形貌了动态规划算法。算法在外层循环(第1行)中罗列q的全部子串。在每个循环中,算法起首初始化A*(qi)和P(A*(qi))(第2-4行)。在内层循环中,算法罗列qi的全部子串qj(第5行),然后更新A*(qi)与P(A*(qi))(第7-9行)。留意到算法按照长度升序罗列全部qi,这确保了通过每个被罗列的qj,可以知道它们的P(A*())和A*()。
由于每个循环罗列O(|q|2)个子串,从而算法2的复杂度为O(|q|4)。在实行的QA语料库中,高出99%的题目字数少于23个(|q|23),因此如许的复杂度是可以担当的。
第6节属性扩展
在知识图谱中,很多关系不是由一个直接属性表达的,而是由一条由很多属性构成的路径表现的。正如图1.1所示,在RDF数据库中,“spouseof”关系是由三个属性marriage→person→name表达的。本章称这些多属性的路径为扩展属性。利用扩展属性来答复题目可以高效提拔KBQA的覆盖率。
界说5.8(扩展属性)一个扩展属性p+是一个属性序列p+=(p1,...,pk)。本章把k称为p+的长度。假如存在一个宾语序列s=(s1,s2,...,sk)使得?1≤ik,(si,pi,si+1)∈K且(sk,pk,o)∈K,则说p+毗连了主语s和宾语o。正如(s,p,o)∈K表现了p毗连了s和o,这里将p+毗连s和o记作(s,p+,o)∈K。
第3节中提出的KBQA模子可以充实顺应属性拓的题目。体系只必要一些轻微的调解就可以使得KBQA对扩展属性有效。第6.1.节展示了这种调解。第6.2.节展示了怎样使得它对十亿级别的数据库有效。末了,第6.3.节中展示了怎样选择一个公道的属性长度来包管最高的服从。
6.1.对扩展属性的KBQA
上文曾提到,对单一属性的KBQA由两大部分构成。在离线部分,体系盘算对给定模板的属性分布P(p|t);在线上部分,体系抽取题目的模板t,然后通过P(p|t)盘算它的属性。当把p更换成p+之后,体系做了如下调解:
在离线部分,体系学习了对扩展属性的题目模板。比方盘算P(p+|t)。P(p+|t)的盘算仅仅只要知道(e,p+,v)是否在K中。假如体系天生了全部的(e,p+,v)∈K,就可以盘算这一存在性。第6.2.节展示了这一天生过程。
在线上部分,体系用扩展属性来答复题目。体系可以通过RDF数据库中的e到p+来盘算P(v|e,p+)。比方,让p+=marriage→person→name,为了从图1.1中的数据库来盘算P(v|BarackObama,p+),体系从节点a开始遍历,然后颠末节点b和c,末了得到了P(MichelleObama|BarackObama,p+)=1。
6.2.扩展属性的天生
一个简单的天生全部的扩展属性的方式是对数据库中的每一个节点举行广度优先搜刮(BFS)。然而,扩展属性的数量随着属性的长度指数级增长。以是当数据量到达十亿级别的时间,BFS的开销是无法遭受的。
为了实现扩展属性的天生,体系起首对属性的长度k设置了限定来提拔延展性,也就是说,它只搜刮长度小于便是k的扩展属性。下一个末节会展示怎样得到一个符合的k。本节通过别的两个方面来提拔延展性:(1)s的约减;(2)内存高效的BFS。
s的约减:离线处理惩罚的过程只对在QA语料库中出现过至少一次的s有爱好。因此,体系只用那些在QA语料库中的题目中出现过的宾语作为BFS的起始节点。这一战略很洪流平上镌汰了天生的(s,p+,o)的数量,由于这些实体的数量比起在十亿级别数据库中的要少得多。在体系利用的数据库(15亿实体)和QA语料库(79万差别实体)中,这一过滤战略理论上可以镌汰(s,p+,o)的数量1500/0.79=1899倍。
内存高效的BFS:为了在1.1TB巨细的数据库中利用BFS,本节利用了基于磁盘的多源BFS算法。在一开始,体系将在QA语料库(记作S0)中出现过的全部的实体读取入内存,并在S0创建了一个散列索引。第一轮中,体系通过扫描磁盘上的全部RDF三元组一次,并将三元组的主语和S0连合,我们就得到了全部长度为1的(s,p+,o)。本节创建的对S0的散列索引,答应算法在线性时间内完成这一操纵。第二轮中,体系将全部的三元组读入进内存中,然后创建对全部的宾语o创建散列索引(记作S1)。然后再次扫描RDF,并将RDF中三元组的主语和s∈S1连合。如今体系得到全部的长度为2的(s,p+,o),并将它们读入进内存中。体系重复上述的“索引+扫描+连合”操纵k次来得到全部的长度为p+.length≤k的(s,p+,o)。
这个算法非常高效,当时间斲丧重要用在了k次扫描数据库上。散列索引的创建和连合的操纵在内存中实行,时间斲丧对于磁盘上的I/O来说是可以忽略不计的。留意到从S0开始的扩展属性的数量总是比数据库的巨细要小得多,因此可以被容纳在内存中。对于实行利用的数据库(KBA,更多细节请参阅实行章节)和QA语料库,只必要存储21M的(s,p+,o)三元组。以是很轻易将他们读入内存。假设K的巨细是|K|,算法找到的(s,p+,o)三元组的数量是#spo,它斲丧了O(#spo)的内存,算法的时间复杂度是O(|K|+#spo)。
6.3.k的选择
扩展属性的长度限定k影响了属性扩展的服从。k越大,(s,p+,o)越多,导致更高的答案覆盖率。然而,这也产生了更多的偶然义的(s,p+,o)三元组。比方,图1.1中,扩展属性marriage→person→dob毗连了“BarackObama”和“1964”,但是他们显着没有关系,对于KBQA也没有效。
属性扩展必要选择一个可以或许得到最多的故意义的关系,而且打扫最多偶然义的关系的k的值。本文利用Wikipedia的Infobox估计最佳的k。Infobox存储了实体的一些知识,而且大部分条目都是以“主语-属性-宾语”的三元组的情势存储的。Infobox中的条目可以被视作故意义的关系。因此,k的选择中起首罗列一些长度为k的(s,p+,o)三元组,然后测试它们中有多少在Infobox中出现。选择过程盼望看到k值的镌汰。
特别地,实行按照它们出现的频率的次序,从RDF数据库中选择了前17000个实体。实体e出现的频率被界说为在K中存在的使得e=s的(s,p,o)三元组的数量。选取这些实体是由于他们有更多的知识,因此更值得信托。对于这些实体,利用第6.2.节中提出的BFS天生了他们的长度为k的(s,p+,o)三元组。然后,对于每一个k,盘算这些可以在Wikipedia的Infobox中找到对应的(s,p+,o)三元组的数量。更情势化地,假设E是作为例子的条目标聚集,SPOk是长度为k的(s,p+,o)∈K。界说valid(k)来度量k对于故意义的关系的数量,方法如下:
在KBA和DBpedia上得出的valid(k)的值在表5.3中展示。当k=3时,有效的扩展属性的数量明显镌汰。这阐明白大部分故意义的因素在这个长度内可以被表现出来,以是体系选择了k=3。
表5.3:valid(k)
第7节实行
第7.1.节中分析实行设置;第7.2.节验证了概率模子的公道性;第7.3.节和第7.4.节中分别评估了体系的有效性和服从;第7.5.节验证了KBQA的三个构成部分的有效性。
7.1.实行设置
KBQA体系运行在在一台装配了IntelXeonCPU,2.67GHz,2processors,24cores,96GB内存,64bitwindowsserver2008R2的服务器上。它利用Trinity.RDF[110]作为RDF引擎,这一引擎被摆设在了6台服务器上,而且一共利用了284.1GB的内存和1.5TB的磁盘资源。
数据库实行部分利用了三个开放范畴的RDF数据库。由于商用保密协议本文无法公开第一个数据库的名称,在这里称它为KBA。KBA有15亿实体和115亿SPO三元组,共占1.1TB空间。SPO三元组包罗了2658个差别的属性和1003种差别的种类。为了实行的再现性,实行也在其他两个着名的数据库Freebase和DBpedia上测试了KBQA体系。Freebase包罗1.16亿个条目和29亿SPO三元组,占了380GB存储空间。DBpedia包罗了560万条目,1.11亿三元组,占了14.2G存储空间。
QA语料库QA语料库包罗了从Yahoo!Answer上得到的4100万QA二元组。假如对于一个题目由多个答复,则只思量“最佳答案”。
测试数据实行在QALD-5[99],QALD-3[96]和QALD-1[95]上分别测试了KBQA,它们是测评基于知识图谱的问答体系计划的。这些测试数据的根本信息展示在了表5.4中。由于KBQA关注问答的BFQ,以是也展示了对于这些数据库中BFQ题目的数量(#BFQ)。
表5.4:评估标准
对比方法实行把KBQA和13个QA体系举行比力,表5.5罗列了这些体系。
表5.5:对比方法。Q5表现QALD-5;Q3表现QALD-3
7.2.概率模子的公道性
接下来实行表明为什么一个概率模子是必须的。在题目明白的每一个步调中,有些选择会给体系的决定带来不确定性,在表5.6中展示了每一个决定的候选答案数量。这种不确定性必要体系利用一个好的概率模子来表现。
举例来说,P(t|e,q)表现将一个题目和它的实体转化成模子的时间的不确定性。比如对题目HowlongitMississippiriver?来说,体系很难从一些候选项中直接决定这个实体的概念是river或是location。
表5.6:概率图模子中每个随机变量的差别取值个数
7.3.有效性
为了评估KBQA的有效性,本节举行了如下实行。对于线上部分,实行评估了答复题目的正确性和召回率。在线下部分,实行评估了属性推断的覆盖率和正确性。
7.3.1.题目答复的有效性
指标当一个QA体系发现当前题目没有答案时,它大概会返回null,以是实行对一个QA体系返回的非空(不肯定是精确答案)(#pro)的答案的数量和精确答案(#ri)的数量做了记录。然而,究竟上,一个体系只能部分精确地答复一个题目(比方,仅仅找到精确答案的一部分)。因此实行评测也必要那些部分精确的答案(#par)的数量。当KBQA找到一个属性时,题目的答案便可以从RDF数据库中被找到。因此对于KBQA来说#pro是KBQA找到的属性的数量。#ri是KBQA找到精确的属性的数量。#par是KBQA找到部分精确的属性的数量。比方,对于题目Whichcitywas$personborn?来说,“placeofbirth”是一个部分精确属性。由于它大概返回一个国家大概一个墟落,而不是题目所要找的一个都会。
如今实行部分已经界说了评估指标:正确性P,部分正确性P*,召回率R和部分召回率R*:
实行也对关于BFQ的召回率和部分召回率有爱好,分别记作RBFQ和R*BFQ:
QALD-5和QALD-3的结果表5.7和表5.8中展示了结果。对于全部的竞争者,表格直接利用了它们论文中的结果,可以发如今全部的数据库上,除了在正确性上略逊于squall2sparql,KBQA克服了其他全部的竞争者。这是为squall2sparql对于全部的题目都利用了真人来标注辨认实体和属性。别的KBQA在DBpedia上表现的最好,这是由于QALD重要是为了DBpedia计划的。对于大多数QALD中的题目,KBQA可以直接从DBpedia中找到精确的答案。
表5.7:QALD-5的结果
表5.8:QALD-3的结果
召回率分析表5.7和表5.8中的结果表明白KBQA有一个相对低的召回率。重要缘故起因是KBQA只答复BFQ(二元究竟性题目),然而QALD包罗了很多非BFQ题目。当只思量BFQ时,召回率分别上升至0.67和0.61。实行对于KBQA在QALD-3上没有答复的题目举行了研究,结果发现缘故起因很洪流平上是由于KBQA对模子匹配用了相对严苛的标准。无法答复的环境通常发生在一个希罕的属性和一个希罕的题目举行了匹配时。15个无法答复的环境中有12个是由于这个缘故起因。比方,对于题目InwhichmilitaryconflictsdidLawrenceofArabiaparticipate?,在DBpedia中这个题目的属性是battle。KBQA对于这部分属性没有充实举行练习。假如将KBQA和一个同义词QA体系连合起来,大概就会有效增长召回率率。当KBQA中发生了误匹配时,体系可以用基于同义词的QA体系的答案作为更换。这超出了本章重要讨论的内容,因此不在这里举行阐释。
QALD-1的结果实行将KBQA和DEANNA举行了比力,结果列在了表5.9中。DEANNA是基于同义词的BFQ问答体系。对于DEANNA来说,#pro是被转化成SPARQL的题目数量。结果表明KBQA的正确性比DEANNA高得多。由于DEANA是一个典范的基于同义词的QA体系,这一结果表明白基于模板的问答体系在正确性方面比基于同义词的要好。
表5.9:QALD-1的结果
7.3.2.属性推断的有效性
接着本节阐释KBQA属性推断的有效性:(1)KBQA学习了大量的天然语言的题目的模板和属性(覆盖率),(2)对大多数的模板,KBQA可以推断出精确的属性(正确率)。
覆盖率表5.10中展示了KBQA学习的模板和属性的数量,并与最新的基于同义词的Bootstrapping[107,97]举行了对比。Bootstrapping从数据库和网络文本中对属性学习了同义词(BOA式样,重要是网络文本中主语和宾语之间的部分)。BOA可以被看做是一种模板,它们之间的关系可以被看做是属性。
结果表明,纵然Bootstrapping用了更大的语料库,KBQA依然比它找到了显着更多的模板和属性。这意味着KBQA在属性推断方面更有效:(1)模板的数量确保了KBQA对差别题目的明白;(2)属性的数量确保了KBQA对于差别关系的明白。由于KBA是实行利用的最大的数据库,基于KBA的KBQA天生了数量最多的模板,以是在接下来的实行中重要关注对KBA的测试。
表5.10:属性推断的覆盖率
正确性此评测的目标是评估对于一个给定的模板,KBQA是否能天生精确的属性。为了这个目标,实行按照出现频率选择了最高的100个模板。实行也随机选择了100个频率大于1(只出现一次的模板大概意义非常含糊)的模板。对于每一个模板t,利用人工查对它的属性p(最大值化P(p|t))是否精确。和QALD-3上的评估相似,在某些环境部属性是部分精确的。结果被展示在了表5.11中。对于两个模板集,KBQA都有更高的正确率。对于频率最高的100个模板,KBQA的正确率乃至到达了100%。这表明白基于模板的属性推断的质量。
表5.11:属性推断的正确率
7.4.服从
本节起首给出和其他问答体系的运行时间比力,然后给出KBQA的时间复杂度分析。
运行时间实行运行时间由两部分构成:线下与线上。线下的处理惩罚过程,重要是学习模板,用了1438分钟。时间的斲丧重要是由巨大的数据量造成的:十亿级别的数据库和上百万的QA对。鉴于线下部分只用运行一次,这个时间的斲丧是可以遭受的。线上部分重要负责答复题目,实行把线上部分的时间斲丧在表5.12中和gAswer和DEANNA举行了比力。KBQA用了79ms,比gAnswer快了13倍,比DEANNA快了98倍,这意味着KBQA可以有效地支持及时的QA。
表5.12:时间斲丧
复杂度分析表5.12中展示了它们的时间复杂度,|q|表现题目的长度,|V|表现RDF图中向量的个数。全部的KBQA的步调都可以在多项式时间内完成,然而gAnswer和DEANNA都有NP-hard的步调。gAnswer的题目明白的时间复杂度是O(|V|3),这种复杂度对于十亿级别的数据库来说是不能担当的。相比之下,KBQA的时间复杂度是O(|q|4)和O(|P|)(|P|是差别属性的数量),和数据库的巨细无关。正如第5.3.节中提到的,高出99%的题目的长度都是小于23的。因此,在时间复杂度方面,KBQA比其他QA体系有着更好的表现。
7.5.KBQA的具体模块评估
实行评估了KBQA的三个关键模块:实体-值的辨认(第4.1.节),复杂题目的答复(第5节),属性扩展(第6节)。
实体和值的辨认的正确性大多数已往的研究都重要关注实体的抽取,这种技能并不能被用在同时抽取实体和值上。以是,实行只能和最新的实体辨认的研究对比[33]。实行随机从题目语料中选择了50个答案在知识图谱中的问答对。通过人工判定抽取的结果是否精确。本文的方法精确辨认了36个问答对(72%)。相比之下,斯坦福NER只辨认的15个问答对(30%)。结果表明对于实体的共同抽取要比单独抽取要好。
回复兴杂题目的有效性由于没有对复杂题目答复的有效基准测试集,实行构造了如表5.13中的8个题目。这里罗列的全部题目都是真实的用户提出的典范复杂题目。实行比力了KBQA和其他两个最新的QA体系:WolframAlpha和gAnswer。表5.13中展示了结果,实行发现KBQA在回复兴杂题目方面克服了它的对手,这表明KBQA对回复兴杂题目是有效的。
表5.13:复杂题目答复。WA表现WolframAlpha,gA表现gAnswer
属性扩展的有效性接下来实行将会测评体系在属性扩展在两方面的有效性。第一,属性扩展可以辨认更多的属性。第二,扩展属性使KBQA学习更多的模板。表5.14中展示了评估结果。可以发现(1)相较于直接属性(长度为1),扩展属性(长度为2到k)天生了十倍于前者的属性数量;(2)归因于扩展属性,模板的数量增长了57倍。
实行进一步利用了两个案例来分析:(1)扩展的属性是故意义的,(2)扩展属性是精确的。表5.16中罗列了学习出的5个扩展属性。可以发现KBQA辨认出的这些属性都是故意义的。实行进一步选择了一个扩展属性marriage→person→name,来验证从这一属性中学习出的模板是否精确并故意义。表5.15中罗列了5个模板,这些模板都是公道的。
表5.14:属性扩展的结果
表5.15:marriage→person→name的对应属性
表5.16:属性扩展的例子
第8节相干工作
在盘算机范畴,问答体系是一个经典的研究题目。在信息检索(IR),数据发掘和天然语言处理惩罚(NLP)范畴它都被广泛研究。本节起首根据数据泉源调研了一些相干工作。然后本节调研基于知识图谱的的问答体系。末了调研了RDF数据管理的最新盼望。
天然语言文本vs知识库问答体系对于语料库的质量有着很强的依靠性。传统的问答体系利用web文本或是Wikipedia作为它们的语料库来答复题目。在这一分类中的最新的方法[78,56,22,44]通常将网络文档或是Wiki中的句子作为题目的答案,并根据它们和题目的相干性来举行打分。他们也利用一些去噪音的方法,比如说题目分类[66,111],来增长答案的质量。近来几年,很多大规模知识库的诞生,比方GoogleKnowledgeGraph,Freebase[10]和YAGO2[45],为创建新的QA体系提供了机遇[72,98,97,36,107,31]。这些知识库比起依靠于网络文本的QA体系,有着更体系的架构,而且有着更清楚和可靠的答复。
基于知识图谱的问答体系基于知识图谱的问答体系的核心处理惩罚是对题目的属性辨认。比方,对于题目HowmanypeoplearethereinHonolulu,假如体系能找到属性“population”,这个题目就能被答复。根据属性辨认的方式分类,这些知识库的发展履历了三个重要的阶段:基于规则,基于关键词,和基于同义词。基于规则的方法用人为创造的规则将题目映射到属性。比方,Ouetal.[72]以为形如Whatisthexxxofentity?的题目应该被映射到属性xxx。人为构建的规则通常有高的正确率,但是召回率很低。基于关键词的方法[98]用题目中关键词或词组作为特性来找到题目和属性之间的映射。但是通常,很难用关键词来找到题目和复杂属性之间的映射。体系很难基于关键词,比方“howmany”,“people”,“arethere”等,来映射题目howmanypeoplearetherein...?到属性“population”。基于同义词的方法[97,107]通过思量属性的同义词,扩展了基于关键词方法。这使得它可以答复更多的题目。这个方法的重要影响因素是同义词的质量。Ungeretal.[97]用bootstrapping[36]来天生同义词。Yahyaetal.[107]则用Wikipedia来天生同义词。然而,由于和基于关键词的方法雷同的缘故起因,基于同义词的方法仍旧不能回复兴杂题目。Trueknowledge[94]用关键词和词组来表现一个模板。Trueknowledge应该被分类到基于同义词的方法。相比之下,本章的题目模板将实体概念化来表现题目。
总而言之,相比于本章利用题目模板的明白方式,之前全部的基于知识库的QA体系仍旧在正确率和召回率方面有着他们的缺点。
第9节小结
基于知识库的QA体系如今已经成为了一项紧张且可行的工作。本章在一个大型开放范畴RDF知识库的底子上创建了一个问答体系。体系和之前的工作有以下四点差别:(1)它用模板明白题目,(2)它用模板抽取来学习从模板到属性的映射,(3)用RDF中的扩展属性来提拔知识库的覆盖率,(4)明白复杂题目来进步对于题目的覆盖率。实行表明KBQA是有效且高效的,尤其是在正确性方面,比其他的QA体系都要良好。
“
PaperWeekly将对本论文举行独家连载
敬请等待后续出色内容……
”
关于PaperWeekly
PaperWeekly是一个分享知识和交换学问的学术构造,关注的范畴是NLP的各个方向。假如你也常常读paper,喜好分享知识,喜好和各人一起讨论和学习的话,请速速来参加我们吧。
我要评论