基于實(shí)體活躍度及復(fù)制生成的時(shí)序知識圖譜推理

所屬分類：經(jīng)濟(jì)論文閱讀次時(shí)間：2022-01-21 10:50

本文摘要：摘要：現(xiàn)有的時(shí)序知識圖譜推理主要是基于靜態(tài)知識圖譜的推理方法，通過知識圖譜的結(jié)構(gòu)特征挖掘潛在的語義信息和關(guān)系特征，忽略了實(shí)體時(shí)序信息的重要性，因此提出一種基于實(shí)體活躍度及復(fù)制生成機(jī)制的時(shí)序知識圖譜推理方法(EACG)。首先，通過改進(jìn)的圖卷積神經(jīng)網(wǎng)絡(luò)對多關(guān)

　　摘要：現(xiàn)有的時(shí)序知識圖譜推理主要是基于靜態(tài)知識圖譜的推理方法，通過知識圖譜的結(jié)構(gòu)特征挖掘潛在的語義信息和關(guān)系特征，忽略了實(shí)體時(shí)序信息的重要性，因此提出一種基于實(shí)體活躍度及復(fù)制生成機(jī)制的時(shí)序知識圖譜推理方法(EACG)。首先，通過改進(jìn)的圖卷積神經(jīng)網(wǎng)絡(luò)對多關(guān)系實(shí)體建模，有效挖掘知識圖譜的潛在語義信息和結(jié)構(gòu)特征。其次，時(shí)序編碼器基于實(shí)體活躍度學(xué)習(xí)實(shí)體的時(shí)序特征。最后，使用復(fù)制生成機(jī)制進(jìn)一步學(xué)習(xí)知識圖譜的歷史信息，提升對時(shí)序數(shù)據(jù)建模的能力。在時(shí)序知識圖譜數(shù)據(jù)集ICEWS14、ICEWS05-15、GDELT上推理的實(shí)驗(yàn)結(jié)果表明，EACG在MRR評估指標(biāo)中分別優(yōu)于次優(yōu)方法2個(gè)百分點(diǎn)、10個(gè)百分點(diǎn)和5個(gè)百分點(diǎn)。

　　關(guān)鍵詞：知識圖譜;推理;時(shí)序;圖卷積神經(jīng)網(wǎng)絡(luò);門控循環(huán)單元

知識圖譜

　　0引言

　　知識圖譜推理已廣泛應(yīng)用于社交網(wǎng)絡(luò)[1]、智能問答[2]、生物網(wǎng)絡(luò)[3]等領(lǐng)域。在實(shí)際應(yīng)用中，知識圖譜隨著時(shí)間的推移不斷發(fā)生變化，實(shí)體和關(guān)系可能會(huì)消失或新增。例如，知識圖譜中存在四元組(馬云，創(chuàng)立，阿里巴巴，1999/09/09)以及(彭蕾，創(chuàng)立，阿里巴巴，1999/09/09)，但同時(shí)也存在大量缺失關(guān)系的四元組，例如(馬云，彭蕾，1999/09/09)。

　　目前大部分研究工作集中于靜態(tài)知識圖譜推理[4,5]，通過學(xué)習(xí)知識圖譜的靜態(tài)拓?fù)浣Y(jié)構(gòu)，難以有效的利用時(shí)間信息，無法適用于時(shí)序知識圖譜推理。近年來，由于研究人員對時(shí)序知識圖譜推理的廣泛關(guān)注，時(shí)序知識圖譜推理取得了很大的發(fā)展，相關(guān)文獻(xiàn)陸續(xù)發(fā)表，本文將時(shí)序知識圖譜推理分為基于時(shí)間點(diǎn)過程的推理[6,7]、基于時(shí)間步的推理[8,9]和基于動(dòng)態(tài)網(wǎng)絡(luò)的推理[10,11]。

　　以Knowevolve[6]、Dyrep[7]為代表的基于時(shí)間點(diǎn)過程的推理，將時(shí)序知識圖譜中連續(xù)時(shí)間內(nèi)發(fā)生的事件建模，可以精確推理事件發(fā)生的時(shí)間點(diǎn)。然而基于時(shí)間點(diǎn)過程的推理模型專注于事件在時(shí)間序列上的變化，忽略了對知識圖譜局部和全局結(jié)構(gòu)特征的提取，且基于時(shí)間點(diǎn)過程的推理模型在單個(gè)時(shí)間步中獨(dú)立地處理事件，難以有效挖掘鄰域?qū)嶓w潛在的重要信息�；跁r(shí)間步的推理模型將知識圖譜劃分為不同的時(shí)間步，分別學(xué)習(xí)知識圖譜不同時(shí)間步的語義信息，再結(jié)合時(shí)間序列模型進(jìn)行推理分析。

　　然而，對于缺失時(shí)間步信息的事件，基于時(shí)間步的推理模型難以有效學(xué)習(xí)并推理，真實(shí)的場景中有許多四元組缺失時(shí)間步信息。且基于時(shí)間步的推理模型通過時(shí)間序列預(yù)測模型學(xué)習(xí)不同時(shí)間步的知識圖譜嵌入后，生成固定的實(shí)體嵌入用于推理，在推理不同時(shí)間步的事件時(shí)均使用這個(gè)固定的實(shí)體嵌入。

　　但是發(fā)生在不同時(shí)間步的事件存在著不同的結(jié)構(gòu)特征，因此難以有效的利用事件發(fā)生時(shí)間步的知識圖譜拓?fù)浣Y(jié)構(gòu)特征�；趧�(dòng)態(tài)網(wǎng)絡(luò)的推理模型僅僅通過學(xué)習(xí)實(shí)體嵌入進(jìn)行推理，一些學(xué)者直接將動(dòng)態(tài)網(wǎng)絡(luò)模型應(yīng)用在時(shí)序知識圖譜中，而知識圖譜中連接實(shí)體的關(guān)系包含了重要的語義信息，忽略對關(guān)系嵌入的學(xué)習(xí)將導(dǎo)致推理精度下降。由于上述存在的問題，本文提出基于實(shí)體活躍度及復(fù)制生成機(jī)制的時(shí)序知識圖譜推理模型EACG(EntityActivityand CopyGeneration,EACG)。

　　為了克服基于時(shí)間步的推理模型難以學(xué)習(xí)缺失時(shí)間步事件的缺點(diǎn)，EACG基于時(shí)間感知復(fù)制生成機(jī)制學(xué)習(xí)已知事件。同時(shí)，為了有效學(xué)習(xí)知識圖譜的時(shí)序特征，EACG在學(xué)習(xí)知識圖譜拓?fù)浣Y(jié)構(gòu)后，基于實(shí)體活躍度對不同時(shí)間步中實(shí)體權(quán)重進(jìn)行調(diào)整，并結(jié)合復(fù)制模塊的結(jié)果進(jìn)行進(jìn)一步的推理。相比于上述時(shí)序知識圖譜模型，EACG模型可以對頭尾實(shí)體之間存在多個(gè)關(guān)系的事件進(jìn)行建模，能夠有效學(xué)習(xí)實(shí)體和關(guān)系嵌入以捕獲實(shí)體和關(guān)系的潛在特征，推理未來新增或消失的事件。

　　1相關(guān)研究

　　自2012年Google提出知識圖譜概念以來，知識推理作為知識圖譜的重要組成部分引發(fā)了廣泛關(guān)注，有許多研究者提出了有效的方法提高推理的精度，現(xiàn)有的大多數(shù)研究是針對靜態(tài)知識圖譜的推理。例如Trans系列的翻譯模型TransE、TransH等，張量分解模型DistMult、ComplEx和SimplE等。

　　TransE[12]模型將實(shí)體和關(guān)系嵌入到低維向量空間中，將頭實(shí)體向量與關(guān)系向量做向量加法翻譯為尾實(shí)體，TransE還具有訓(xùn)練速度快、易于實(shí)現(xiàn)等優(yōu)點(diǎn)，但是不能解決多對一和一對多關(guān)系的問題，且TransE在訓(xùn)練模型時(shí)為了滿足三角閉包關(guān)系，訓(xùn)練出來的頭實(shí)體向量會(huì)很相似。TransH[13]為了解決上述問題，不再嚴(yán)格要求三元組滿足三角閉包關(guān)系，只需滿足頭實(shí)體和尾實(shí)體在關(guān)系平面上的投影在一條直線上即可，在保證算法效率的同時(shí)提高了推理的準(zhǔn)確率。DistMult[14]用矩陣表示關(guān)系，將頭實(shí)體通過線性變換映射尾實(shí)體。ComplEx[15]通過復(fù)值嵌入擴(kuò)展DistMult，可以有效地對非對稱關(guān)系進(jìn)行建模。

　　SimplE[16]利用關(guān)系的逆在三元組得分函數(shù)中加上了一個(gè)對稱項(xiàng)，為每個(gè)實(shí)體和關(guān)系分配兩個(gè)向量分別進(jìn)行學(xué)習(xí)，在實(shí)驗(yàn)中展現(xiàn)了良好的性能。近年來，一些研究者嘗試把時(shí)序信息加入到知識圖譜推理中，如HyTE、AtiSE、TeRo、DE系列模型，使推理方法更加契合真實(shí)的應(yīng)用場景。HyTE[9](Hyperplane-basedTemporallyawareKGEmbedding,HyTE)將知識圖譜按時(shí)間戳劃分為不同的超平面，將實(shí)體和關(guān)系映射到超平面上。

　　HyTE即整合了時(shí)間維度信息，又通過超平面解決了實(shí)體間多關(guān)系難以推理的問題。AtiSE[17]針對實(shí)體和關(guān)系的時(shí)間序列進(jìn)行分析，通過將實(shí)體和關(guān)系映射到高維的高斯空間中獲取時(shí)序和結(jié)構(gòu)特征。TeRo[18]將實(shí)體嵌入的時(shí)間演化定義為在復(fù)向量空間中從初始時(shí)間到當(dāng)前時(shí)間的旋轉(zhuǎn)，對于存在時(shí)間間隔的事件，事件中的關(guān)系表示為兩個(gè)嵌入向量，分別處理關(guān)系的開始和結(jié)束。DE系列模型[19]在靜態(tài)推理方法的基礎(chǔ)上將實(shí)體嵌入融入時(shí)間步信息，通過實(shí)驗(yàn)證明了DE-TransE、DEDistMult和De-SimplE等系列模型相比于靜態(tài)方法能夠充分挖掘潛在的時(shí)序特征，對于后續(xù)時(shí)序知識圖譜推理方法具有較重要的參考意義。

　　上述推理方法主要通過學(xué)習(xí)實(shí)體和關(guān)系嵌入進(jìn)行知識圖譜推理，然而，如果知識圖譜的網(wǎng)絡(luò)結(jié)構(gòu)在演化的過程中發(fā)生改變，僅僅學(xué)習(xí)實(shí)體和關(guān)系的嵌入難以有效的推理。DyRep不再學(xué)習(xí)節(jié)點(diǎn)的固定表示，而是學(xué)習(xí)節(jié)點(diǎn)的表示方法，即使知識圖譜的網(wǎng)絡(luò)結(jié)構(gòu)發(fā)生變化，也可以快速得到新的實(shí)體嵌入。DyRep通過對連續(xù)時(shí)間內(nèi)發(fā)生的事件進(jìn)行建模，結(jié)合注意力機(jī)制調(diào)整鄰居節(jié)點(diǎn)權(quán)重，根據(jù)新發(fā)生的事件不斷更新實(shí)體嵌入，從而有效捕獲知識圖譜的時(shí)序信息。

　　此外，DySAT[20](DynamicSelf-AttentionNetwork,DySAT)還使用無監(jiān)督學(xué)習(xí)算法推理未來新增的節(jié)點(diǎn)。DySAT首先分別捕獲每個(gè)時(shí)間步知識圖譜的結(jié)構(gòu)特征，然后對不同時(shí)間步中實(shí)體嵌入做向量加法，通過得分函數(shù)進(jìn)行推理。然而，此類模型對相同時(shí)間步發(fā)生的事件建模能力較差，且在學(xué)習(xí)時(shí)序信息時(shí)會(huì)丟失實(shí)體和關(guān)系的初始信息。為了有效獲取實(shí)體領(lǐng)域特征和時(shí)序特征，基于圖卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的模型相繼被提出。

　　EvolveGCN[21](EvolvingGraphConvolutionalNetworks,EvolveGCN)通過GCN得到知識圖譜的結(jié)構(gòu)特征，通過循環(huán)神經(jīng)網(wǎng)絡(luò)捕獲知識圖譜的演化信息，進(jìn)一步提高了時(shí)序知識圖譜推理的精度。GCRN[22](GraphConvolutionalRecurrentNetwork,GCRN)結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)學(xué)習(xí)知識圖譜的結(jié)構(gòu)和時(shí)序特征。GN[23](GraphNetworks,GN)和RRN[24]通過不同時(shí)間步的信息傳遞更新實(shí)體嵌入。DDNE[25](DeepDynamicNetworkEmbedding,DDNE)首先使用門控循環(huán)單元(GatedRecurrentUnit,GRU)學(xué)習(xí)實(shí)體的時(shí)序特征，再根據(jù)實(shí)體鄰域信息得到實(shí)體的最終嵌入向量。但是這些模型都忽略了知識圖譜的關(guān)系特征，難以進(jìn)行有效的推理。

　　為了有效學(xué)習(xí)事件的時(shí)間信息以及圖譜中潛在的關(guān)系特征，Jin等人[26]在基于神經(jīng)網(wǎng)絡(luò)的知識推理模型RGCN的基礎(chǔ)上提出了循環(huán)事件網(wǎng)絡(luò)(RecurrentEventNetwork,RE-NET)模型，一種用于對多關(guān)系知識圖譜的時(shí)間序列進(jìn)行建模的自回歸體系結(jié)構(gòu)，可以根據(jù)知識圖譜歷史的時(shí)間序列和全局的結(jié)構(gòu)信息預(yù)測新發(fā)生的事件。該模型通過RGCN學(xué)習(xí)實(shí)體的局部結(jié)構(gòu)特征，使用循環(huán)事件編碼器對事件序列進(jìn)行時(shí)間條件聯(lián)合概率分布建模，從而推斷未來知識圖譜的拓?fù)浣Y(jié)構(gòu)。然而，RE-NET在推理不同時(shí)間步的事件時(shí)使用相同的實(shí)體嵌入，未能動(dòng)態(tài)計(jì)算出事件發(fā)生時(shí)間步相應(yīng)的實(shí)體嵌入，對時(shí)序信息的融合存在一定的局限性。

　　2基于實(shí)體活躍度及復(fù)制生成的時(shí)序知識圖譜推理(EACG)

　　時(shí)序知識圖譜是在靜態(tài)知識圖譜中加入時(shí)間標(biāo)簽。給定時(shí)間步長為N的時(shí)序知識圖譜GGGTNtN−−+,,,，定義一組實(shí)體集合E以及一組關(guān)系集合R，事件定義為四元組的形式：(頭實(shí)體，關(guān)系，尾實(shí)體，時(shí)間)，用符號表示為(s,r,o,t)。

　　其中實(shí)體s、o屬于集合E中的元素，r屬于集合R中的元素，t表示該事件發(fā)生的時(shí)間步，tTNT−。知識圖譜推理包含實(shí)體推理和關(guān)系推理。實(shí)體推理是對四元組中缺失的實(shí)體進(jìn)行推理，例如給定一個(gè)不完整四元組(s,r,?,t)，模型通過對所有實(shí)體進(jìn)行評估并推理。關(guān)系推理是對缺失關(guān)系的四元組(s,?,o,t)進(jìn)行推理，預(yù)測頭實(shí)體和尾實(shí)體之間可能存在的關(guān)系。時(shí)序知識圖譜推理其實(shí)可以看成實(shí)體之間在時(shí)間序列上的交互過程，在不同時(shí)間步發(fā)生的事件可能存在較強(qiáng)的依賴關(guān)系。為了獲取事件在相同時(shí)間步和不同時(shí)間步的依賴關(guān)系，EACG分為三部分：生成模塊、復(fù)制模塊和解碼器。

　　生成模塊首先使用結(jié)構(gòu)編碼器RGCN捕獲知識圖譜每一個(gè)時(shí)間步的拓?fù)浣Y(jié)構(gòu)，挖掘?qū)嶓w和關(guān)系的潛在關(guān)系并生成實(shí)體嵌入向量it。再通過時(shí)序編碼器GRU學(xué)習(xí)知識圖譜在不同時(shí)間步中實(shí)體的嵌入向量，并根據(jù)實(shí)體在不同時(shí)間步的活躍度調(diào)整實(shí)體的權(quán)重，生成包含結(jié)構(gòu)和時(shí)序特征的實(shí)體嵌入向量it。為了學(xué)習(xí)知識圖譜中實(shí)體出現(xiàn)的規(guī)律，同時(shí)避免生成模塊丟失實(shí)體的初始特征，復(fù)制模塊對實(shí)體在歷史時(shí)間步中出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì)學(xué)習(xí)，生成語義更加豐富的實(shí)體嵌入it。最后，通過解碼器進(jìn)行推理并生成推理結(jié)果。

　　2.1生成模塊

　　生成模塊是EACG的重要組成部分，主要用于學(xué)習(xí)知識圖譜的拓?fù)浣Y(jié)構(gòu)并挖掘潛在的結(jié)構(gòu)和時(shí)序特征，獲取代表實(shí)體和關(guān)系含義的有效嵌入向量。首先通過結(jié)構(gòu)編碼器RGCN對實(shí)體的鄰域進(jìn)行卷積操作，捕獲實(shí)體鄰域語義信息和潛在關(guān)系，有效獲取知識圖譜實(shí)體鄰域的局部結(jié)構(gòu)特征，計(jì)算出實(shí)體嵌入向量it。其次，時(shí)序編碼器通過實(shí)體活躍度更新實(shí)體在不同時(shí)間步的權(quán)重，有助于深入學(xué)習(xí)實(shí)體的時(shí)序特征，再使用GRU學(xué)習(xí)實(shí)體和關(guān)系嵌入的時(shí)間序列信息，將實(shí)體嵌入向量it更新為it。接下來將在2.1.1小節(jié)中詳細(xì)介紹結(jié)構(gòu)編碼器的結(jié)構(gòu)特征提取，在2.1.2中介紹時(shí)序編碼器的時(shí)序特征提取。

　　1結(jié)構(gòu)編碼器

　　結(jié)構(gòu)編碼器基于圖的拓?fù)浣Y(jié)構(gòu)生成知識圖譜在每個(gè)時(shí)間步的實(shí)體嵌入，是生成模塊的重要組成部分。本文使用靜態(tài)知識圖譜推理模型RGCN[27]作為結(jié)構(gòu)編碼器。RGCN使用GCN對局部鄰居信息進(jìn)行聚合得到實(shí)體的表示信息，通過優(yōu)化交叉熵?fù)p失函數(shù)學(xué)習(xí)參數(shù)。

　　2.1.2時(shí)序編碼器

　　實(shí)體活躍度是指實(shí)體在時(shí)序知識圖譜不同時(shí)間步中的活躍程度。在步長為T的時(shí)序知識圖譜中，某一實(shí)體共在M(0≤M≤T)個(gè)時(shí)間步中出現(xiàn)，則該實(shí)體的活躍度MT。例如在時(shí)序知識圖譜中，實(shí)體當(dāng)前出現(xiàn)的時(shí)間步與實(shí)體上一次出現(xiàn)的時(shí)間步的間隔越小，則實(shí)體在當(dāng)前時(shí)間步的活躍度越高，間隔越大，實(shí)體在當(dāng)前時(shí)間步的活躍度越低。時(shí)序編碼器的目標(biāo)是整合實(shí)體在不同時(shí)間步的嵌入向量，根據(jù)實(shí)體活躍度計(jì)算得出實(shí)體的最終嵌入向量。時(shí)序編碼器首先根據(jù)實(shí)體活躍度調(diào)整實(shí)體權(quán)重，再將知識圖譜在各個(gè)時(shí)間步的實(shí)體嵌入矩陣作為GRU的輸入，得到知識圖譜最終的實(shí)體嵌入矩陣。時(shí)序編碼器在結(jié)構(gòu)編碼器的基礎(chǔ)上，有效獲取知識圖譜時(shí)序特征，從而進(jìn)一步提高推理精度。

　　2.2復(fù)制模塊

　　復(fù)制生成的思想來源于人類在閱讀文章后進(jìn)行總結(jié)時(shí)，除了自己會(huì)生成一些概括性的語句之外，還會(huì)從文章中摘抄一些核心的句子，總結(jié)的過程包含理解生成和復(fù)制摘抄兩個(gè)部分。Gu等人[28]在2016年首次提出復(fù)制機(jī)制并應(yīng)用在自然語言生成(NaturalLanguageGeneration,NLG)中，通過復(fù)制模塊對語句中詞匯的頻率進(jìn)行整理歸納且記錄詞匯在語句中出現(xiàn)的位置，在推理的過程中結(jié)合復(fù)制模塊進(jìn)行推理，實(shí)驗(yàn)證明了該方法在文本處理任務(wù)中優(yōu)于基于RNN的推理模型。在時(shí)序知識推理任務(wù)中，對圖譜歷史信息進(jìn)行統(tǒng)計(jì)學(xué)習(xí)有助于提升推理的準(zhǔn)確率。

　　例如，當(dāng)需要推理四元組(奧運(yùn)會(huì)乒乓球男子團(tuán)體，冠軍，2021)時(shí)，對使得該四元組成立的頭實(shí)體進(jìn)行學(xué)習(xí)統(tǒng)計(jì)，統(tǒng)計(jì)結(jié)果發(fā)現(xiàn)四元組(奧運(yùn)會(huì)乒乓球男子團(tuán)體，冠軍，t)自1988年至2016年共出現(xiàn)八次，頭實(shí)體均為“中國隊(duì)”。那么，四元組(奧運(yùn)會(huì)乒乓球男子團(tuán)體，冠軍，2021)頭實(shí)體為“中國隊(duì)”的概率較大。

　　因此，通過深度學(xué)習(xí)模型提取圖譜的結(jié)構(gòu)和時(shí)序特征后，結(jié)合圖譜歷史信息的統(tǒng)計(jì)結(jié)果，能夠輔助時(shí)序知識圖譜的推理任務(wù)。CyGNet[29]將復(fù)制機(jī)制首次應(yīng)用在時(shí)序知識圖譜推理中，通過研究時(shí)間步中實(shí)體重復(fù)出現(xiàn)的潛在現(xiàn)象，它結(jié)合復(fù)制和生成兩種推理模式，在學(xué)習(xí)推理未來事件時(shí)參考?xì)v史中已知的事實(shí)，并通過實(shí)驗(yàn)驗(yàn)證了該推理方法的有效性。

　　2.3解碼器

　　對于給定的四元組，該四元組的得分可以通過實(shí)體s、關(guān)系r和實(shí)體o表示向量之間的多線性乘積得到。由于實(shí)數(shù)向量之間的點(diǎn)積計(jì)算是具有交換性的，因此以往的TransE系列模型、DistMult等模型不能很好地處理非對稱關(guān)系。但在實(shí)際的知識圖譜中，非對稱關(guān)系遠(yuǎn)多于對稱關(guān)系。

　　3實(shí)驗(yàn)過程及結(jié)果分析

　　3.1數(shù)據(jù)集及評價(jià)標(biāo)準(zhǔn)

　　為了評估EACG模型，本文使用了兩種時(shí)序知識圖譜數(shù)據(jù)集：ICEWS(IntegratedCrisisEarlyWarningSystem)[30]和GDELT(GlobalDatabaseofEvents，Language，andTone)[31]。這兩種數(shù)據(jù)集都包含時(shí)間步的事件如(s,r,o,t)。ICEWS是由BBNACCENT事件編碼器自動(dòng)從新聞文章中提取數(shù)據(jù)并加入時(shí)間信息生成的。

　　在實(shí)驗(yàn)中使用ICEWS的兩個(gè)子集ICEWS14、ICEWS05-15。ICEWS14數(shù)據(jù)集包含2014年1月至2014年12月中所有發(fā)生的事件。ICEWS05-15數(shù)據(jù)集包含2005年1月至2015年12月中所有發(fā)生的事件。GDELT數(shù)據(jù)集記錄全球范圍內(nèi)發(fā)生的政治事件。這三個(gè)數(shù)據(jù)集都是每24小時(shí)記錄一次。實(shí)驗(yàn)中采用平均倒數(shù)排名(MeanReciprocalRank,MRR)、Hits@1、Hits@3和Hits@10等指標(biāo)進(jìn)行評估。對缺少頭實(shí)體和尾實(shí)體的四元組進(jìn)行推理，將推理結(jié)果按照降序排列。

　　3.2實(shí)驗(yàn)結(jié)果分析

　　在所有的數(shù)據(jù)集中對比現(xiàn)有靜態(tài)知識圖譜推理方法TransE、DistMult和SimplE，并對比現(xiàn)有時(shí)序知識圖譜推理方法HyTE、DE系列模型DE-TransE、DE-DistMult、DESimplE、AtiSE和TeRo。EACG參數(shù)設(shè)置如下：學(xué)習(xí)率為0.001，ICEWS14、ICEWS05-15、GDELT的批訓(xùn)練大小分別為8、4、2，嵌入向量和隱藏層向量維度均為128，在RGCN中獲取兩跳鄰域信息。給出了在ICEWS14、ICEWS05-15、GDELT數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果，AtiSE和TeRo模型的結(jié)果來自文獻(xiàn)[20]和文獻(xiàn)[21]，其余對比模型的結(jié)果均來自文獻(xiàn)[22]。Hits@1/3/10的值以百分比的形式表示，MRR的值乘以100。最優(yōu)結(jié)果用粗體顯示。

　　除在ICEWS14數(shù)據(jù)集中TeRo在Hits@1評價(jià)標(biāo)準(zhǔn)上優(yōu)于EACG外，EACG均優(yōu)于其他方法。在MRR、Hits@3和Hits@10評估方法中EACG方法分別優(yōu)于次優(yōu)方法TeRo3%、7%、13%。在ICEWS05-15數(shù)據(jù)集上EACG方法在MRR、Hits@1、Hits@3和Hits@10評價(jià)標(biāo)準(zhǔn)中分別優(yōu)于次優(yōu)方法TeRo17%、19%、18%、15%。在GDELT數(shù)據(jù)集上EACG方法在MRR、Hits@1、Hits@3和Hits@10評價(jià)標(biāo)準(zhǔn)中分別優(yōu)于次優(yōu)方法DE-SimplE23%、42%、23%、11%，推理精度提升效果明顯。

　　實(shí)驗(yàn)結(jié)果表明EACG在ICEWS05-15、GDELT數(shù)據(jù)集中的提升幅度大于ICEWS14數(shù)據(jù)集，這主要是因?yàn)镮CEWS14數(shù)據(jù)集樣本量相對較少且時(shí)間步長較短，而EACG對于長時(shí)間序列數(shù)據(jù)具有良好的建模能力，且需要大量的訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí)才能達(dá)到最優(yōu)推理結(jié)果。

　　另外，從實(shí)驗(yàn)結(jié)果可以看出在ICEWS14和ICEWS05-15數(shù)據(jù)集上的推理結(jié)果整體優(yōu)于在GDELT數(shù)據(jù)集上的推理結(jié)果，這是由于GDELT數(shù)據(jù)集實(shí)體、關(guān)系數(shù)量較少，但是關(guān)系網(wǎng)絡(luò)及其復(fù)雜，難以根據(jù)錯(cuò)綜復(fù)雜的領(lǐng)域信息挖掘到真正有效的信息，導(dǎo)致推理精度相對較低。EACG在ICEWS14數(shù)據(jù)集中Hits@1評價(jià)指標(biāo)僅達(dá)到了次優(yōu)結(jié)果。因?yàn)橹R圖譜網(wǎng)絡(luò)的形成是一個(gè)復(fù)雜的過程，受到許多因素影響，難以設(shè)計(jì)一種模型在不同的數(shù)據(jù)集的各項(xiàng)評價(jià)指標(biāo)中均達(dá)到最優(yōu)結(jié)果。

　　TeRo在對不完整四元組推理的過程中，僅僅將候選實(shí)體的嵌入向量融合時(shí)間步信息，如果實(shí)體和時(shí)間步信息均正確，則正確的候選實(shí)體得分會(huì)較明顯的優(yōu)于其他候選實(shí)體，因此TeRo在Hits@1指標(biāo)中表現(xiàn)更好。EACG模型在推理時(shí)將頭尾實(shí)體的嵌入向量都融合了時(shí)間步信息，與目標(biāo)實(shí)體語義相近的實(shí)體得分都會(huì)有所提高，以及EACG引入實(shí)體活躍度和復(fù)制生成機(jī)制的思想，EACG在整體的推理精度上更優(yōu)。展示了EACG、SimplE和DE-TransE在ICEWS14數(shù)據(jù)集中每一個(gè)時(shí)間步的推理結(jié)果的MRR值�？梢钥闯鯡ACG的推理結(jié)果優(yōu)于其他兩個(gè)模型。為了更直觀的展現(xiàn)EACG模型的預(yù)測效果，展示了ICEWS14數(shù)據(jù)集中的部分實(shí)例樣本。

　　實(shí)例中四元組(BarackObama,visit,Japan,03/12/14)表示奧巴馬于2014年3月12日訪問日本。實(shí)例樣本圖中共包含9個(gè)四元組，去除實(shí)例樣本中的頭實(shí)體后分別使用EACG和DE-TransE模型進(jìn)行推理。圖中虛線表示EACG和DE-TransE均推理錯(cuò)誤的四元組;實(shí)線表示EACG和DE-TransE均推理正確的四元組;加粗實(shí)線表示EACG推理正確，而DE-TransE推理錯(cuò)誤的四元組。

　　3.3消融實(shí)驗(yàn)

　　為了研究EACG各個(gè)組件的重要性，進(jìn)行了消融實(shí)驗(yàn)。具體地，首先去除復(fù)制模塊，直接把時(shí)序編碼器中生成的嵌入向量做為解碼器的輸入，模型命名為-Copy。接下來，去除了時(shí)序編碼器中的實(shí)體活躍度機(jī)制，既把不同時(shí)間步中實(shí)體的權(quán)重均設(shè)置為1，模型命名為為-Active。在ICEWS14數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)，圖中對MRR的值乘以100，值的范圍為[0,100]。表明EACG勝于這兩個(gè)消融模型，去除復(fù)制模型和實(shí)體活躍度機(jī)制將會(huì)對模型的性能產(chǎn)生重要影響。

　　4結(jié)束語

　　現(xiàn)有時(shí)序知識圖譜方法大多針對時(shí)間信息進(jìn)行單獨(dú)建模，缺乏對連續(xù)發(fā)生事件推理的能力。為了提升對時(shí)序信息建模的能力，本文首先通過RGCN和GRU分別獲取時(shí)序知識圖譜的結(jié)構(gòu)特征和時(shí)序特征，基于時(shí)序編碼器優(yōu)化實(shí)體嵌入向量，并通過復(fù)制機(jī)制進(jìn)一步學(xué)習(xí)知識圖譜歷史信息。實(shí)驗(yàn)表明，本文提出的EACG模型在時(shí)序知識圖譜中可進(jìn)一步提升推理的準(zhǔn)確性，在靜態(tài)知識圖譜領(lǐng)域亦可作為參考。下一步研究將致力于修剪EACG模型，使其快速、精準(zhǔn)的在大規(guī)模時(shí)序知識圖譜數(shù)據(jù)集中推理。除此之外，進(jìn)一步探索EACG模型的可移植性，使其適用于動(dòng)態(tài)網(wǎng)絡(luò)、節(jié)點(diǎn)分類等任務(wù)。

　　參考文獻(xiàn)：

　　[1]HamidiM,SmarandacheF.Single-valuedneutrosophicdirected(hyper)graphsandapplicationsinnetworks[J].JournalofIntelligent&FuzzySystems,2019,37(2):2869-2885.

　　[2]CaiHongyun,ZhengVW,ChangKCC.Acomprehensivesurveyofgraphembedding:Problems,techniques,andapplications[J].IEEETransactionsonKnowledgeandDataEngineering,2018,30(9):1616-1637.

　　[3]CenYukuo,ZouXu,ZhangJianwei,etal.Representationlearningforattributedmultiplexheterogeneousnetwork[C]//Proceedingsofthe25thACMSIGKDDInternationalConferenceonKnowledgeDiscovery&DataMining.2019:1358-1368.

　　[4]鄶弘智,閆健卓,陳建輝.一種知識驅(qū)動(dòng)的個(gè)性化文獻(xiàn)推薦方法[J],計(jì)算機(jī)應(yīng)用研究,2018,35(12):3603-3608.(KuaiHongzhi,YanJianzhuo,ChenJianhui.Personalizedliteraturerecommendationmethoddrivenbyknowledge[J].ApplicationResearchofCompu-ters,2018,35(12):3603-3608.)

　　[5]WeiZhuoyu,ZhaoJun,LiuKang,etal.Large-scaleknowledgebasecompletion:Inferringviagroundingnetworksamplingoverselectedinstances[C]//Proceedingsofthe24thACMInternationalonConferenceonInformationandKnowledgeManagement.2015:1331-1340.

　　[6]TrivediR,DaiH,WangY,etal.Know-evolve:Deeptemporalreasoningfordynamicknowledgegraphs[C]//internationalconferenceonmachinelearning.PMLR,2017:3462-3471.

　　作者：劉恩海1,2,3，楚航1，王利琴1,2,3，董永峰1,2,3