本文摘要:摘要:近年來知識圖譜技術(shù)作為一種用于描述客觀世界中概念、實例及其關(guān)系的新方法,得到了人們的廣泛關(guān)注,利用知識圖譜可以有效拓展搜索結(jié)果的廣度。目前水利行業(yè)采用的基于關(guān)鍵字的搜索技術(shù)難以利用對象間關(guān)系進行信息檢索。 為此,本文首先提出一種面向水
摘要:近年來知識圖譜技術(shù)作為一種用于描述客觀世界中概念、實例及其關(guān)系的新方法,得到了人們的廣泛關(guān)注,利用知識圖譜可以有效拓展搜索結(jié)果的廣度。目前水利行業(yè)采用的基于關(guān)鍵字的搜索技術(shù)難以利用對象間關(guān)系進行信息檢索。
為此,本文首先提出一種面向水利對象數(shù)據(jù)的知識圖譜構(gòu)建方法,用以實現(xiàn)水利信息知識圖譜的構(gòu)建。然后,提出基于推理規(guī)則的知識推理方法,利用隱藏在水利信息知識圖譜中的知識實現(xiàn)智能數(shù)據(jù)檢索。最后,將上述技術(shù)應(yīng)用于水利領(lǐng)域,實現(xiàn)水利信息知識圖譜構(gòu)建與檢索系統(tǒng)。通過該系統(tǒng)可以有效利用水利對象之間的關(guān)系,充分發(fā)揮水利信息資源的價值。
關(guān)鍵詞:水利信息資源,知識圖譜,知識推理
0引言
水利信息資源是指水利部門或為水利部門采集、加工、處理的信息資源[1]。隨著我國水利事業(yè)的不斷發(fā)展,水利部門積累了大量的水利信息資源。但這些信息資源存在管理分散、服務(wù)目標(biāo)單一、利用效率低下的問題,制約了水利信息化發(fā)展[2]。為此,水利部門通過對象建模將水利信息資源轉(zhuǎn)換為水利對象數(shù)據(jù),用以支持數(shù)據(jù)共享。
這些水利對象數(shù)據(jù)對象種類眾多,對象屬性多樣,對象間關(guān)系豐富。目前使用的基于關(guān)鍵字的搜索技術(shù)難以利用對象間關(guān)聯(lián)關(guān)系(例如三峽樞紐水庫與長江、太湖與苕溪之間的關(guān)聯(lián)關(guān)系)進行信息檢索與推薦。如何表達和利用水利對象及其關(guān)系,為用戶提供全面準(zhǔn)確的信息,成為亟需解決的問題。
2012年,Google首次提出了知識圖譜的概念[3],并成功應(yīng)用于語義搜索上,提高了檢索結(jié)果的質(zhì)量。知識圖譜本質(zhì)上是一種叫做語義網(wǎng)絡(luò)的知識庫,即具有有向圖結(jié)構(gòu)的一個知識庫,其中圖的節(jié)點代表實例或者概念,而圖的邊代表實例/概念之間的各種語義關(guān)系[4]。知識圖譜的出現(xiàn),為人們提供了一種更好地組織、管理和理解海量信息的方法,同時,也成為知識檢索、智能問答[5]、個性化推薦[6]等應(yīng)用的基礎(chǔ)。
將知識圖譜技術(shù)應(yīng)用于水利領(lǐng)域,使用水利對象數(shù)據(jù)構(gòu)建的水利信息知識圖譜,可以利用水利對象間的關(guān)聯(lián)關(guān)系,擴展檢索結(jié)果的廣度。本文針對水利對象數(shù)據(jù),提出一種水利信息知識圖譜的構(gòu)建方法;并在此基礎(chǔ)上實現(xiàn)了基于推理規(guī)則的知識推理,用以進一步挖掘隱藏在水利信息知識圖譜中的知識;最后將上述技術(shù)應(yīng)用于水利信息知識圖譜構(gòu)建與檢索系統(tǒng),實現(xiàn)了水利信息的智能檢索與推薦。
1相關(guān)研究
1.1通用知識圖譜
通用知識圖譜面向全領(lǐng)域,包含了大量的常識性知識,強調(diào)知識圖譜的廣度。目前國外在通用知識圖譜領(lǐng)域已經(jīng)有了許多成果,例如利用從維基百科中抽取的知識構(gòu)建的DBpedia[7];整合維基百科、WordNet和GeoNames的知識所形成的Yago[8];利用從互聯(lián)網(wǎng)中挖掘出的知識構(gòu)建的NELL[9]以及ConceptGraph[10]、Freebase[11]、Wikidata[12]等。
近年來,國內(nèi)也出現(xiàn)了許多通用知識圖譜,例如復(fù)旦大學(xué)發(fā)布的融合了百科數(shù)據(jù)及部分領(lǐng)域知識的CN_DBPedia[13];上海交通大學(xué)發(fā)布的包含中文維基百科、互動百科、百度百科三大百科數(shù)據(jù)的zhishi.me[14];基于中英文百科的XLore[15]以及百度的知心、搜狗的狗立方等。這些覆蓋面廣泛的通用知識圖譜,可以為普通用戶在智能問答、個性化推薦等方面提供更好的服務(wù)。
1.2垂直領(lǐng)域知識圖譜
垂直領(lǐng)域知識圖譜通常面向某一具體領(lǐng)域,更注重知識的深度和完備性,知識的粒度更細。例如通過從EMR信息中提取醫(yī)療事實,構(gòu)建的乳腺腫瘤知識圖譜[16];利用文物信息對構(gòu)建的文物本體進行實例化操作,形成的文物知識圖譜[17];從不同的軟件資源中提取信息構(gòu)建軟件知識實例,形成的軟件知識圖譜[18]。
從碳交易領(lǐng)域數(shù)據(jù)中抽取三元組,再將其轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù),構(gòu)建的碳交易領(lǐng)域知識圖譜[19]以及地理領(lǐng)域的GeoNames[20]、影視領(lǐng)域的IMDB[21]、音樂領(lǐng)域的MusicBrainz[22]等。這些面向某一特定領(lǐng)域的知識圖譜有助于充分發(fā)揮領(lǐng)域數(shù)據(jù)的價值,同時為后續(xù)的智能化應(yīng)用研究奠定基礎(chǔ)。盡管目前出現(xiàn)了一些領(lǐng)域知識圖譜,但在水利領(lǐng)域知識圖譜技術(shù)還沒有得到廣泛關(guān)注,同時,這些領(lǐng)域知識圖譜多停留在構(gòu)建方面,對于知識圖譜的應(yīng)用還缺少考慮。
2水利信息知識圖譜構(gòu)建
水利對象數(shù)據(jù)中蘊含著大量水利信息知識,是構(gòu)建水利信息知識圖譜的重要數(shù)據(jù)來源。本文主要利用水利對象數(shù)據(jù)構(gòu)建水利信息知識圖譜,下面首先給出水利信息知識圖譜相關(guān)概念的定義,再給出利用水利對象數(shù)據(jù)構(gòu)建水利信息知識圖譜的流程。
2.1水利信息知識圖譜的相關(guān)概念定義
1(概念層GC)
概念層是知識圖譜的核心,描述了知識圖譜的數(shù)據(jù)模式,規(guī)范了實例層中的事實。在水利信息知識圖譜中,概念層GC=(C,PC,NC,RC),其中C表示圖譜中的概念節(jié)點,如水庫概念、河流概念;PC表示概念節(jié)點的屬性邊,如水庫概念的屬性邊有工程等別、水庫類型;NC表示屬性值類型節(jié)點,如工程等別的屬性值類型節(jié)點為整型、水庫類型的屬性值類型節(jié)點為字符型;RC表示概念節(jié)點和概念節(jié)點之間的關(guān)系,如水庫概念與河流概念之間存在流入關(guān)系。定義2(實例層GE)實例層由一系列事實組成。
在水利信息知識圖譜中,實例層GE=(E,PE,NE,RE),其中E表示圖譜中的實例節(jié)點,如三峽樞紐水庫、長江;PE表示實例節(jié)點的屬性邊,如工程等別、水庫類型;NE表示屬性值節(jié)點,如工程等別的屬性值節(jié)點為1、水庫類型的屬性值節(jié)點為山丘水庫;RE表示實例節(jié)點與實例節(jié)點之間的關(guān)系,如三峽樞紐水庫與長江之間存在流入關(guān)系。
定義3(水利信息知識圖譜G)水利信息知識圖譜G=(GC,GE,R),其中GC表示水利信息知識圖譜的概念層;GE表示水利信息知識圖譜的實例層;R表示GC中的概念節(jié)點與GE中的實例節(jié)點之間的關(guān)系,如水庫概念與三峽樞紐水庫之間存在實例概念間關(guān)系。同時每一個實例節(jié)點E只與一個概念節(jié)點C存在關(guān)系R。
若2個實例節(jié)點E1和E2之間存在實例間關(guān)系RE,且E1、E2分別與概念節(jié)點C1、C2存在實例概念間關(guān)系R1、R2,則C1、C2之間也必然存在RC,且關(guān)系RC與關(guān)系RE有相同的名稱。如長江與三峽樞紐水庫之間存在流入關(guān)系,三峽樞紐水庫與水庫概念、長江與河流概念之間存在實例概念間關(guān)系,則水庫概念與河流概念之間也存在流入關(guān)系。圖1為部分水利信息知識圖譜的結(jié)構(gòu)。
現(xiàn)有的水利對象數(shù)據(jù)存儲在關(guān)系數(shù)據(jù)庫中,主要由對象名錄表、對象基礎(chǔ)信息表和對象關(guān)系表這3類表組成,其中對象名錄表保存了水利對象的對象名稱、對象代碼等信息;對象基礎(chǔ)信息表保存了不同水利對象的特征信息;對象關(guān)系表記錄了2個水利對象之間的關(guān)系。對象基礎(chǔ)信息表與對象名錄表相關(guān)聯(lián),對象名錄表與對象關(guān)系表相關(guān)聯(lián)。
2.2水利信息知識圖譜的構(gòu)建方法
本文的大多知識圖譜都采用自頂向下的構(gòu)建方法,依次構(gòu)建知識圖譜的概念層與實例層。下面將給出水利信息知識圖譜概念層與實例層的具體構(gòu)建方法。
2.2.1概念層構(gòu)建
1)構(gòu)建概念節(jié)點C。根據(jù)在編的《水利對象分類與編碼總則》,結(jié)合水利對象數(shù)據(jù),在領(lǐng)域?qū)<业膸椭拢_定概念節(jié)點C,例如水庫概念節(jié)點。每一個概念節(jié)點對應(yīng)一張對象名錄表和一張對象基礎(chǔ)信息表,如水庫概念節(jié)點對應(yīng)水庫對象名錄表和水庫基礎(chǔ)信息表。
2)構(gòu)建屬性邊PC和屬性值類型節(jié)點NC。抽取概念節(jié)點對應(yīng)的對象基礎(chǔ)信息表中的字段及字段類型作為概念節(jié)點C的屬性邊PC和屬性值類型節(jié)點NC。如抽取水庫基礎(chǔ)信息表中的工程等別字段作為水庫概念的屬性邊,其對應(yīng)的屬性值類型節(jié)點則為工程等別字段的類型,即整型。
3基于水利信息知識圖譜的知識推理
基于知識圖譜的知識推理旨在基于已有的知識圖譜,推理得到新的事實[23]。本文根據(jù)推理規(guī)則進行知識推理,挖掘隱藏在水利信息知識圖譜中的水利知識。首先在已有的水利信息知識圖譜的基礎(chǔ)上,結(jié)合水利領(lǐng)域知識,定義推理規(guī)則。
例如,在圖譜的概念層中,河流概念與水庫概念之間存在流入關(guān)系、水庫概念和水電站概念之間存在屬于關(guān)系,而在河流概念與水電站概念之間并無關(guān)系。但結(jié)合領(lǐng)域知識可知水電站與河流之間存在位于關(guān)系,因此,可以定義推理規(guī)則1,通過水庫得到水電站所在的河流。再通過推理規(guī)則的實例化,將抽象的概念替換為具體的實例,通過推理即可得到隱藏在水利信息知識圖譜中的知識。
例如,在應(yīng)用推理規(guī)則1獲得三峽水電站所在河流時,先將推理規(guī)則中的水電站概念替換為三峽水電站,利用水利信息知識圖譜對規(guī)則體中的事實進行匹配,得到具體的水庫實例,即三峽樞紐水庫。再將水庫概念替換為具體的水庫實例,重復(fù)上述步驟,即可得到具體的河流實例,也即三峽水電站所在的河流。通過知識推理可以實現(xiàn)對水利信息知識圖譜的進一步挖掘。
4系統(tǒng)實現(xiàn)與展示
4.1系統(tǒng)總體架構(gòu)
本文利用水利對象數(shù)據(jù),通過搭建水利信息知識圖譜構(gòu)建與檢索系統(tǒng),實現(xiàn)水利信息知識圖譜的構(gòu)建和水利信息的智能檢索與推薦。水利信息知識圖譜構(gòu)建與檢索系統(tǒng)按照本文提出的知識圖譜構(gòu)建方法構(gòu)建水利信息知識圖譜,并應(yīng)用了基于推理規(guī)則的知識推理方法,實現(xiàn)了圖譜檢索和推理檢索2種不同的知識檢索方式。
該服務(wù)系統(tǒng)主要分為3層:數(shù)據(jù)存儲層、業(yè)務(wù)邏輯層和應(yīng)用層。其中應(yīng)用層主要由概念管理模塊、知識構(gòu)建模塊、推理規(guī)則管理模塊、知識檢索模塊、系統(tǒng)管理模塊等組成。業(yè)務(wù)邏輯層利用水利對象數(shù)據(jù),通過Jena構(gòu)建水利信息知識圖譜,并使用Fuseki實現(xiàn)對水利信息知識圖譜的查詢。數(shù)據(jù)存儲層使用JenaTDB作為知識圖譜的持久化工具。
5結(jié)束語
本文以水利對象數(shù)據(jù)為基礎(chǔ),提出了水利信息知識圖譜構(gòu)建方法;實現(xiàn)了基于推理規(guī)則的知識推理方法;并將上述技術(shù)應(yīng)用于水利信息知識圖譜構(gòu)建與檢索系統(tǒng),構(gòu)建了水利信息知識圖譜,實現(xiàn)了智能數(shù)據(jù)檢索與推薦。
本文對水利領(lǐng)域知識圖譜構(gòu)建與應(yīng)用進行了探索,但由于主要考慮使用水利對象數(shù)據(jù)構(gòu)建水利信息知識圖譜,對于互聯(lián)網(wǎng)中非結(jié)構(gòu)化文本的利用不充分,在未來的工作中,將進一步挖掘蘊含在互聯(lián)網(wǎng)文本中的水利知識,添加到水利信息知識圖譜中,用以豐富水利信息知識圖譜。
參考文獻:
[1]朱躍龍,許峰,馮鈞,等.水利信息資源目錄體系構(gòu)建研究[J].水利信息化,2010(2):4-8.
[2]成建國,馮鈞,楊鵬,等.水利數(shù)據(jù)資源目錄服務(wù)關(guān)鍵技術(shù)研究[J].水利信息化,2014(6):18-21.
[3]AMITS.IntroducingtheKnowledgeGraph[EB/OL].(2012-05-01)[2019-03-15].
[4]漆桂林,高桓,吳天星.知識圖譜研究進展[J].情報工程,2017,3(1):4-25.
水利論文投稿刊物:《水利信息化》全國性科技期刊。發(fā)布水利信息化建設(shè)政策、法規(guī)和標(biāo)準(zhǔn)等,介紹水利信息化建設(shè)經(jīng)驗和成果。讀者對象主要是我國廣大水文站網(wǎng)工作者,水利、水文、水電、交通、能源、地質(zhì)、環(huán)保、化工、農(nóng)林、航運、水資源和水利電力工程等有關(guān)部門的工人、工程技術(shù)人員和院校師生等。
轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///jjlw/20666.html