本文摘要:摘要:近年來知識(shí)圖譜技術(shù)作為一種用于描述客觀世界中概念、實(shí)例及其關(guān)系的新方法,得到了人們的廣泛關(guān)注,利用知識(shí)圖譜可以有效拓展搜索結(jié)果的廣度。目前水利行業(yè)采用的基于關(guān)鍵字的搜索技術(shù)難以利用對(duì)象間關(guān)系進(jìn)行信息檢索。 為此,本文首先提出一種面向水
摘要:近年來知識(shí)圖譜技術(shù)作為一種用于描述客觀世界中概念、實(shí)例及其關(guān)系的新方法,得到了人們的廣泛關(guān)注,利用知識(shí)圖譜可以有效拓展搜索結(jié)果的廣度。目前水利行業(yè)采用的基于關(guān)鍵字的搜索技術(shù)難以利用對(duì)象間關(guān)系進(jìn)行信息檢索。
為此,本文首先提出一種面向水利對(duì)象數(shù)據(jù)的知識(shí)圖譜構(gòu)建方法,用以實(shí)現(xiàn)水利信息知識(shí)圖譜的構(gòu)建。然后,提出基于推理規(guī)則的知識(shí)推理方法,利用隱藏在水利信息知識(shí)圖譜中的知識(shí)實(shí)現(xiàn)智能數(shù)據(jù)檢索。最后,將上述技術(shù)應(yīng)用于水利領(lǐng)域,實(shí)現(xiàn)水利信息知識(shí)圖譜構(gòu)建與檢索系統(tǒng)。通過該系統(tǒng)可以有效利用水利對(duì)象之間的關(guān)系,充分發(fā)揮水利信息資源的價(jià)值。
關(guān)鍵詞:水利信息資源,知識(shí)圖譜,知識(shí)推理
0引言
水利信息資源是指水利部門或?yàn)樗块T采集、加工、處理的信息資源[1]。隨著我國(guó)水利事業(yè)的不斷發(fā)展,水利部門積累了大量的水利信息資源。但這些信息資源存在管理分散、服務(wù)目標(biāo)單一、利用效率低下的問題,制約了水利信息化發(fā)展[2]。為此,水利部門通過對(duì)象建模將水利信息資源轉(zhuǎn)換為水利對(duì)象數(shù)據(jù),用以支持?jǐn)?shù)據(jù)共享。
這些水利對(duì)象數(shù)據(jù)對(duì)象種類眾多,對(duì)象屬性多樣,對(duì)象間關(guān)系豐富。目前使用的基于關(guān)鍵字的搜索技術(shù)難以利用對(duì)象間關(guān)聯(lián)關(guān)系(例如三峽樞紐水庫與長(zhǎng)江、太湖與苕溪之間的關(guān)聯(lián)關(guān)系)進(jìn)行信息檢索與推薦。如何表達(dá)和利用水利對(duì)象及其關(guān)系,為用戶提供全面準(zhǔn)確的信息,成為亟需解決的問題。
2012年,Google首次提出了知識(shí)圖譜的概念[3],并成功應(yīng)用于語義搜索上,提高了檢索結(jié)果的質(zhì)量。知識(shí)圖譜本質(zhì)上是一種叫做語義網(wǎng)絡(luò)的知識(shí)庫,即具有有向圖結(jié)構(gòu)的一個(gè)知識(shí)庫,其中圖的節(jié)點(diǎn)代表實(shí)例或者概念,而圖的邊代表實(shí)例/概念之間的各種語義關(guān)系[4]。知識(shí)圖譜的出現(xiàn),為人們提供了一種更好地組織、管理和理解海量信息的方法,同時(shí),也成為知識(shí)檢索、智能問答[5]、個(gè)性化推薦[6]等應(yīng)用的基礎(chǔ)。
將知識(shí)圖譜技術(shù)應(yīng)用于水利領(lǐng)域,使用水利對(duì)象數(shù)據(jù)構(gòu)建的水利信息知識(shí)圖譜,可以利用水利對(duì)象間的關(guān)聯(lián)關(guān)系,擴(kuò)展檢索結(jié)果的廣度。本文針對(duì)水利對(duì)象數(shù)據(jù),提出一種水利信息知識(shí)圖譜的構(gòu)建方法;并在此基礎(chǔ)上實(shí)現(xiàn)了基于推理規(guī)則的知識(shí)推理,用以進(jìn)一步挖掘隱藏在水利信息知識(shí)圖譜中的知識(shí);最后將上述技術(shù)應(yīng)用于水利信息知識(shí)圖譜構(gòu)建與檢索系統(tǒng),實(shí)現(xiàn)了水利信息的智能檢索與推薦。
1相關(guān)研究
1.1通用知識(shí)圖譜
通用知識(shí)圖譜面向全領(lǐng)域,包含了大量的常識(shí)性知識(shí),強(qiáng)調(diào)知識(shí)圖譜的廣度。目前國(guó)外在通用知識(shí)圖譜領(lǐng)域已經(jīng)有了許多成果,例如利用從維基百科中抽取的知識(shí)構(gòu)建的DBpedia[7];整合維基百科、WordNet和GeoNames的知識(shí)所形成的Yago[8];利用從互聯(lián)網(wǎng)中挖掘出的知識(shí)構(gòu)建的NELL[9]以及ConceptGraph[10]、Freebase[11]、Wikidata[12]等。
近年來,國(guó)內(nèi)也出現(xiàn)了許多通用知識(shí)圖譜,例如復(fù)旦大學(xué)發(fā)布的融合了百科數(shù)據(jù)及部分領(lǐng)域知識(shí)的CN_DBPedia[13];上海交通大學(xué)發(fā)布的包含中文維基百科、互動(dòng)百科、百度百科三大百科數(shù)據(jù)的zhishi.me[14];基于中英文百科的XLore[15]以及百度的知心、搜狗的狗立方等。這些覆蓋面廣泛的通用知識(shí)圖譜,可以為普通用戶在智能問答、個(gè)性化推薦等方面提供更好的服務(wù)。
1.2垂直領(lǐng)域知識(shí)圖譜
垂直領(lǐng)域知識(shí)圖譜通常面向某一具體領(lǐng)域,更注重知識(shí)的深度和完備性,知識(shí)的粒度更細(xì)。例如通過從EMR信息中提取醫(yī)療事實(shí),構(gòu)建的乳腺腫瘤知識(shí)圖譜[16];利用文物信息對(duì)構(gòu)建的文物本體進(jìn)行實(shí)例化操作,形成的文物知識(shí)圖譜[17];從不同的軟件資源中提取信息構(gòu)建軟件知識(shí)實(shí)例,形成的軟件知識(shí)圖譜[18]。
從碳交易領(lǐng)域數(shù)據(jù)中抽取三元組,再將其轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù),構(gòu)建的碳交易領(lǐng)域知識(shí)圖譜[19]以及地理領(lǐng)域的GeoNames[20]、影視領(lǐng)域的IMDB[21]、音樂領(lǐng)域的MusicBrainz[22]等。這些面向某一特定領(lǐng)域的知識(shí)圖譜有助于充分發(fā)揮領(lǐng)域數(shù)據(jù)的價(jià)值,同時(shí)為后續(xù)的智能化應(yīng)用研究奠定基礎(chǔ)。盡管目前出現(xiàn)了一些領(lǐng)域知識(shí)圖譜,但在水利領(lǐng)域知識(shí)圖譜技術(shù)還沒有得到廣泛關(guān)注,同時(shí),這些領(lǐng)域知識(shí)圖譜多停留在構(gòu)建方面,對(duì)于知識(shí)圖譜的應(yīng)用還缺少考慮。
2水利信息知識(shí)圖譜構(gòu)建
水利對(duì)象數(shù)據(jù)中蘊(yùn)含著大量水利信息知識(shí),是構(gòu)建水利信息知識(shí)圖譜的重要數(shù)據(jù)來源。本文主要利用水利對(duì)象數(shù)據(jù)構(gòu)建水利信息知識(shí)圖譜,下面首先給出水利信息知識(shí)圖譜相關(guān)概念的定義,再給出利用水利對(duì)象數(shù)據(jù)構(gòu)建水利信息知識(shí)圖譜的流程。
2.1水利信息知識(shí)圖譜的相關(guān)概念定義
1(概念層GC)
概念層是知識(shí)圖譜的核心,描述了知識(shí)圖譜的數(shù)據(jù)模式,規(guī)范了實(shí)例層中的事實(shí)。在水利信息知識(shí)圖譜中,概念層GC=(C,PC,NC,RC),其中C表示圖譜中的概念節(jié)點(diǎn),如水庫概念、河流概念;PC表示概念節(jié)點(diǎn)的屬性邊,如水庫概念的屬性邊有工程等別、水庫類型;NC表示屬性值類型節(jié)點(diǎn),如工程等別的屬性值類型節(jié)點(diǎn)為整型、水庫類型的屬性值類型節(jié)點(diǎn)為字符型;RC表示概念節(jié)點(diǎn)和概念節(jié)點(diǎn)之間的關(guān)系,如水庫概念與河流概念之間存在流入關(guān)系。定義2(實(shí)例層GE)實(shí)例層由一系列事實(shí)組成。
在水利信息知識(shí)圖譜中,實(shí)例層GE=(E,PE,NE,RE),其中E表示圖譜中的實(shí)例節(jié)點(diǎn),如三峽樞紐水庫、長(zhǎng)江;PE表示實(shí)例節(jié)點(diǎn)的屬性邊,如工程等別、水庫類型;NE表示屬性值節(jié)點(diǎn),如工程等別的屬性值節(jié)點(diǎn)為1、水庫類型的屬性值節(jié)點(diǎn)為山丘水庫;RE表示實(shí)例節(jié)點(diǎn)與實(shí)例節(jié)點(diǎn)之間的關(guān)系,如三峽樞紐水庫與長(zhǎng)江之間存在流入關(guān)系。
定義3(水利信息知識(shí)圖譜G)水利信息知識(shí)圖譜G=(GC,GE,R),其中GC表示水利信息知識(shí)圖譜的概念層;GE表示水利信息知識(shí)圖譜的實(shí)例層;R表示GC中的概念節(jié)點(diǎn)與GE中的實(shí)例節(jié)點(diǎn)之間的關(guān)系,如水庫概念與三峽樞紐水庫之間存在實(shí)例概念間關(guān)系。同時(shí)每一個(gè)實(shí)例節(jié)點(diǎn)E只與一個(gè)概念節(jié)點(diǎn)C存在關(guān)系R。
若2個(gè)實(shí)例節(jié)點(diǎn)E1和E2之間存在實(shí)例間關(guān)系RE,且E1、E2分別與概念節(jié)點(diǎn)C1、C2存在實(shí)例概念間關(guān)系R1、R2,則C1、C2之間也必然存在RC,且關(guān)系RC與關(guān)系RE有相同的名稱。如長(zhǎng)江與三峽樞紐水庫之間存在流入關(guān)系,三峽樞紐水庫與水庫概念、長(zhǎng)江與河流概念之間存在實(shí)例概念間關(guān)系,則水庫概念與河流概念之間也存在流入關(guān)系。圖1為部分水利信息知識(shí)圖譜的結(jié)構(gòu)。
現(xiàn)有的水利對(duì)象數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫中,主要由對(duì)象名錄表、對(duì)象基礎(chǔ)信息表和對(duì)象關(guān)系表這3類表組成,其中對(duì)象名錄表保存了水利對(duì)象的對(duì)象名稱、對(duì)象代碼等信息;對(duì)象基礎(chǔ)信息表保存了不同水利對(duì)象的特征信息;對(duì)象關(guān)系表記錄了2個(gè)水利對(duì)象之間的關(guān)系。對(duì)象基礎(chǔ)信息表與對(duì)象名錄表相關(guān)聯(lián),對(duì)象名錄表與對(duì)象關(guān)系表相關(guān)聯(lián)。
2.2水利信息知識(shí)圖譜的構(gòu)建方法
本文的大多知識(shí)圖譜都采用自頂向下的構(gòu)建方法,依次構(gòu)建知識(shí)圖譜的概念層與實(shí)例層。下面將給出水利信息知識(shí)圖譜概念層與實(shí)例層的具體構(gòu)建方法。
2.2.1概念層構(gòu)建
1)構(gòu)建概念節(jié)點(diǎn)C。根據(jù)在編的《水利對(duì)象分類與編碼總則》,結(jié)合水利對(duì)象數(shù)據(jù),在領(lǐng)域?qū)<业膸椭,確定概念節(jié)點(diǎn)C,例如水庫概念節(jié)點(diǎn)。每一個(gè)概念節(jié)點(diǎn)對(duì)應(yīng)一張對(duì)象名錄表和一張對(duì)象基礎(chǔ)信息表,如水庫概念節(jié)點(diǎn)對(duì)應(yīng)水庫對(duì)象名錄表和水庫基礎(chǔ)信息表。
2)構(gòu)建屬性邊PC和屬性值類型節(jié)點(diǎn)NC。抽取概念節(jié)點(diǎn)對(duì)應(yīng)的對(duì)象基礎(chǔ)信息表中的字段及字段類型作為概念節(jié)點(diǎn)C的屬性邊PC和屬性值類型節(jié)點(diǎn)NC。如抽取水庫基礎(chǔ)信息表中的工程等別字段作為水庫概念的屬性邊,其對(duì)應(yīng)的屬性值類型節(jié)點(diǎn)則為工程等別字段的類型,即整型。
3基于水利信息知識(shí)圖譜的知識(shí)推理
基于知識(shí)圖譜的知識(shí)推理旨在基于已有的知識(shí)圖譜,推理得到新的事實(shí)[23]。本文根據(jù)推理規(guī)則進(jìn)行知識(shí)推理,挖掘隱藏在水利信息知識(shí)圖譜中的水利知識(shí)。首先在已有的水利信息知識(shí)圖譜的基礎(chǔ)上,結(jié)合水利領(lǐng)域知識(shí),定義推理規(guī)則。
例如,在圖譜的概念層中,河流概念與水庫概念之間存在流入關(guān)系、水庫概念和水電站概念之間存在屬于關(guān)系,而在河流概念與水電站概念之間并無關(guān)系。但結(jié)合領(lǐng)域知識(shí)可知水電站與河流之間存在位于關(guān)系,因此,可以定義推理規(guī)則1,通過水庫得到水電站所在的河流。再通過推理規(guī)則的實(shí)例化,將抽象的概念替換為具體的實(shí)例,通過推理即可得到隱藏在水利信息知識(shí)圖譜中的知識(shí)。
例如,在應(yīng)用推理規(guī)則1獲得三峽水電站所在河流時(shí),先將推理規(guī)則中的水電站概念替換為三峽水電站,利用水利信息知識(shí)圖譜對(duì)規(guī)則體中的事實(shí)進(jìn)行匹配,得到具體的水庫實(shí)例,即三峽樞紐水庫。再將水庫概念替換為具體的水庫實(shí)例,重復(fù)上述步驟,即可得到具體的河流實(shí)例,也即三峽水電站所在的河流。通過知識(shí)推理可以實(shí)現(xiàn)對(duì)水利信息知識(shí)圖譜的進(jìn)一步挖掘。
4系統(tǒng)實(shí)現(xiàn)與展示
4.1系統(tǒng)總體架構(gòu)
本文利用水利對(duì)象數(shù)據(jù),通過搭建水利信息知識(shí)圖譜構(gòu)建與檢索系統(tǒng),實(shí)現(xiàn)水利信息知識(shí)圖譜的構(gòu)建和水利信息的智能檢索與推薦。水利信息知識(shí)圖譜構(gòu)建與檢索系統(tǒng)按照本文提出的知識(shí)圖譜構(gòu)建方法構(gòu)建水利信息知識(shí)圖譜,并應(yīng)用了基于推理規(guī)則的知識(shí)推理方法,實(shí)現(xiàn)了圖譜檢索和推理檢索2種不同的知識(shí)檢索方式。
該服務(wù)系統(tǒng)主要分為3層:數(shù)據(jù)存儲(chǔ)層、業(yè)務(wù)邏輯層和應(yīng)用層。其中應(yīng)用層主要由概念管理模塊、知識(shí)構(gòu)建模塊、推理規(guī)則管理模塊、知識(shí)檢索模塊、系統(tǒng)管理模塊等組成。業(yè)務(wù)邏輯層利用水利對(duì)象數(shù)據(jù),通過Jena構(gòu)建水利信息知識(shí)圖譜,并使用Fuseki實(shí)現(xiàn)對(duì)水利信息知識(shí)圖譜的查詢。數(shù)據(jù)存儲(chǔ)層使用JenaTDB作為知識(shí)圖譜的持久化工具。
5結(jié)束語
本文以水利對(duì)象數(shù)據(jù)為基礎(chǔ),提出了水利信息知識(shí)圖譜構(gòu)建方法;實(shí)現(xiàn)了基于推理規(guī)則的知識(shí)推理方法;并將上述技術(shù)應(yīng)用于水利信息知識(shí)圖譜構(gòu)建與檢索系統(tǒng),構(gòu)建了水利信息知識(shí)圖譜,實(shí)現(xiàn)了智能數(shù)據(jù)檢索與推薦。
本文對(duì)水利領(lǐng)域知識(shí)圖譜構(gòu)建與應(yīng)用進(jìn)行了探索,但由于主要考慮使用水利對(duì)象數(shù)據(jù)構(gòu)建水利信息知識(shí)圖譜,對(duì)于互聯(lián)網(wǎng)中非結(jié)構(gòu)化文本的利用不充分,在未來的工作中,將進(jìn)一步挖掘蘊(yùn)含在互聯(lián)網(wǎng)文本中的水利知識(shí),添加到水利信息知識(shí)圖譜中,用以豐富水利信息知識(shí)圖譜。
參考文獻(xiàn):
[1]朱躍龍,許峰,馮鈞,等.水利信息資源目錄體系構(gòu)建研究[J].水利信息化,2010(2):4-8.
[2]成建國(guó),馮鈞,楊鵬,等.水利數(shù)據(jù)資源目錄服務(wù)關(guān)鍵技術(shù)研究[J].水利信息化,2014(6):18-21.
[3]AMITS.IntroducingtheKnowledgeGraph[EB/OL].(2012-05-01)[2019-03-15].
[4]漆桂林,高桓,吳天星.知識(shí)圖譜研究進(jìn)展[J].情報(bào)工程,2017,3(1):4-25.
水利論文投稿刊物:《水利信息化》全國(guó)性科技期刊。發(fā)布水利信息化建設(shè)政策、法規(guī)和標(biāo)準(zhǔn)等,介紹水利信息化建設(shè)經(jīng)驗(yàn)和成果。讀者對(duì)象主要是我國(guó)廣大水文站網(wǎng)工作者,水利、水文、水電、交通、能源、地質(zhì)、環(huán)保、化工、農(nóng)林、航運(yùn)、水資源和水利電力工程等有關(guān)部門的工人、工程技術(shù)人員和院校師生等。
轉(zhuǎn)載請(qǐng)注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///jjlw/20666.html