亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國(guó)內(nèi)或國(guó)外 期刊或論文

您當(dāng)前的位置:發(fā)表學(xué)術(shù)論文網(wǎng)文史論文》 基于SOLR的標(biāo)準(zhǔn)內(nèi)容搜索的實(shí)現(xiàn)與優(yōu)化> 正文

基于SOLR的標(biāo)準(zhǔn)內(nèi)容搜索的實(shí)現(xiàn)與優(yōu)化

所屬分類:文史論文 閱讀次 時(shí)間:2021-03-24 10:33

本文摘要:摘要:面對(duì)海量的標(biāo)準(zhǔn)信息,信息檢索成為了研究和工作人員關(guān)注的問(wèn)題,尤其是非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、集成和索引。本文將Solr搜索引擎技術(shù)應(yīng)用在標(biāo)準(zhǔn)內(nèi)容的檢索,實(shí)現(xiàn)針對(duì)標(biāo)準(zhǔn)化對(duì)象、具體指標(biāo)等關(guān)鍵詞的搜索,通過(guò)分詞器選型和完善詞表等手段,實(shí)現(xiàn)搜索效果的

  摘要:面對(duì)海量的標(biāo)準(zhǔn)信息,信息檢索成為了研究和工作人員關(guān)注的問(wèn)題,尤其是非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)、集成和索引。本文將Solr搜索引擎技術(shù)應(yīng)用在標(biāo)準(zhǔn)內(nèi)容的檢索,實(shí)現(xiàn)針對(duì)標(biāo)準(zhǔn)化對(duì)象、具體指標(biāo)等關(guān)鍵詞的搜索,通過(guò)分詞器選型和完善詞表等手段,實(shí)現(xiàn)搜索效果的優(yōu)化。

  關(guān)鍵詞:標(biāo)準(zhǔn)文獻(xiàn),內(nèi)容搜索,SOLR優(yōu)化

標(biāo)準(zhǔn)科學(xué)

  1引言

  標(biāo)準(zhǔn)是科學(xué)、技術(shù)和實(shí)踐經(jīng)驗(yàn)的結(jié)晶,是組織生產(chǎn)的依據(jù),是科學(xué)管理的基礎(chǔ)[1]。隨著標(biāo)準(zhǔn)文本信息的采集規(guī)模越來(lái)越大,對(duì)于標(biāo)準(zhǔn)的準(zhǔn)確定位困難越來(lái)越大,導(dǎo)致用戶不能夠及時(shí)獲取所需標(biāo)準(zhǔn),標(biāo)準(zhǔn)資源也不能夠被很好地利用[2]。針對(duì)標(biāo)準(zhǔn)內(nèi)容,尤其是標(biāo)準(zhǔn)中重要指標(biāo)描述的搜索成為標(biāo)準(zhǔn)搜索的核心訴求。面對(duì)百萬(wàn)量級(jí)各國(guó)標(biāo)準(zhǔn)題錄數(shù)據(jù),千萬(wàn)量級(jí)的中文標(biāo)準(zhǔn)段落數(shù)據(jù),如何精確檢索定位已經(jīng)成為國(guó)內(nèi)外標(biāo)準(zhǔn)文獻(xiàn)服務(wù)及服務(wù)單位探索改進(jìn)標(biāo)準(zhǔn)文獻(xiàn)服務(wù)現(xiàn)狀的重要方式[3]。傳統(tǒng)的檢索方式或者咨詢也早就不能滿足廣大用戶的需求,搜索引擎的問(wèn)世讓大規(guī)模的數(shù)據(jù)有了索引方向[4]。搜索引擎能夠管理大量的文本數(shù)據(jù),具有靈活的模式,能夠快速有效地滿足用戶獲取信息資源的需求[5],目前各個(gè)行業(yè)都能夠充分地利用互聯(lián)網(wǎng)資源,其中搜索引擎已經(jīng)是各個(gè)行業(yè)利用最多的功能。

  2研究現(xiàn)狀

  盧麗麗等[6]研究提出我國(guó)標(biāo)準(zhǔn)文獻(xiàn)領(lǐng)域,服務(wù)模式單一、零散、效率低下,已經(jīng)無(wú)法滿足在互聯(lián)網(wǎng)環(huán)境下客戶對(duì)標(biāo)準(zhǔn)信息的需求。信息檢索技術(shù)在國(guó)內(nèi)有很多研究,如:布爾檢索法[7]、詞位檢索法[7]、截詞檢索法、限制檢索法[8-9]等方法。對(duì)于搜索引擎技術(shù)的研究,國(guó)內(nèi)的發(fā)展較晚,搜狐在初期也是僅僅基于人工分類。由于中文有很大的難度和含義復(fù)雜,處理起來(lái)也很困難,這就造成了檢索技術(shù)發(fā)展緩慢,對(duì)于搜索引擎的開(kāi)發(fā)和研究也是近些年才開(kāi)始展開(kāi)的。

  一直以來(lái),國(guó)內(nèi)較為流行的全文索引技術(shù)包括TRS(TextRetrievalSystem)或者Lucene。陳正思[10]在其論文中研究了基于TRS技術(shù)的文獻(xiàn)資源檢索平臺(tái)。梅江澤[11]指出當(dāng)時(shí)現(xiàn)存的搜索引擎服務(wù)都是利用這兩項(xiàng)技術(shù)為基礎(chǔ)搭建的,或者是在其基礎(chǔ)上進(jìn)行的優(yōu)化開(kāi)發(fā)來(lái)滿足特定的需求。在文獻(xiàn)[12]中研究了關(guān)于Solr搜索引擎的核心技術(shù),如:網(wǎng)絡(luò)爬蟲(chóng)Heritrix、網(wǎng)頁(yè)解析HTMLParser、中文分詞IK、索引建立、相關(guān)度排序等,提出并行索引方式和緩存模型提升了響應(yīng)速度。丁蔚然[13]研究了針對(duì)跨地區(qū)的數(shù)據(jù)平臺(tái)融合檢索技術(shù),實(shí)現(xiàn)了企業(yè)異構(gòu)信息搜索平臺(tái)。

  白波[14]利用Solr進(jìn)行二次開(kāi)發(fā),并添加了個(gè)性化搜索部分,增強(qiáng)了檢索的實(shí)用性。國(guó)內(nèi)首次嘗試個(gè)性化推薦是在文獻(xiàn)[15]中提到。目前,國(guó)內(nèi)的搜索引擎技術(shù)還尚未成熟,基于Lucene、Solr、ElasticSearch的檢索開(kāi)發(fā)也是近幾年才開(kāi)始實(shí)踐的,隨著互聯(lián)網(wǎng)絡(luò)的發(fā)展、數(shù)據(jù)的積累,尤其是針對(duì)特定企業(yè)內(nèi)部非結(jié)構(gòu)化數(shù)據(jù)的集成檢索還有待進(jìn)一步研究。

  3關(guān)鍵技術(shù)

  3.1Solr

  Solr是一個(gè)基于Lucene的全文檢索的服務(wù)器,Solr提供了比Lucene更為豐富的查詢語(yǔ)言,同時(shí)實(shí)現(xiàn)了可擴(kuò)展、可配置,還提供了完整的查詢優(yōu)化方案以及集群方案,可以獨(dú)立運(yùn)行在任何主流JavaServlet引擎中,如Jetty和Tomcat,或JBoss、OracleAS這樣的J2EE應(yīng)用服務(wù)器,Solr也為許多大型網(wǎng)站提供導(dǎo)航搜索服務(wù)[15]。Solr自帶一些較強(qiáng)的功能,讓搜索更加優(yōu)化,而且自帶管理界面,使用起來(lái)簡(jiǎn)單方便、直觀而且功能強(qiáng)大。

  通過(guò)很多用戶對(duì)Solr的二次開(kāi)發(fā)使用,可以實(shí)現(xiàn)分頁(yè)與排序、檢索分組、自動(dòng)建議、拼寫檢查、搜索結(jié)果高亮等功能,這些功能基本可以滿足一般的網(wǎng)站檢索開(kāi)發(fā)需求,利用它可以實(shí)現(xiàn)大規(guī)模文本數(shù)據(jù)的檢索并根據(jù)檢索結(jié)果進(jìn)行相關(guān)度排序。Solr的整體結(jié)構(gòu)主要分為3個(gè)方面,Solr底層的核心技術(shù)還是Lucene,主要功能都在這里完成,包括請(qǐng)求解析、索引的建立、查詢等,索引復(fù)制可以通過(guò)異步處理或者腳本程序完成[16]。但是Solr是在此基礎(chǔ)上又?jǐn)U展了Lucene,使其面向企業(yè)搜索應(yīng)用。

  3.2反向索引

  在談?wù)撍阉饕娴乃饕龝r(shí),會(huì)涉及到兩個(gè)概念——正向索引(forwardindex)和反向索引(invertedindex):(1)正向索引:從文檔到詞。假如有三個(gè)txt文檔,文檔1:Thecowsaysmoo.文檔2:Thecatandthehat.文檔3:Thedishranawaywiththespoon.解析每個(gè)文檔出現(xiàn)的單詞,然后建立從文檔(document)到詞(words)的映射關(guān)系,這就是正向索引。

  Solr搜索引擎在進(jìn)行搜索服務(wù)時(shí),是基于反向索引的,即針對(duì)用戶輸入的檢索詞,基于已有分詞器進(jìn)行分詞,再針對(duì)分詞之后的結(jié)果進(jìn)行搜索,并命中文檔。而反向索引的前提也是Solr搜索引擎基于分詞器,針對(duì)標(biāo)準(zhǔn)題錄和全文段落內(nèi)容,進(jìn)行反向引擎的構(gòu)建。因此,使用成熟的Solr搜索引擎的效果優(yōu)劣,很大程度依賴于分詞器的選型和詞表的優(yōu)化。

  3.3中文分詞

  在信息處理和檢索領(lǐng)域中,不可或缺的就是中文分詞技術(shù),中文分詞應(yīng)用在創(chuàng)建索引和查詢語(yǔ)句中,分詞的結(jié)果直接能夠影響檢索結(jié)果的準(zhǔn)確性。眾所周知,英文通常都是以單詞為基本單位,單詞間用空格或逗號(hào)、句號(hào)分開(kāi),這時(shí)程序也很容易區(qū)分每個(gè)單詞。但是中文就不一樣了,中文是每個(gè)字為一個(gè)單位,字、詞、句都有各自含義,中國(guó)漢字語(yǔ)言文化博大精深,語(yǔ)義豐富。但中文“我愛(ài)中國(guó)”就不一樣了,電腦不知道“中國(guó)”是一個(gè)詞語(yǔ)還是“愛(ài)中”是一個(gè)詞語(yǔ)。像這樣,就需要按照人類理解的意思把詞句給拆分成單個(gè)字或詞語(yǔ),并且是有含義的詞,這就稱之為中文分詞,也可叫做切詞。我愛(ài)中國(guó),分詞的結(jié)果是:“我”“愛(ài)”“中”“國(guó)”。Lucene自帶中文分詞器:(1)StandardAnalyzer(單字分詞):就是把中文詞句拆分為單個(gè)字進(jìn)行分詞。

  如:“我愛(ài)中國(guó)”,效果:“我”“愛(ài)”“中”“國(guó)”。(2)CJKAnalyzer(二分法分詞):把每?jī)蓚(gè)字拆分為一體。如:“我是中國(guó)人”,效果:“我是”“是中”“中國(guó)”“國(guó)人”。以上兩種自帶分詞器顯然都無(wú)法滿足我們對(duì)中文分詞需求,因此,必須使用第三方中文分詞器產(chǎn)品來(lái)實(shí)現(xiàn)中文分詞。如:ik-analyzer、mmseg4j等。mmseg4j由華人Chih-HaoTsai創(chuàng)建,它基于MMSeg算法①實(shí)現(xiàn)的中文分詞器,而且包含了lucene的文本解析器和solr的分詞器工廠類,這樣使得該分詞器既能夠在Lucene中使用,也能夠在Solr中使用。MMSeg算法有兩種分詞方法:簡(jiǎn)單的正向 匹配和復(fù)雜的正向匹配,同樣是基于正向最大匹配,只是復(fù)雜的存在四個(gè)規(guī)則對(duì)內(nèi)容進(jìn)行過(guò)濾[49]。

  mmseg4j使用搜狗詞庫(kù)。②IKAnalyzer是一個(gè)由國(guó)內(nèi)程序員林良益開(kāi)源的,基于java語(yǔ)言開(kāi)發(fā)的輕量級(jí)的中文分詞工具包。到現(xiàn)在,IK發(fā)展為面向Java的公用分詞組件,獨(dú)立于Lucene項(xiàng)目,同時(shí)提供了對(duì)Lucene的默認(rèn)優(yōu)化實(shí)現(xiàn)。在2012版本中,IK實(shí)現(xiàn)了簡(jiǎn)單的分詞歧義排除算法,標(biāo)志著IK分詞器從單純的詞典分詞向模擬語(yǔ)義分詞衍化,IKAnalyzer被認(rèn)為是最好的Lucene中文分詞器之一,而且隨著Lucene的版本更新而不斷更新,目前已更新到IKAnalyzer2012版本。

  4存在問(wèn)題

  4.1mmseg4j分詞效果不理想mmseg4j分詞算法提供三種分詞方法:simple、complex和maxword。其中,simple方式基于正向最大匹配,將每個(gè)漢字簡(jiǎn)單分割成詞匯單元,通常會(huì)因?yàn)榍蟹痔鄬?dǎo)致檢索時(shí)候出現(xiàn)不需要的搜索結(jié)果;complex分詞在simple基礎(chǔ)上,增加了歧義消除規(guī)則;maxword為盡量獲取更多的分詞結(jié)果。下面分別以“兒童口罩技術(shù)規(guī)范”為例,用simple、complex、maxword三種方式對(duì)下段文字進(jìn)行分詞測(cè)試。

  (1)simple分詞效果;谠~表,只拆分出長(zhǎng)詞,即“兒童口罩”和“技術(shù)規(guī)范”,對(duì)于“口罩”沒(méi)有拆分出來(lái),并最終導(dǎo)致Solr搜索“口罩”時(shí),該標(biāo)準(zhǔn)無(wú)法被檢索到,這樣的體驗(yàn)無(wú)法接受。

  5解決方案及效果

  5.1使用IKAnalyzerIKAnalyzer的主要邏輯包括三部分:詞典:詞典的好壞直接影響分詞結(jié)果的好壞;詞的匹配:有了詞典之后,就可以對(duì)輸入的字符串逐字句和詞典進(jìn)行匹配,這點(diǎn)與mmseg4j類似;消除歧義:通過(guò)詞典匹配出來(lái)的切分方式會(huì)有多種,消除歧義就是從中尋找最合理的一種方式,這項(xiàng)功能體現(xiàn)出IKAnalyzer的優(yōu)勢(shì)。IKAnalyzer的切詞方式主要有兩種,一種為smart模式,一種為ik_max_word即非smart模式。以“兒童口罩技術(shù)規(guī)范”為例。

  科學(xué)論文投稿刊物:《標(biāo)準(zhǔn)科學(xué)》由國(guó)家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局主管、中國(guó)標(biāo)準(zhǔn)化研究院主辦。《標(biāo)準(zhǔn)科學(xué)》是中央級(jí)“中國(guó)科技核心期刊”、“中國(guó)科技論文統(tǒng)計(jì)源期刊”和“CSSC擴(kuò)展版來(lái)源期刊”;是學(xué)術(shù)性、權(quán)威性、專業(yè)性、前沿性、國(guó)際性,重點(diǎn)刊載標(biāo)準(zhǔn)科學(xué)的最新進(jìn)展和動(dòng)態(tài)研究成果的大型月刊;是國(guó)家質(zhì)檢總局通過(guò)國(guó)家標(biāo)準(zhǔn)館,與國(guó)外交換的重要刊物之一。

  6結(jié)語(yǔ)

  本文將Solr搜索引擎技術(shù)應(yīng)用在標(biāo)準(zhǔn)段落內(nèi)容和指標(biāo)的檢索上,研究了Solr及其反向索引和中文分詞等關(guān)鍵技術(shù),針對(duì)在搜索標(biāo)準(zhǔn)內(nèi)容和指標(biāo)中實(shí)際遇到的問(wèn)題,研究解決方案,并通過(guò)分詞器的選型和詞表的完善,達(dá)到了更好的檢索效果。

  參考文獻(xiàn)

  陳平,褚華.軟件設(shè)計(jì)師教程(第2版)[M].北京:清華大學(xué)出版社,2006.

  甘克勤,張寶林,計(jì)雄飛,等.標(biāo)準(zhǔn)大數(shù)據(jù)實(shí)踐(1)——異構(gòu)數(shù)據(jù)集成[J].標(biāo)準(zhǔn)科學(xué),2016(1):12-15.

  鮑向榮.淺議新形勢(shì)下如何開(kāi)展標(biāo)準(zhǔn)信息服務(wù)工作[J].大科技,2018,(30):20-21.

  丁蔚然.基于Solr的企業(yè)異構(gòu)信息搜索平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].南京:東南大學(xué),2015.

  宋漫莉.網(wǎng)絡(luò)環(huán)境下用戶信息期望與信息質(zhì)量關(guān)系實(shí)證研究[D].天津:天津師范大學(xué),2012.

  盧麗麗,陳云鵬,張寶林,等.標(biāo)準(zhǔn)信息集成研究[J].標(biāo)準(zhǔn)科學(xué),2012(12):28-33.

  作者:趙東海張文華

轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng):http:///wslw/26230.html