基于SOLR的標(biāo)準(zhǔn)內(nèi)容搜索的實(shí)現(xiàn)與優(yōu)化

所屬分類：文史論文閱讀次時(shí)間：2021-03-24 10:33

本文摘要：摘要：面對海量的標(biāo)準(zhǔn)信息，信息檢索成為了研究和工作人員關(guān)注的問題，尤其是非結(jié)構(gòu)化數(shù)據(jù)的存儲、集成和索引。本文將Solr搜索引擎技術(shù)應(yīng)用在標(biāo)準(zhǔn)內(nèi)容的檢索，實(shí)現(xiàn)針對標(biāo)準(zhǔn)化對象、具體指標(biāo)等關(guān)鍵詞的搜索，通過分詞器選型和完善詞表等手段，實(shí)現(xiàn)搜索效果的

　　摘要：面對海量的標(biāo)準(zhǔn)信息，信息檢索成為了研究和工作人員關(guān)注的問題，尤其是非結(jié)構(gòu)化數(shù)據(jù)的存儲、集成和索引。本文將Solr搜索引擎技術(shù)應(yīng)用在標(biāo)準(zhǔn)內(nèi)容的檢索，實(shí)現(xiàn)針對標(biāo)準(zhǔn)化對象、具體指標(biāo)等關(guān)鍵詞的搜索，通過分詞器選型和完善詞表等手段，實(shí)現(xiàn)搜索效果的優(yōu)化。

　　關(guān)鍵詞：標(biāo)準(zhǔn)文獻(xiàn)，內(nèi)容搜索，SOLR優(yōu)化

標(biāo)準(zhǔn)科學(xué)

　　1引言

　　標(biāo)準(zhǔn)是科學(xué)、技術(shù)和實(shí)踐經(jīng)驗(yàn)的結(jié)晶，是組織生產(chǎn)的依據(jù)，是科學(xué)管理的基礎(chǔ)[1]。隨著標(biāo)準(zhǔn)文本信息的采集規(guī)模越來越大，對于標(biāo)準(zhǔn)的準(zhǔn)確定位困難越來越大，導(dǎo)致用戶不能夠及時(shí)獲取所需標(biāo)準(zhǔn)，標(biāo)準(zhǔn)資源也不能夠被很好地利用[2]。針對標(biāo)準(zhǔn)內(nèi)容，尤其是標(biāo)準(zhǔn)中重要指標(biāo)描述的搜索成為標(biāo)準(zhǔn)搜索的核心訴求。面對百萬量級各國標(biāo)準(zhǔn)題錄數(shù)據(jù)，千萬量級的中文標(biāo)準(zhǔn)段落數(shù)據(jù)，如何精確檢索定位已經(jīng)成為國內(nèi)外標(biāo)準(zhǔn)文獻(xiàn)服務(wù)及服務(wù)單位探索改進(jìn)標(biāo)準(zhǔn)文獻(xiàn)服務(wù)現(xiàn)狀的重要方式[3]。傳統(tǒng)的檢索方式或者咨詢也早就不能滿足廣大用戶的需求，搜索引擎的問世讓大規(guī)模的數(shù)據(jù)有了索引方向[4]。搜索引擎能夠管理大量的文本數(shù)據(jù)，具有靈活的模式，能夠快速有效地滿足用戶獲取信息資源的需求[5]，目前各個(gè)行業(yè)都能夠充分地利用互聯(lián)網(wǎng)資源，其中搜索引擎已經(jīng)是各個(gè)行業(yè)利用最多的功能。

　　2研究現(xiàn)狀

　　盧麗麗等[6]研究提出我國標(biāo)準(zhǔn)文獻(xiàn)領(lǐng)域，服務(wù)模式單一、零散、效率低下，已經(jīng)無法滿足在互聯(lián)網(wǎng)環(huán)境下客戶對標(biāo)準(zhǔn)信息的需求。信息檢索技術(shù)在國內(nèi)有很多研究，如：布爾檢索法[7]、詞位檢索法[7]、截詞檢索法、限制檢索法[8-9]等方法。對于搜索引擎技術(shù)的研究，國內(nèi)的發(fā)展較晚，搜狐在初期也是僅僅基于人工分類。由于中文有很大的難度和含義復(fù)雜，處理起來也很困難，這就造成了檢索技術(shù)發(fā)展緩慢，對于搜索引擎的開發(fā)和研究也是近些年才開始展開的。

　　一直以來，國內(nèi)較為流行的全文索引技術(shù)包括TRS(TextRetrievalSystem)或者Lucene。陳正思[10]在其論文中研究了基于TRS技術(shù)的文獻(xiàn)資源檢索平臺。梅江澤[11]指出當(dāng)時(shí)現(xiàn)存的搜索引擎服務(wù)都是利用這兩項(xiàng)技術(shù)為基礎(chǔ)搭建的，或者是在其基礎(chǔ)上進(jìn)行的優(yōu)化開發(fā)來滿足特定的需求。在文獻(xiàn)[12]中研究了關(guān)于Solr搜索引擎的核心技術(shù)，如：網(wǎng)絡(luò)爬蟲Heritrix、網(wǎng)頁解析HTMLParser、中文分詞IK、索引建立、相關(guān)度排序等，提出并行索引方式和緩存模型提升了響應(yīng)速度。丁蔚然[13]研究了針對跨地區(qū)的數(shù)據(jù)平臺融合檢索技術(shù)，實(shí)現(xiàn)了企業(yè)異構(gòu)信息搜索平臺。

　　白波[14]利用Solr進(jìn)行二次開發(fā)，并添加了個(gè)性化搜索部分，增強(qiáng)了檢索的實(shí)用性。國內(nèi)首次嘗試個(gè)性化推薦是在文獻(xiàn)[15]中提到。目前，國內(nèi)的搜索引擎技術(shù)還尚未成熟，基于Lucene、Solr、ElasticSearch的檢索開發(fā)也是近幾年才開始實(shí)踐的，隨著互聯(lián)網(wǎng)絡(luò)的發(fā)展、數(shù)據(jù)的積累，尤其是針對特定企業(yè)內(nèi)部非結(jié)構(gòu)化數(shù)據(jù)的集成檢索還有待進(jìn)一步研究。

　　3關(guān)鍵技術(shù)

　　3.1Solr

　　Solr是一個(gè)基于Lucene的全文檢索的服務(wù)器，Solr提供了比Lucene更為豐富的查詢語言，同時(shí)實(shí)現(xiàn)了可擴(kuò)展、可配置，還提供了完整的查詢優(yōu)化方案以及集群方案，可以獨(dú)立運(yùn)行在任何主流JavaServlet引擎中，如Jetty和Tomcat，或JBoss、OracleAS這樣的J2EE應(yīng)用服務(wù)器，Solr也為許多大型網(wǎng)站提供導(dǎo)航搜索服務(wù)[15]。Solr自帶一些較強(qiáng)的功能，讓搜索更加優(yōu)化，而且自帶管理界面，使用起來簡單方便、直觀而且功能強(qiáng)大。

　　通過很多用戶對Solr的二次開發(fā)使用，可以實(shí)現(xiàn)分頁與排序、檢索分組、自動建議、拼寫檢查、搜索結(jié)果高亮等功能，這些功能基本可以滿足一般的網(wǎng)站檢索開發(fā)需求，利用它可以實(shí)現(xiàn)大規(guī)模文本數(shù)據(jù)的檢索并根據(jù)檢索結(jié)果進(jìn)行相關(guān)度排序。Solr的整體結(jié)構(gòu)主要分為3個(gè)方面，Solr底層的核心技術(shù)還是Lucene，主要功能都在這里完成，包括請求解析、索引的建立、查詢等，索引復(fù)制可以通過異步處理或者腳本程序完成[16]。但是Solr是在此基礎(chǔ)上又?jǐn)U展了Lucene，使其面向企業(yè)搜索應(yīng)用。

　　3.2反向索引

　　在談?wù)撍阉饕娴乃饕龝r(shí)，會涉及到兩個(gè)概念——正向索引(forwardindex)和反向索引(invertedindex)：(1)正向索引：從文檔到詞。假如有三個(gè)txt文檔，文檔1:Thecowsaysmoo.文檔2:Thecatandthehat.文檔3:Thedishranawaywiththespoon.解析每個(gè)文檔出現(xiàn)的單詞，然后建立從文檔(document)到詞(words)的映射關(guān)系，這就是正向索引。

　　Solr搜索引擎在進(jìn)行搜索服務(wù)時(shí)，是基于反向索引的，即針對用戶輸入的檢索詞，基于已有分詞器進(jìn)行分詞，再針對分詞之后的結(jié)果進(jìn)行搜索，并命中文檔。而反向索引的前提也是Solr搜索引擎基于分詞器，針對標(biāo)準(zhǔn)題錄和全文段落內(nèi)容，進(jìn)行反向引擎的構(gòu)建。因此，使用成熟的Solr搜索引擎的效果優(yōu)劣，很大程度依賴于分詞器的選型和詞表的優(yōu)化。

　　3.3中文分詞

　　在信息處理和檢索領(lǐng)域中，不可或缺的就是中文分詞技術(shù)，中文分詞應(yīng)用在創(chuàng)建索引和查詢語句中，分詞的結(jié)果直接能夠影響檢索結(jié)果的準(zhǔn)確性。眾所周知，英文通常都是以單詞為基本單位，單詞間用空格或逗號、句號分開，這時(shí)程序也很容易區(qū)分每個(gè)單詞。但是中文就不一樣了，中文是每個(gè)字為一個(gè)單位，字、詞、句都有各自含義，中國漢字語言文化博大精深，語義豐富。但中文“我愛中國”就不一樣了，電腦不知道“中國”是一個(gè)詞語還是“愛中”是一個(gè)詞語。像這樣，就需要按照人類理解的意思把詞句給拆分成單個(gè)字或詞語，并且是有含義的詞，這就稱之為中文分詞，也可叫做切詞。我愛中國，分詞的結(jié)果是：“我”“愛”“中”“國”。Lucene自帶中文分詞器：(1)StandardAnalyzer(單字分詞)：就是把中文詞句拆分為單個(gè)字進(jìn)行分詞。

　　如：“我愛中國”，效果：“我”“愛”“中”“國”。(2)CJKAnalyzer(二分法分詞)：把每兩個(gè)字拆分為一體。如：“我是中國人”，效果：“我是”“是中”“中國”“國人”。以上兩種自帶分詞器顯然都無法滿足我們對中文分詞需求，因此，必須使用第三方中文分詞器產(chǎn)品來實(shí)現(xiàn)中文分詞。如：ik-analyzer、mmseg4j等。mmseg4j由華人Chih-HaoTsai創(chuàng)建，它基于MMSeg算法①實(shí)現(xiàn)的中文分詞器，而且包含了lucene的文本解析器和solr的分詞器工廠類，這樣使得該分詞器既能夠在Lucene中使用，也能夠在Solr中使用。MMSeg算法有兩種分詞方法：簡單的正向匹配和復(fù)雜的正向匹配，同樣是基于正向最大匹配，只是復(fù)雜的存在四個(gè)規(guī)則對內(nèi)容進(jìn)行過濾[49]。

　　mmseg4j使用搜狗詞庫。②IKAnalyzer是一個(gè)由國內(nèi)程序員林良益開源的，基于java語言開發(fā)的輕量級的中文分詞工具包。到現(xiàn)在，IK發(fā)展為面向Java的公用分詞組件，獨(dú)立于Lucene項(xiàng)目，同時(shí)提供了對Lucene的默認(rèn)優(yōu)化實(shí)現(xiàn)。在2012版本中，IK實(shí)現(xiàn)了簡單的分詞歧義排除算法，標(biāo)志著IK分詞器從單純的詞典分詞向模擬語義分詞衍化，IKAnalyzer被認(rèn)為是最好的Lucene中文分詞器之一，而且隨著Lucene的版本更新而不斷更新，目前已更新到IKAnalyzer2012版本。

　　4存在問題

　　4.1mmseg4j分詞效果不理想mmseg4j分詞算法提供三種分詞方法：simple、complex和maxword。其中，simple方式基于正向最大匹配，將每個(gè)漢字簡單分割成詞匯單元，通常會因?yàn)榍蟹痔鄬?dǎo)致檢索時(shí)候出現(xiàn)不需要的搜索結(jié)果;complex分詞在simple基礎(chǔ)上，增加了歧義消除規(guī)則;maxword為盡量獲取更多的分詞結(jié)果。下面分別以“兒童口罩技術(shù)規(guī)范”為例，用simple、complex、maxword三種方式對下段文字進(jìn)行分詞測試。

　　(1)simple分詞效果�；谠~表，只拆分出長詞，即“兒童口罩”和“技術(shù)規(guī)范”，對于“口罩”沒有拆分出來，并最終導(dǎo)致Solr搜索“口罩”時(shí)，該標(biāo)準(zhǔn)無法被檢索到，這樣的體驗(yàn)無法接受。

　　5解決方案及效果

　　5.1使用IKAnalyzerIKAnalyzer的主要邏輯包括三部分：詞典：詞典的好壞直接影響分詞結(jié)果的好壞;詞的匹配：有了詞典之后，就可以對輸入的字符串逐字句和詞典進(jìn)行匹配，這點(diǎn)與mmseg4j類似;消除歧義：通過詞典匹配出來的切分方式會有多種，消除歧義就是從中尋找最合理的一種方式，這項(xiàng)功能體現(xiàn)出IKAnalyzer的優(yōu)勢。IKAnalyzer的切詞方式主要有兩種，一種為smart模式，一種為ik_max_word即非smart模式。以“兒童口罩技術(shù)規(guī)范”為例。

　　科學(xué)論文投稿刊物：《標(biāo)準(zhǔn)科學(xué)》由國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局主管、中國標(biāo)準(zhǔn)化研究院主辦�！稑�(biāo)準(zhǔn)科學(xué)》是中央級“中國科技核心期刊”、“中國科技論文統(tǒng)計(jì)源期刊”和“CSSC擴(kuò)展版來源期刊”;是學(xué)術(shù)性、權(quán)威性、專業(yè)性、前沿性、國際性，重點(diǎn)刊載標(biāo)準(zhǔn)科學(xué)的最新進(jìn)展和動態(tài)研究成果的大型月刊;是國家質(zhì)檢總局通過國家標(biāo)準(zhǔn)館，與國外交換的重要刊物之一。

　　6結(jié)語

　　本文將Solr搜索引擎技術(shù)應(yīng)用在標(biāo)準(zhǔn)段落內(nèi)容和指標(biāo)的檢索上，研究了Solr及其反向索引和中文分詞等關(guān)鍵技術(shù)，針對在搜索標(biāo)準(zhǔn)內(nèi)容和指標(biāo)中實(shí)際遇到的問題，研究解決方案，并通過分詞器的選型和詞表的完善，達(dá)到了更好的檢索效果。

　　參考文獻(xiàn)

　　陳平,褚華.軟件設(shè)計(jì)師教程(第2版)[M].北京:清華大學(xué)出版社,2006.

　　甘克勤,張寶林,計(jì)雄飛,等.標(biāo)準(zhǔn)大數(shù)據(jù)實(shí)踐(1)——異構(gòu)數(shù)據(jù)集成[J].標(biāo)準(zhǔn)科學(xué),2016(1):12-15.

　　鮑向榮.淺議新形勢下如何開展標(biāo)準(zhǔn)信息服務(wù)工作[J].大科技,2018,(30):20-21.

　　丁蔚然.基于Solr的企業(yè)異構(gòu)信息搜索平臺的設(shè)計(jì)與實(shí)現(xiàn)[D].南京:東南大學(xué),2015.

　　宋漫莉.網(wǎng)絡(luò)環(huán)境下用戶信息期望與信息質(zhì)量關(guān)系實(shí)證研究[D].天津:天津師范大學(xué),2012.

　　盧麗麗,陳云鵬,張寶林,等.標(biāo)準(zhǔn)信息集成研究[J].標(biāo)準(zhǔn)科學(xué),2012(12):28-33.

　　作者：趙東海張文華