亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國內(nèi)或國外 期刊或論文

您當(dāng)前的位置:發(fā)表學(xué)術(shù)論文網(wǎng)文史論文》 基于SOLR的標(biāo)準(zhǔn)內(nèi)容搜索的實現(xiàn)與優(yōu)化> 正文

基于SOLR的標(biāo)準(zhǔn)內(nèi)容搜索的實現(xiàn)與優(yōu)化

所屬分類:文史論文 閱讀次 時間:2021-03-24 10:33

本文摘要:摘要:面對海量的標(biāo)準(zhǔn)信息,信息檢索成為了研究和工作人員關(guān)注的問題,尤其是非結(jié)構(gòu)化數(shù)據(jù)的存儲、集成和索引。本文將Solr搜索引擎技術(shù)應(yīng)用在標(biāo)準(zhǔn)內(nèi)容的檢索,實現(xiàn)針對標(biāo)準(zhǔn)化對象、具體指標(biāo)等關(guān)鍵詞的搜索,通過分詞器選型和完善詞表等手段,實現(xiàn)搜索效果的

  摘要:面對海量的標(biāo)準(zhǔn)信息,信息檢索成為了研究和工作人員關(guān)注的問題,尤其是非結(jié)構(gòu)化數(shù)據(jù)的存儲、集成和索引。本文將Solr搜索引擎技術(shù)應(yīng)用在標(biāo)準(zhǔn)內(nèi)容的檢索,實現(xiàn)針對標(biāo)準(zhǔn)化對象、具體指標(biāo)等關(guān)鍵詞的搜索,通過分詞器選型和完善詞表等手段,實現(xiàn)搜索效果的優(yōu)化。

  關(guān)鍵詞:標(biāo)準(zhǔn)文獻(xiàn),內(nèi)容搜索,SOLR優(yōu)化

標(biāo)準(zhǔn)科學(xué)

  1引言

  標(biāo)準(zhǔn)是科學(xué)、技術(shù)和實踐經(jīng)驗的結(jié)晶,是組織生產(chǎn)的依據(jù),是科學(xué)管理的基礎(chǔ)[1]。隨著標(biāo)準(zhǔn)文本信息的采集規(guī)模越來越大,對于標(biāo)準(zhǔn)的準(zhǔn)確定位困難越來越大,導(dǎo)致用戶不能夠及時獲取所需標(biāo)準(zhǔn),標(biāo)準(zhǔn)資源也不能夠被很好地利用[2]。針對標(biāo)準(zhǔn)內(nèi)容,尤其是標(biāo)準(zhǔn)中重要指標(biāo)描述的搜索成為標(biāo)準(zhǔn)搜索的核心訴求。面對百萬量級各國標(biāo)準(zhǔn)題錄數(shù)據(jù),千萬量級的中文標(biāo)準(zhǔn)段落數(shù)據(jù),如何精確檢索定位已經(jīng)成為國內(nèi)外標(biāo)準(zhǔn)文獻(xiàn)服務(wù)及服務(wù)單位探索改進(jìn)標(biāo)準(zhǔn)文獻(xiàn)服務(wù)現(xiàn)狀的重要方式[3]。傳統(tǒng)的檢索方式或者咨詢也早就不能滿足廣大用戶的需求,搜索引擎的問世讓大規(guī)模的數(shù)據(jù)有了索引方向[4]。搜索引擎能夠管理大量的文本數(shù)據(jù),具有靈活的模式,能夠快速有效地滿足用戶獲取信息資源的需求[5],目前各個行業(yè)都能夠充分地利用互聯(lián)網(wǎng)資源,其中搜索引擎已經(jīng)是各個行業(yè)利用最多的功能。

  2研究現(xiàn)狀

  盧麗麗等[6]研究提出我國標(biāo)準(zhǔn)文獻(xiàn)領(lǐng)域,服務(wù)模式單一、零散、效率低下,已經(jīng)無法滿足在互聯(lián)網(wǎng)環(huán)境下客戶對標(biāo)準(zhǔn)信息的需求。信息檢索技術(shù)在國內(nèi)有很多研究,如:布爾檢索法[7]、詞位檢索法[7]、截詞檢索法、限制檢索法[8-9]等方法。對于搜索引擎技術(shù)的研究,國內(nèi)的發(fā)展較晚,搜狐在初期也是僅僅基于人工分類。由于中文有很大的難度和含義復(fù)雜,處理起來也很困難,這就造成了檢索技術(shù)發(fā)展緩慢,對于搜索引擎的開發(fā)和研究也是近些年才開始展開的。

  一直以來,國內(nèi)較為流行的全文索引技術(shù)包括TRS(TextRetrievalSystem)或者Lucene。陳正思[10]在其論文中研究了基于TRS技術(shù)的文獻(xiàn)資源檢索平臺。梅江澤[11]指出當(dāng)時現(xiàn)存的搜索引擎服務(wù)都是利用這兩項技術(shù)為基礎(chǔ)搭建的,或者是在其基礎(chǔ)上進(jìn)行的優(yōu)化開發(fā)來滿足特定的需求。在文獻(xiàn)[12]中研究了關(guān)于Solr搜索引擎的核心技術(shù),如:網(wǎng)絡(luò)爬蟲Heritrix、網(wǎng)頁解析HTMLParser、中文分詞IK、索引建立、相關(guān)度排序等,提出并行索引方式和緩存模型提升了響應(yīng)速度。丁蔚然[13]研究了針對跨地區(qū)的數(shù)據(jù)平臺融合檢索技術(shù),實現(xiàn)了企業(yè)異構(gòu)信息搜索平臺。

  白波[14]利用Solr進(jìn)行二次開發(fā),并添加了個性化搜索部分,增強(qiáng)了檢索的實用性。國內(nèi)首次嘗試個性化推薦是在文獻(xiàn)[15]中提到。目前,國內(nèi)的搜索引擎技術(shù)還尚未成熟,基于Lucene、Solr、ElasticSearch的檢索開發(fā)也是近幾年才開始實踐的,隨著互聯(lián)網(wǎng)絡(luò)的發(fā)展、數(shù)據(jù)的積累,尤其是針對特定企業(yè)內(nèi)部非結(jié)構(gòu)化數(shù)據(jù)的集成檢索還有待進(jìn)一步研究。

  3關(guān)鍵技術(shù)

  3.1Solr

  Solr是一個基于Lucene的全文檢索的服務(wù)器,Solr提供了比Lucene更為豐富的查詢語言,同時實現(xiàn)了可擴(kuò)展、可配置,還提供了完整的查詢優(yōu)化方案以及集群方案,可以獨立運行在任何主流JavaServlet引擎中,如Jetty和Tomcat,或JBoss、OracleAS這樣的J2EE應(yīng)用服務(wù)器,Solr也為許多大型網(wǎng)站提供導(dǎo)航搜索服務(wù)[15]。Solr自帶一些較強(qiáng)的功能,讓搜索更加優(yōu)化,而且自帶管理界面,使用起來簡單方便、直觀而且功能強(qiáng)大。

  通過很多用戶對Solr的二次開發(fā)使用,可以實現(xiàn)分頁與排序、檢索分組、自動建議、拼寫檢查、搜索結(jié)果高亮等功能,這些功能基本可以滿足一般的網(wǎng)站檢索開發(fā)需求,利用它可以實現(xiàn)大規(guī)模文本數(shù)據(jù)的檢索并根據(jù)檢索結(jié)果進(jìn)行相關(guān)度排序。Solr的整體結(jié)構(gòu)主要分為3個方面,Solr底層的核心技術(shù)還是Lucene,主要功能都在這里完成,包括請求解析、索引的建立、查詢等,索引復(fù)制可以通過異步處理或者腳本程序完成[16]。但是Solr是在此基礎(chǔ)上又?jǐn)U展了Lucene,使其面向企業(yè)搜索應(yīng)用。

  3.2反向索引

  在談?wù)撍阉饕娴乃饕龝r,會涉及到兩個概念——正向索引(forwardindex)和反向索引(invertedindex):(1)正向索引:從文檔到詞。假如有三個txt文檔,文檔1:Thecowsaysmoo.文檔2:Thecatandthehat.文檔3:Thedishranawaywiththespoon.解析每個文檔出現(xiàn)的單詞,然后建立從文檔(document)到詞(words)的映射關(guān)系,這就是正向索引。

  Solr搜索引擎在進(jìn)行搜索服務(wù)時,是基于反向索引的,即針對用戶輸入的檢索詞,基于已有分詞器進(jìn)行分詞,再針對分詞之后的結(jié)果進(jìn)行搜索,并命中文檔。而反向索引的前提也是Solr搜索引擎基于分詞器,針對標(biāo)準(zhǔn)題錄和全文段落內(nèi)容,進(jìn)行反向引擎的構(gòu)建。因此,使用成熟的Solr搜索引擎的效果優(yōu)劣,很大程度依賴于分詞器的選型和詞表的優(yōu)化。

  3.3中文分詞

  在信息處理和檢索領(lǐng)域中,不可或缺的就是中文分詞技術(shù),中文分詞應(yīng)用在創(chuàng)建索引和查詢語句中,分詞的結(jié)果直接能夠影響檢索結(jié)果的準(zhǔn)確性。眾所周知,英文通常都是以單詞為基本單位,單詞間用空格或逗號、句號分開,這時程序也很容易區(qū)分每個單詞。但是中文就不一樣了,中文是每個字為一個單位,字、詞、句都有各自含義,中國漢字語言文化博大精深,語義豐富。但中文“我愛中國”就不一樣了,電腦不知道“中國”是一個詞語還是“愛中”是一個詞語。像這樣,就需要按照人類理解的意思把詞句給拆分成單個字或詞語,并且是有含義的詞,這就稱之為中文分詞,也可叫做切詞。我愛中國,分詞的結(jié)果是:“我”“愛”“中”“國”。Lucene自帶中文分詞器:(1)StandardAnalyzer(單字分詞):就是把中文詞句拆分為單個字進(jìn)行分詞。

  如:“我愛中國”,效果:“我”“愛”“中”“國”。(2)CJKAnalyzer(二分法分詞):把每兩個字拆分為一體。如:“我是中國人”,效果:“我是”“是中”“中國”“國人”。以上兩種自帶分詞器顯然都無法滿足我們對中文分詞需求,因此,必須使用第三方中文分詞器產(chǎn)品來實現(xiàn)中文分詞。如:ik-analyzer、mmseg4j等。mmseg4j由華人Chih-HaoTsai創(chuàng)建,它基于MMSeg算法①實現(xiàn)的中文分詞器,而且包含了lucene的文本解析器和solr的分詞器工廠類,這樣使得該分詞器既能夠在Lucene中使用,也能夠在Solr中使用。MMSeg算法有兩種分詞方法:簡單的正向 匹配和復(fù)雜的正向匹配,同樣是基于正向最大匹配,只是復(fù)雜的存在四個規(guī)則對內(nèi)容進(jìn)行過濾[49]。

  mmseg4j使用搜狗詞庫。②IKAnalyzer是一個由國內(nèi)程序員林良益開源的,基于java語言開發(fā)的輕量級的中文分詞工具包。到現(xiàn)在,IK發(fā)展為面向Java的公用分詞組件,獨立于Lucene項目,同時提供了對Lucene的默認(rèn)優(yōu)化實現(xiàn)。在2012版本中,IK實現(xiàn)了簡單的分詞歧義排除算法,標(biāo)志著IK分詞器從單純的詞典分詞向模擬語義分詞衍化,IKAnalyzer被認(rèn)為是最好的Lucene中文分詞器之一,而且隨著Lucene的版本更新而不斷更新,目前已更新到IKAnalyzer2012版本。

  4存在問題

  4.1mmseg4j分詞效果不理想mmseg4j分詞算法提供三種分詞方法:simple、complex和maxword。其中,simple方式基于正向最大匹配,將每個漢字簡單分割成詞匯單元,通常會因為切分太多導(dǎo)致檢索時候出現(xiàn)不需要的搜索結(jié)果;complex分詞在simple基礎(chǔ)上,增加了歧義消除規(guī)則;maxword為盡量獲取更多的分詞結(jié)果。下面分別以“兒童口罩技術(shù)規(guī)范”為例,用simple、complex、maxword三種方式對下段文字進(jìn)行分詞測試。

  (1)simple分詞效果;谠~表,只拆分出長詞,即“兒童口罩”和“技術(shù)規(guī)范”,對于“口罩”沒有拆分出來,并最終導(dǎo)致Solr搜索“口罩”時,該標(biāo)準(zhǔn)無法被檢索到,這樣的體驗無法接受。

  5解決方案及效果

  5.1使用IKAnalyzerIKAnalyzer的主要邏輯包括三部分:詞典:詞典的好壞直接影響分詞結(jié)果的好壞;詞的匹配:有了詞典之后,就可以對輸入的字符串逐字句和詞典進(jìn)行匹配,這點與mmseg4j類似;消除歧義:通過詞典匹配出來的切分方式會有多種,消除歧義就是從中尋找最合理的一種方式,這項功能體現(xiàn)出IKAnalyzer的優(yōu)勢。IKAnalyzer的切詞方式主要有兩種,一種為smart模式,一種為ik_max_word即非smart模式。以“兒童口罩技術(shù)規(guī)范”為例。

  科學(xué)論文投稿刊物:《標(biāo)準(zhǔn)科學(xué)》由國家質(zhì)量監(jiān)督檢驗檢疫總局主管、中國標(biāo)準(zhǔn)化研究院主辦!稑(biāo)準(zhǔn)科學(xué)》是中央級“中國科技核心期刊”、“中國科技論文統(tǒng)計源期刊”和“CSSC擴(kuò)展版來源期刊”;是學(xué)術(shù)性、權(quán)威性、專業(yè)性、前沿性、國際性,重點刊載標(biāo)準(zhǔn)科學(xué)的最新進(jìn)展和動態(tài)研究成果的大型月刊;是國家質(zhì)檢總局通過國家標(biāo)準(zhǔn)館,與國外交換的重要刊物之一。

  6結(jié)語

  本文將Solr搜索引擎技術(shù)應(yīng)用在標(biāo)準(zhǔn)段落內(nèi)容和指標(biāo)的檢索上,研究了Solr及其反向索引和中文分詞等關(guān)鍵技術(shù),針對在搜索標(biāo)準(zhǔn)內(nèi)容和指標(biāo)中實際遇到的問題,研究解決方案,并通過分詞器的選型和詞表的完善,達(dá)到了更好的檢索效果。

  參考文獻(xiàn)

  陳平,褚華.軟件設(shè)計師教程(第2版)[M].北京:清華大學(xué)出版社,2006.

  甘克勤,張寶林,計雄飛,等.標(biāo)準(zhǔn)大數(shù)據(jù)實踐(1)——異構(gòu)數(shù)據(jù)集成[J].標(biāo)準(zhǔn)科學(xué),2016(1):12-15.

  鮑向榮.淺議新形勢下如何開展標(biāo)準(zhǔn)信息服務(wù)工作[J].大科技,2018,(30):20-21.

  丁蔚然.基于Solr的企業(yè)異構(gòu)信息搜索平臺的設(shè)計與實現(xiàn)[D].南京:東南大學(xué),2015.

  宋漫莉.網(wǎng)絡(luò)環(huán)境下用戶信息期望與信息質(zhì)量關(guān)系實證研究[D].天津:天津師范大學(xué),2012.

  盧麗麗,陳云鵬,張寶林,等.標(biāo)準(zhǔn)信息集成研究[J].標(biāo)準(zhǔn)科學(xué),2012(12):28-33.

  作者:趙東海張文華

轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///wslw/26230.html