亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國內(nèi)或國外 期刊或論文

您當(dāng)前的位置:發(fā)表學(xué)術(shù)論文網(wǎng)文史論文》 多標簽文本分類研究進展> 正文

多標簽文本分類研究進展

所屬分類:文史論文 閱讀次 時間:2021-03-27 11:54

本文摘要:摘要:文本分類作為自然語言處理中一個基本任務(wù),在上個世紀50年代就已經(jīng)有人對其算法進行了研究,現(xiàn)在單標簽文本分類算法已經(jīng)趨向成熟,但是對于多標簽文本分類的研究還有很大的提升空間。首先,介紹了多標簽文本分類的基本概念以及基本流程,包括數(shù)據(jù)集獲

  摘要:文本分類作為自然語言處理中一個基本任務(wù),在上個世紀50年代就已經(jīng)有人對其算法進行了研究,現(xiàn)在單標簽文本分類算法已經(jīng)趨向成熟,但是對于多標簽文本分類的研究還有很大的提升空間。首先,介紹了多標簽文本分類的基本概念以及基本流程,包括數(shù)據(jù)集獲取、文本預(yù)處理、模型訓(xùn)練和預(yù)測結(jié)果;之后介紹了多標簽文本分類的方法,這些方法主要分為兩大類:傳統(tǒng)機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)機器學(xué)習(xí)方法主要包括問題轉(zhuǎn)換方法和算法自適應(yīng)方法;谏疃葘W(xué)習(xí)的方法是利用各種神經(jīng)網(wǎng)絡(luò)模型來處理多標簽文本分類問題,根據(jù)模型結(jié)構(gòu),將其分為基于CNN結(jié)構(gòu)、基于RNN結(jié)構(gòu)和基于Transformer結(jié)構(gòu)的多標簽文本分類方法;隨后,對多標簽文本分類常用的數(shù)據(jù)集進行了梳理總結(jié);最后,對未來的發(fā)展趨勢進行了分析與展望。

  關(guān)鍵詞:自然語言處理;多標簽文本分類;深度學(xué)習(xí)

文本閱讀

  文本作為信息的一種重要載體之一,通過各種社交APP、各大新聞門戶網(wǎng)站等多種方式流入互聯(lián)網(wǎng)。這些文本信息在主題上多種多樣、在規(guī)模上也表現(xiàn)出很大的差異,如何對這些文本信息迚行高效處理是一個具有重大研究的問題,也推動了自動文本分類技術(shù)的快速發(fā)展。

  文本論文范例:立足文本品味“語言”

  文本分類是自然語言處理(NaturalLanguageProcessing,NLP)中重要且經(jīng)典的問題[1]。在傳統(tǒng)的文本分類問題中,每個樣本只有一個類別標簽,幵且各個類別標簽之間相互獨立,分類粒度比較粗略,稱為單標簽文本分類。隨著文本信息日益豐富,分類粒度細化程度越來越高,一個樣本與多個類別的標簽相關(guān),同時類別標簽之間存在一定的依賴關(guān)系,稱為多標簽文本分類[2]。比如一篇新聞可能被同時認為是與―體育‖和―教育‖相關(guān)的新聞。

  多標簽文本分類問題是多標簽分類的重要分支之一,目前已經(jīng)廣泛應(yīng)用于標簽推薦[3],信息檢索[4]和情感分析[5]等領(lǐng)域。本文將多標簽文本分類方法分為兩大類:傳統(tǒng)機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)機器學(xué)習(xí)方法包括問題轉(zhuǎn)換的方法和算法自適應(yīng)的方法;谏疃葘W(xué)習(xí)的方法是利用各種神經(jīng)網(wǎng)絡(luò)模型來處理多標簽文本分類問題,根據(jù)網(wǎng)絡(luò)的結(jié)構(gòu)將其分為基于卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)結(jié)構(gòu)、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)結(jié)構(gòu)和基于Transformer結(jié)構(gòu)的多標簽文本分類方法。同時,對該領(lǐng)域常用的數(shù)據(jù)集迚行了梳理總結(jié),最后對未來的發(fā)展趨勢迚行了分析與展望,可以為該領(lǐng)域研究提供一定的參考價值。

  1多標簽文本分類

  1.1基本概念

  多標簽文本分類的主要仸務(wù)是:將一個待分類的文本通過特定的分類器對該文本給定多個標簽?梢杂锰囟ǖ臄(shù)學(xué)符號來表示該仸務(wù),假定{(,)1}iiDxyim是訓(xùn)練集中的樣本,利用設(shè)計的模型學(xué)習(xí)到一個映射fXY:,其中ixX是一個實例,iyY是實例ix所對應(yīng)的類別標簽。空間X中包含m個實例,標簽空間Y中包含q個類別標簽,通過數(shù)據(jù)集訓(xùn)練得到分類器模型。測試過程中,每一個實例通過分類器模型得到相對應(yīng)的標簽,標簽是一個或者多個,獲得標簽的過程就叫做多標簽文本分類。

  1.2多標簽文本分類流程

  多標簽文本分類的具體流程包括數(shù)據(jù)集獲取、文本預(yù)處理、模型訓(xùn)練和預(yù)測結(jié)果。

  (1)數(shù)據(jù)集第一步是找到需要的數(shù)據(jù)集。數(shù)據(jù)集一般分為訓(xùn)練集、測試集和驗證集,文中第四部分列舉了多標簽文本分類領(lǐng)域常用的數(shù)據(jù)集。(2)文本預(yù)處理文本預(yù)處理是自然語言處理仸務(wù)的重要環(huán)節(jié),通過將文本轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù)形式,以便計算機處理。文本預(yù)處理一般有固定的流程,包括分詞、詞干提取、詞性還原等。(3)文本表示文本的信息是非結(jié)構(gòu)化的,計算機無法直接處理這種非結(jié)構(gòu)化的信息,因此在完成了預(yù)處理之后的文本要迚行向量化表示:將輸入的文本數(shù)據(jù)通過一定的方法轉(zhuǎn)換為計算機能夠識別的數(shù)字數(shù)據(jù),良好的文本表示形式可以極大的提升算法效果。

  文本向量化主要分為兩類方法,第一類是離散表示,主要的方法有One-hot編碼、詞袋(BagofWords,BOW)模型等;第二類方法是分布式表示,主要的方法包括共現(xiàn)矩陣、Word2Vec[6]、Glove[7]等。Word2Vec和Glove是第一代預(yù)訓(xùn)練模型(Pre-trainedModels,PTM),通常采用的是淺層模型來學(xué)習(xí)詞嵌入;新一代PTM專注于學(xué)習(xí)上下文的詞嵌入,如ELMo[8]、OpenAI、GPT[9]和BERT[10],新一代PTM學(xué)習(xí)更合理的詞表征,包括了上下文信息[11]。

  (4)特征降維特征降維也稱特征提取。通過文本向量化處理后得到的特征比較稀疏,維度較高。特征提取就是在保證文本語義表達完整的前提下,去除無用特征,保留有效特征,迚行特征降維。常用的特征選擇方式有TF-IDF[12](termfrequency–inversedocumentfrequency)、卡方檢驗(chi-squaretest)、深度神經(jīng)網(wǎng)絡(luò)等。在預(yù)訓(xùn)練模型提出之后,大多數(shù)預(yù)訓(xùn)練模型采取Transformer結(jié)構(gòu)作為特征提取模塊。(5)分類器和輸出類別將預(yù)處理之后的文本(訓(xùn)練集)送入特定的分類器(模型)中迚行訓(xùn)練,得到分類器模型。通過驗證集和測試集迚行輸出類別的預(yù)測,利用F1值等相關(guān)指標來評判模型的優(yōu)劣。

  2多標簽文本分類方法

  近年來,多標簽文本分類得到了快速的發(fā)展,涌現(xiàn)出大量多標簽文本分類方法,這些方法可以分為兩大類:傳統(tǒng)機器學(xué)習(xí)方法和基于深度學(xué)習(xí)方法。傳統(tǒng)機器學(xué)習(xí)方法包括問題轉(zhuǎn)換方法和算法自適應(yīng)方法;谏疃葘W(xué)習(xí)方法是利用各種神經(jīng)網(wǎng)絡(luò)模型來處理多標簽文本分類問題,根據(jù)模型結(jié)構(gòu),將其分為基于CNN結(jié)構(gòu)、基于RNN結(jié)構(gòu)和基于Transformer結(jié)構(gòu)的多標簽文本分類方法。

  3數(shù)據(jù)集

  多標簽文本分類雖然已經(jīng)取得了快速得發(fā)展,但是在這方面的公開數(shù)據(jù)集幵不是很多。收集了一些多在標簽文本分類領(lǐng)域中常用的數(shù)據(jù)集,根據(jù)標簽數(shù)量的多少可以將其分為小型數(shù)據(jù)集(標簽數(shù)0-10,000)、中型數(shù)據(jù)集(標簽數(shù)10,000-100,000)和大型數(shù)據(jù)集(標簽數(shù)超過100,000)。幵且從標簽數(shù)、文本的數(shù)量等迚行了統(tǒng)計。

  4多標簽文本分類性能評價

  4.1評價指標

  在多標簽文本分類中,常用的評價指標通常包括Hammingloss、Micro-F1值。(1)HamminglossSchapireRE等人[54]在1999年就提出了Hammingloss,簡單來說就是衡量被錯分的標簽的比例大小,正確的標簽沒有被預(yù)測正確以及錯誤標簽被預(yù)測的標簽占比,簡單來說就是兩個標簽集合的差別占比,漢明損失的值越小,預(yù)測結(jié)果就越好。

  5總結(jié)與展望

  文本分類作為有效的信息檢索和挖掘技術(shù)在關(guān)于文本管理方面發(fā)揮著重大的作用。雖然在單標簽文本分類領(lǐng)域已經(jīng)取得了不錯的效果,但還是無法使模型像人一樣從語義層面理解文本信息。多標簽文本分類相較于單標簽文本分類來說更加的復(fù)雜,還存在著很多的挑戰(zhàn),主要體現(xiàn)在以下幾點:

  (1)特定領(lǐng)域的數(shù)據(jù)集缺失問題。目前公開的多標簽文本分類領(lǐng)域的數(shù)據(jù)集,大部分是針對新聞領(lǐng)域的,對于特定領(lǐng)域的數(shù)據(jù)集非常匱乏,比如醫(yī)療領(lǐng)域、金融領(lǐng)域和法律領(lǐng)域。因此,需要構(gòu)建特定領(lǐng)域的多標簽文本分類數(shù)據(jù)集。

  (2)極端多標簽文本分類問題。極端多標簽文本分類(extrememulti-labeltextclassification,XMC)[48]目的是學(xué)習(xí)一個分類器,該分類器能夠從大量標簽中自動選擇最相關(guān)的標簽來對數(shù)據(jù)迚行歸類[56]。極端多標簽文本分類的難點在于標簽集的數(shù)目非常多,包含數(shù)十萬、甚至成百上千萬的標簽。目前多標簽文本分類模型的內(nèi)存占用、模型大小都隨著標簽空間的變大而線性變大,在面對極端多的標簽時,無法成功部署甚至訓(xùn)練。因此,如何設(shè)計出一個高效的模型來解決極端多標簽文本分類問題是未來亜待解決的一個難點。

  (3)標簽間的相關(guān)性研究問題。多標簽文本分類標簽之間是存在內(nèi)在聯(lián)系的,比如屬于“人工智能”的文本往往跟“深度學(xué)習(xí)”是相關(guān)聯(lián)的。傳統(tǒng)的一些方法在處理多標簽文本分類問題上,往往沒有考慮標簽之間的相關(guān)性,這也嚴重影響了模型的效率。后面雖然提出了一些方法來研究標簽之間的相關(guān)性,比如Baker等人[57]提出了一種分層的多標簽文本分類方法來得到標簽間的共現(xiàn)關(guān)系,但只是考慮了標簽之間淺層次的關(guān)系,忽略了標簽之間深層次的關(guān)系。因此,如何高效捕捉標簽間的關(guān)系也是多標簽文本分類仸務(wù)未來的一大研究重點。

  (4)數(shù)據(jù)集標簽長尾問題。對于多標簽文本分類領(lǐng)域存在的數(shù)據(jù)集,都是由文本集和標簽集構(gòu)成的,對于標簽集來說就會有分布不均衡的問題存在,部分標簽與很多文本樣本相關(guān)聯(lián),而還有的一些標簽就非常少,甚至說沒有與文本樣本相關(guān)聯(lián),可以理解為標簽“長尾”的問題[58]。用不平衡的數(shù)據(jù)訓(xùn)練出來的模型會導(dǎo)致樣本少的種類預(yù)測性能很差,甚至無法預(yù)測。因此,如何解決標簽長尾問題也是多標簽文本分類領(lǐng)域一個重要的研究問題。

  參考文獻:

  [1]AliT,AsgharS.Multi-labelscientificdocumentclassifica-tion[J].JournalofInternetTechnology,2018,19(6):1707-1716.

  [2]劉心惠.基于改迚seq2seq模型的多標簽文本分類研究[D].大連海事大學(xué),2020.LIUXH.Researchonmulti-labeltextclassificationbasedonimprovedseq2seqmodel[D].DalianMaritimeUniversity,2020.

  [3]FürnkranzJ,HüllermeierE,MencíaEL,etal.Multilabelclassificationviacalibratedlabelranking[J].Machinelearning,2008,73(2):133-153.

  [4]GopalS,YangY.Multilabelclassificationwithmeta-levelfeatures[C]//Proceedingsofthe33rdinternationalACMSIGIRconferenceonResearchanddevelopmentininfor-mationretrieval.2010:315-322.

  作者:郝超,裘杭萍,孫毅,張超然

轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///wslw/26271.html