本文摘要:摘要:文本分類(lèi)作為自然語(yǔ)言處理中一個(gè)基本任務(wù),在上個(gè)世紀(jì)50年代就已經(jīng)有人對(duì)其算法進(jìn)行了研究,現(xiàn)在單標(biāo)簽文本分類(lèi)算法已經(jīng)趨向成熟,但是對(duì)于多標(biāo)簽文本分類(lèi)的研究還有很大的提升空間。首先,介紹了多標(biāo)簽文本分類(lèi)的基本概念以及基本流程,包括數(shù)據(jù)集獲
摘要:文本分類(lèi)作為自然語(yǔ)言處理中一個(gè)基本任務(wù),在上個(gè)世紀(jì)50年代就已經(jīng)有人對(duì)其算法進(jìn)行了研究,現(xiàn)在單標(biāo)簽文本分類(lèi)算法已經(jīng)趨向成熟,但是對(duì)于多標(biāo)簽文本分類(lèi)的研究還有很大的提升空間。首先,介紹了多標(biāo)簽文本分類(lèi)的基本概念以及基本流程,包括數(shù)據(jù)集獲取、文本預(yù)處理、模型訓(xùn)練和預(yù)測(cè)結(jié)果;之后介紹了多標(biāo)簽文本分類(lèi)的方法,這些方法主要分為兩大類(lèi):傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)機(jī)器學(xué)習(xí)方法主要包括問(wèn)題轉(zhuǎn)換方法和算法自適應(yīng)方法;谏疃葘W(xué)習(xí)的方法是利用各種神經(jīng)網(wǎng)絡(luò)模型來(lái)處理多標(biāo)簽文本分類(lèi)問(wèn)題,根據(jù)模型結(jié)構(gòu),將其分為基于CNN結(jié)構(gòu)、基于RNN結(jié)構(gòu)和基于Transformer結(jié)構(gòu)的多標(biāo)簽文本分類(lèi)方法;隨后,對(duì)多標(biāo)簽文本分類(lèi)常用的數(shù)據(jù)集進(jìn)行了梳理總結(jié);最后,對(duì)未來(lái)的發(fā)展趨勢(shì)進(jìn)行了分析與展望。
關(guān)鍵詞:自然語(yǔ)言處理;多標(biāo)簽文本分類(lèi);深度學(xué)習(xí)
文本作為信息的一種重要載體之一,通過(guò)各種社交APP、各大新聞門(mén)戶(hù)網(wǎng)站等多種方式流入互聯(lián)網(wǎng)。這些文本信息在主題上多種多樣、在規(guī)模上也表現(xiàn)出很大的差異,如何對(duì)這些文本信息迚行高效處理是一個(gè)具有重大研究的問(wèn)題,也推動(dòng)了自動(dòng)文本分類(lèi)技術(shù)的快速發(fā)展。
文本論文范例:立足文本品味“語(yǔ)言”
文本分類(lèi)是自然語(yǔ)言處理(NaturalLanguageProcessing,NLP)中重要且經(jīng)典的問(wèn)題[1]。在傳統(tǒng)的文本分類(lèi)問(wèn)題中,每個(gè)樣本只有一個(gè)類(lèi)別標(biāo)簽,幵且各個(gè)類(lèi)別標(biāo)簽之間相互獨(dú)立,分類(lèi)粒度比較粗略,稱(chēng)為單標(biāo)簽文本分類(lèi)。隨著文本信息日益豐富,分類(lèi)粒度細(xì)化程度越來(lái)越高,一個(gè)樣本與多個(gè)類(lèi)別的標(biāo)簽相關(guān),同時(shí)類(lèi)別標(biāo)簽之間存在一定的依賴(lài)關(guān)系,稱(chēng)為多標(biāo)簽文本分類(lèi)[2]。比如一篇新聞可能被同時(shí)認(rèn)為是與―體育‖和―教育‖相關(guān)的新聞。
多標(biāo)簽文本分類(lèi)問(wèn)題是多標(biāo)簽分類(lèi)的重要分支之一,目前已經(jīng)廣泛應(yīng)用于標(biāo)簽推薦[3],信息檢索[4]和情感分析[5]等領(lǐng)域。本文將多標(biāo)簽文本分類(lèi)方法分為兩大類(lèi):傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)機(jī)器學(xué)習(xí)方法包括問(wèn)題轉(zhuǎn)換的方法和算法自適應(yīng)的方法;谏疃葘W(xué)習(xí)的方法是利用各種神經(jīng)網(wǎng)絡(luò)模型來(lái)處理多標(biāo)簽文本分類(lèi)問(wèn)題,根據(jù)網(wǎng)絡(luò)的結(jié)構(gòu)將其分為基于卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)結(jié)構(gòu)、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)結(jié)構(gòu)和基于Transformer結(jié)構(gòu)的多標(biāo)簽文本分類(lèi)方法。同時(shí),對(duì)該領(lǐng)域常用的數(shù)據(jù)集迚行了梳理總結(jié),最后對(duì)未來(lái)的發(fā)展趨勢(shì)迚行了分析與展望,可以為該領(lǐng)域研究提供一定的參考價(jià)值。
1多標(biāo)簽文本分類(lèi)
1.1基本概念
多標(biāo)簽文本分類(lèi)的主要仸務(wù)是:將一個(gè)待分類(lèi)的文本通過(guò)特定的分類(lèi)器對(duì)該文本給定多個(gè)標(biāo)簽。可以用特定的數(shù)學(xué)符號(hào)來(lái)表示該仸務(wù),假定{(,)1}iiDxyim是訓(xùn)練集中的樣本,利用設(shè)計(jì)的模型學(xué)習(xí)到一個(gè)映射fXY:,其中ixX是一個(gè)實(shí)例,iyY是實(shí)例ix所對(duì)應(yīng)的類(lèi)別標(biāo)簽?臻gX中包含m個(gè)實(shí)例,標(biāo)簽空間Y中包含q個(gè)類(lèi)別標(biāo)簽,通過(guò)數(shù)據(jù)集訓(xùn)練得到分類(lèi)器模型。測(cè)試過(guò)程中,每一個(gè)實(shí)例通過(guò)分類(lèi)器模型得到相對(duì)應(yīng)的標(biāo)簽,標(biāo)簽是一個(gè)或者多個(gè),獲得標(biāo)簽的過(guò)程就叫做多標(biāo)簽文本分類(lèi)。
1.2多標(biāo)簽文本分類(lèi)流程
多標(biāo)簽文本分類(lèi)的具體流程包括數(shù)據(jù)集獲取、文本預(yù)處理、模型訓(xùn)練和預(yù)測(cè)結(jié)果。
(1)數(shù)據(jù)集第一步是找到需要的數(shù)據(jù)集。數(shù)據(jù)集一般分為訓(xùn)練集、測(cè)試集和驗(yàn)證集,文中第四部分列舉了多標(biāo)簽文本分類(lèi)領(lǐng)域常用的數(shù)據(jù)集。(2)文本預(yù)處理文本預(yù)處理是自然語(yǔ)言處理仸務(wù)的重要環(huán)節(jié),通過(guò)將文本轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù)形式,以便計(jì)算機(jī)處理。文本預(yù)處理一般有固定的流程,包括分詞、詞干提取、詞性還原等。(3)文本表示文本的信息是非結(jié)構(gòu)化的,計(jì)算機(jī)無(wú)法直接處理這種非結(jié)構(gòu)化的信息,因此在完成了預(yù)處理之后的文本要迚行向量化表示:將輸入的文本數(shù)據(jù)通過(guò)一定的方法轉(zhuǎn)換為計(jì)算機(jī)能夠識(shí)別的數(shù)字?jǐn)?shù)據(jù),良好的文本表示形式可以極大的提升算法效果。
文本向量化主要分為兩類(lèi)方法,第一類(lèi)是離散表示,主要的方法有One-hot編碼、詞袋(BagofWords,BOW)模型等;第二類(lèi)方法是分布式表示,主要的方法包括共現(xiàn)矩陣、Word2Vec[6]、Glove[7]等。Word2Vec和Glove是第一代預(yù)訓(xùn)練模型(Pre-trainedModels,PTM),通常采用的是淺層模型來(lái)學(xué)習(xí)詞嵌入;新一代PTM專(zhuān)注于學(xué)習(xí)上下文的詞嵌入,如ELMo[8]、OpenAI、GPT[9]和BERT[10],新一代PTM學(xué)習(xí)更合理的詞表征,包括了上下文信息[11]。
(4)特征降維特征降維也稱(chēng)特征提取。通過(guò)文本向量化處理后得到的特征比較稀疏,維度較高。特征提取就是在保證文本語(yǔ)義表達(dá)完整的前提下,去除無(wú)用特征,保留有效特征,迚行特征降維。常用的特征選擇方式有TF-IDF[12](termfrequency–inversedocumentfrequency)、卡方檢驗(yàn)(chi-squaretest)、深度神經(jīng)網(wǎng)絡(luò)等。在預(yù)訓(xùn)練模型提出之后,大多數(shù)預(yù)訓(xùn)練模型采取Transformer結(jié)構(gòu)作為特征提取模塊。(5)分類(lèi)器和輸出類(lèi)別將預(yù)處理之后的文本(訓(xùn)練集)送入特定的分類(lèi)器(模型)中迚行訓(xùn)練,得到分類(lèi)器模型。通過(guò)驗(yàn)證集和測(cè)試集迚行輸出類(lèi)別的預(yù)測(cè),利用F1值等相關(guān)指標(biāo)來(lái)評(píng)判模型的優(yōu)劣。
2多標(biāo)簽文本分類(lèi)方法
近年來(lái),多標(biāo)簽文本分類(lèi)得到了快速的發(fā)展,涌現(xiàn)出大量多標(biāo)簽文本分類(lèi)方法,這些方法可以分為兩大類(lèi):傳統(tǒng)機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)方法。傳統(tǒng)機(jī)器學(xué)習(xí)方法包括問(wèn)題轉(zhuǎn)換方法和算法自適應(yīng)方法;谏疃葘W(xué)習(xí)方法是利用各種神經(jīng)網(wǎng)絡(luò)模型來(lái)處理多標(biāo)簽文本分類(lèi)問(wèn)題,根據(jù)模型結(jié)構(gòu),將其分為基于CNN結(jié)構(gòu)、基于RNN結(jié)構(gòu)和基于Transformer結(jié)構(gòu)的多標(biāo)簽文本分類(lèi)方法。
3數(shù)據(jù)集
多標(biāo)簽文本分類(lèi)雖然已經(jīng)取得了快速得發(fā)展,但是在這方面的公開(kāi)數(shù)據(jù)集幵不是很多。收集了一些多在標(biāo)簽文本分類(lèi)領(lǐng)域中常用的數(shù)據(jù)集,根據(jù)標(biāo)簽數(shù)量的多少可以將其分為小型數(shù)據(jù)集(標(biāo)簽數(shù)0-10,000)、中型數(shù)據(jù)集(標(biāo)簽數(shù)10,000-100,000)和大型數(shù)據(jù)集(標(biāo)簽數(shù)超過(guò)100,000)。幵且從標(biāo)簽數(shù)、文本的數(shù)量等迚行了統(tǒng)計(jì)。
4多標(biāo)簽文本分類(lèi)性能評(píng)價(jià)
4.1評(píng)價(jià)指標(biāo)
在多標(biāo)簽文本分類(lèi)中,常用的評(píng)價(jià)指標(biāo)通常包括Hammingloss、Micro-F1值。(1)HamminglossSchapireRE等人[54]在1999年就提出了Hammingloss,簡(jiǎn)單來(lái)說(shuō)就是衡量被錯(cuò)分的標(biāo)簽的比例大小,正確的標(biāo)簽沒(méi)有被預(yù)測(cè)正確以及錯(cuò)誤標(biāo)簽被預(yù)測(cè)的標(biāo)簽占比,簡(jiǎn)單來(lái)說(shuō)就是兩個(gè)標(biāo)簽集合的差別占比,漢明損失的值越小,預(yù)測(cè)結(jié)果就越好。
5總結(jié)與展望
文本分類(lèi)作為有效的信息檢索和挖掘技術(shù)在關(guān)于文本管理方面發(fā)揮著重大的作用。雖然在單標(biāo)簽文本分類(lèi)領(lǐng)域已經(jīng)取得了不錯(cuò)的效果,但還是無(wú)法使模型像人一樣從語(yǔ)義層面理解文本信息。多標(biāo)簽文本分類(lèi)相較于單標(biāo)簽文本分類(lèi)來(lái)說(shuō)更加的復(fù)雜,還存在著很多的挑戰(zhàn),主要體現(xiàn)在以下幾點(diǎn):
(1)特定領(lǐng)域的數(shù)據(jù)集缺失問(wèn)題。目前公開(kāi)的多標(biāo)簽文本分類(lèi)領(lǐng)域的數(shù)據(jù)集,大部分是針對(duì)新聞?lì)I(lǐng)域的,對(duì)于特定領(lǐng)域的數(shù)據(jù)集非常匱乏,比如醫(yī)療領(lǐng)域、金融領(lǐng)域和法律領(lǐng)域。因此,需要構(gòu)建特定領(lǐng)域的多標(biāo)簽文本分類(lèi)數(shù)據(jù)集。
(2)極端多標(biāo)簽文本分類(lèi)問(wèn)題。極端多標(biāo)簽文本分類(lèi)(extrememulti-labeltextclassification,XMC)[48]目的是學(xué)習(xí)一個(gè)分類(lèi)器,該分類(lèi)器能夠從大量標(biāo)簽中自動(dòng)選擇最相關(guān)的標(biāo)簽來(lái)對(duì)數(shù)據(jù)迚行歸類(lèi)[56]。極端多標(biāo)簽文本分類(lèi)的難點(diǎn)在于標(biāo)簽集的數(shù)目非常多,包含數(shù)十萬(wàn)、甚至成百上千萬(wàn)的標(biāo)簽。目前多標(biāo)簽文本分類(lèi)模型的內(nèi)存占用、模型大小都隨著標(biāo)簽空間的變大而線性變大,在面對(duì)極端多的標(biāo)簽時(shí),無(wú)法成功部署甚至訓(xùn)練。因此,如何設(shè)計(jì)出一個(gè)高效的模型來(lái)解決極端多標(biāo)簽文本分類(lèi)問(wèn)題是未來(lái)亜待解決的一個(gè)難點(diǎn)。
(3)標(biāo)簽間的相關(guān)性研究問(wèn)題。多標(biāo)簽文本分類(lèi)標(biāo)簽之間是存在內(nèi)在聯(lián)系的,比如屬于“人工智能”的文本往往跟“深度學(xué)習(xí)”是相關(guān)聯(lián)的。傳統(tǒng)的一些方法在處理多標(biāo)簽文本分類(lèi)問(wèn)題上,往往沒(méi)有考慮標(biāo)簽之間的相關(guān)性,這也嚴(yán)重影響了模型的效率。后面雖然提出了一些方法來(lái)研究標(biāo)簽之間的相關(guān)性,比如Baker等人[57]提出了一種分層的多標(biāo)簽文本分類(lèi)方法來(lái)得到標(biāo)簽間的共現(xiàn)關(guān)系,但只是考慮了標(biāo)簽之間淺層次的關(guān)系,忽略了標(biāo)簽之間深層次的關(guān)系。因此,如何高效捕捉標(biāo)簽間的關(guān)系也是多標(biāo)簽文本分類(lèi)仸務(wù)未來(lái)的一大研究重點(diǎn)。
(4)數(shù)據(jù)集標(biāo)簽長(zhǎng)尾問(wèn)題。對(duì)于多標(biāo)簽文本分類(lèi)領(lǐng)域存在的數(shù)據(jù)集,都是由文本集和標(biāo)簽集構(gòu)成的,對(duì)于標(biāo)簽集來(lái)說(shuō)就會(huì)有分布不均衡的問(wèn)題存在,部分標(biāo)簽與很多文本樣本相關(guān)聯(lián),而還有的一些標(biāo)簽就非常少,甚至說(shuō)沒(méi)有與文本樣本相關(guān)聯(lián),可以理解為標(biāo)簽“長(zhǎng)尾”的問(wèn)題[58]。用不平衡的數(shù)據(jù)訓(xùn)練出來(lái)的模型會(huì)導(dǎo)致樣本少的種類(lèi)預(yù)測(cè)性能很差,甚至無(wú)法預(yù)測(cè)。因此,如何解決標(biāo)簽長(zhǎng)尾問(wèn)題也是多標(biāo)簽文本分類(lèi)領(lǐng)域一個(gè)重要的研究問(wèn)題。
參考文獻(xiàn):
[1]AliT,AsgharS.Multi-labelscientificdocumentclassifica-tion[J].JournalofInternetTechnology,2018,19(6):1707-1716.
[2]劉心惠.基于改迚seq2seq模型的多標(biāo)簽文本分類(lèi)研究[D].大連海事大學(xué),2020.LIUXH.Researchonmulti-labeltextclassificationbasedonimprovedseq2seqmodel[D].DalianMaritimeUniversity,2020.
[3]FürnkranzJ,HüllermeierE,MencíaEL,etal.Multilabelclassificationviacalibratedlabelranking[J].Machinelearning,2008,73(2):133-153.
[4]GopalS,YangY.Multilabelclassificationwithmeta-levelfeatures[C]//Proceedingsofthe33rdinternationalACMSIGIRconferenceonResearchanddevelopmentininfor-mationretrieval.2010:315-322.
作者:郝超,裘杭萍,孫毅,張超然
轉(zhuǎn)載請(qǐng)注明來(lái)自發(fā)表學(xué)術(shù)論文網(wǎng):http:///wslw/26271.html