本文摘要:摘要:基于RNA-Seq的轉(zhuǎn)錄組測序數(shù)據(jù)特征維度較高,使用傳統(tǒng)生信方法尋找表型相關(guān)基因需要大量計算資源,且差異分析所得候選基因范圍較大,進一步篩選依賴已有的先驗知識。針對這一問題,本文提出了融合遺傳算法和XGBoost的轉(zhuǎn)錄組分析方法GA-XGBoost,通過融入機器學(xué)習(xí)
摘要:基于RNA-Seq的轉(zhuǎn)錄組測序數(shù)據(jù)特征維度較高,使用傳統(tǒng)生信方法尋找表型相關(guān)基因需要大量計算資源,且差異分析所得候選基因范圍較大,進一步篩選依賴已有的先驗知識。針對這一問題,本文提出了融合遺傳算法和XGBoost的轉(zhuǎn)錄組分析方法——GA-XGBoost,通過融入機器學(xué)習(xí)算法縮小了后續(xù)分析的候選基因范圍。在一組高質(zhì)量玉米數(shù)據(jù)集上對基因-百粒重性狀的關(guān)聯(lián)進行了對比實驗和后續(xù)分析,結(jié)果顯示,相比于分別使用全體基因和差異表達基因直接訓(xùn)練XGBoost模型,所提方法得到的候選基因訓(xùn)練的XGBoost模型在玉米百粒重的預(yù)測結(jié)果上具有最小的MSE;相比于差異表達分析結(jié)果的1542個差異表達基因,GA-XGBoost方法最終將候選基因范圍減小至48個,范圍縮小了31倍,表明所提方法能夠有效提升對轉(zhuǎn)錄組數(shù)據(jù)的分析能力和效率。
關(guān)鍵詞:遺傳算法;XGBoost;機器學(xué)習(xí);玉米;轉(zhuǎn)錄組分析
引言
轉(zhuǎn)錄組分析是一種快速有效的基因組調(diào)查、大規(guī)模功能基因和分子標記鑒定的方法[1]。相較于基因芯片等方法,基于RNAseq的方法不依賴基因的先驗知識,能夠覆蓋更大的轉(zhuǎn)錄組范圍,具有更高的分辨率并且測序成本更低[2]。已有很多學(xué)者針對RNA-Seq測序數(shù)據(jù)進行了研究[3,4],其中不乏使用機器學(xué)習(xí)方法進行研究的方法[5,6]。通過RNA-Seq得到的轉(zhuǎn)錄組測序數(shù)據(jù)具有樣本量較少(幾十或者幾百個)、基因數(shù)極高(通常有上萬個基因)的特點。數(shù)據(jù)高維的特點導(dǎo)致對其進行分析需要更大的計算資源和時間;同時,傳統(tǒng)的統(tǒng)計方法往往也由于數(shù)據(jù)維度過高而失效。
因此,對數(shù)據(jù)進行降維,尋找能夠表示其特征空間的最優(yōu)子集成為了研究人員需要解決的問題。常見的轉(zhuǎn)錄組分析方法主要可以分為兩類。一類為根據(jù)已知的生物學(xué)領(lǐng)域知識和統(tǒng)計知識對數(shù)據(jù)進行處理篩選出相對低維的特征空間進行后續(xù)研究,例如差異表達分析。此類方法[7,8]能夠較快速的獲得特征子空間,但是無法保證子空間能夠保留原始空間的全部信息,從而可能導(dǎo)致最終的效果不盡如意。第二類方法結(jié)合機器學(xué)習(xí)算法,從樣本的基因全集中選擇若干個基因作為特征構(gòu)建學(xué)習(xí)器,并根據(jù)學(xué)習(xí)器的性能和基因在學(xué)習(xí)器中的重要性(如特征權(quán)重)篩選候選基因[5]。
此類方法使用學(xué)習(xí)器的性能作為評判標準,雖然能夠獲得比較優(yōu)秀的特征子集,但是只是針對單一特征進行評價,沒有考慮到基因之間的相互作用。而基因間的相互作用也會導(dǎo)致表型的差異,如此選出的特征子集往往不是最優(yōu)子集。遺傳算法(GeneticAlgorithm,GA)是一個在全局層面對問題尋找最優(yōu)解的算法,借鑒了自然界中的物種進化的規(guī)律,最早由J.Holland于1975年在其專著《自然界和人工系統(tǒng)的適應(yīng)性》[9]中發(fā)表。
遺傳算法每次迭代保留一組候選解,通過模仿生物繁殖的過程產(chǎn)生新的候選解集。使用遺傳算法搜索最優(yōu)特征子空間的優(yōu)勢在于它不需要事先考慮相關(guān)的領(lǐng)域知識,并且由于每次迭代都是針對一個種群進行整體評價,因此能夠考慮特征間的相互作用。目前,在各個領(lǐng)域均有學(xué)者利用遺傳算法進行研究并發(fā)表了文章。
例如,文獻[10]提出了一種結(jié)合多目標優(yōu)化和精英策略的遺傳算法,以對改進的van-Genuchten(VG)模型進行升級,提高了生物炭改良土壤保水模型的預(yù)測能力。文獻[11]中基于遺傳算法設(shè)計的自動化方法,能夠優(yōu)化建筑調(diào)查激光掃描儀定位網(wǎng)絡(luò),最小化點云數(shù)據(jù)間的重疊。文獻[12]將遺傳算法用于面部識別領(lǐng)域,并在微表情識別上取得的較好的效果。此外,在能源[13]、醫(yī)療[14]、生物信息學(xué)[15]等方面,也能發(fā)現(xiàn)相關(guān)研究,表明遺傳算法是一個相當(dāng)成熟的方法,可以應(yīng)用于多個方面。然而,遺傳算法對適應(yīng)性度量的定義具有很大的依賴性,不同的適應(yīng)度定義標準可能會導(dǎo)致最終得到的結(jié)果差異巨大。
本文著眼于玉米的轉(zhuǎn)錄組測序數(shù)據(jù),以挖掘影響玉米百粒重性狀的候選基因作為切入點進行研究。挖掘候選基因的過程本質(zhì)上是特征選擇的過程,即從包含全部基因的特征全集中提取部分基因組成一個特征子集,同時保證使用該子集構(gòu)建的模型相比于使用全集構(gòu)建的模型具有更出色的性能。通過融合遺傳算法與XGBoost,對高質(zhì)量玉米轉(zhuǎn)錄組測序數(shù)據(jù)及其產(chǎn)量數(shù)據(jù)進行分析,得到了調(diào)控玉米百粒重性狀的候選基因。
在模型的準確性方面,將所用模型與分別采用全體基因和差異表達基因(DifferentiallyExpressedGenes,DEGs)進行訓(xùn)練的XGBoost模型進行了比較。此外,傳統(tǒng)生信分析往往在獲得差異基因后直接進行高層分析,這意味著需要從大量候選基因中進行篩選,任務(wù)量繁重而且依賴生物學(xué)先驗知識。本文方法通過機器學(xué)習(xí)算法篩選差異基因,有效縮小了候選基因范圍,并且不依賴先驗知識。
1基因定量和差異表達分析
文章的整體分析方法流程,首先對RNA-Seq數(shù)據(jù)進行基因定量,根據(jù)基因表達量進行差異表達分析。之后,使用GA-XGBoost根據(jù)差異基因和表型數(shù)據(jù)選擇基因子集,通過對XGBoost模型中特征重要性排序獲得候選基因。最后,對所得候選基因進行功能注釋以驗證方法有效性。
1.1基因定量
剛脫機的fastq格式轉(zhuǎn)錄組測序原始數(shù)據(jù)中主要包含若干條堿基讀段(Read)和其對應(yīng)的標識信息,開展研究之前,首先需要確定每個讀段由哪一個基因轉(zhuǎn)錄而來,該基因翻譯了幾次,這個過程稱為基因定量;蚨恐饕ㄈ齻步驟。
第一步,質(zhì)控,對測序數(shù)據(jù)進行篩選,去除測序樣本中長度異常的堿基讀段以及樣本中的銜接子(adaptor)序列,提高基因定量的準確性。第二步,構(gòu)建索引,根據(jù)參考基因組和其注釋文件獲得測序物種的外顯子和剪切位點信息,構(gòu)建索引文件,作為堿基序列比對的模板。第三步,定量,通過適當(dāng)?shù)谋葘λ惴,逐一將測序數(shù)據(jù)中的讀段與全部基因比對,確定讀段的來源,每次確定讀段來源時,其對應(yīng)的基因表達計數(shù)加一。完成基因定量后,每一個樣本都會得到一個基因表達矩陣,其中記錄了不同基因的表達信息。
一個樣本組織中,一定量的RNA中轉(zhuǎn)錄本的量是固定的,但使用高通量測序技術(shù)對樣本進行建庫測序時并不能確定一共有多少的轉(zhuǎn)錄本,對所測數(shù)據(jù)進行比對分析所得的基因的表達水平只是相對的定量;此外,基因長度也會影響轉(zhuǎn)錄本的讀段數(shù)量,基因越長,其對應(yīng)的表達次數(shù)往往也就越高。
另一方面,在比較基因在樣本間的表達水平時,由于不同樣本往往對應(yīng)不同的測序深度,測序深度更深的樣本會得到更多的讀段,導(dǎo)致其基因的表達計數(shù)更高。因此,在比較不同樣本間的基因表達水平之前,需要尋找一種對數(shù)據(jù)進行標準化處理的方法,消除基因表達定量過程中由于基因長度與測序深度不同而產(chǎn)生的差異。
1.2差異表達分析
一個生物學(xué)個體或者組織,在不同的生長發(fā)育周期、不同的組織細胞中,其內(nèi)存在的全體基因并非全部表達,而是根據(jù)實際需要部分表達。因此,不同組織或統(tǒng)一組織在不同發(fā)育周期中基因的表達模式存在差異,有的基因大量表達行使功能,有的基因少量表達,另一部分基因則完全不表達。往往,具有相同性狀的個體或組織間,其基因的表達模式相同,性狀相差較大的個體之間,基因的表達模式差別也較大。
基于該情況,在通過測序得到基因的表達信息之后,可以根據(jù)樣本性狀的分組信息,通過統(tǒng)計學(xué)方法對其表達模式進行分析,尋找樣本間差異表達的基因,進而縮小影響性狀的基因范圍。差異表達分析的缺陷在于,其分析方法依賴樣本的分組信息;另一方面,生物學(xué)者進行實驗設(shè)計時,往往只針對目標性狀進行統(tǒng)計,但檢測到的差異基因同時包括其他無關(guān)性狀的相關(guān)基因,這也是導(dǎo)致最終得到的差異表達基因較多的原因,需要后續(xù)針對目標性狀進行深入分析以篩選候選基因。
2基于GA-XGBoost算法的特征選擇
2.1XGBoost算法
XGBoost(eXtremeGradientBoosting)是陳天奇于SIGKDD2016大會上提出的一種基于梯度提升和決策樹的集成學(xué)習(xí)方法[20],能夠有效地學(xué)習(xí)數(shù)據(jù)間的關(guān)系。XGBoost使用分類和回歸樹(ClassificationandRegressionTrees,CART)作為基學(xué)習(xí)器,通過在損失函數(shù)中引入正則項控制模型的復(fù)雜度以確保泛化能力,正則項包括葉子節(jié)點數(shù)和葉子節(jié)點權(quán)重的平方和。XGBoost的思想是每次增加一棵樹擬合上一輪預(yù)測結(jié)果的殘差,通過不斷的增加新樹達到降低損失值的目的,基于加法模型將多個弱學(xué)習(xí)器集成為一個強學(xué)習(xí)器,從而獲得一個具有高準確率的機器學(xué)習(xí)模型。
2.2GA-XGBoost算法
在生物體中,不同的基因負責(zé)調(diào)控不同的性狀,因此,挖掘玉米百粒重性狀候選基因的過程本質(zhì)上是特征選擇的過程。將樣本包含的全部基因視為特征全集,從中提取部分基因構(gòu)成一個特征子集,同時保證使用該子集構(gòu)建的模型相比于使用全集構(gòu)建的模型具有更出色的性能。遺傳算法是模擬生物界種群演化規(guī)律的隨機搜索算法,主要借鑒種群繁殖過程中個體雜交、染色體交換和基因突變的情況,根據(jù)一定的規(guī)則模仿自然選擇生成新一代種群,并通過不斷的重復(fù)該過程從而找到最適應(yīng)環(huán)境的最優(yōu)種群。
在遺傳算法中,問題可能的一個解叫做個體,通過一定的編碼規(guī)則轉(zhuǎn)換為一個唯一的向量表示,稱作染色體,一組可能的解構(gòu)成一個種群。使用遺傳算法進行特征選擇時,個體適應(yīng)度的設(shè)定對最終所得最優(yōu)子集具有重要的影響,不夠合理的適應(yīng)度設(shè)定將導(dǎo)致最終的子集并非最優(yōu)解。
本文遺傳算法與XGBoost融合,提出遺傳算法-極限梯度提升算法(GeneticAlgorithmXGBoost,GA-XGBoost),解決了遺傳算法中個體適應(yīng)性度量的設(shè)定問題和XGBoost需要對輸入數(shù)據(jù)進行預(yù)處理的問題,并且保留了兩個算法各自的優(yōu)點。基于遺傳算法-XGBoost(GA-XGBoost)的特征選擇方法包含個體編碼、種群初始化、自然選擇、染色體交叉和基因突變、迭代結(jié)束判斷等步驟。
2.3候選基因提取
GA-XGBoost算法結(jié)束后,輸出最優(yōu)特征子集信息。該信息是一個編碼后的向量,根據(jù)2.2介紹的編碼方法對該向量進行解碼,得到與表型性狀相對應(yīng)的最優(yōu)基因子集,之后使用該子集中基因的表達量和對應(yīng)樣本的表型數(shù)據(jù)訓(xùn)練XGBoost模型,根據(jù)模型對特征的重要性排序信息,選擇排列最靠前的若干基因作為候選基因。
2.4GA-XGBoost時間復(fù)雜度分析
使用GA-XGBoost進行數(shù)據(jù)處理分為遺傳算法尋找特征和XGBoost評價個體適應(yīng)度兩部分。遺傳算法尋找最優(yōu)特征時的時間復(fù)雜度為
此外,其他常用于特征選擇的方法,如基于遞歸特征消除的支持向量機(SupportVectorMachineRecursiveFeatureElimination,SVM-RFE)[25]算法,SVM模型訓(xùn)練階段的時間復(fù)雜度介于
3實驗結(jié)果與分析
數(shù)據(jù)集采用農(nóng)科院高質(zhì)量的玉米轉(zhuǎn)錄組測序數(shù)據(jù)和對應(yīng)的百粒重測產(chǎn)數(shù)據(jù)。對測序數(shù)據(jù)進行質(zhì)控后,比對至玉米B73RefGen_v4參考基因組統(tǒng)計樣本中基因的表達水平,并計算FPKM值,對同一實驗條件下的重復(fù)樣品,F(xiàn)PKM取所有重復(fù)數(shù)據(jù)的平均值。
3.1差異表達分析
所用RNA-Seq數(shù)據(jù)集,經(jīng)過與參考基因組比對后,共檢測到53931個基因,其中表達量不為0的基因個數(shù)有41924個。根據(jù)樣本的分組信息,使用基于R包的Deseq2對表達量非零的基因進行差異表達分析。在校驗后P值(P-adjusted,padj)小于0.1的情況下,當(dāng)|LFC|>0時,共檢測到934個基因表達上調(diào),占非0基因總數(shù)的2.2%,860個基因表達下調(diào),占非0基因總數(shù)的2.1%,共計1794個基因在兩組樣本間差異表達;當(dāng)|LFC|>1時,共檢測到843個基因表達上調(diào),占非0基因總數(shù)的2.0%,699個基因表達下調(diào),占非0基因總數(shù)的1.7%,共計1542個基因在兩組樣本間差異表達。
4結(jié)論
在分析了轉(zhuǎn)錄組分析方法方面的進展后,本文提出了融合遺傳算法與XGBoost的轉(zhuǎn)錄組分析方法。以高質(zhì)量的玉米轉(zhuǎn)錄組測序數(shù)據(jù)和對應(yīng)的表型數(shù)據(jù)作為數(shù)據(jù)集,研究了影響玉米百粒重性狀的相關(guān)基因。首先分析了遺傳算法和XGBoost用于轉(zhuǎn)錄組分析領(lǐng)域的可行性,提出了融合遺傳算法和XGBoost的方法——GA-XGBoost。在完成轉(zhuǎn)錄組數(shù)據(jù)的預(yù)處理工作和差異表達分析之后,使用本文所提方法對其進行了分析,實驗得到了48個與玉米百粒重相關(guān)的候選基因,并對其進行了基因本體注釋和KEGG通路分析。
同時,將本文方法所得模型與分別使用全體基因和差異表達基因進行訓(xùn)練的XGBoost模型進行了比較,在預(yù)測結(jié)果的準確性上,GA-XGBoost模型具有最低的均方誤差,達到3.752,低于使用全體基因的9.183和使用差異表達基因的7.689;在候選基因的范圍上,從傳統(tǒng)方法直接對1542個差異表達基因進行分析的基礎(chǔ)上縮減到驗證48個候選基因,表明本文所提方法能夠有效提升對轉(zhuǎn)錄組數(shù)據(jù)的分析能力和效率。
本文雖然實現(xiàn)了對于影響玉米百粒重性狀的候選基因挖掘,但仍存在不足之處。融合遺傳算法和XGBoost的轉(zhuǎn)錄組分析方法,雖然能夠得到范圍更小的候選基因,但是GA-XGBoost算法本身因為使用遺傳算法的原因,導(dǎo)致尋找最優(yōu)子集時可能會消耗較長時間;XGBoost由于具有較多的參數(shù),而使用網(wǎng)格調(diào)參時,隨著參數(shù)的增多計算時間會大幅增加,如何快速且低消耗地尋找到合適參數(shù)使得模型達到最優(yōu)也是值得探討的問題。此外,通過功能注釋雖然能夠在一定程度上表明所選基因與百粒重相關(guān),但還需要進一步構(gòu)建基因調(diào)控網(wǎng)絡(luò)等步驟切實證明所選基因合理可靠,這將是本課題之后的研究方向。
參考文獻:
[1]MOROZOVAO,HIRSTM,MARRAMA.ApplicationsofNewSequencingTechnologiesforTranscriptomeAnalysis[J].AnnuRevGenomicsHumGenet,2009,10(1):135-151.
[2]郭茂祖,楊帥,趙玲玲.基于RNA-Seq的轉(zhuǎn)錄組分析方法[J].計算機科學(xué),2020,47(S2):35-39.GUOMaozu,YANGShuai,ZHAOLingling.TranscriptomeAnalysisMethodBasedonRNASeq[J].ComputerScience,2020,47(S2):35-39.
[3]KUKURBAKR,MONTGOMERYSB.RNASequencingandAnalysis[J].ColdSpringHarborProtocols,2015,2015(11):951.
[4]XUMaoqiQ,CHENLiang.AnempiricallikelihoodratiotestrobusttoindividualheterogeneityfordifferentialexpressionanalysisofRNA-seq[J].Briefingsinbioinformatics,2018,19(1):109-117.
[5]ZHAOXin,DOUJian,CAOJinglin,etal.UncoveringthepotentialdifferentiallyexpressedmiRNAsasdiagnosticbiomarkersforhepatocellularcarcinomabasedonmachinelearninginTheCancerGenomeAtlasdatabase[J].Oncologyreports,2020,43(6):1771-1784.
作者:楊帥1,2,郭茂祖1,2,趙玲玲3,李陽1,2
轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///jjlw/29145.html