融合遺傳算法與XGBoost的玉米百粒重相關基因挖掘

所屬分類：經濟論文閱讀次時間：2021-12-20 12:04

本文摘要：摘要：基于RNA-Seq的轉錄組測序數據特征維度較高，使用傳統(tǒng)生信方法尋找表型相關基因需要大量計算資源，且差異分析所得候選基因范圍較大，進一步篩選依賴已有的先驗知識。針對這一問題，本文提出了融合遺傳算法和XGBoost的轉錄組分析方法GA-XGBoost，通過融入機器學習

　　摘要：基于RNA-Seq的轉錄組測序數據特征維度較高，使用傳統(tǒng)生信方法尋找表型相關基因需要大量計算資源，且差異分析所得候選基因范圍較大，進一步篩選依賴已有的先驗知識。針對這一問題，本文提出了融合遺傳算法和XGBoost的轉錄組分析方法——GA-XGBoost，通過融入機器學習算法縮小了后續(xù)分析的候選基因范圍。在一組高質量玉米數據集上對基因-百粒重性狀的關聯(lián)進行了對比實驗和后續(xù)分析，結果顯示，相比于分別使用全體基因和差異表達基因直接訓練XGBoost模型，所提方法得到的候選基因訓練的XGBoost模型在玉米百粒重的預測結果上具有最小的MSE;相比于差異表達分析結果的1542個差異表達基因，GA-XGBoost方法最終將候選基因范圍減小至48個，范圍縮小了31倍，表明所提方法能夠有效提升對轉錄組數據的分析能力和效率。

　　關鍵詞：遺傳算法;XGBoost;機器學習;玉米;轉錄組分析

遺傳算法論文

　　引言

　　轉錄組分析是一種快速有效的基因組調查、大規(guī)模功能基因和分子標記鑒定的方法[1]。相較于基因芯片等方法，基于RNAseq的方法不依賴基因的先驗知識，能夠覆蓋更大的轉錄組范圍，具有更高的分辨率并且測序成本更低[2]。已有很多學者針對RNA-Seq測序數據進行了研究[3,4]，其中不乏使用機器學習方法進行研究的方法[5,6]。通過RNA-Seq得到的轉錄組測序數據具有樣本量較少(幾十或者幾百個)、基因數極高(通常有上萬個基因)的特點。數據高維的特點導致對其進行分析需要更大的計算資源和時間;同時，傳統(tǒng)的統(tǒng)計方法往往也由于數據維度過高而失效。

　　因此，對數據進行降維，尋找能夠表示其特征空間的最優(yōu)子集成為了研究人員需要解決的問題。常見的轉錄組分析方法主要可以分為兩類。一類為根據已知的生物學領域知識和統(tǒng)計知識對數據進行處理篩選出相對低維的特征空間進行后續(xù)研究，例如差異表達分析。此類方法[7,8]能夠較快速的獲得特征子空間，但是無法保證子空間能夠保留原始空間的全部信息，從而可能導致最終的效果不盡如意。第二類方法結合機器學習算法，從樣本的基因全集中選擇若干個基因作為特征構建學習器，并根據學習器的性能和基因在學習器中的重要性(如特征權重)篩選候選基因[5]。

　　此類方法使用學習器的性能作為評判標準，雖然能夠獲得比較優(yōu)秀的特征子集，但是只是針對單一特征進行評價，沒有考慮到基因之間的相互作用。而基因間的相互作用也會導致表型的差異，如此選出的特征子集往往不是最優(yōu)子集。遺傳算法(GeneticAlgorithm，GA)是一個在全局層面對問題尋找最優(yōu)解的算法，借鑒了自然界中的物種進化的規(guī)律，最早由J.Holland于1975年在其專著《自然界和人工系統(tǒng)的適應性》[9]中發(fā)表。

　　遺傳算法每次迭代保留一組候選解，通過模仿生物繁殖的過程產生新的候選解集。使用遺傳算法搜索最優(yōu)特征子空間的優(yōu)勢在于它不需要事先考慮相關的領域知識，并且由于每次迭代都是針對一個種群進行整體評價，因此能夠考慮特征間的相互作用。目前，在各個領域均有學者利用遺傳算法進行研究并發(fā)表了文章。

　　例如，文獻[10]提出了一種結合多目標優(yōu)化和精英策略的遺傳算法，以對改進的van-Genuchten(VG)模型進行升級，提高了生物炭改良土壤保水模型的預測能力。文獻[11]中基于遺傳算法設計的自動化方法，能夠優(yōu)化建筑調查激光掃描儀定位網絡，最小化點云數據間的重疊。文獻[12]將遺傳算法用于面部識別領域，并在微表情識別上取得的較好的效果。此外，在能源[13]、醫(yī)療[14]、生物信息學[15]等方面，也能發(fā)現(xiàn)相關研究，表明遺傳算法是一個相當成熟的方法，可以應用于多個方面。然而，遺傳算法對適應性度量的定義具有很大的依賴性，不同的適應度定義標準可能會導致最終得到的結果差異巨大。

　　本文著眼于玉米的轉錄組測序數據，以挖掘影響玉米百粒重性狀的候選基因作為切入點進行研究。挖掘候選基因的過程本質上是特征選擇的過程，即從包含全部基因的特征全集中提取部分基因組成一個特征子集，同時保證使用該子集構建的模型相比于使用全集構建的模型具有更出色的性能。通過融合遺傳算法與XGBoost，對高質量玉米轉錄組測序數據及其產量數據進行分析，得到了調控玉米百粒重性狀的候選基因。

　　在模型的準確性方面，將所用模型與分別采用全體基因和差異表達基因(DifferentiallyExpressedGenes，DEGs)進行訓練的XGBoost模型進行了比較。此外，傳統(tǒng)生信分析往往在獲得差異基因后直接進行高層分析，這意味著需要從大量候選基因中進行篩選，任務量繁重而且依賴生物學先驗知識。本文方法通過機器學習算法篩選差異基因，有效縮小了候選基因范圍，并且不依賴先驗知識。

　　1基因定量和差異表達分析

　　文章的整體分析方法流程，首先對RNA-Seq數據進行基因定量，根據基因表達量進行差異表達分析。之后，使用GA-XGBoost根據差異基因和表型數據選擇基因子集，通過對XGBoost模型中特征重要性排序獲得候選基因。最后，對所得候選基因進行功能注釋以驗證方法有效性。

　　1.1基因定量

　　剛脫機的fastq格式轉錄組測序原始數據中主要包含若干條堿基讀段(Read)和其對應的標識信息，開展研究之前，首先需要確定每個讀段由哪一個基因轉錄而來，該基因翻譯了幾次，這個過程稱為基因定量�；蚨恐饕ㄈ齻€步驟。

　　第一步，質控，對測序數據進行篩選，去除測序樣本中長度異常的堿基讀段以及樣本中的銜接子(adaptor)序列，提高基因定量的準確性。第二步，構建索引，根據參考基因組和其注釋文件獲得測序物種的外顯子和剪切位點信息，構建索引文件，作為堿基序列比對的模板。第三步，定量，通過適當的比對算法，逐一將測序數據中的讀段與全部基因比對，確定讀段的來源，每次確定讀段來源時，其對應的基因表達計數加一。完成基因定量后，每一個樣本都會得到一個基因表達矩陣，其中記錄了不同基因的表達信息。

　　一個樣本組織中，一定量的RNA中轉錄本的量是固定的，但使用高通量測序技術對樣本進行建庫測序時并不能確定一共有多少的轉錄本，對所測數據進行比對分析所得的基因的表達水平只是相對的定量;此外，基因長度也會影響轉錄本的讀段數量，基因越長，其對應的表達次數往往也就越高。

　　另一方面，在比較基因在樣本間的表達水平時，由于不同樣本往往對應不同的測序深度，測序深度更深的樣本會得到更多的讀段，導致其基因的表達計數更高。因此，在比較不同樣本間的基因表達水平之前，需要尋找一種對數據進行標準化處理的方法，消除基因表達定量過程中由于基因長度與測序深度不同而產生的差異。

　　1.2差異表達分析

　　一個生物學個體或者組織，在不同的生長發(fā)育周期、不同的組織細胞中，其內存在的全體基因并非全部表達，而是根據實際需要部分表達。因此，不同組織或統(tǒng)一組織在不同發(fā)育周期中基因的表達模式存在差異，有的基因大量表達行使功能，有的基因少量表達，另一部分基因則完全不表達。往往，具有相同性狀的個體或組織間，其基因的表達模式相同，性狀相差較大的個體之間，基因的表達模式差別也較大。

　　基于該情況，在通過測序得到基因的表達信息之后，可以根據樣本性狀的分組信息，通過統(tǒng)計學方法對其表達模式進行分析，尋找樣本間差異表達的基因，進而縮小影響性狀的基因范圍。差異表達分析的缺陷在于，其分析方法依賴樣本的分組信息;另一方面，生物學者進行實驗設計時，往往只針對目標性狀進行統(tǒng)計，但檢測到的差異基因同時包括其他無關性狀的相關基因，這也是導致最終得到的差異表達基因較多的原因，需要后續(xù)針對目標性狀進行深入分析以篩選候選基因。

　　2基于GA-XGBoost算法的特征選擇

　　2.1XGBoost算法

　　XGBoost(eXtremeGradientBoosting)是陳天奇于SIGKDD2016大會上提出的一種基于梯度提升和決策樹的集成學習方法[20]，能夠有效地學習數據間的關系。XGBoost使用分類和回歸樹(ClassificationandRegressionTrees，CART)作為基學習器，通過在損失函數中引入正則項控制模型的復雜度以確保泛化能力，正則項包括葉子節(jié)點數和葉子節(jié)點權重的平方和。XGBoost的思想是每次增加一棵樹擬合上一輪預測結果的殘差，通過不斷的增加新樹達到降低損失值的目的，基于加法模型將多個弱學習器集成為一個強學習器，從而獲得一個具有高準確率的機器學習模型。

　　2.2GA-XGBoost算法

　　在生物體中，不同的基因負責調控不同的性狀，因此，挖掘玉米百粒重性狀候選基因的過程本質上是特征選擇的過程。將樣本包含的全部基因視為特征全集，從中提取部分基因構成一個特征子集，同時保證使用該子集構建的模型相比于使用全集構建的模型具有更出色的性能。遺傳算法是模擬生物界種群演化規(guī)律的隨機搜索算法，主要借鑒種群繁殖過程中個體雜交、染色體交換和基因突變的情況，根據一定的規(guī)則模仿自然選擇生成新一代種群，并通過不斷的重復該過程從而找到最適應環(huán)境的最優(yōu)種群。

　　在遺傳算法中，問題可能的一個解叫做個體，通過一定的編碼規(guī)則轉換為一個唯一的向量表示，稱作染色體，一組可能的解構成一個種群。使用遺傳算法進行特征選擇時，個體適應度的設定對最終所得最優(yōu)子集具有重要的影響，不夠合理的適應度設定將導致最終的子集并非最優(yōu)解。

　　本文遺傳算法與XGBoost融合，提出遺傳算法-極限梯度提升算法(GeneticAlgorithmXGBoost，GA-XGBoost)，解決了遺傳算法中個體適應性度量的設定問題和XGBoost需要對輸入數據進行預處理的問題，并且保留了兩個算法各自的優(yōu)點�；谶z傳算法-XGBoost(GA-XGBoost)的特征選擇方法包含個體編碼、種群初始化、自然選擇、染色體交叉和基因突變、迭代結束判斷等步驟。

　　2.3候選基因提取

　　GA-XGBoost算法結束后，輸出最優(yōu)特征子集信息。該信息是一個編碼后的向量，根據2.2介紹的編碼方法對該向量進行解碼，得到與表型性狀相對應的最優(yōu)基因子集，之后使用該子集中基因的表達量和對應樣本的表型數據訓練XGBoost模型，根據模型對特征的重要性排序信息，選擇排列最靠前的若干基因作為候選基因。

　　2.4GA-XGBoost時間復雜度分析

　　使用GA-XGBoost進行數據處理分為遺傳算法尋找特征和XGBoost評價個體適應度兩部分。遺傳算法尋找最優(yōu)特征時的時間復雜度為

　　此外，其他常用于特征選擇的方法，如基于遞歸特征消除的支持向量機(SupportVectorMachineRecursiveFeatureElimination，SVM-RFE)[25]算法，SVM模型訓練階段的時間復雜度介于

　　3實驗結果與分析

　　數據集采用農科院高質量的玉米轉錄組測序數據和對應的百粒重測產數據。對測序數據進行質控后，比對至玉米B73RefGen_v4參考基因組統(tǒng)計樣本中基因的表達水平，并計算FPKM值，對同一實驗條件下的重復樣品，F(xiàn)PKM取所有重復數據的平均值。

　　3.1差異表達分析

　　所用RNA-Seq數據集，經過與參考基因組比對后，共檢測到53931個基因，其中表達量不為0的基因個數有41924個。根據樣本的分組信息，使用基于R包的Deseq2對表達量非零的基因進行差異表達分析。在校驗后P值(P-adjusted，padj)小于0.1的情況下，當|LFC|>0時，共檢測到934個基因表達上調，占非0基因總數的2.2%，860個基因表達下調，占非0基因總數的2.1%，共計1794個基因在兩組樣本間差異表達;當|LFC|>1時，共檢測到843個基因表達上調，占非0基因總數的2.0%，699個基因表達下調，占非0基因總數的1.7%，共計1542個基因在兩組樣本間差異表達。

　　4結論

　　在分析了轉錄組分析方法方面的進展后，本文提出了融合遺傳算法與XGBoost的轉錄組分析方法。以高質量的玉米轉錄組測序數據和對應的表型數據作為數據集，研究了影響玉米百粒重性狀的相關基因。首先分析了遺傳算法和XGBoost用于轉錄組分析領域的可行性，提出了融合遺傳算法和XGBoost的方法——GA-XGBoost。在完成轉錄組數據的預處理工作和差異表達分析之后，使用本文所提方法對其進行了分析，實驗得到了48個與玉米百粒重相關的候選基因，并對其進行了基因本體注釋和KEGG通路分析。

　　同時，將本文方法所得模型與分別使用全體基因和差異表達基因進行訓練的XGBoost模型進行了比較，在預測結果的準確性上，GA-XGBoost模型具有最低的均方誤差，達到3.752，低于使用全體基因的9.183和使用差異表達基因的7.689;在候選基因的范圍上，從傳統(tǒng)方法直接對1542個差異表達基因進行分析的基礎上縮減到驗證48個候選基因，表明本文所提方法能夠有效提升對轉錄組數據的分析能力和效率。

　　本文雖然實現(xiàn)了對于影響玉米百粒重性狀的候選基因挖掘，但仍存在不足之處。融合遺傳算法和XGBoost的轉錄組分析方法，雖然能夠得到范圍更小的候選基因，但是GA-XGBoost算法本身因為使用遺傳算法的原因，導致尋找最優(yōu)子集時可能會消耗較長時間;XGBoost由于具有較多的參數，而使用網格調參時，隨著參數的增多計算時間會大幅增加，如何快速且低消耗地尋找到合適參數使得模型達到最優(yōu)也是值得探討的問題。此外，通過功能注釋雖然能夠在一定程度上表明所選基因與百粒重相關，但還需要進一步構建基因調控網絡等步驟切實證明所選基因合理可靠，這將是本課題之后的研究方向。

　　參考文獻：

　　[1]MOROZOVAO,HIRSTM,MARRAMA.ApplicationsofNewSequencingTechnologiesforTranscriptomeAnalysis[J].AnnuRevGenomicsHumGenet,2009,10(1):135-151.

　　[2]郭茂祖,楊帥,趙玲玲.基于RNA-Seq的轉錄組分析方法[J].計算機科學,2020,47(S2):35-39.GUOMaozu,YANGShuai,ZHAOLingling.TranscriptomeAnalysisMethodBasedonRNASeq[J].ComputerScience,2020,47(S2):35-39.

　　[3]KUKURBAKR,MONTGOMERYSB.RNASequencingandAnalysis[J].ColdSpringHarborProtocols,2015,2015(11):951.

　　[4]XUMaoqiQ,CHENLiang.AnempiricallikelihoodratiotestrobusttoindividualheterogeneityfordifferentialexpressionanalysisofRNA-seq[J].Briefingsinbioinformatics,2018,19(1):109-117.

　　[5]ZHAOXin,DOUJian,CAOJinglin,etal.UncoveringthepotentialdifferentiallyexpressedmiRNAsasdiagnosticbiomarkersforhepatocellularcarcinomabasedonmachinelearninginTheCancerGenomeAtlasdatabase[J].Oncologyreports,2020,43(6):1771-1784.

　　作者：楊帥1,2，郭茂祖1,2，趙玲玲3，李陽1,2