亚洲一区人妻,久久三级免费,国模少妇无码一区二区三区,日韩av动漫

國內(nèi)或國外 期刊或論文

您當(dāng)前的位置:發(fā)表學(xué)術(shù)論文網(wǎng)經(jīng)濟(jì)論文》 融合遺傳算法與XGBoost的玉米百粒重相關(guān)基因挖掘> 正文

融合遺傳算法與XGBoost的玉米百粒重相關(guān)基因挖掘

所屬分類:經(jīng)濟(jì)論文 閱讀次 時(shí)間:2021-12-20 12:04

本文摘要:摘要:基于RNA-Seq的轉(zhuǎn)錄組測序數(shù)據(jù)特征維度較高,使用傳統(tǒng)生信方法尋找表型相關(guān)基因需要大量計(jì)算資源,且差異分析所得候選基因范圍較大,進(jìn)一步篩選依賴已有的先驗(yàn)知識。針對這一問題,本文提出了融合遺傳算法和XGBoost的轉(zhuǎn)錄組分析方法GA-XGBoost,通過融入機(jī)器學(xué)習(xí)

  摘要:基于RNA-Seq的轉(zhuǎn)錄組測序數(shù)據(jù)特征維度較高,使用傳統(tǒng)生信方法尋找表型相關(guān)基因需要大量計(jì)算資源,且差異分析所得候選基因范圍較大,進(jìn)一步篩選依賴已有的先驗(yàn)知識。針對這一問題,本文提出了融合遺傳算法和XGBoost的轉(zhuǎn)錄組分析方法——GA-XGBoost,通過融入機(jī)器學(xué)習(xí)算法縮小了后續(xù)分析的候選基因范圍。在一組高質(zhì)量玉米數(shù)據(jù)集上對基因-百粒重性狀的關(guān)聯(lián)進(jìn)行了對比實(shí)驗(yàn)和后續(xù)分析,結(jié)果顯示,相比于分別使用全體基因和差異表達(dá)基因直接訓(xùn)練XGBoost模型,所提方法得到的候選基因訓(xùn)練的XGBoost模型在玉米百粒重的預(yù)測結(jié)果上具有最小的MSE;相比于差異表達(dá)分析結(jié)果的1542個(gè)差異表達(dá)基因,GA-XGBoost方法最終將候選基因范圍減小至48個(gè),范圍縮小了31倍,表明所提方法能夠有效提升對轉(zhuǎn)錄組數(shù)據(jù)的分析能力和效率。

  關(guān)鍵詞:遺傳算法;XGBoost;機(jī)器學(xué)習(xí);玉米;轉(zhuǎn)錄組分析

遺傳算法論文

  引言

  轉(zhuǎn)錄組分析是一種快速有效的基因組調(diào)查、大規(guī)模功能基因和分子標(biāo)記鑒定的方法[1]。相較于基因芯片等方法,基于RNAseq的方法不依賴基因的先驗(yàn)知識,能夠覆蓋更大的轉(zhuǎn)錄組范圍,具有更高的分辨率并且測序成本更低[2]。已有很多學(xué)者針對RNA-Seq測序數(shù)據(jù)進(jìn)行了研究[3,4],其中不乏使用機(jī)器學(xué)習(xí)方法進(jìn)行研究的方法[5,6]。通過RNA-Seq得到的轉(zhuǎn)錄組測序數(shù)據(jù)具有樣本量較少(幾十或者幾百個(gè))、基因數(shù)極高(通常有上萬個(gè)基因)的特點(diǎn)。數(shù)據(jù)高維的特點(diǎn)導(dǎo)致對其進(jìn)行分析需要更大的計(jì)算資源和時(shí)間;同時(shí),傳統(tǒng)的統(tǒng)計(jì)方法往往也由于數(shù)據(jù)維度過高而失效。

  因此,對數(shù)據(jù)進(jìn)行降維,尋找能夠表示其特征空間的最優(yōu)子集成為了研究人員需要解決的問題。常見的轉(zhuǎn)錄組分析方法主要可以分為兩類。一類為根據(jù)已知的生物學(xué)領(lǐng)域知識和統(tǒng)計(jì)知識對數(shù)據(jù)進(jìn)行處理篩選出相對低維的特征空間進(jìn)行后續(xù)研究,例如差異表達(dá)分析。此類方法[7,8]能夠較快速的獲得特征子空間,但是無法保證子空間能夠保留原始空間的全部信息,從而可能導(dǎo)致最終的效果不盡如意。第二類方法結(jié)合機(jī)器學(xué)習(xí)算法,從樣本的基因全集中選擇若干個(gè)基因作為特征構(gòu)建學(xué)習(xí)器,并根據(jù)學(xué)習(xí)器的性能和基因在學(xué)習(xí)器中的重要性(如特征權(quán)重)篩選候選基因[5]。

  此類方法使用學(xué)習(xí)器的性能作為評判標(biāo)準(zhǔn),雖然能夠獲得比較優(yōu)秀的特征子集,但是只是針對單一特征進(jìn)行評價(jià),沒有考慮到基因之間的相互作用。而基因間的相互作用也會導(dǎo)致表型的差異,如此選出的特征子集往往不是最優(yōu)子集。遺傳算法(GeneticAlgorithm,GA)是一個(gè)在全局層面對問題尋找最優(yōu)解的算法,借鑒了自然界中的物種進(jìn)化的規(guī)律,最早由J.Holland于1975年在其專著《自然界和人工系統(tǒng)的適應(yīng)性》[9]中發(fā)表。

  遺傳算法每次迭代保留一組候選解,通過模仿生物繁殖的過程產(chǎn)生新的候選解集。使用遺傳算法搜索最優(yōu)特征子空間的優(yōu)勢在于它不需要事先考慮相關(guān)的領(lǐng)域知識,并且由于每次迭代都是針對一個(gè)種群進(jìn)行整體評價(jià),因此能夠考慮特征間的相互作用。目前,在各個(gè)領(lǐng)域均有學(xué)者利用遺傳算法進(jìn)行研究并發(fā)表了文章。

  例如,文獻(xiàn)[10]提出了一種結(jié)合多目標(biāo)優(yōu)化和精英策略的遺傳算法,以對改進(jìn)的van-Genuchten(VG)模型進(jìn)行升級,提高了生物炭改良土壤保水模型的預(yù)測能力。文獻(xiàn)[11]中基于遺傳算法設(shè)計(jì)的自動(dòng)化方法,能夠優(yōu)化建筑調(diào)查激光掃描儀定位網(wǎng)絡(luò),最小化點(diǎn)云數(shù)據(jù)間的重疊。文獻(xiàn)[12]將遺傳算法用于面部識別領(lǐng)域,并在微表情識別上取得的較好的效果。此外,在能源[13]、醫(yī)療[14]、生物信息學(xué)[15]等方面,也能發(fā)現(xiàn)相關(guān)研究,表明遺傳算法是一個(gè)相當(dāng)成熟的方法,可以應(yīng)用于多個(gè)方面。然而,遺傳算法對適應(yīng)性度量的定義具有很大的依賴性,不同的適應(yīng)度定義標(biāo)準(zhǔn)可能會導(dǎo)致最終得到的結(jié)果差異巨大。

  本文著眼于玉米的轉(zhuǎn)錄組測序數(shù)據(jù),以挖掘影響玉米百粒重性狀的候選基因作為切入點(diǎn)進(jìn)行研究。挖掘候選基因的過程本質(zhì)上是特征選擇的過程,即從包含全部基因的特征全集中提取部分基因組成一個(gè)特征子集,同時(shí)保證使用該子集構(gòu)建的模型相比于使用全集構(gòu)建的模型具有更出色的性能。通過融合遺傳算法與XGBoost,對高質(zhì)量玉米轉(zhuǎn)錄組測序數(shù)據(jù)及其產(chǎn)量數(shù)據(jù)進(jìn)行分析,得到了調(diào)控玉米百粒重性狀的候選基因。

  在模型的準(zhǔn)確性方面,將所用模型與分別采用全體基因和差異表達(dá)基因(DifferentiallyExpressedGenes,DEGs)進(jìn)行訓(xùn)練的XGBoost模型進(jìn)行了比較。此外,傳統(tǒng)生信分析往往在獲得差異基因后直接進(jìn)行高層分析,這意味著需要從大量候選基因中進(jìn)行篩選,任務(wù)量繁重而且依賴生物學(xué)先驗(yàn)知識。本文方法通過機(jī)器學(xué)習(xí)算法篩選差異基因,有效縮小了候選基因范圍,并且不依賴先驗(yàn)知識。

  1基因定量和差異表達(dá)分析

  文章的整體分析方法流程,首先對RNA-Seq數(shù)據(jù)進(jìn)行基因定量,根據(jù)基因表達(dá)量進(jìn)行差異表達(dá)分析。之后,使用GA-XGBoost根據(jù)差異基因和表型數(shù)據(jù)選擇基因子集,通過對XGBoost模型中特征重要性排序獲得候選基因。最后,對所得候選基因進(jìn)行功能注釋以驗(yàn)證方法有效性。

  1.1基因定量

  剛脫機(jī)的fastq格式轉(zhuǎn)錄組測序原始數(shù)據(jù)中主要包含若干條堿基讀段(Read)和其對應(yīng)的標(biāo)識信息,開展研究之前,首先需要確定每個(gè)讀段由哪一個(gè)基因轉(zhuǎn)錄而來,該基因翻譯了幾次,這個(gè)過程稱為基因定量;蚨恐饕ㄈ齻(gè)步驟。

  第一步,質(zhì)控,對測序數(shù)據(jù)進(jìn)行篩選,去除測序樣本中長度異常的堿基讀段以及樣本中的銜接子(adaptor)序列,提高基因定量的準(zhǔn)確性。第二步,構(gòu)建索引,根據(jù)參考基因組和其注釋文件獲得測序物種的外顯子和剪切位點(diǎn)信息,構(gòu)建索引文件,作為堿基序列比對的模板。第三步,定量,通過適當(dāng)?shù)谋葘λ惴,逐一將測序數(shù)據(jù)中的讀段與全部基因比對,確定讀段的來源,每次確定讀段來源時(shí),其對應(yīng)的基因表達(dá)計(jì)數(shù)加一。完成基因定量后,每一個(gè)樣本都會得到一個(gè)基因表達(dá)矩陣,其中記錄了不同基因的表達(dá)信息。

  一個(gè)樣本組織中,一定量的RNA中轉(zhuǎn)錄本的量是固定的,但使用高通量測序技術(shù)對樣本進(jìn)行建庫測序時(shí)并不能確定一共有多少的轉(zhuǎn)錄本,對所測數(shù)據(jù)進(jìn)行比對分析所得的基因的表達(dá)水平只是相對的定量;此外,基因長度也會影響轉(zhuǎn)錄本的讀段數(shù)量,基因越長,其對應(yīng)的表達(dá)次數(shù)往往也就越高。

  另一方面,在比較基因在樣本間的表達(dá)水平時(shí),由于不同樣本往往對應(yīng)不同的測序深度,測序深度更深的樣本會得到更多的讀段,導(dǎo)致其基因的表達(dá)計(jì)數(shù)更高。因此,在比較不同樣本間的基因表達(dá)水平之前,需要尋找一種對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理的方法,消除基因表達(dá)定量過程中由于基因長度與測序深度不同而產(chǎn)生的差異。

  1.2差異表達(dá)分析

  一個(gè)生物學(xué)個(gè)體或者組織,在不同的生長發(fā)育周期、不同的組織細(xì)胞中,其內(nèi)存在的全體基因并非全部表達(dá),而是根據(jù)實(shí)際需要部分表達(dá)。因此,不同組織或統(tǒng)一組織在不同發(fā)育周期中基因的表達(dá)模式存在差異,有的基因大量表達(dá)行使功能,有的基因少量表達(dá),另一部分基因則完全不表達(dá)。往往,具有相同性狀的個(gè)體或組織間,其基因的表達(dá)模式相同,性狀相差較大的個(gè)體之間,基因的表達(dá)模式差別也較大。

  基于該情況,在通過測序得到基因的表達(dá)信息之后,可以根據(jù)樣本性狀的分組信息,通過統(tǒng)計(jì)學(xué)方法對其表達(dá)模式進(jìn)行分析,尋找樣本間差異表達(dá)的基因,進(jìn)而縮小影響性狀的基因范圍。差異表達(dá)分析的缺陷在于,其分析方法依賴樣本的分組信息;另一方面,生物學(xué)者進(jìn)行實(shí)驗(yàn)設(shè)計(jì)時(shí),往往只針對目標(biāo)性狀進(jìn)行統(tǒng)計(jì),但檢測到的差異基因同時(shí)包括其他無關(guān)性狀的相關(guān)基因,這也是導(dǎo)致最終得到的差異表達(dá)基因較多的原因,需要后續(xù)針對目標(biāo)性狀進(jìn)行深入分析以篩選候選基因。

  2基于GA-XGBoost算法的特征選擇

  2.1XGBoost算法

  XGBoost(eXtremeGradientBoosting)是陳天奇于SIGKDD2016大會上提出的一種基于梯度提升和決策樹的集成學(xué)習(xí)方法[20],能夠有效地學(xué)習(xí)數(shù)據(jù)間的關(guān)系。XGBoost使用分類和回歸樹(ClassificationandRegressionTrees,CART)作為基學(xué)習(xí)器,通過在損失函數(shù)中引入正則項(xiàng)控制模型的復(fù)雜度以確保泛化能力,正則項(xiàng)包括葉子節(jié)點(diǎn)數(shù)和葉子節(jié)點(diǎn)權(quán)重的平方和。XGBoost的思想是每次增加一棵樹擬合上一輪預(yù)測結(jié)果的殘差,通過不斷的增加新樹達(dá)到降低損失值的目的,基于加法模型將多個(gè)弱學(xué)習(xí)器集成為一個(gè)強(qiáng)學(xué)習(xí)器,從而獲得一個(gè)具有高準(zhǔn)確率的機(jī)器學(xué)習(xí)模型。

  2.2GA-XGBoost算法

  在生物體中,不同的基因負(fù)責(zé)調(diào)控不同的性狀,因此,挖掘玉米百粒重性狀候選基因的過程本質(zhì)上是特征選擇的過程。將樣本包含的全部基因視為特征全集,從中提取部分基因構(gòu)成一個(gè)特征子集,同時(shí)保證使用該子集構(gòu)建的模型相比于使用全集構(gòu)建的模型具有更出色的性能。遺傳算法是模擬生物界種群演化規(guī)律的隨機(jī)搜索算法,主要借鑒種群繁殖過程中個(gè)體雜交、染色體交換和基因突變的情況,根據(jù)一定的規(guī)則模仿自然選擇生成新一代種群,并通過不斷的重復(fù)該過程從而找到最適應(yīng)環(huán)境的最優(yōu)種群。

  在遺傳算法中,問題可能的一個(gè)解叫做個(gè)體,通過一定的編碼規(guī)則轉(zhuǎn)換為一個(gè)唯一的向量表示,稱作染色體,一組可能的解構(gòu)成一個(gè)種群。使用遺傳算法進(jìn)行特征選擇時(shí),個(gè)體適應(yīng)度的設(shè)定對最終所得最優(yōu)子集具有重要的影響,不夠合理的適應(yīng)度設(shè)定將導(dǎo)致最終的子集并非最優(yōu)解。

  本文遺傳算法與XGBoost融合,提出遺傳算法-極限梯度提升算法(GeneticAlgorithmXGBoost,GA-XGBoost),解決了遺傳算法中個(gè)體適應(yīng)性度量的設(shè)定問題和XGBoost需要對輸入數(shù)據(jù)進(jìn)行預(yù)處理的問題,并且保留了兩個(gè)算法各自的優(yōu)點(diǎn);谶z傳算法-XGBoost(GA-XGBoost)的特征選擇方法包含個(gè)體編碼、種群初始化、自然選擇、染色體交叉和基因突變、迭代結(jié)束判斷等步驟。

  2.3候選基因提取

  GA-XGBoost算法結(jié)束后,輸出最優(yōu)特征子集信息。該信息是一個(gè)編碼后的向量,根據(jù)2.2介紹的編碼方法對該向量進(jìn)行解碼,得到與表型性狀相對應(yīng)的最優(yōu)基因子集,之后使用該子集中基因的表達(dá)量和對應(yīng)樣本的表型數(shù)據(jù)訓(xùn)練XGBoost模型,根據(jù)模型對特征的重要性排序信息,選擇排列最靠前的若干基因作為候選基因。

  2.4GA-XGBoost時(shí)間復(fù)雜度分析

  使用GA-XGBoost進(jìn)行數(shù)據(jù)處理分為遺傳算法尋找特征和XGBoost評價(jià)個(gè)體適應(yīng)度兩部分。遺傳算法尋找最優(yōu)特征時(shí)的時(shí)間復(fù)雜度為

  此外,其他常用于特征選擇的方法,如基于遞歸特征消除的支持向量機(jī)(SupportVectorMachineRecursiveFeatureElimination,SVM-RFE)[25]算法,SVM模型訓(xùn)練階段的時(shí)間復(fù)雜度介于

  3實(shí)驗(yàn)結(jié)果與分析

  數(shù)據(jù)集采用農(nóng)科院高質(zhì)量的玉米轉(zhuǎn)錄組測序數(shù)據(jù)和對應(yīng)的百粒重測產(chǎn)數(shù)據(jù)。對測序數(shù)據(jù)進(jìn)行質(zhì)控后,比對至玉米B73RefGen_v4參考基因組統(tǒng)計(jì)樣本中基因的表達(dá)水平,并計(jì)算FPKM值,對同一實(shí)驗(yàn)條件下的重復(fù)樣品,F(xiàn)PKM取所有重復(fù)數(shù)據(jù)的平均值。

  3.1差異表達(dá)分析

  所用RNA-Seq數(shù)據(jù)集,經(jīng)過與參考基因組比對后,共檢測到53931個(gè)基因,其中表達(dá)量不為0的基因個(gè)數(shù)有41924個(gè)。根據(jù)樣本的分組信息,使用基于R包的Deseq2對表達(dá)量非零的基因進(jìn)行差異表達(dá)分析。在校驗(yàn)后P值(P-adjusted,padj)小于0.1的情況下,當(dāng)|LFC|>0時(shí),共檢測到934個(gè)基因表達(dá)上調(diào),占非0基因總數(shù)的2.2%,860個(gè)基因表達(dá)下調(diào),占非0基因總數(shù)的2.1%,共計(jì)1794個(gè)基因在兩組樣本間差異表達(dá);當(dāng)|LFC|>1時(shí),共檢測到843個(gè)基因表達(dá)上調(diào),占非0基因總數(shù)的2.0%,699個(gè)基因表達(dá)下調(diào),占非0基因總數(shù)的1.7%,共計(jì)1542個(gè)基因在兩組樣本間差異表達(dá)。

  4結(jié)論

  在分析了轉(zhuǎn)錄組分析方法方面的進(jìn)展后,本文提出了融合遺傳算法與XGBoost的轉(zhuǎn)錄組分析方法。以高質(zhì)量的玉米轉(zhuǎn)錄組測序數(shù)據(jù)和對應(yīng)的表型數(shù)據(jù)作為數(shù)據(jù)集,研究了影響玉米百粒重性狀的相關(guān)基因。首先分析了遺傳算法和XGBoost用于轉(zhuǎn)錄組分析領(lǐng)域的可行性,提出了融合遺傳算法和XGBoost的方法——GA-XGBoost。在完成轉(zhuǎn)錄組數(shù)據(jù)的預(yù)處理工作和差異表達(dá)分析之后,使用本文所提方法對其進(jìn)行了分析,實(shí)驗(yàn)得到了48個(gè)與玉米百粒重相關(guān)的候選基因,并對其進(jìn)行了基因本體注釋和KEGG通路分析。

  同時(shí),將本文方法所得模型與分別使用全體基因和差異表達(dá)基因進(jìn)行訓(xùn)練的XGBoost模型進(jìn)行了比較,在預(yù)測結(jié)果的準(zhǔn)確性上,GA-XGBoost模型具有最低的均方誤差,達(dá)到3.752,低于使用全體基因的9.183和使用差異表達(dá)基因的7.689;在候選基因的范圍上,從傳統(tǒng)方法直接對1542個(gè)差異表達(dá)基因進(jìn)行分析的基礎(chǔ)上縮減到驗(yàn)證48個(gè)候選基因,表明本文所提方法能夠有效提升對轉(zhuǎn)錄組數(shù)據(jù)的分析能力和效率。

  本文雖然實(shí)現(xiàn)了對于影響玉米百粒重性狀的候選基因挖掘,但仍存在不足之處。融合遺傳算法和XGBoost的轉(zhuǎn)錄組分析方法,雖然能夠得到范圍更小的候選基因,但是GA-XGBoost算法本身因?yàn)槭褂眠z傳算法的原因,導(dǎo)致尋找最優(yōu)子集時(shí)可能會消耗較長時(shí)間;XGBoost由于具有較多的參數(shù),而使用網(wǎng)格調(diào)參時(shí),隨著參數(shù)的增多計(jì)算時(shí)間會大幅增加,如何快速且低消耗地尋找到合適參數(shù)使得模型達(dá)到最優(yōu)也是值得探討的問題。此外,通過功能注釋雖然能夠在一定程度上表明所選基因與百粒重相關(guān),但還需要進(jìn)一步構(gòu)建基因調(diào)控網(wǎng)絡(luò)等步驟切實(shí)證明所選基因合理可靠,這將是本課題之后的研究方向。

  參考文獻(xiàn):

  [1]MOROZOVAO,HIRSTM,MARRAMA.ApplicationsofNewSequencingTechnologiesforTranscriptomeAnalysis[J].AnnuRevGenomicsHumGenet,2009,10(1):135-151.

  [2]郭茂祖,楊帥,趙玲玲.基于RNA-Seq的轉(zhuǎn)錄組分析方法[J].計(jì)算機(jī)科學(xué),2020,47(S2):35-39.GUOMaozu,YANGShuai,ZHAOLingling.TranscriptomeAnalysisMethodBasedonRNASeq[J].ComputerScience,2020,47(S2):35-39.

  [3]KUKURBAKR,MONTGOMERYSB.RNASequencingandAnalysis[J].ColdSpringHarborProtocols,2015,2015(11):951.

  [4]XUMaoqiQ,CHENLiang.AnempiricallikelihoodratiotestrobusttoindividualheterogeneityfordifferentialexpressionanalysisofRNA-seq[J].Briefingsinbioinformatics,2018,19(1):109-117.

  [5]ZHAOXin,DOUJian,CAOJinglin,etal.UncoveringthepotentialdifferentiallyexpressedmiRNAsasdiagnosticbiomarkersforhepatocellularcarcinomabasedonmachinelearninginTheCancerGenomeAtlasdatabase[J].Oncologyreports,2020,43(6):1771-1784.

  作者:楊帥1,2,郭茂祖1,2,趙玲玲3,李陽1,2

轉(zhuǎn)載請注明來自發(fā)表學(xué)術(shù)論文網(wǎng):http:///jjlw/29145.html