近日,中國農(nóng)業(yè)科學院作物科學研究所、三亞南繁研究院大數(shù)據(jù)智能設計育種創(chuàng)新團隊聯(lián)合多家單位提出利用植物海量多組學數(shù)據(jù)進行全基因組預測的深度學習方法, 可以實現(xiàn)育種大數(shù)據(jù)的高效整合與利用,將助力深度學習在全基因組選擇中的應用,為智能設計育種及平臺構建提供有效工具。相關研究成果發(fā)表在《分子植物》(Molecular Plant)上。
全基因組選擇作為新一代育種技術,通過構建預測模型,根據(jù)基因組估計育種值進行早期個體的預測和選擇,從而縮短育種世代間隔,加快育種進程,節(jié)約成本,推動現(xiàn)代育種向精準化和高效化方向發(fā)展。統(tǒng)計模型作為全基因組選擇的核心,極大地影響了全基因組預測的準確度和效率。傳統(tǒng)預測方法基于線性回歸模型,難以捕捉基因型和表型間的復雜關系。相較于傳統(tǒng)模型,非線性模型(如深度網(wǎng)絡神經(jīng))具備分析復雜非加性效應的能力,人工智能和深度學習算法為解決大數(shù)據(jù)分析和高性能并行運算等難題提供了新的契機,深度學習算法的優(yōu)化將會提高全基因組選擇的預測能力。
圖為全基因組選擇新方法與幾種傳統(tǒng)預測方法對比。中國農(nóng)業(yè)科學院作物科學研究所供圖
該研究團隊以玉米、小麥和番茄3種作物的4種不同維度的群體數(shù)據(jù)為測試材料,通過創(chuàng)新深度學習算法框架開發(fā)了全基因組選擇新方法。與其他五種主流預測方法相比,該方法有以下優(yōu)點: 可以利用多組學數(shù)據(jù)開展全基因組預測;算法設計中包含批歸一化層、回調函數(shù)和校正線性激活函數(shù)等結構,可以有效降低模型錯誤率,提高運行速度;預測精度穩(wěn)健,在小型數(shù)據(jù)集上的表現(xiàn)與目前主流預測模型相當,在大規(guī)模數(shù)據(jù)集上預測優(yōu)勢更加明顯;計算時間與傳統(tǒng)方法相近,比已有深度學習方法提速近10倍;超參數(shù)調整對用戶更加友好。