近日,中國農業(yè)科學院蔬菜花卉研究所張圣平團隊在國際著名期刊《Molecular Plant》在線發(fā)表題為A near-complete cucumber reference genome assembly and Cucumber-DB, a multi-omics database的文章,公布了黃瓜第一個近完整參考基因組(CLv4.0)和參考轉錄本數(shù)據集(CsRTD1),并整合泛基因組、群體變異組、轉錄組以及核心種質材料信息,建立了第一個黃瓜多組學綜合數(shù)據庫Cucumber-DB(http://www.cucumberdb.com/),可為黃瓜功能基因組學和分子育種研究提供全面的共享平臺。
黃瓜(Cucumis sativus L.)是葫蘆科(Cucurbitaceae)的重要經濟蔬菜作物,也是研究植物性別決定、維管束形成的重要模式系統(tǒng)。黃瓜基因組中有近30 %的區(qū)域是由45s rDNA和微衛(wèi)星等復雜重復序列組成的,這個比例遠高于水稻、玉米和西瓜等作物(< 5%),并且受當時測序技術及組裝方法的限制,目前廣泛使用的華北密刺型(‘ChineseLong’)黃瓜自交系‘9930’參考基因組(CLv3.0版本)仍然有大量未知序列(~130 Mb)和72個缺口;與此同時,這些重復序列也嚴重影響基因注釋的準確度,黃瓜參考基因組質量亟待提高。為此,該研究首次利用約~100×的超長ONT(N50=200 kb)和~70×的 Pacbio HiFi 測序數(shù)據,結合遺傳圖譜和Hi-C測序數(shù)據進行組裝調整和驗證,除一個位于2號染色體的缺口外,其他6條染色體均為一條連續(xù)序列,獲得了黃瓜參考基因組近完成圖(CLv4.0)。該基因組大小為321.53 Mb,比CLv3.0版本多組裝出近100 Mb序列,解析了著絲粒和端粒區(qū)域的45s rDNA和微衛(wèi)星序列,確定了7個完整著絲粒區(qū)域。
完整準確的基因注釋信息,將極大地推動植物功能基因組學發(fā)展。該研究對黃瓜全發(fā)育期(29個組織時期)和7個主要脅迫處理進行轉錄組測序,包括0.84 Tb PacBio全長轉錄組和1.21 Tb Illumina鏈特異性轉錄組數(shù)據,整合多個注釋流程,注釋出27,360個高質量基因,其中包括5070個新基因,BUSCO值達到99.19%;更為重要的是,該研究構建了第一個黃瓜參考轉錄本數(shù)據集(CsRTD1),獲得了17萬個高質量的轉錄本,其中87.92%的轉錄本來源于全長轉錄組,為開展轉錄本準確定量和可變剪切功能研究提供重要參考。
基于以上研究,該研究搭建了第一個黃瓜多組學數(shù)據庫Cucumber-DB(http://www.cucumberdb.com/),囊括了重要的黃瓜泛基因組(Li et al., 2022)、核心種質變異組(Qi et al., 2013)和轉錄組數(shù)據,開發(fā)了數(shù)十個實用分析工具,為科研人員提供一站式服務;通過這個數(shù)據庫,可以同時獲得12個不同黃瓜種質基因組序列和基因模型信息、核心種質資源變異數(shù)據(SNPs、InDels及SVs)、馴化選擇區(qū)間、基因及轉錄本表達譜可視化(eFP)、可變剪切信息、共表達調控網絡及下游靶基因預測等相關數(shù)據和工具。
中國農業(yè)科學院蔬菜花卉研究所官健濤助理研究員、苗晗副研究員、青島農業(yè)大學張忠華教授、中國農業(yè)科學院蔬菜花卉研究所董邵云副研究員為該文的共同第一作者;中國農業(yè)科學院蔬菜花卉研究所張圣平研究員為該文通訊作者,中國農業(yè)科學院蔬菜花卉研究所為通訊單位。中國熱帶農業(yè)科學院黃三文院士對該研究提供了重要指導。該研究得到了蔬菜生物育種全國重點實驗室、國家重點研發(fā)計劃(2023YFD1201500)、中國農業(yè)科學院科技創(chuàng)新工程項目(CAAS-ASTIP-2021-IVF)以及國家現(xiàn)代農業(yè)產業(yè)技術體系(CARS-23)項目的資助。
論文鏈接:https://www.cell.com/molecular-plant/fulltext/S1674-2052(24)00192-8