近日,上海交通大學(xué)生命科學(xué)技術(shù)學(xué)院韋朝春團(tuán)隊(duì)和中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所合作完成基于三代測序數(shù)據(jù)的水稻泛基因組構(gòu)建及分析,相關(guān)成果論文 “Long-read sequencing of 111 rice genomes reveals significantly larger pan-genomes”在基因組學(xué)頂級(jí)期刊《Genome Research》在線發(fā)表。
該研究通過引入一系列新方法處理長讀長測序,構(gòu)建了針對(duì)三代測序(TGS)數(shù)據(jù)的水稻泛基因組構(gòu)建方法。與水稻參考基因組日本晴相比,新方法從105 個(gè)栽培稻(OS)構(gòu)建的泛基因組包含 604 Mb 的新序列,比此前由~3000 個(gè)栽培稻品種二代測序數(shù)據(jù)(SGS)構(gòu)建的泛基因組(~270Mb新序列)更全面。其中,重復(fù)序列是新序列的主要組成部分。加上6個(gè)野生稻(OR)品種,水稻泛基因組比現(xiàn)有參考基因組多879 Mb新序列和19,000個(gè)新基因。此外,該研究還為所有代表性水稻群體創(chuàng)建了9個(gè)高質(zhì)量的參考基因組,包括 5 個(gè)無間隙參考基因組。
該研究工作是由上海交通大學(xué)韋朝春教授課題組和中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所徐建龍研究員課題組合作完成。中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所張帆副研究員和上海交通大學(xué)生命科學(xué)技術(shù)學(xué)院博士生薛泓嶂為共同第一作者,中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所王文生研究員、徐建龍研究員和上海交通大學(xué)韋朝春教授為共同通訊作者。中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所黎志康研究員設(shè)計(jì)并參與了該項(xiàng)研究。
泛基因組(Pan-genome)是指某個(gè)群體中所有個(gè)體基因組的總和,泛基因組的構(gòu)建和基因存在-缺失變異(PAVs)分析是基因組研究的新熱點(diǎn)?;诙鷾y序技術(shù),人們初步構(gòu)建了主要作物(如水稻、玉米、大豆)的泛基因組。然而,使用二代測序數(shù)據(jù)構(gòu)建的泛基因組仍存在基因組不完整和基因注釋不準(zhǔn)確的缺點(diǎn)。這些問題在很大程度上可以通過長讀長測序(也稱為三代測序)技術(shù)解決。
該研究挑選了100多個(gè)代表性水稻品種,結(jié)合二代和三代測序技術(shù)進(jìn)行全基因組測序,獲得了連續(xù)性和完整性很高的個(gè)體基因組;在此基礎(chǔ)上,構(gòu)建了高質(zhì)量水稻泛基因組,并填補(bǔ)了9個(gè)代表性水稻群體的高質(zhì)量參考基因組, 其中包括 5 個(gè)無間隙基因組。
在111 個(gè)水稻構(gòu)建的高質(zhì)量泛基因組中包含879 Mb 的非冗余新序列(序列相似度<90% ,長度> 500bp)。新序列中近一半為長末端重復(fù)(LTRs)逆轉(zhuǎn)錄元件Gypsy。新序列分布在每條染色體上,Chr1 包含最多數(shù)量的新序列,而 Chr11 具有最長長度的新序列。除了 Chr4 和 Chr11 的端粒附近的兩個(gè)峰以外,含有高密度新序列的基因組區(qū)域傾向于位于著絲粒附近。在所有水稻基因組中,野生稻包含的重復(fù)序列 LTRs 明顯多于栽培稻。在水稻泛基因組新序列中共發(fā)現(xiàn)19,319 個(gè)新的蛋白質(zhì)編碼基因(2,132 個(gè)新基因家族)。在所有基因家族中,約80%是核心或軟核心(存在于所有樣本中或者存在于超過 90% 的樣本中),約20%是非必需的。
為了探究測序技術(shù)對(duì)泛基因組構(gòu)建及分析的影響,該研究分別比較了75個(gè)水稻品種的二代和三代測序數(shù)據(jù)構(gòu)建的泛基因組及其基因的存在和缺失結(jié)果(基因PAV)。將基因分為三組(TGS偏好的、SGS偏好的和無偏好的)后,與SGS偏好的基因相比,TGS偏好的基因具有更高的GC含量和更短的CDS長度。大多數(shù) SGS 偏好的基因的所有 CDS 區(qū)域都與重復(fù)元件重疊,這與 DNA 轉(zhuǎn)座子和 LTR 相關(guān)。然而,具有較高LINEs和 RC/Helitron比例的基因在 TGS 中比在 SGS 中更頻繁地被檢測到。這些結(jié)果表明,SGS數(shù)據(jù)在檢測基因PAVs時(shí)往往會(huì)得到更高的假陽性率,尤其是對(duì)于包含重復(fù)序列的基因。
該研究進(jìn)一步對(duì)栽培稻的基因PAV與表型進(jìn)行了關(guān)聯(lián)分析,檢測到14,471個(gè)顯著的基因PAV和表型的關(guān)聯(lián)。例如LOC_Os01g27930(一種反轉(zhuǎn)錄轉(zhuǎn)座子蛋白)的缺失與籽粒長寬比增加相關(guān),而它的存在也與籽粒寬度增加相關(guān)。這些結(jié)果表明,基因PAVs對(duì)水稻表型變異可能有重要貢獻(xiàn)。
該項(xiàng)研究得到上海市自然科學(xué)基金、國家自然科學(xué)基金、三亞崖州灣科技城海南省聯(lián)合項(xiàng)目、海南崖州灣種子實(shí)驗(yàn)室項(xiàng)目、農(nóng)業(yè)科技創(chuàng)新計(jì)劃與合作創(chuàng)新任務(wù)、上海交通大學(xué)代謝與發(fā)育國際聯(lián)合實(shí)驗(yàn)室(JiRLMDS)聯(lián)合研究基金以及CAAS創(chuàng)新團(tuán)隊(duì)和國家高層次人才特殊支持計(jì)劃支持。項(xiàng)目實(shí)施過程中還得到上海交通大學(xué)高性能計(jì)算中心的大力支持。
論文鏈接:
https://pubmed.ncbi.nlm.nih.gov/35396275/