6月29日,華中農(nóng)業(yè)大學(xué)作物遺傳改良國(guó)家重點(diǎn)實(shí)驗(yàn)室水稻團(tuán)隊(duì)謝為博教授課題組在準(zhǔn)確獲取4,726份水稻品種的單倍型圖譜的基礎(chǔ)上,定量注釋了數(shù)百萬(wàn)個(gè)序列變異在水稻編碼區(qū)以及調(diào)控區(qū)的效應(yīng),并詳細(xì)分析了變異位點(diǎn)效應(yīng)的功能特性及組織特異性,發(fā)現(xiàn)編碼區(qū)大效應(yīng)變異受到強(qiáng)烈的凈化選擇,而調(diào)控區(qū)大效應(yīng)變異可能受到了正選擇。該研究產(chǎn)生的序列變異功能效應(yīng)圖譜可用于篩選關(guān)鍵變異位點(diǎn),將有助于水稻農(nóng)藝性狀重要基因的克隆和機(jī)制解析,并有望加速水稻種質(zhì)資源的精準(zhǔn)鑒定和稀有優(yōu)異變異的挖掘。
在過(guò)去的十年中,全基因組關(guān)聯(lián)分析(GWAS)已被廣泛用于水稻重要農(nóng)藝性狀關(guān)鍵調(diào)控基因的鑒定。然而,由于水稻中的連鎖不平衡衰減距離較長(zhǎng),導(dǎo)致大量中性變異位點(diǎn)在GWAS中也很顯著,因此關(guān)鍵變異位點(diǎn)的鑒定比較困難。同時(shí),水稻中60%以上的變異位點(diǎn)的次要等位基因頻率小于5%,這些稀有變異難以通過(guò)GWAS進(jìn)行評(píng)估和挖掘。因此,構(gòu)建一個(gè)準(zhǔn)確、全面的功能注釋平臺(tái)來(lái)評(píng)估和預(yù)測(cè)序列變異的影響非常重要。這樣的平臺(tái)提供了獨(dú)立于遺傳學(xué)研究的信息,將可以幫助篩選GWAS關(guān)鍵變異位點(diǎn),以及挖掘稀有優(yōu)異變異位點(diǎn)。
該研究首先利用4,726份水稻品種的重測(cè)序數(shù)據(jù)鑒定出17,397,026個(gè)在至少10個(gè)品種中能重復(fù)鑒定到的變異位點(diǎn),通過(guò)基因型填補(bǔ),獲得了各個(gè)品種準(zhǔn)確完整的單倍型圖譜。然后,基于編碼區(qū)變異的單倍型信息鑒定了各品種的錯(cuò)義突變位點(diǎn),并根據(jù)氨基酸殘基的保存情況定量評(píng)估了每個(gè)錯(cuò)義突變的效應(yīng),最終得到了918,848個(gè)非冗余錯(cuò)義突變的效應(yīng)。通過(guò)比較群體中具有不同等位基因頻率的變異中大效應(yīng)變異的比例,發(fā)現(xiàn)編碼區(qū)的大效應(yīng)突變傾向于具有較低的等位基因頻率,即受到了強(qiáng)烈的凈化選擇。
水稻序列變異效應(yīng)圖譜的構(gòu)建框架
水稻中超過(guò)80%的變異位點(diǎn)位于非編碼區(qū),很多非編碼區(qū)變異通過(guò)影響重要基因的表觀狀態(tài)和表達(dá)量進(jìn)而影響了水稻的農(nóng)藝性狀。然而,這些變異的效應(yīng)在之前的研究中一直缺乏關(guān)注和相關(guān)的研究手段。人類(lèi)醫(yī)學(xué)及該課題組最近的研究表明基于高質(zhì)量的染色質(zhì)可及性數(shù)據(jù)可建立深度學(xué)習(xí)模型,進(jìn)而可以準(zhǔn)確預(yù)測(cè)序列變異對(duì)染色質(zhì)可及性的影響,據(jù)此可注釋非編碼區(qū)調(diào)控變異的效應(yīng)(參見(jiàn)水稻團(tuán)隊(duì)發(fā)布基于深度學(xué)習(xí)模型預(yù)測(cè)植物基因組序列變異調(diào)控效應(yīng)的網(wǎng)絡(luò)服務(wù))。
為此,該研究利用ATAC-seq技術(shù)首先獲得了水稻品種珍汕97的6個(gè)代表性組織的高質(zhì)量染色質(zhì)可及性數(shù)據(jù),從中鑒定出157,837個(gè)高可信的染色質(zhì)開(kāi)放區(qū)(open chromatin region,OCR),約占整個(gè)基因組的14.2%。發(fā)現(xiàn)很多重要基因的調(diào)控區(qū)及GWAS顯著位點(diǎn)均富集于OCR中,表明OCR對(duì)于GWAS調(diào)控變異的鑒定十分重要。利用染色質(zhì)可及性數(shù)據(jù)以及對(duì)應(yīng)的基因組序列信息構(gòu)建了深度神經(jīng)網(wǎng)絡(luò)模型。通過(guò)評(píng)估,該模型可以準(zhǔn)確預(yù)測(cè)不同組織間的染色質(zhì)開(kāi)放狀態(tài),不同樣本在測(cè)試集中的預(yù)測(cè)值與真實(shí)值相關(guān)性(R2)在0.61到0.72之間,各組織平均的曲線下面積(AUROC)達(dá)到0.945(圖2)。利用雜種中等位基因特異的染色質(zhì)可及性獨(dú)立實(shí)驗(yàn)數(shù)據(jù)進(jìn)行的評(píng)估表明,該模型預(yù)測(cè)單倍型效應(yīng)方向的準(zhǔn)確率達(dá)到0.94以上。這些結(jié)果表明該模型具有較高的準(zhǔn)確性。
深度學(xué)習(xí)模型準(zhǔn)確性的評(píng)估
基于上述深度學(xué)習(xí)模型,該研究預(yù)測(cè)了5,067,405個(gè)序列變異對(duì)其周?chē)旧|(zhì)可及性的影響(效應(yīng))。與編碼區(qū)大效應(yīng)變異的分布不同的是,該研究發(fā)現(xiàn)水稻品種群體尤其是秈稻亞群在OCR區(qū)固定了大量的大效應(yīng)調(diào)控變異,表明這些變異可能受到了正選擇。通過(guò)與基因組分布比較發(fā)現(xiàn)這些大效應(yīng)的變異在基因轉(zhuǎn)錄起始區(qū)域上游0-200 bp范圍內(nèi)擁有更高的比例。通過(guò)不同組織間變異效應(yīng)的比較分析發(fā)現(xiàn),變異效應(yīng)在不同組織間有較高的一致性(R2在0.35到0.85之間),同時(shí)還發(fā)現(xiàn)組織間預(yù)測(cè)方向相反的大效應(yīng)變異(在一個(gè)組織預(yù)測(cè)為突變后使得染色質(zhì)可及性增加而在另一個(gè)組織中預(yù)測(cè)會(huì)使染色質(zhì)可及性降低或相反)富集于基因間遠(yuǎn)端調(diào)控區(qū)域,而轉(zhuǎn)錄起始位點(diǎn)附近的啟動(dòng)子區(qū)域富集各個(gè)組織中方向相同的大效應(yīng)變異。
該研究最后利用DEP1以及GW7等例子證明了該資源在尋找關(guān)鍵序列變異方面的可用性。為了方便更多研究者使用,該資源已被整合到RiceVarMap數(shù)據(jù)庫(kù)(http://ricevarmap.ncpgr.cn/)中,使用者可以通過(guò)基因ID/名稱(chēng)以及變異ID、上傳VCF文件等多種方式快速便捷的獲取數(shù)據(jù)庫(kù)中變異的注釋結(jié)果。
序列變異效應(yīng)圖譜的使用示例
該研究在Molecular Plant在線發(fā)表,題為“An inferred functional impact map of genetic variants in rice”。華中農(nóng)業(yè)大學(xué)作物遺傳改良國(guó)家重點(diǎn)實(shí)驗(yàn)室謝為博教授為該論文的通訊作者,趙虎博士為第一作者。廣西大學(xué)陳玲玲教授以及華中農(nóng)業(yè)大學(xué)熊立仲教授對(duì)該研究給予了指導(dǎo)和幫助。華中農(nóng)業(yè)大學(xué)王磊博士以及倪福川老師也為本研究提供了幫助。該研究的數(shù)據(jù)分析工作得到武漢大學(xué)超算平臺(tái)以及華中農(nóng)業(yè)大學(xué)作物遺傳改良國(guó)家重點(diǎn)實(shí)驗(yàn)室生物信息計(jì)算平臺(tái)的支持和幫助,得到國(guó)家重點(diǎn)研發(fā)計(jì)劃(2016YFD0100803)、國(guó)家自然科學(xué)基金(31821005, 31922065, 317717555)以及亞熱帶農(nóng)業(yè)生物資源保護(hù)與利用國(guó)家實(shí)驗(yàn)室開(kāi)放課題(SKLCUSA-b202002)的資助。
英文摘要
Interpreting the functional impacts of genetic variants (GVs) is an important challenge for functional genomic studies in crops and next-generation breeding. Currently, studies in rice (Oryza sativa) have mainly focused on the identification of GVs, while the functional annotation of GVs has not yet been systematically carried out. Here we present a functional impact map of GVs in rice. We curated haplotype information of 17,397,026 GVs from sequencing data of 4,726 rice accessions. We quantitatively evaluated the effects of missense mutations in coding regions in each haplotype based on the conservation of amino acid residues and obtained the effects of 918,848 non-redundant missense GVs. We also generated high-quality chromatin accessibility (CA) data from six representative rice tissues and used these data to train deep convolutional neural network models to predict the impacts of 5,067,405 GVs for CA in regulatory regions. We characterized the functional properties and tissue specificity of the effects of GVs and found that large-effect GVs in coding and regulatory regions might be subject to selection in different directions. We finally demonstrated how the functional impact map could be used to prioritize the causal variants in mapping populations. This impact map will be a useful resource for accelerating gene cloning and functional studies in rice and can be freely queried in RiceVarMap V2.0 (http://ricevarmap.ncpgr.cn)。
論文鏈接:
https://www.cell.com/molecular-plant/fulltext/S1674-2052(21)00260-4