近年來,蛋白質(zhì)相關數(shù)據(jù)海量增加,極大地促進了蛋白質(zhì)組學的發(fā)展,高通量蛋白質(zhì)組學數(shù)據(jù)挖掘研究已成為國內(nèi)外生物信息學研究的熱點和學科前沿。蛋白質(zhì)的功能、代謝以及信號傳導等生物過程都與其亞細胞定位密切相關,新合成的蛋白質(zhì)必須處于合適的亞細胞位置才能正常行使其功能。而異常的蛋白質(zhì)亞細胞位置能夠影響蛋白質(zhì)的功能,并與人類疾病息息相關,如阿爾茲海默癥、肝臟腫瘤、乳腺癌、小唾液腺腫瘤、腎結(jié)石和巴特綜合征等。研究發(fā)現(xiàn)越來越多的蛋白質(zhì)屬于兩個或多個亞細胞位置,這些多標記蛋白質(zhì)通常具有復雜的合成、排列和代謝機制,具有特殊的生物學功能。隨著高通量蛋白質(zhì)測序技術(shù)的發(fā)展,通過實驗方法識別多標記蛋白質(zhì)已遠遠不能滿足研究的需要,因此發(fā)展快速高效的人工智能方法對多標記蛋白質(zhì)亞細胞位置的精準預測仍是生物信息學的一項挑戰(zhàn)任務。
近日,青島科技大學數(shù)理學院人工智能與生物醫(yī)學大數(shù)據(jù)研究團隊于彬副教授,在生物信息學頂級期刊Briefings in Bioinformatics (IF=8.990) 上發(fā)表題為“Accurate prediction of multi-label protein subcellular localization through multi-view feature learning with RBRL classifier”的研究論文。報道了構(gòu)建預測多標記蛋白質(zhì)亞細胞位置的人工智能模型—Mps-mvRBRL。該模型表現(xiàn)出較強的魯棒性和泛化能力。于彬副教授為論文的通訊作者,研究生張琪、副教授張艷丹并列第一作者,青島科技大學為第一完成單位。
本研究摒棄傳統(tǒng)首尾相接的融合方式,根據(jù)單特征編碼算法的性質(zhì),首次引入差分進化算法學習五種單特征的權(quán)重向量,通過加權(quán)形式融合多視圖信息。將融合后的高維特征使用基于二進制權(quán)重形式的加權(quán)多標簽線性判別分析法 (wMLDAb) 去除冗余信息。此外,本研究首次使用由Rank-SVM和BR算法結(jié)合低秩學習 (RBRL) 算法預測多標記蛋白質(zhì)亞細胞的位置。通過最嚴格的留一法檢驗,Mps-mvRBRL預測模型在革蘭氏陰性菌、革蘭氏陽性菌、病毒及植物數(shù)據(jù)集均優(yōu)于其它已報道的先進預測模型。且Mps-mvRBRL模型的時間復雜度低,具有優(yōu)異的預測能力和計算穩(wěn)定性。Mps-mvRBRL模型能夠準確預測多標記蛋白質(zhì)亞細胞位置,并能夠應用到更多的多標記蛋白質(zhì)屬性預測中。通過對多標記蛋白質(zhì)亞細胞位置的預測研究,為確定蛋白質(zhì)功能提供重要線索,有助于了解蛋白質(zhì)之間相互作用和調(diào)控機制,對某些疾病的發(fā)病機理和新藥研發(fā)具有重要意義。
文章鏈接:https://doi.org/10.1093/bib/bbab012
Briefings in Bioinformatics是牛津大學出版社 (Oxford Academic) 出版的JCR一區(qū)頂級期刊,2020年的影響因子為8.990,在SCI收錄的59個“Mathematical & Computational Biology”類期刊中排名第1,在SCI收錄的79個“Biochemical Research Methods”類期刊中排名第3。