近日,中國農(nóng)業(yè)科學(xué)院植物保護(hù)研究所農(nóng)藥應(yīng)用風(fēng)險控制創(chuàng)新團(tuán)隊先后在環(huán)境領(lǐng)域TOP期刊Environmental Science & Technology和Journal of Hazardous Materials上分別發(fā)表題為“Direct Prediction of Bioaccumulation of Organic Contaminants in Plant Roots from Soils with Machine Learning Models based on Molecular Structures”和“Predicting Crop Root Concentration Factors of Organic Contaminants With Machine Learning Models”的2篇研究論文,首次利用機器學(xué)習(xí)模型直接預(yù)測植物根部從土壤中吸收累積農(nóng)藥等有機污染物的量,解決了傳統(tǒng)線性模型無法模擬農(nóng)藥被植物吸收的非線性關(guān)系,并揭示了影響植物累積農(nóng)藥的關(guān)鍵化學(xué)分子結(jié)構(gòu),為農(nóng)產(chǎn)品在產(chǎn)地環(huán)境化學(xué)污染的預(yù)測提供了新的工具和手段。
農(nóng)作物累積是農(nóng)業(yè)污染物從土壤進(jìn)入人類食物鏈的重要途徑。準(zhǔn)確預(yù)測植物吸收和累積農(nóng)業(yè)污染物對保障食品安全、產(chǎn)地修復(fù)和人類健康暴露評估具有重要的意義。然而,由于污染物-土壤-植物根系之間復(fù)雜的相互作用,建立穩(wěn)健可靠的預(yù)測模型仍然具有很大挑戰(zhàn)性。傳統(tǒng)的線性預(yù)測模型難以預(yù)測污染物-土壤-植物間的非線性關(guān)系,導(dǎo)致預(yù)測值與實際值差異較大。本研究對比了四種不同的機器學(xué)習(xí)算法,通過對341個數(shù)據(jù)點、72個化合物的數(shù)據(jù)集進(jìn)行訓(xùn)練,預(yù)測植物根系富集值,證明了新構(gòu)建的GBRT-ECFP的為最優(yōu)預(yù)測模型,并通過5倍交叉驗證評估了預(yù)測性能,其中R2值為0.77,平均絕對誤差(MAE)為0.22。此外,本研究解析了化學(xué)分子、土壤與植物特性之間的非線性關(guān)系。子結(jié)構(gòu)重要性分析明確了分子子結(jié)構(gòu)與植物富集之間的關(guān)系,確定了-O、-Cl、芳環(huán)和大共軛π系統(tǒng)等為與植物累積相關(guān)的關(guān)鍵化學(xué)子結(jié)構(gòu)。
本研究成功利用機器學(xué)習(xí)作為新興手段預(yù)測農(nóng)田作物對農(nóng)藥等污染物的吸收累積,展現(xiàn)了預(yù)測工具的先進(jìn)性和通用性,為未來新農(nóng)藥植物吸收潛能評估和農(nóng)田農(nóng)藥污染安全評價提供新的可靠工具。
美國耶魯大學(xué)為論文的第一完成單位,中國農(nóng)業(yè)科學(xué)院植物保護(hù)研究所為論文的共同通訊單位,農(nóng)藥應(yīng)用風(fēng)險控制創(chuàng)新團(tuán)隊李 遠(yuǎn)播研究員為2篇論文的共同通訊作者。該研究得到了國家重點研發(fā)計劃、青年英才計劃等項目的資助。
原文鏈接:https://pubs.acs.org/doi/abs/10.1021/acs.est.1c02376
https://www.sciencedirect.com/science/article/abs/pii/S0304389421024055
圖1.機器學(xué)習(xí)模型預(yù)測植物吸收累積農(nóng)業(yè)污染物的示意流程圖
圖2.比較4種不同機器學(xué)習(xí)模型預(yù)測性能及相關(guān)參數(shù)重要性解析