食源性疾病是全球重要的公共衛(wèi)生和食品安全問題,近年來,食源性疾病呈現(xiàn)出跨區(qū)域傳播、變化快、難預測的特點。依托于國家重點研發(fā)計劃課題“基于多源數(shù)據(jù)的食源性疾病實時預警技術(shù)體系研究”,中國科學院計算機網(wǎng)絡信息中心大數(shù)據(jù)部將大數(shù)據(jù)和機器學習技術(shù)與食源性疾病預測的實際需求進行深度融合,在該交叉領(lǐng)域取得多項研究成果,相關(guān)研究成果分別發(fā)表在Food Control、Foodborne Pathogens and Disease和JMIR Medical Informatics上。
食源性疾病致菌是導致食源性疾病的主要原因,使用數(shù)據(jù)挖掘、機器學習的方法挖掘食源性疾病因素之間潛在的關(guān)聯(lián),從而對致病菌進行識別,能夠?qū)κ吃葱约膊〉脑\療起到輔助作用。課題組提出了一種利用機器學習來識別食源性疾病致病菌的方法,從空間、時間、患者信息、暴露食品等方面提取特征,使用合適的機器學習模型來對特征進行訓練和學習,從而對重要的食源性疾病致病菌進行識別,以對食源性疾病的診療提供輔助支持。進一步,針對食源性疾病發(fā)病情況的時空預測問題,課題組提出了基于多圖結(jié)構(gòu)化LSTM的時空風險預測模型,該模型能夠通過構(gòu)造多種空間相關(guān)性并進行動態(tài)融合,利用基于Encoder-Decoder的結(jié)構(gòu)化LSTM模型同時對數(shù)據(jù)的時間依賴性和空間依賴性進行建模,實現(xiàn)對疾病風險的多步預測。相關(guān)研究成果發(fā)表在JMIR Medical Informatics上。
食源性疾病暴發(fā)是指發(fā)生兩例及以上具有共同暴露和癥狀相似的食源性疾病病例,目前,食源性疾病報告監(jiān)測系統(tǒng)基于篩選規(guī)則來發(fā)現(xiàn)疑似食源性疾病暴發(fā)事件,但該方法普遍存在誤判的現(xiàn)象。為了進一步提高暴發(fā)識別和預測的準確性,課題組設(shè)計出一種基于機器學習的食源性疾病暴發(fā)識別模型。在識別暴發(fā)的同時分析各類特征和致病因素對判別結(jié)果的影響,這對醫(yī)學工作者具有借鑒意義。相關(guān)研究成果發(fā)表在Foodborne Pathogens and Disease上。
基于上述系列研究成果,課題組發(fā)現(xiàn)大數(shù)據(jù)與機器學習技術(shù)可以在病例報告、疾病診斷、暴發(fā)識別和風險預測階段,改善現(xiàn)有的食源性疾病監(jiān)控系統(tǒng),并在此基礎(chǔ)上總結(jié)出機器學習驅(qū)動的食源性疾病監(jiān)控系統(tǒng)框架,以促進未來對食源性疾病監(jiān)測系統(tǒng)做出更智能的改進。相關(guān)研究成果發(fā)表在Food Control上。
圖1.食源性疾病時空風險預測模型架構(gòu)
圖2.基于機器學習方法的食源性疾病暴發(fā)優(yōu)化