2023-06-15 00:00:00來(lái)源:Nature瀏覽量:265
自O(shè)pen AI推出Chat GPT以后,人工智能領(lǐng)域迅速“引爆”全球,成為熱議話題。無(wú)論是在娛樂(lè)媒體、代碼軟件,還是生物醫(yī)藥領(lǐng)域都能窺見(jiàn)其身影。
?
ChatGPT 聊天機(jī)器人實(shí)現(xiàn)的原理是基于遷移學(xué)習(xí)(Transfer learning)的Transformer模型,這個(gè)模型同樣也適用于生物醫(yī)藥的相關(guān)研究。
?
近日,格拉德斯通研究所(Gladstone Institute)的Christina Theodoris博士團(tuán)隊(duì)就基于遷移學(xué)習(xí)的Transformer模型開(kāi)發(fā)了一個(gè)理解基因相互作用的基礎(chǔ)模型,相關(guān)研究成果已發(fā)表于Nature,題為T(mén)ransfer learning enables predictions in network biology。
?
?
這個(gè)新模型被稱為 Geneformer,它從大量人體組織的基因相互作用數(shù)據(jù)中進(jìn)行遷移學(xué)習(xí),并將這些知識(shí)用于預(yù)測(cè)疾病中可能出現(xiàn)的問(wèn)題,以幫助我們了解相互連接的人類基因的大型網(wǎng)絡(luò)如何控制細(xì)胞功能,以及這些網(wǎng)絡(luò)的破壞如何導(dǎo)致疾病的發(fā)生。
?
什么是遷移學(xué)習(xí)(Transfer learning),它如何應(yīng)用于網(wǎng)絡(luò)生物學(xué)?
遷移學(xué)習(xí)是指 將已經(jīng)在一個(gè)任務(wù)上訓(xùn)練好的模型應(yīng)用于另一個(gè)任務(wù)上的一種機(jī)器學(xué)習(xí)方法。在網(wǎng)絡(luò)生物學(xué)中,基因網(wǎng)絡(luò)需要大量的轉(zhuǎn)錄組數(shù)據(jù)來(lái)學(xué)習(xí)基因之間的聯(lián)系,但是在數(shù)據(jù)有限的情況下,這種方法會(huì)受到限制。
?
利用遷移學(xué)習(xí),我們可以通過(guò)已經(jīng)在大規(guī)模通用數(shù)據(jù)集上預(yù)訓(xùn)練好的深度學(xué)習(xí)模型,在有限的任務(wù)特定數(shù)據(jù)上進(jìn)行微調(diào),從而實(shí)現(xiàn)對(duì)基因網(wǎng)絡(luò)中特定問(wèn)題的預(yù)測(cè)。這種方法可以加速發(fā)現(xiàn)關(guān)鍵網(wǎng)絡(luò)調(diào)節(jié)因子和候選治療靶點(diǎn),并且可以應(yīng)用于罕見(jiàn)疾病或臨床無(wú)法接觸的組織等情況。
▲遷移學(xué)習(xí)策略示意圖
?
?
Geneformer模型如何工作,相比其它深度學(xué)習(xí)模型有哪些優(yōu)勢(shì)?
Geneformer 模型利用開(kāi)放數(shù)據(jù)構(gòu)建了一個(gè)基因表達(dá)數(shù)據(jù)庫(kù)(Genecorpus-30M),其中包括來(lái)自人體的 3,000 萬(wàn)個(gè)單細(xì)胞的基因表達(dá)譜。然后,研究人員使用該數(shù)據(jù)庫(kù)對(duì) Geneformer 進(jìn)行訓(xùn)練。通過(guò)訓(xùn)練,Geneformer 學(xué)會(huì)了關(guān)注細(xì)胞中具有關(guān)鍵作用的基因,例如編碼轉(zhuǎn)錄因子和中心調(diào)節(jié)節(jié)點(diǎn)的基因。Geneformer 還具有環(huán)境感知能力,使其 能夠根據(jù)每個(gè)細(xì)胞的環(huán)境做出特定的預(yù)測(cè),這對(duì)于研究多種受到影響的細(xì)胞類型的疾病和治療靶點(diǎn)的可能因疾病階段而異的進(jìn)行性疾病尤其有用。
▲Genecorpus-30M組成
?
此外,Geneformer 可以通過(guò)遷移學(xué)習(xí)在有限的數(shù)據(jù)集上進(jìn)行微調(diào),以實(shí)現(xiàn)對(duì)基因網(wǎng)絡(luò)中特定問(wèn)題的預(yù)測(cè)。相比其他深度學(xué)習(xí)模型,Geneformer 具有多種優(yōu)勢(shì):
?
1.?????? 可以更好地捕捉基因之間的關(guān)系和網(wǎng)絡(luò)動(dòng)態(tài)。
2.?????? 可以根據(jù)不同任務(wù)和數(shù)據(jù)集自適應(yīng)地調(diào)整其預(yù)測(cè)能力。
3.?????? Geneformer 是在大規(guī)模轉(zhuǎn)錄組數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練的,因此具有更好的泛化能力和更高的預(yù)測(cè)準(zhǔn)確性。
4.?????? Geneformer 可以加速發(fā)現(xiàn)關(guān)鍵網(wǎng)絡(luò)調(diào)節(jié)因子和候選治療靶點(diǎn),并且可以應(yīng)用于罕見(jiàn)疾病或臨床無(wú)法接觸的組織等情況。
?
特別值得注意的是,當(dāng) Geneformer 針對(duì)與基因網(wǎng)絡(luò)動(dòng)態(tài)或 DNA-蛋白質(zhì)復(fù)合染色質(zhì)修飾相關(guān)的各種任務(wù)進(jìn)行微調(diào)時(shí),其結(jié)果比傳統(tǒng)方法更具準(zhǔn)確性。
?
心臟病案例驗(yàn)證
在一個(gè)心臟病的案例中,研究人員使用心肌細(xì)胞模型進(jìn)行了測(cè)試,以區(qū)分正常心臟和受肥厚性或擴(kuò)張性心肌病影響的心臟。具體而言,他們對(duì)有限數(shù)量的患者樣本進(jìn)行了疾病建模,并利用 Geneformer 模型預(yù)測(cè)候選治療靶點(diǎn)。結(jié)果發(fā)現(xiàn),在 iPSC(誘導(dǎo)多能干細(xì)胞)疾病模型中,實(shí)驗(yàn)性地針對(duì)這些候選治療靶點(diǎn)進(jìn)行治療可以顯著改善其功能,為 Geneformer 作為發(fā)現(xiàn)人類疾病候選治療靶點(diǎn)的工具的實(shí)用性提供了實(shí)驗(yàn)驗(yàn)證。
?
此外,通過(guò)對(duì)基因網(wǎng)絡(luò)的學(xué)習(xí),Geneformer 可以應(yīng)用于更多的場(chǎng)景,加速發(fā)現(xiàn)關(guān)鍵的基因網(wǎng)絡(luò)調(diào)節(jié)因子和候選治療靶點(diǎn)。隨著數(shù)據(jù)的不斷開(kāi)放,未來(lái)可能會(huì)開(kāi)發(fā)出能夠聯(lián)合處理多種數(shù)據(jù)類型的模型,并明確推斷特定細(xì)胞類型和疾病之間的聯(lián)系。
▲預(yù)訓(xùn)練的Geneformer架構(gòu)
?
總結(jié)
通過(guò)繪制驅(qū)動(dòng)人類疾病的基因調(diào)控網(wǎng)絡(luò),我們能夠設(shè)計(jì)針對(duì)核心疾病機(jī)制而不僅僅是控制癥狀的治療方法。Geneformer 也不僅僅是一種預(yù)測(cè)基因表達(dá)和細(xì)胞狀態(tài)變化的工具,更是數(shù)字化探測(cè)生物系統(tǒng)的重要一步。
?
隨著人工智能在生物醫(yī)藥領(lǐng)域的應(yīng)用不斷發(fā)展,我們可以期待更多類似 Geneformer 的模型的出現(xiàn)。這些模型將進(jìn)一步加速疾病的診斷、預(yù)測(cè)和治療的進(jìn)程,為醫(yī)學(xué)研究和臨床實(shí)踐帶來(lái)巨大的潛力。
?
無(wú)論進(jìn)行何種研究,數(shù)據(jù)的獲取都是必不可少的先決條件。對(duì)于那些具有突破性的研究尤其如此,因?yàn)樗鼈兺ǔP枰嗟幕A(chǔ)數(shù)據(jù)支持。在這方面,陶術(shù)生物可以提供免費(fèi)的開(kāi)源數(shù)據(jù)庫(kù),其中包含了數(shù)千萬(wàn)條商業(yè)化小分子結(jié)構(gòu)數(shù)據(jù)。同時(shí),我們還可以提供對(duì)應(yīng)的實(shí)體化合物,以滿足不同科研工作者的需求。如果您對(duì)此感興趣,歡迎私信咨詢,我們將提供詳細(xì)信息!
?
參考文獻(xiàn):
[1] Theodoris, C.V., Xiao, L., Chopra, A. et al. Transfer learning enables predictions in network biology. Nature (2023). https://doi.org/10.1038/s41586-023-06139-9
[2] Petri? Howe, Nick, and Benjamin Thompson. “AI identifies gene interactions to speed up search for treatment targets.” Nature, 10.1038/d41586-023-01803-6. 31 May. 2023, doi:10.1038/d41586-023-01803-6
?
?