科技日?qǐng)?bào)記者 張夢(mèng)然
美國(guó)索爾克研究所開(kāi)發(fā)出一種名為ShortStop的機(jī)器學(xué)習(xí)框架,用于探索以往“被忽視的DNA區(qū)域”,尋找在疾病中發(fā)揮關(guān)鍵作用的微蛋白。相關(guān)研究發(fā)表在最新一期《BMC方法學(xué)》上。
這些微蛋白是蛋白質(zhì)家族中的小型成員,其組成氨基酸通常少于150個(gè),因此難以通過(guò)傳統(tǒng)蛋白質(zhì)分析方法檢測(cè)。長(zhǎng)期以來(lái),它們隱藏在基因組中被視為“非編碼”或“垃圾DNA”的99%區(qū)域中,從未被充分研究。然而,越來(lái)越多證據(jù)表明,這些區(qū)域并非無(wú)用,其所編碼的微蛋白在調(diào)節(jié)健康與疾病過(guò)程中扮演重要角色。
傳統(tǒng)研究方法主要關(guān)注編碼大型蛋白質(zhì)的DNA區(qū)域,而忽略了可能包含微蛋白編碼指令的小開(kāi)放閱讀框(smORF)。盡管已有實(shí)驗(yàn)方法識(shí)別出了數(shù)千個(gè)smORF,但這些方法成本高、耗時(shí)長(zhǎng),且無(wú)法有效區(qū)分具有生物學(xué)功能的微蛋白與無(wú)功能的序列,嚴(yán)重限制了相關(guān)研究的進(jìn)展。
ShortStop的出現(xiàn)改變了這一局面。該AI工具通過(guò)機(jī)器學(xué)習(xí)訓(xùn)練,不僅能夠從大型基因數(shù)據(jù)庫(kù)中識(shí)別出潛在的smORF,還能預(yù)測(cè)哪些微蛋白最有可能具備生物學(xué)相關(guān)性,從而顯著提高研究效率。其核心創(chuàng)新在于采用雙類別排序系統(tǒng):通過(guò)將真實(shí)發(fā)現(xiàn)的smORF與計(jì)算機(jī)生成的隨機(jī)“誘餌”序列進(jìn)行比較,ShortStop能夠快速評(píng)估新發(fā)現(xiàn)的smORF是否可能具有功能性,從而優(yōu)先篩選出值得深入研究的候選者。
團(tuán)隊(duì)將ShortStop應(yīng)用于已發(fā)布的smORF數(shù)據(jù)集后,發(fā)現(xiàn)約8%的序列可能編碼功能性微蛋白,并已將其列為優(yōu)先驗(yàn)證目標(biāo)。該工具還能識(shí)別出以往方法遺漏的微蛋白,包括在人體細(xì)胞和組織中實(shí)際表達(dá)的種類。尤為重要的是,它可直接利用廣泛存在的RNA測(cè)序數(shù)據(jù),這意味著許多實(shí)驗(yàn)室無(wú)需額外實(shí)驗(yàn)即可開(kāi)展微蛋白研究。
在一項(xiàng)應(yīng)用實(shí)例中,團(tuán)隊(duì)使用ShortStop分析了肺癌相關(guān)的遺傳數(shù)據(jù),從腫瘤與正常肺組織的對(duì)比中識(shí)別出210種全新的微蛋白候選者。其中一種微蛋白在腫瘤組織中顯著升高,顯示出作為肺癌生物標(biāo)志物或治療靶點(diǎn)的巨大潛力,驗(yàn)證了該工具在疾病研究中的實(shí)用性。