科技創新世界潮丨“深度思維”推出“阿爾法基因組”，人工智能揭秘DNA中的“暗物質”

2025-07-01 01:35:00 來源: 科技日報點擊數：

科技日報記者張佳欣

2003年，科學家首次對人類基因組進行測序，揭示了構成我們生命“藍圖”的全部DNA序列。盡管98%的基因組不直接編碼蛋白質，它們仍深刻影響著基因的調控和細胞功能。這些非編碼區域曾被視為“垃圾DNA”，但如今被認為可能蘊藏著重要的生物學秘密，就像是基因界的“暗物質”。

今年6月25日，“深度思維”公司宣布，他們開發出一款名為AlphaGenome（阿爾法基因組）的人工智能（AI）模型，有望在破譯這一“暗物質”上取得突破。《自然》雜志報道稱，這一“從序列到功能”的模型能預測DNA中微小變化會對一系列分子過程產生的影響，為解碼人類基因調控機制提供了新路徑。

解釋DNA序列的“一體化”工具

深度思維公司在2020年推出的“阿爾法折疊2”（AlphaFold 2），成功破解了一個困擾科學界數十年的難題：如何根據蛋白質的氨基酸序列，準確預測其三維結構。這一突破不僅改變了結構生物學研究方式，也推動了新藥研發的進程。

相比之下，要理解DNA序列的功能則更加復雜，因為它不像蛋白質那樣擁有一個確定的“正確答案”。這些功能主要體現在DNA對基因表達的調控上，比如決定基因什么時候開啟或關閉，在哪些細胞中發揮作用，以及以何種強度表達。

如果說蛋白質結構預測是在拼出“零件”的立體模型，那么DNA功能預測就是要理解說明書中每一個符號、注釋、開關命令甚至“暗物質”區域的真正含義。其中涉及的信息層級更復雜、關聯更廣泛，且同一個DNA片段可能在不同時間、不同細胞類型中扮演不同角色，因此建模難度遠高于蛋白質。

幾十年來，生物學家嘗試用各種計算工具來揭示DNA復雜而隱秘的調控機制，但這些模型往往聚焦于單一功能。科學家們渴望一種用于解釋DNA序列的“一體化”工具，于是，“阿爾法基因組”應運而生。

據美國趣味工程網站報道稱，與以往需在“序列長度”與“預測精度”之間取舍的模型不同，“阿爾法基因組”實現了二者兼得。它既能捕捉長程基因組上下文信息，又能提供堿基層面的精準預測，拓展了疾病生物學、罕見變異研究、合成DNA設計等領域的研究視野。

一次可處理百萬個堿基對

據深度思維官網介紹，該模型一次可處理多達100萬個堿基對，并預測數千種分子屬性，包括基因表達、剪接模式、蛋白質結合位點和染色質可及性，覆蓋多種不同類型的細胞。這是首次有AI系統能聯合建模如此廣泛的調控特征。

“阿爾法基因組”訓練所用的數據集來自多個公開的超大規模數據資源。令人驚訝的是，訓練一個完整模型僅需4小時，且所需計算資源僅為前代模型的一半。在26項基準測試中，其有24項表現優于或持平于專用模型。

新模型的一大亮點是其變異評分系統，能高效對比突變前后的DNA序列，并跨多種生物通路評估其影響。

“阿爾法基因組”還具備剪接位點建模功能，這是首次有模型能夠預測與囊性纖維化、脊髓性肌萎縮等疾病相關的RNA剪接異常。

在合成生物學領域，“阿爾法基因組”可用于設計特定的調控序列，例如僅在神經細胞中激活某些基因，而在肌肉細胞中保持沉默。同時，它也有望用于研究生物效應強烈的罕見遺傳變異，如導致孟德爾遺傳病的突變。

在一項驗證中，研究人員將“阿爾法基因組”應用于先前研究中識別出的某種白血病相關突變。結果，該模型準確預測出，某些非編碼區變異會間接激活附近的TAL1致癌基因，這一機制正是T細胞急性淋巴細胞白血病中已知的致病過程。

模型尚不適用于個體診斷

盡管“阿爾法基因組”的表現令人矚目，但深度思維團隊表示，該系統目前仍存在很多限制。它并未設計用于個體基因組解讀，也無法像23andMe或臨床基因檢測那樣預測疾病風險或祖源信息。也就是說，該模型不適用于個體診斷或醫療決策。

“阿爾法基因組”目前的訓練數據僅限于人類和小鼠，尚未覆蓋其他物種，其跨物種適應性尚待驗證。同時，它在識別調控元件與遠距離靶基因（距離超過10萬個堿基）之間關系方面的能力仍較弱，也無法完全建模細胞在不同狀態、不同組織中的動態調控機制。

美國冷泉港實驗室計算生物學家彼得·庫指出：“這些模型往往是在一個固定條件下訓練的，但現實中的細胞是動態的，蛋白質水平、DNA化學修飾、轉錄狀態等都會隨時間和環境變化，這些變化會顯著影響同一段DNA序列的行為。”因此，未來模型需要引入更多“多模態”“多時間尺度”因素，才能更真實地模擬生物過程。

責任編輯：常麗君

免费国产自久久久久三四区久久_久久99性xxx老妇胖精品_欧美女女_老司机深夜福利网站_91影视免费版在线看_91九色porny首页最多播放