科研资讯
Alphagenome解析基因组序列中的“暗物质”问世
研发家 | 2025-06-27
44

据《自然》报道,谷歌DeepMind又放大了招,发布了新开发的人工智能(AI)模型Alphagenome。该模型可以帮助科学家分析基因组序列中的“暗物质”——非编码区,了解它是如何导致癌症和其他疾病,并影响细胞的内部工作的。目前,从事非商业工作的研究人员可以通过Depmind服务器使用编程界面浏览该模型。

2001年,《自然》发布了由美国、英国、日本、德国、法国和中国科学家共同完成的人类基因组序列草图。然而,到目前为止,大约31亿次碱基对中的许多仍有待解决的疑问。

在人类长长的人类基因组序列中,98%是不直接参与蛋白质代码生成的基因,即非代码区,但它们会影响蛋白质的活性,并包含大量与疾病相关的变异位点。这部分特别困扰科学家。

很难找出DNA序列的作用,因为没有答案,就像AlphaFold预测蛋白质的3D结构一样。单个DNA片段具有许多相互关联的功能,从吸引一组细胞机器粘附在染色体的特定部分,并将周围基因转化为RNA分子,到吸引影响基因表达的地点、时间和程度的转录因子。例如,许多DNA序列通过改变染色体的3D形状来影响基因活性,然后限制或简化转录机的浏览。

在过去的几十年里,科学家们开发了几十种人工智能模型来理解基因组。其中许多集中在单个任务上,如预测基因表达水平或确定外显子是如何被切割并粘贴到不同的蛋白质中的。Alphagenome是解释DNA序列的“集成”工具。

Alphagenome可以输入高达100万个DNA碱基,这可能涵盖了一个基因和无数的调整元件,并可以对许多生物特性进行数千次预测。此外,Alphagenome在预测时对单个DNA碱基的变化非常敏感,这意味着科学家可以预测突变的影响。

Depmind的研究人员利用Alphagenome预测了之前研究中发现的一种白血病患者的差异突变。结果,该模型准确地预测了非编码区突变间接激活了周围基因。这是这种癌症的常见驱动因素。

然而,研究人员表示,Alphagenome只基于人类和小鼠的基因组,以及其他测试数据,而没有测试其他生物中的预测效果。此外,Alphagenome预测的准确性还有改进的空间。例如,该模型很难识别超过10万个碱基对的目标基因序列。

美国冷泉港实验室生物学家 Koo说,Alphagenome和类似的模型还没有捕捉到不断变化的细胞特性如何影响DNA序列的功能。因为这些模型只能在固定的环境中预测,但细胞是动态的,蛋白质水平、DNA上的化学标签和其他条件会随着时间或细胞类型的不同而改变,这可能会改变同一序列的行为。

版权及免责声明:本网站所有文章除标明原创外,均来自网络。登载本文的目的为传播行业信息,内容仅供参考,如有侵权请联系删除。文章版权归原作者及原出处所有。本网拥有对此声明的最终解释权
分享

赞一个

44