高端芯片进口有限,国内用户严禁访问核心基因数据库...许多外部事件使得基因组学的国内研究计划从候选变成了必选。然而,面对国内基因组学生态模式的不完全运行,研究人员如何切换国内研究环境已经成为一个新问题。
近日,在接受《中国科学报》采访时,北京脑科学与类脑研究所基因组学中心主任张力表示,国产计算率硬件可以很好地支持基因组学科研。面对国内大量基因测序和分析的需求,国产软件将迎来快速发展的机遇,逐步实现基因组学计算生态的自主性和可控性。
国产计算能很好地支持基因测序
在一些直接功能测试中,国产CPU(中央处理器)和GPU(图形处理器)可能不如海外最新产品,但在实际应用中,硬件参数不是决定性因素,更重要的是计算率设施对整个基因组软件生态的支持和持续优化能力。张力强调,基因组学是一种数据密集型,其研究核心是海量数据的处理和分析,而高性能计算是支撑这一过程的核心技术。
以全基因组测序为例,每1万人的原始数据达到1PB(1PB=106GB),初步处理后信息量一般达到5PB。一些国内高性能计算平台已经可以支持这种规模的数据处理。
尽管国内计算率设施已经能够更好地支持基因组学研究,但是生态建设仍然是实现基因组学自主可持续发展的关键。
“大部分软件都是进口产品,国产软件也不是没有,但严格来说,从统筹规划到应用还没有形成系统。”张力介绍,依托国内海量的基因测序和分析需求,基于国产硬件健全的基因组学软件工具链,可以应对可能出现的极端情况。
由于生态缺失,科研成果难以转化
建立基因组学的国内生态模式,不仅可以预防供应链风险,还可以促进基因组学的产业化应用,加快科研成果的转化。
张力介绍,北京脑科学与类脑研究所基因组学中心建设时,从样本采集到数据处理的整个过程都采用了国产解决方案,但研究成果却面临着产业化的“差距”。
目前,北京脑科学与类脑研究所承担了由北京师范大学牵头的中国学龄儿童脑智发育队列的基因组学生任务。截至今年5月,该中心已完成6000名儿童横断序列全基因组测序。然而,如何与第三方同步并应用这些测序数据,却面临着安全、产权、技术和运营等一系列问题。
“我们的数据集不仅在中国领先,而且在世界上也很有竞争力。许多制药公司表示感兴趣。然而,中国没有标准化的解决方案来实现数据的安全共享。”张力表示,工业化问题与基因组学生态模式的不完善密切相关。
目前,中国正在努力建立人类遗传资源保护和利用体系,通过完善的统筹规划,在产权、技术和运营方面创造创新模式,努力在人工智能加快药物研发的机会窗口实现中国药物研发的“弯道超越”。
国际主流研究环境的生态发展需要适应
关于如何加快国内基因组学生态模式建设,张力表示,在适应国际主流R&D环境的同时,应从兼容性、健全性和人才培养入手,逐步构建和优化国内软硬件生态。
“适应国际主流生态并不意味着被动跟随,而是要逐步构建具有中国特色的国产生态,培养一批能熟练使用国产软硬件的技术人才,同时保证兼容性。”张力说。
比如在与国内一家厂商的合作中,对方派出了30-40人的团队优化北京脑科学与类脑研究所500多个生物学专业软件,以适应公司提供的计算能力平台。
虽然转移最终完成了,但生物软件不断迭代。如果不能适应国际主流生态系统或开发国产硬件软件版本,每一个新版本的海外软件转移都需要大量的人力和时间,这将导致维护成本的大幅上升。
“在当前窗口期,需要加快完善国内工具链,抓住人工智能加快药物研发的历史机遇,逐步完善和推广中国标准和软硬件生态。”张力说。(记者赵广立)
赞一个