近日,中国科学院教授、华南农业大学教授刘耀光和研究人员祝钦淞团队与清华大学联合开发了以拟南芥为核心的植物功能基因组学专家问答系统PlantGPT。通过结合检索,完成了对植物功能基因组学专业问题的准确回答和分析,增强了生成技术和大语言模型的微调方法。相关成果在线发表在《先进科学》中(Advanced Science),选择Editorr′s Choice和Frontispiece高亮推荐(扉页论文)。
面对全球粮食安全和作物质量提高的考验,功能基因组学研究在增加作物产量、提高营养质量、提高抗病虫性和逆境适应性方面发挥了关键作用。然而,现有的计算生物学方法在分析复杂生物系统的控制机制和整合多组数据方面仍然存在瓶颈。同时,虽然TAIR等传统植物数据库包含丰富的数据,但由于交互技术的限制,用户往往需要掌握准确的特性或基因命名才能有效搜索信息。
通过结合检索增强生成技术和大语言模型的微调,该研究建立了一个向量数据库,包括6万多篇植物研究文章摘要,利用13,993个拟南芥表型和23,323个基因功能数据构建了101,000个问答进行模型优化。PlantGPT与传统的计算生物学方法相比,能够准确回答植物功能基因组学领域的专业问题,并成功解决大语言模型在专业领域应用中的“幻觉”问题。
因此,研究人员开发了第一个专门研究植物功能基因组学的大语言模型AI助手。——PlantGPT,为植物科学研究领域提供了全新的人工智能辅助工具。该系统基于拟南芥的理论知识和文献构建,具有强大的生物知识泛化框架,可以在三个关键方面发挥重要作用:为公众提供农业知识普及,帮助初期研究者快速适应植物基因组学领域,支持资深研究者做出战略决策。
PlantGPT不仅显著提高了植物科学领域的研究效率和知识传播价值,而且凭借其开源性、易迁移性和不断更新的特点,为科研人员建立垂直领域的专业Agent提供了有力的支持,这意味着人工智能在植物功能基因组学研究中取得了重大突破。目前,PlantGPT计划通过提供在线服务,扩展到合成生物学和更多作物物种的应用。
上述研究得到了国家自然科学基金项目、生物育种项目、国家重大科技项目、广东省未来作物精准繁殖基础研究优秀中心重点项目和广东省种业振兴项目的资助。
赞一个