我国科学家利用人工智能加速葡萄育种,效率提高 400%
GoodNav 11 月 4 日报道,来自中国农业科学院基因组研究所官方微信公众号的信息显示,今天《自然・遗传学(Nature Genetics)》在线发布了中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心)周永锋团队关于利用人工智能技术进行葡萄育种的最新研究成果。这一研究有望显著缩短葡萄育种周期,同时对葡萄的农艺性状预测准确度达到 85%。与传统育种方法相比,育种效率可提升 400%。该项目预期将推动葡萄的精准设计育种,促进葡萄品种的创新,并为其他多年生作物的育种提供方法借鉴。
自 2015 年以来,周永锋团队专注于葡萄的设计育种工作,并在 2023 年发布了第一份葡萄端粒到端粒完整参考基因组图谱,该研究成果在《园艺研究(Horticulture Research)》期刊上发表为封面文章。
然而,要实现精准的“设计”,仅仅依靠一个基因组数据是不够的。在此基础上,周永锋团队对包括野生种和栽培品种在内的九个二倍体葡萄品种进行了测序和组装,获得了 18 个端粒到端粒的单倍型基因组,并整合已有的基因组数据,构建了当前最为全面和准确的葡萄泛基因组(Grapepan v1.0),其总长度达到 1.43Gb,几乎是单个参考基因组大小的三倍。
为了进一步探索葡萄基因与其性状之间的关系,周永锋团队从近万份葡萄品种中挑选出 400 多个具有代表性的品种,连续三年对包括果穗大小、浆果中代谢物的含量、浆果大小和果皮颜色等在内的 29 个农艺性状进行观测,构建了葡萄的基因型图谱和性状图谱。在此基础上,周永锋团队通过数量遗传学分析,识别出与农艺性状显著相关的 148 个位点,其中 122 个为首次发现。研究显示,调控不同性状的位点之间存在关联性,例如可溶性固形物含量与浆果宽度相关位点相近。此外,不同葡萄类型(如酿酒型、鲜食型、美洲鲜食杂交型)之间也存在明显的分化区域,这些区域含有与浆果颜色、果皮风味、浆果形状、果穗重量、果肉硬度和果实大小等多个性状相关的遗传位点,表明对农艺性状的选择促进了酿酒与鲜食葡萄的分化。
全面而准确的基因组数据是实施精准“设计”育种的基础。而如何深入挖掘这些数据以优化育种策略并指导育种,是智能育种必须解决的问题。周永锋团队决定引入机器学习,通过构建预测模型,根据评估进行早期个体的预测与选择,从而指导和优化育种策略。
在这项研究中,研究人员将涉及性状和基因型的数据分为三个子集:训练集、验证集和测试集。利用机器学习算法解析基因型与性状数据之间的复杂网络关系,使用训练数据集构建了第一个葡萄全基因组选择模型,研究进一步通过验证集调整模型参数进行优化,最后使用测试数据集评估最终模型的表现。研究结果表明,结合结构变异信息和机器学习模型的多基因评分预测准确率高达 85%。
借助这一模型,育种专家能够快速而准确地评估大量育种材料的遗传潜力,从而更有效地选择优质品种。与传统杂交育种需在葡萄成熟后根据表型作出判断不同,全基因组选择育种技术可以在葡萄幼苗阶段预测其成熟后表现,提前剔除不符合条件的幼苗,大大减少了不必要的人力成本和投入,其在葡萄育种中的应用潜力巨大,有助于提升葡萄育种效率,加速新种质的开发,变革葡萄育种策略。
目前,该研究成果已申请并获得国家发明专利 6 项,还申请了 1 项国际专利。