首页 » 国内 » 昇思MindSpore最新成果开源:北大高毅勤课题组发布高性能蛋白质结构预测工具

昇思MindSpore最新成果开源:北大高毅勤课题组发布高性能蛋白质结构预测工具

近日,昇思MindSpore【1】团队与昌平国家实验室、北京大学生物医学前沿创新中心BIOPIC和化学与分子工程学院、深圳湾实验室高毅勤教授课题组联合推出蛋白质结构预测推理工具。该工具首次提供了基于昇腾AI基础软硬件平台的解决方案,并且端到端性能优于AlphaFold22-3倍。相关模型代码将依托于华为全场景AI框架昇思MindSpore进行开源、并将定期扩展与维护,旨在为全球产、学、研界领域伙伴提供优质的昇腾AI软硬件解决方案。

蛋白质在分子生物学的中心法则中具有十分重要的地位,在各种生命过程中不可或缺。传统的药物设计一般要通过大批量筛选,寻找易与目标蛋白质分子紧密结合、易合成且没有毒副作用的化合物来完成的,因此研发周期长、费用高,而在了解蛋白质的空间结构后可减少寻找药物的盲目性,从而缩短研发周期并降低成本。因此,准确、快速的蛋白质结构预测不仅可以在学术研究领域帮助科学家快速获得或验证关键蛋白结构,促进人们对重要生命过程中分子机理的理解,而且在医疗健康和生物工程领域也能作为有力的工具,引发药物靶点发现、功能蛋白设计如抗体和人工酶以及大分子蛋白或小分子药物高通量虚拟筛选的革命。

传统蛋白质结构预测方法一直存在计算精度不足的缺陷,直至2020年谷歌DeepMind团队基于AlphaFold2【2】利用计算机高效准确获取蛋白质空间结构取得CASP14比赛全球蛋白质结构预测比赛中蛋白质3D结构预测的榜首,才让这一缺陷得到弥补。蛋白质结构预测工具精度可与实验方法相媲美,这一成就被Nature等杂志喻为“前所未有的进步”。

本次北大高毅勤课题组成功推出基于昇腾AI的蛋白结构预测工具,再次证明了国产AI软硬件的可用与好用。该工具大大降低了广大生物医疗实验工作者的使用门槛,也将为生物蛋白质领域的基础研究与应用工作提供助力。

该工具依托昇思MindSpore,可对氨基酸序列长度2000+的蛋白质结构解析,能覆盖约99以上的蛋白序列【3】。同时,借助异构计算架构CANNCompute Architecture for Neural Network释放昇腾AI处理器的澎湃算力,通过软硬件协同优化大大提高了蛋白质预测的计算效率。参考DeepMind于2021年7月份开源的蛋白质结构预测模型AlphaFold2【4】,本次开源的蛋白质结构预测推理工具模型部分与其相同,在多序列比对阶段,采用了MMseqs2进行序列检索【5】,相比于原版算法端到端运算速度有2-3倍的提升。

图1昇思MindSpore模型与AlphaFold2精度对比图      2通过昇思MindSpore预测的T1079蛋白结构

绿色代表实验获得,红色代表预测获得 

针对蛋白质结构预测及折叠问题,联合团队未来还会发布创新的全栈算法+软件+硬件国产自主可控技术,同时也会牵手更多的学术科研界合作伙伴,期望能够在蛋白质结构预测领域上共同探索和进步,助力医学、生物科学等领域的发展,促进国内相关基础研究的发展。

引用:

【1】 Chen L. Deep Learning and Practice with MindSpore[M]. Springer Nature, 2021.

【2】 Jumper J, Evans R, Pritzel A, et al. Applying and improving AlphaFold at CASP14[J]. Proteins: Structure, Function, and Bioinformatics, 2021.

【3】 https://ftp.uniprot.org/pub/databases/uniprot/previous_releases/release-2021_02/knowledgebase/UniProtKB_TrEMBL-relstat.html

【4】 Jumper J, Evans R, Pritzel A, et al. Highly accurate protein structure prediction with AlphaFold[J]. Nature, 2021, 5967873: 583-589.

【5】 Mirdita M, Ovchinnikov S, Steinegger M. ColabFold-Making protein folding accessible to all[J]. BioRxiv, 2021.