zProt 用于读取和处理蛋白质数据库(pdb)文件的库
2021-11-30 11:24:22 350KB biology protein-sequences C
1
使用Amazon SageMaker微调和部署ProtBert模型进行蛋白质分类 内容 动机 蛋白质是控制生物体的关键基本大分子。 蛋白质定位的研究对于理解蛋白质的功能很重要,对药物设计和其他应用具有重要意义。 它在表征假设的和新发现的蛋白质的细胞功能中也起着重要的作用[1]。 有几项研究工作旨在通过使用高通量方法来定位整个蛋白质组[2-4]。 这些大型数据集提供了有关蛋白质功能以及更普遍的全球细胞过程的重要信息。 但是,它们目前不能达到100%的蛋白质组覆盖率,并且在某些情况下使用的方法可能导致蛋白质子集的错误定位[5,6]。 因此,必须有补充方法来解决这些问题。 在本笔记本中,我们将利用自然语言处理(NLP)技术进行蛋白质序列分类。 想法是将蛋白质序列解释为句子,并将其组成部分-氨基酸-解释为单个单词[7]。 更具体地说,我们将从Hugging Face库中微调Pytorch Pro
1