上传者: 42127937
|
上传时间: 2021-12-30 20:14:09
|
文件大小: 4.23MB
|
文件类型: -
蛋白质二级结构预测
仅通过查看蛋白质的氨基酸序列即可预测二级结构。
概要:
所有氨基酸序列被合并
使用20个氨基酸及其3个二级结构(E,H和t)或8个二级结构
使用滑动窗技术
尝试使用21和13的窗口大小
中间氨基酸的二级结构用于靶结构
窗口中的每个氨基酸都翻译成一个热编码
窗口中所有氨基酸的一键编码连接在一起以获得21x20矩阵
每个单热编码矩阵解释为1通道黑白图像
类似图像的输入被提供给模型
使用CNN
尝试过RNN,LSTM或GRU,但对精度影响不大
/ trained-model下的用于预测3和8二级结构的训练模型
基准测试:
预测3个二级结构:%73
预测8个二级结构:%52
依存关系:
火炬
大熊猫
脾气暴躁的
Matplotlib
海生
scikit学习
火炬摘要
在Python 3.8.3 x64上测试
数据集:
可以移植到不同的数据集