生物数据DS2020
生物数据课程项目的存储库,帕多瓦大学数据科学硕士学位。
要求
可以安装所有必需的Python软件包来执行代码
pip install -r requirements.txt
在项目文件夹中时。
其余所有操作都是使用Linux x64计算机执行的,启动了data文件夹中的bash文件。
由于它们的大小,执行代码所需的所有数据库均未包含在存储库中,而是托管在此。 下载它们后,将它们放在data/part_2/original_datasets folder 。
由于所有模型的所有指标的计算都非常耗时,因此我们只是第一次进行计算,将所有结果保存在.csv文件中,然后在Notebook中读取它们。 要从头开始重新计算所有指标以测试所有计算,只需删除data/part_1/HMMs和data/part_1/PSSMs data/part_1/HMMs中已parsed子文
1