表观基因组学生物导体 背景:我为名为“基因组数据科学的生物导体”的Coursera课程的第一个作业编写了名为“ HW1.R”的R脚本。 关于: R脚本使用AnnotationHub程序包获取有关人类CpG岛和组蛋白修饰(H3K4me3和H3K27me3)的数据。 R脚本使用GenomicRanges程序包通过执行以下操作来从数据中提取基本统计信息:按染色体分组范围,子集,相交,查找范围重叠,调整范围大小,创建列联表以及计算优势比。 软件: R版本4.0.4(2021-02-15)。 生物导体版本3.12。 AnnotationHub。 基因组范围。 rtracklayer。
2022-10-05 13:19:50 3KB R
1
随着多数生物基因组测序工作的完成,基因识别就显得尤为重要.CpG岛在基因组中有着重要的生物学意义,因此识别CpG岛将有助于基因的识别.目前已经构建的一些识别CpG岛的位置的模型大都存在标注偏差、需要独立假设等缺点,为此提出一种基于条件随机场(CRFs)模型的CpG岛的位置识别的新方法.该方法将识别CpG岛的位置的问题转化为序列标记问题,并根据CpG岛的位置的性质设计了相应的模型构建、训练以及解码的算法.利用本文算法可以对输入序列确定最有可能的标注序列,从而识别CpG岛的位置.通过对标准数据库的数据进行测试,其实验结果表明本文算法是可行的、高效的,比HMM方法有更高的准确率.
1