easySFS
TL; DR-easySFS是用于有效选择人口规模投影以构建站点频谱的工具。 它可以用于将VCF转换为dadi / fastsimcoal / momi2样式的SFS,以进行人口统计分析。
为什么需要这个?
站点频谱不能以连贯的方式构造在缺少值的数据矩阵上。 数据丢失是类似于RADSeq的数据集的显着特征,仅删除缺失的站点将彻底丢弃大部分数据。 一个人也可以估算缺失的值,有些人这样做,但是如果您有很多缺失的数据,则估算将是不可靠的。 向下投影方法是这两个极端之间的一种折衷。 您可以“投影”到较小的样本大小,并“平均”所有可能的重采样以构建完整的数据矩阵。 需要明确的是,我没有发明这种向下投影的策略,我相信Marth等人2004年在这里得到了赞誉,我只是制作了这个用于自动探索投影值的python程序。
选择投影值
关于如何选择投影值,Gutenkunst等人2009提供了
1