BioVec 代表生物序列的新方法。 该算法来自本文:“ ” 安装 克隆后在本地安装。 快速开始 import biovec pv = biovec.models.ProtVec("some_fasta_file.fasta", corpus_fname="output_corpusfile_path.txt", n=3) # The n-gram "QAT" should be trained in advance pv["QAT"] # convert whole amino acid sequence into vector pv.to_vecs("ATATQSQSMTEEL") # convert multi-sequence FASTA file to a numpy array of protvec vectors (axis 0 = sample axis) # seqty
2023-04-14 22:02:45 7.01MB vector biological-sequences protvec Python
1
基于随机解调的压缩采样技术是一种可以突破香农采样定理进行稀疏信号捕获的新颖方法。 在基于随机解调的采样系统中的主要挑战是随机序列的产生。 在本文中,我们介绍了一种生成高速随机序列的方法,该序列可以满足压缩采样的不连贯性。 所提出的技术采用了现场可编程门阵列(FPGA)。 首先,将随机序列并行存储在FPGA的存储器中,并使用低速时钟逐字节读取随机序列。 其次,低速字节序列由电路转换为高速位序列。 该提出的方法可以动态地对随机序列进行编程,而无需对电路系统进行任何更改。 实验结果表明,该方法产生的随机序列对信号的检测是可行的,所构建的系统可以压缩采样并重建稀疏信号。
1
ORB-slam 最初相关论文,博客提供了全部翻译,主要描述二进制特征对于计算速度的优化。
2023-02-12 23:02:29 1.09MB slam
1
谢谢你的 通过 K-mer 搜索和 3' 读取扩展进行短序列组装 雷内·沃伦 2006-2021 描述 SSAKE 是一种基因组学应用程序,用于从头组装数百万个非常短的 DNA 序列。 它是一种易于使用、稳健、可靠且易于处理的组装算法,适用于短序列读取,例如 Illumina Ltd. 生成的那些。 SSAKE 算法是许多基因组学应用程序(例如 VCAKE、QSRA、SHARCGS、SSPACE、JR-Assembler)的核心,它们的设计继续激发新一代组装器(例如 JR-Assembler、PNAS 2013)。 SSAKE 的应用扩展到基因组组装之外,该技术被应用于分析 T 细胞宏基因组、靶向从头组装 (TASR)、支架(LINKS、ARCS)、HLA 分型(HLAminer),并且是在结肠癌中发现梭杆菌的关键,这一发现被《时代》杂志评为 2011 年十大医学突破之一。 根据 ICG
1
Radar signals are generally characterised by repetitive patterns in time. An ESM receiver must intercept and identify several interleaved radar signals. Time-of-arrival (TOA) deinterleaving is employed in ESM processing to identify and extract the pulses of each radar signal. This task is extremely processor intensive and new techniques are required to operate on complex signals in high pulse densities. A new algorithm employing novel techniques is presented for fast, accurate deinterleaving of several repetitive signals. A cumulative TOA difference histogram gives an indication of probable pulse repetition intervals (PRIs) with a minimum number of computations. Validation and identification is given by searching for a sequence of these pulse intervals. The technique presented is less sensitive to interfering pulses and more robust to missed pulses than conventional published techniques. Weighting is used to enhance detection of sequences and a three-pulse priming sequence dramatically reduces unsuccessful searches. By employing a learning process, the efficiency is increased still further. The application of this algorithm to agile PRI signals is shown.
2022-03-28 21:35:02 447KB New techniques; cdif; deinterleaving
1
zProt 用于读取和处理蛋白质数据库(pdb)文件的库
2021-11-30 11:24:22 350KB biology protein-sequences C
1
很经典的字符串序列算法书籍,目前我还没有找到中文版的。这个是高清影印版本,英文的。其中讲述各种字符串匹配算法,包括KMP、BM等等。
2021-11-27 16:10:21 4.02MB 字串查找算法 Algorithms Strings 清晰版
1
Dan Gusfield的字符串处理的经典书籍Algorithms on Strings, Trees and Sequences,完整版,550页。由djvu格式转换过来的,比较清楚,但是不能搜索和复制文字。
2021-09-09 06:57:49 31.58MB Algorithm String Sequence Suffix Tree
1
A tighter bound for the character sum of primitive sequences over residue rings modulo square-free odd integers
2021-07-13 18:58:12 535KB 研究论文
1
使用Amazon SageMaker微调和部署ProtBert模型进行蛋白质分类 内容 动机 蛋白质是控制生物体的关键基本大分子。 蛋白质定位的研究对于理解蛋白质的功能很重要,对药物设计和其他应用具有重要意义。 它在表征假设的和新发现的蛋白质的细胞功能中也起着重要的作用[1]。 有几项研究工作旨在通过使用高通量方法来定位整个蛋白质组[2-4]。 这些大型数据集提供了有关蛋白质功能以及更普遍的全球细胞过程的重要信息。 但是,它们目前不能达到100%的蛋白质组覆盖率,并且在某些情况下使用的方法可能导致蛋白质子集的错误定位[5,6]。 因此,必须有补充方法来解决这些问题。 在本笔记本中,我们将利用自然语言处理(NLP)技术进行蛋白质序列分类。 想法是将蛋白质序列解释为句子,并将其组成部分-氨基酸-解释为单个单词[7]。 更具体地说,我们将从Hugging Face库中微调Pytorch Pro
1