自适应阈值低秩近似(ALRA) 介绍 ALRA是一种在单细胞RNA测序数据中插入缺失值的方法,在提供的预印本“使用低秩近似法对scRNA-seq数据进行零保存插值”中进行。 给定一个scRNA-seq表达矩阵,ALRA首先使用随机SVD计算其rank-k近似值。 接下来,每一行(基因)都以该基因最负值的大小为阈值。 最后,矩阵被重新缩放。 该存储库包含用于在R中运行ALRA的代码。ALRA的唯一先决条件是安装随机SVD软件包RSVD,可以将其安装为install.packages('rsvd') 。 这些功能现在为已安装用户提供了一个标志use.mkl ,它可以大大加快基于默认rpca的版本的速度。 请注意,rpca-mkl仍在开发中,并且不在CRAN上,因此它不是必需的软件包,但是如果用户已经安装了rpca-mkl,则可以通过将该标志设置为True来使用它。 用法 请确保将矩阵为行,
2022-05-02 14:33:05 7KB dropout imputation scrna-seq svd
1
归责 Python中的各种插补方法 归责 Python中的各种插补方法 路加福音: 热甲板法 克里斯托弗: 根据从无间隙的数据确定的回归曲线获得的值进行推算的方法 马修: 插补 均值归因 检验一个假设 西蒙: MICE(通过链式方程进行的多元归因) 基本统计信息(平均值,标准差,众数,中位数和四分位数),
2022-01-11 22:46:36 108KB Python
1
作者: Ivan Bongiorni ,数据科学家。 卷积递归Seq2seq GAN用于时间序列数据中缺失值的插补 描述 该项目的目标是为时间序列数据的插补实现递归卷积Seq2seq神经网络的多种配置。 提供了三种实现: 循环卷积seq2seq模型。 基于上述相同体系结构的GAN (生成对抗网络),其中训练了Imputer来欺骗试图区分真实和假(推算)时间序列的对抗网络。 一种部分对抗的模型,其中先前模型的两种损失结构都组合在一个模型中:Imputer模型必须减少真实的错误损失,同时尝试欺骗鉴别器。 模型在TensorFlow 2中实现,并在数据集中进行了训练。 档案文件 config.yaml :用于数据预处理,培训和测试的配置参数。 管道: main_processing.py :启动数据预处理管道。 其结果是将准备好训练的数据集以.npy( numpy )格式保存在/da
2021-12-19 16:26:05 3.01MB python machine-learning tensorflow cnn
1
3D-MICE:横截面和纵向插补的整合 要求 代码是用R编写的。 开始使用 要训​​练,跑步(最好以R减价跑步) source('tempMICEGPEvalTr.R') 这是一个包装器代码,调用各种子例程来生成训练数据,掩盖缺失值并执行3D-MICE插补,每个步骤都包装在其自己的R源文件中,并且应该是不言自明的。 同样地,进行训练,跑步(最好以R降级的方式跑步) source('tempMICEGPEvalTe.R') 引文 @article{luo20173d, title={3D-MICE: integration of cross-sectional and longitudinal imputation for multi-analyte longitudinal clinical data}, author={Luo, Yuan and Szolovits, Pe
1
一、缺失值的处理方法 由于各种各样的原因,真实世界中的许多数据集都包含缺失数据,这些数据经常被编码成空格、nans或者是其他的占位符。但是这样的数据集并不能被scikit – learn算法兼容,因为大多数的学习算法都会默认数组中的元素都是数值,因此素偶有的元素都有自己的代表意义。 使用不完整的数据集的一个基本策略就是舍弃掉整行或者整列包含缺失值的数值,但是这样处理会浪费大量有价值的数据。下面是处理缺失值的常用方法: 1.忽略元组 当缺少类别标签时通常这样做(假定挖掘任务涉及分类时),除非元组有多个属性缺失值,否则该方法不是很有效。当每个属性缺少值的百分比变化很大时,它的性能特别差。 2.人工
2021-10-04 21:57:43 59KB io mp python
1
三角插值matlab代码Natixis数据挑战 项目介绍 挑战的目的是在财务时间序列中估算缺失值。 财务数据通常可能不完整。 缺少值可能会影响从该数据构建的模型的性能。 此外,它可能对协方差矩阵有重大影响,而协方差矩阵是预测风险的基础。 用法 虚拟环境设置 在终端中运行以下命令以设置具有所有依赖项的环境 # Create a virtual environment python3 -m venv env # Activate the virtual environment source env/bin/activate # Install dependencies make 数据源 我们提供了1504个时间序列,这些时间序列的历史从2010年1月1日到2020年10月30日 327个股价和股票指数的时间序列 OAT债券价格的59个时间序列 111种汇率的时间序列 251时间序列利率 81个时间序列的商品价格 675个CDS利差的时间序列 数据中约有5%的观测值缺失。 探索性数据分析 显示隐藏缺失值类型 资产之间的相关性 缺失值比例的直方图数据模拟 为了测试模型性能,我们使用了两种方法来
2021-06-01 17:42:33 5.37MB 系统开源
1
GAIN Missing Data Imputation using Generative Adversarial Nets 解析PPT
2021-05-19 14:32:09 1.53MB NLP 深度学习 GAN
1