datasketch:大数据看起来很小 datasketch提供给您概率性的数据结构,这些数据结构可以超快地处理和搜索大量数据,而几乎不会降低准确性。 该软件包包含以下数据草图: 数据草图 用法 估计Jaccard相似度和基数 估计加权Jaccard相似度 估计基数 估计基数 提供了以下数据草图索引以支持亚线性查询时间: 指数 对于数据草图 支持的查询类型 MinHash,加权MinHash 提卡阈值 MinHash,加权MinHash Jaccard Top-K 最小哈希 遏制阈值 datasketch必须与Python 2.7或更高版本以及NumPy 1.11或更高版本一起使用。 Scipy是可选的,但有了它,LSH初始化可以更快。 请注意, 和也支持Redis和Cassandra存储层(请参见 )。 安装 要使用pip安装datasketch: pip insta
2023-03-26 14:13:18 776KB python search weighted-quantiles lsh
1
信用评估是商业银行等机构防范风险的重要途径,为了提高信用评估的准确率,使用随机森林(RF)来建立风险评估模型。针对随机森林模型的性能与参数的选择和数据集不平衡比例密切相关,提出了一种基于随机森林的组合分类算法(KM-GA-RF)。以UCI数据库中的German数据集进行研究,通过K-means算法对标签进行类分解。而对于哪个类分成的簇数(ki)以及随机森林算法自身的参数:树数(n_estimators)、特征数(max_features),使用改进的遗传算法对其进行优化选取。实验结果表明,基于随机森林的组合优化模型与传统RF以及其他算法进行比较,RF的预测精度高于支持向量机等算法,达到0.765,而提出的组合优化模型的预测精度为0.815,提高了5%。
1
歪斜 倾斜决策树和随机森林的 Clojure 实现。 用法 执照 版权所有 :copyright: 2015 FIXME 根据 Eclipse 公共许可证分发 1.0 版或(由您选择)任何更高版本。
2023-03-12 12:01:32 18KB Clojure
1
利用pytorch实现图像分类的一个完整的代码,训练,预测,TTA,模型融合,模型部署,cnn提取特征,svm或者随机森林等进行分类,模型蒸馏,一个完整的代码。 实现功能: 基础功能利用pytorch实现图像分类 包含带有warmup的cosine学习率调整 warmup的step学习率优调整 多模型融合预测,加权与投票融合 利用flask + redis实现模型云端api部署(tag v1) c++ libtorch的模型部署 使用tta测试时增强进行预测(tag v1) 添加label smooth的pytorch实现(标签平滑)(tag v1) 添加使用cnn提取特征,并使用SVM,RF,MLP,KNN等分类器进行分类(tag v1)。 可视化特征层。 转载:https://github.com/lxztju/pytorch_classification
2023-03-11 16:54:10 3.03MB 预测模型 图像分类 pytorch
1
SPORF-稀疏投影倾斜随机森林(aka RerF,Rander Forest或Random Projection Forests)-是由开发的算法 类似于由开发的Random Forest-Random Combination(Forest-RC 。 两种算法之间的区别是随机线性组合的发生位置:Forest-RC在树级别组合特征,而RerF在节点级别组合特征。 配套 内存优化的RandomForest和RerF的C ++实现。 Python对packedForest的绑定。 RerF的R和C ++实现。
2023-03-11 10:28:53 35.03MB python r cpp random-forest
1
随机森林分类器
2023-03-10 15:52:12 51KB JupyterNotebook
1
随机森林图像matlab代码步步森林 StepForest:使用局部强度和纹理特征分割结肠组织学图像中腺体的机器学习方法 为在结肠组织学图像中进行腺体分割而创建的基于机器学习的图像分割算法,可以针对其他图像分割问题进行修改。 该算法使用一种新颖的分层随机森林方法,其中使用3个级别的随机森林beeen来进行更好的分割。 为了测试该算法,使用了GlaS @ MICCAI'2015:腺体分割挑战赛()的数据集。 可在上述网站的“下载”标签下下载。 使用的第三方工具箱/代码(由相应作者提供的许可控制):- haralickTextureFeatures由Rune Monzel() Matlab的污点归一化工具箱,作者是Warwick大学的Nicholas Trahearn和Adnan Khan(),这些第三方工具箱/代码的源代码已上传到“工具箱”文件夹下。 可以下载最新版本,并可以从给定的网站获取许可证信息 这项研究是由Rupali Khatun进行的。 这项工作最初是在加尔各答的印度统计研究所(ISI)的电子和通信科学部门(ECSU)以及印度统计研究所(ISI)的印度模式识别和人工智能部门(
2023-03-07 12:57:08 7.89MB 系统开源
1
您可以使用本数据集从严格的制图变量(与遥感数据相反)中预测森林覆盖类型(主要的树种)。给定的30 x 30米单元的实际森林覆盖类型是根据美国森林服务(USFS)区域2资源信息系统数据确定的。然后,从美国地质调查局和USFS获得的数据中得出自变量。数据为原始格式(未缩放),包含用于定性自变量(例如荒野和土壤类型)的二进制数据列。 sampleSubmission.csv test3.csv train.csv
2023-03-02 21:46:14 1.52MB 数据集
1
《高校核心课程学习指导丛书:微分几何学习指导》是中国科学技术大学出版社出版的《微分几何》的配套书,它可帮助读者熟练地掌握微分几何的内容和方法,《高校核心课程学习指导丛书:微分几何学习指导》对《微分几何》一书的全部习题做了详细的解答,并增加了一些有趣的习题以及联系古典微分几何与近代微分几何的典型题目,《高校核心课程学习指导丛书:微分几何学习指导》可用作综合性大学、理工科大学、师范大学数学系高年级学生、教师和研究人员的参考书。
2023-03-02 11:21:59 19.54MB 徐森林 金亚东  胡自胜  薛春华
1
温度预测 python 随机森林,该模型用于预测气候温度 随机森林,该模型用于预测气候温度 问题重述:预测当日温度,运用RandomForestRegressor(随机森林回归) 1.确定最优训练集: 第一个训练集拥有253个样本+14个指标 第二个训练集拥有1635个样本+17个指标 第三个训练集拥有1635个样本+14个指标 最终确定为第二个训练集预测精确度最高 2.利用第二个训练集,调整随机森林模型超参数 以下两大方法调整 运用from sklearn.model_selection import RandomSearchCV 运用from sklearn.model_selection import GridSearchCV 不断调整参数,比较预测准确度,最终确定最优模型。
2023-03-01 00:11:18 143KB python 温度预测
1