GSDMM:短文本聚类 该项目为的Dirichlet混合模型实现了Gibbs采样算法,用于短文本文档的聚类。 该算法的一些优点: 它只需要集群数的上限K 通过良好的参数选择,模型可以快速收敛 空间高效且可扩展 该项目是GSDMM的易于阅读的参考实现,除非有需求,否则我不打算维护它。 不过,我积极维护更快锈版本GSDMM的。 电影组过程 在他们的论文中,作者介绍了一个简单的概念模型来解释GSDMM,称为电影组过程。 想象一下一位教授正在领导一个电影课。 在课程开始时,将学生随机分配到K表。 在上课之前,学生会列出自己喜欢的电影。 教授反复朗读班级角色。 每次调用学生姓名时,学生必须选择一个
2021-12-11 20:25:49 8KB python nlp clustering short-text
1
最大熵NER标记器 可在线获得。 概述 该项目的目标是实施和培训 。 大多数功能构建器功能都是使用实现的, 是用Python / Cython编写的具有工业实力的开源NLP库。 为了分类,使用最大熵(MaxEnt)分类器。 实施细节 此任务的数据集是语料库,该语料库主要由路透社新闻数据组成。 数据文件已经过预处理,并且每行已经包含一个令牌,其词性(POS)标签,BIO(开始,内部,外部缩写)组块标签以及相应的NER标签。 事实证明,SpaCy的内置对功能工程最为有用。 利用外部单词列表,例如作为一部分分发的Wikipedia地名词典,通常会导致标记准确性下降。 由于数据文件相对较大,因此最终提交中不包含地名词典的源代码和文件。 我还通过将先前的状态/标记作为功能进行了尝试,以提高模型的性能。 出乎意料的是,模型性能在很大程度上保持不变,这大概是由于每个标签都是从仍然在模型中编码的同一特征
2021-12-11 10:28:15 36.57MB classifier clustering spacy maxent
1
用于单通道语音分离的深度聚类 “用于分割和分离的深度聚类判别嵌入”的实现 要求 参见 用法 在.yaml文件中配置实验,例如: train.yaml 训练: python ./train_dcnet.py --config conf/train.yaml --num-epoches 20 > train.log 2>&1 & 推理: python ./separate.py --num-spks 2 $mdl_dir/train.yaml $mdl_dir/final.pkl egs.scp 实验 配置 时代 调频 FF 毫米 FF /毫米 AVG 25 11.42 6.85 7.88 7.36 9.54 问与答 .scp文件的格式? wav.scp文件的格式遵循kaldi工具箱中的定义。 每行包含一个key value对,其中key是索引音频文件的唯一字符串,而值
2021-11-27 21:56:29 16KB pytorch speech-separation Python
1
模糊C均值算法 类型:聚类算法 使用的数据集:虹膜数据集 要求: Google colab或jupyter笔记本 套餐: 熊猫-https: numpy- //numpy.org/install/ Matplotlib- //matplotlib.org/stable/users/installing.html sklearn- //scikit-learn.org/stable/install.html 涉及的步骤: 打开“ fuzzy_c_means_algorithm_implementation.ipynb”文件。您可以在Google colab上或通过jupyter笔记本打开它。 如果您使用的是Jupyter笔记本,请安装上述必需的软件包。 在google colab或jupyter Notebook中打开文件后,运行所有单元格并查看输出。 观察图以了解算
1
聚类 鸢尾花数据的 K-means 聚类和葡萄酒数据的 K-Medoids 聚类
2021-11-26 11:02:24 4KB Python
1
多视图光谱聚类算法 该存储库包含用于7种多视图光谱聚类算法(和单视图光谱聚类算法)的MATLAB代码,用于在我们的ICDM论文“”中进行比较。 一些算法的代码是从原始论文作者的网站上收集的,后来由我们修复和优化。 有关这些算法的详细信息,请参阅我们的论文(文件夹名称对应于本文中算法的缩写,即AASC,AWP,CoReg,MCGC,MVGL,RMSC和WMSC )。 在这些文件夹中的每个文件夹中,都有一个用于算法的主文件xxx_main.m ,其中xxx是算法名称。 有关7种多视图光谱聚类算法和单视图光谱聚类(SC)算法的原始论文为: Huang等人,2012年。光谱聚类的亲和力聚合 Nie等人,2018年。通过自适应加权Procrustes进行多视图聚类 Kumar等人,2011年。共规化多视图光谱聚类 Zhan等人,2018年。多视图共识图聚类 Zhan等人,2017年。图学习用于多
1
摘要—网络监控在现代云和数据中心网络中至关重要,这些网络需要从流量大小分布到heavy hitters的各种流量统计数据。为了应对不断增长的网络速率和巨大的流量,基于sketch的近似测量已经被广泛研究,以牺牲内存和计算成本的准确性,不幸的是,这对于哈希冲突很敏感。 该文提出了一种保持聚类的sketch方法,能够抵抗哈希冲突。我们根据K-均值聚类对sketch进行等效分析。根据分析结果,我们将相似的网络流聚类到同一个桶数组,以减少估计方差,并使用平均值来获得无偏估计。测试平台表明,该框架适应线路速率,并提供准确的查询结果。真实世界的跟踪驱动模拟显示,LSS在大范围参数下保持稳定的性能,并显著优
2021-11-23 16:19:38 849KB 翻译 network 计算机网络
1
本地开发和运营 依存关系 确保您已将Python 2.7和pip一起安装。 然后运行: pip install -r requirements.txt 正在运行的工作 使用中央作业运行程序模块src/index.py运行所有作业。 您完全不需要编辑此文件。 python src/index.py 参数: src/spark_jobs.py定义的作业功能名称 生成的簇数 数据文件的文件路径(可以是项目中的绝对路径或本地路径) 这些作业可以占用多个文件。 这些应仅附加到命令中。 例如: python src/index.py user__reputation__to__upvotes_cast 3 tests/fixtures/users.xml 新增工作 所有作业均从src/s
2021-11-22 02:29:49 3.4MB python spark clustering pyspark
1
使用粗糙集进行聚类的Python实现 ###说明整数特征的粗糙聚类-请参见/ code / README_rough_sets浮点特征的粗糙k均值聚类-请参见/ code / README_rough_kmeans ####输入 Both algorithms take as input a dictionary with : list pairs (float/integer features) ####用法 /tests/rough_clustering_tests.py - example usage and tests for known 2-class clustering problem in UCI Statlog Data set for credit risk /tests/rough_kmeans_tests.py - example u
2021-11-19 10:13:06 3.12MB Python
1
MPI集群 K-Means算法的顺序和并行实现,数据集为数据点,DNA链为输入,K为质心
2021-11-18 22:57:50 351KB Java
1