这是蛋白质相似性网络-PSIN。 在这里,节点是人类蛋白质,只有在它们具有相当大的序列相似性时它们才被连接。 我们发现该网络对于区分已批准的药物目标和有问题的药物目标特别有用。 在这里,您还可以找到用于此目的的完整程序集和数据集。 免费帮助进一步测试和开发此项目。 非常感谢您的帮助和专业知识! 如有任何疑问,请随时通过论坛或电子邮件与我们联系。 请参阅原始手稿:Lopes,TJS等。 (2015)-“根据目标药物的特征识别有问题的药物”-药理学前沿doi:10.3389 / fphar.2015.00186
2021-04-29 17:05:28 61.85MB 开源软件
1
基于Simhash算法的海量文本相似性检测方法研究
2021-04-18 17:01:32 1.05MB Simhash
1
最近更新 尝试探索的使用。 Mmodel堆叠,TBC .. 更新 注意:此处显示了此项目的更新。但是报告中的模型结果将在2020年12月3日保持不变。 尝试使用句子BERT(Siamese BERT)来改进Model 3,这不比具有暹罗BiLSTM功能的BERT好。 2020.12.15 已尝试ESIM。 2020.12.15 有关重复问题对识别项目的文档 Author: YUAN Yan Zhe, yanzheyuan23@sina.com written on **DEC 3rd, 2020** Collaborators: WEN Ze @WENZe79, YU Jia Hui @YUJIAHUII 项目说明 在自然语言处理(NLP)领域中,文本相似性是一个热点。测量某些NLP子区域中的句子或短语之间的相似性尤其重要,例如对话系统和信息检索。 Quora Question P
1
用于研究纳米团簇(有机体)程序的遗传算法:用于纳米团簇的遗传算法 奥塔哥研究纳米团簇的遗传算法,包括结构方法和相似性(有机体)程序,旨在对纳米团簇进行遗传算法全局优化。 它的设计灵感来自Roy Johnston集团的伯明翰集群遗传算法和伯明翰并行遗传算法(请参阅JBA Davis, A. Shayeghi, SL Horswell, RL Johnston, Nanoscale, 2015,7, 14032 ( 或), RL Johnston,Dalton Trans., 2003, 4193–4207 ( 或 如果您是有机体计划的新手,建议在下载之前通过在交互式Jupyter + Binder交互式页面上运行有机体来尝试一下。 在Jupyter + Binder上,您可以在网络上玩生物程序。 您无需安装任何程序即可在Jupyter + Binder上试用有机体。 单击下面的“活页夹”
2021-04-15 10:40:50 1.10MB Python
1
第三届魔镜杯数据应用大赛数据,数据官方经脱敏处理,
2021-04-02 10:39:44 56.75MB 文本语义相似性
1
迷宫相似 给定一系列迷宫编码为零和一,则确定哪两个迷宫最不相似。 为了解决问题,将迷宫转换为图形并使用深度优先搜索进行遍历,从而产生一系列方向。 通过使用动态编程算法评估每对序列来分析序列相似性,以找到最大的公共子序列。 在这些结果中,选择了具有最低相似度得分的两个迷宫。
2021-04-01 18:09:34 148KB Java
1
根据吕琳媛、周涛《链路预测》中的相似性指标计算示例,参考附录提供的代码分别用python和matlab实现CN、Jaccard、RA指标的计算。并用书中提供了简单的五点的无权无向网络进行测试,结果与作者的计算吻合。 内含文件如下: (1)书中相似性指标计算示例原文 (2)网络的邻接表.txt文件 (3)matlab代码 (4)python代码 (5)python生成的网络图
2021-03-30 13:25:39 566KB Link Prediction python matlab
1
用于跨视图相似性搜索的参数化局部多峰散列
2021-03-28 17:07:15 386KB 研究论文
1
比较轨迹聚类方法 这是我的模式识别课程学期项目。 目标是在民用飞行数据上比较4种聚类算法(k型,高斯混合模型,dbscan和hdbscan)。 可以在report.pdf文件中找到更多详细信息。 产生的集群如下所示: 应用轨迹分割以减少采样点的数量,并使用hausdorff距离比较轨迹之间的相似性。 更新(2019年2月) 添加了一个演示项目的每个步骤。 首先请看一下,它比项目的其他部分更短,更容易理解。 它还在公共数据集上显示了这些步骤。 公开数据集: 集群轨迹:
1
文本相似性Web应用程序 简单的Web应用程序可查找用户输入的两段文本之间的相似性 介绍: 这是一个简单的Flask Web应用程序,它接收2条文本并吐出2条文本之间的相似度百分比。该算法绝非完美。它需要更多的改进,但这是一个很好的起点。 注意事项: 标点符号将代替其原始符号。我使用了 ,其中包含许多标点符号及其扩展形式。我已将其作为json文件包含在内,因此以后任何人都可以进一步扩展。 重复的单词不会增加相似性。我将使用一组,因此重复的单词将不会计入。 我使用了一个名为“ Inflect”的库,该库将数字转换为口语单词(例如1-> 1,2-> 2等),因此涵盖了数字到文本的转换。 特殊字符将被忽略。 单词的顺序无关紧要。 算法: 实际算法是余弦相似度算法的副本。步骤如下: 从用户那里获得2个文本。 标记文本-将文本转换为单词列表。在这里,我们扩展标点符号,并用实际文本替换数字。 一旦标记
2021-03-18 17:09:04 2KB
1