一种基于无图的基于工具的欺诈检测工具箱 简介: UGFraud是一个无监督的基于图的欺诈检测工具箱,它集成了几种基于图的最新欺诈检测算法。 它可以应用于二部图(例如,用户-产品图),并且可以估计节点和边的可疑性。 可以在找到已实现的模型。 该工具箱结合了基于Markov随机场(MRF)的算法,基于密集块检测的算法和基于SVD的算法。 对于基于MRF的算法,用户仅需要图结构和节点的先前可疑分数作为输入。 对于其他算法,图结构是唯一的输入。 同时,我们有一个的,该实现了基于最新图神经网络的欺诈检测器。 我们欢迎您添加新的欺诈检测器并扩展工具箱的功能。 在中列出了一些计划的功能。 如果您在项目中使用工具箱,请引用以下和使用的: @inproceedings { dou2020robust , title = { Robust Spammer Detection by Nash R
1
算术编码Python 该项目实现了称为算术编码(AE)的无损数据压缩技术。 该项目很简单,仅具有一些基本功能。 该项目支持将输入编码为浮点值和二进制代码。 该项目有一个名为pyae.py的主模块,其中包含一个名为ArithmeticEncoding的类,用于对消息进行编码和解码。 使用步骤 要使用该项目,请按照下列步骤操作: 进口pyae 实例化ArithmeticEncoding类 准备留言 编码消息 获取编码消息的二进制代码。 解码消息 进口pyae 第一步是导入pyae模块。 import pyae 实例化ArithmeticEncoding类 创建ArithmeticEncoding类的实例。 它的构造函数接受2个参数: frequency_table :作为字典的频率表,其中key是符号,而value是频率。 save_stages :如果为True ,则每个
1
Turbodbc-为数据科学家提供涡轮增压数据库访问。 Turbodbc是一个Python模块,用于通过接口访问关系数据库。 它的主要目标受众是数据科学家,他们使用的数据库没有有效的本地Python驱动程序。 为了获得最大的兼容性,turbodbc符合 。 为了获得最佳性能,turbodbc提供了内置的和支持,并且在内部依赖于批处理数据传输,而不是像其他流行的ODBC模块那样单记录通信。 Turbodbc是免费的(使用),是开源的( ),可与Python 3.6+一起使用,并且可用于Linux,macOS和Windows。 Turbodbc已使用 , , 和进行了常规测试,但也可能
2022-03-18 18:14:24 351KB python data-science database numpy
1
Python for everybody 是一本定位为入门级的Python应用教程,书中通过简洁有趣的语言及丰富的代码实例对Python的语言、数据结构等进行了详尽的介绍,是不可多得的Python优秀入门读物。
2022-03-12 18:36:44 2.28MB Python Data Science
1
带有CSE-CIC-IDS-2018的指令检测系统 这是针对CIC-IDS-2018的具有随机森林算法的机器学习分析。 它仅使用“ Thursday-15-02-2018_TrafficForML_CICFlowMeter.csv”文件来分析DDoS攻击。 我将模型应用于通过Django和Django-Channels来利用sFlow的软件定义网络中的DDoS攻击。 在这里了解更多: : 信用:
2022-03-12 18:33:53 12KB data-science machine-learning ddos random-forest
1
可视化 prosper.com 借款人的状态 可视化、要点和 github 链接 可视化可以在这里看到: 。 概括 Prosper 是美国第一个市场借贷平台,拥有超过 80 亿美元的融资贷款。 了解更多信息,请访问 。 根据公布的贷款数据,我提取了每个州的贷款数量。 [数据/borrower_states.csv]。 公司应该关注贷款数量较多的州,但是如果这些州的人口数量已经非常多怎么办!为此,我创建了一个名为“score”的新变量来给每个州一个分数,这个分数的计算方式是对每个州的 (loans/population) 和 (loans/total_loans) 求和,然后将这些值映射到 0 到 1 之间的值。 因此得分较高的州意味着这些州的贷款数量和人口数量都很高,值得关注。 ->如下图所示,加利福尼亚州、伊利诺伊州和佐治亚州三个州的得分高于0.7,此外,还有18个州的得分高于0
2022-03-05 13:20:54 44KB javascript d3 data-science data-visualization
1
生存分析最初是由精算和医学界开发并广泛应用的。 其目的是回答为什么现在发生事件而不是后来在不确定性下发生(事件可能指死亡,疾病缓解等)。 这对于对测量寿命感兴趣的研究人员非常有用:他们可以回答诸如哪些因素可能影响死亡的问题? 但是,除了医学和精算科学外,生存分析还有许多其他有趣而激动人心的应用。 例如: SaaS提供商对衡量订户的生存期或采取某些第一行动的时间感兴趣 库存缺货是对商品真正“需求”的审查事件。 社会学家对衡量政党的一生,人际关系或婚姻感兴趣 A / B测试可确定不同组执行一项操作需要多长时间。 lifelines是生存分析的最佳部分的纯Python实现。 记录和生存分析简
2022-03-03 15:54:06 9.77MB python data-science statistics survival-analysis
1
应用数据科学界 这是IBM数据科学专业证书课程的基本项目。
2022-02-23 17:50:17 8.4MB JupyterNotebook
1
Introducing-Data-Science-Big-Data-Machine-Learning-and-more-using-Python-tools.pdf
2022-02-20 21:12:39 14.71MB 综合文档
1
DS-Take-Home:我对《数据科学实战挑战的合集》一书的解决方案
1