在线交易中的欺诈检测:使用欺诈检测比率小于0.00005的Anamoly检测技术(例如过采样和欠采样)来检测在线交易中的欺诈,因此,仅应用分类算法可能会导致过度拟合
2023-04-15 16:13:06 287KB finance machine-learning query deep-learning
1
信用卡欺诈检测
2022-07-06 19:35:36 28.05MB
1
使用机器学习在Python项目中进行信用卡欺诈检测仍在进行中 语境 信用卡公司必须能够识别出欺诈性的信用卡交易,以免向客户收取未购买商品的费用,这一点很重要。 内容 数据集包含2013年9月欧洲持卡人通过信用卡进行的交易。 该数据集显示了两天内发生的交易,在284,807笔交易中,我们有492起欺诈。 数据集高度不平衡,阳性类别(欺诈)占所有交易的0.172%。 它仅包含数字输入变量,它们是PCA转换的结果。 遗憾的是,由于机密性问题,我们无法提供有关数据的原始功能和更多背景信息。 功能部件V1,V2,…,V28是使用PCA获得的主要组件,唯一尚未使用PCA转换的功能部件是“时间”和“量”。 功能“时间”包含数据集中每个事务和第一个事务之间经过的秒数。 功能“金额”是交易金额,此功能可用于与示例相关的成本敏感型学习。 特征“类别”是响应变量,在发生欺诈时其值为1,否则为0 灵感 识别欺诈
2022-07-06 11:38:50 2KB
1
信用卡欺诈检测 使用Logstic Regression对信用卡欺诈检测进行分类 步骤以及一些需要注意的点 特征工程 样本不均衡问题的解决(降采样以及过采样两种方式) 下采样策略 交叉验证(充分利用数据,使模型可以说服力) 模型评估方法(分类准确率,精确率,召回率,F1值) 正则化惩罚(防止模型过拟合,日期L2正则化) 逻辑回归阈值对结果的影响(通过重复矩阵​​的可视化以及召回率来体现) 过采样策略(SMOTE算法) 如何运行? 信用卡数据集为“ creditcard.csv”,地址为: ://myblogs-photos-1256941622.cos.ap-chengdu.myqcloud
1
使用Logstic Regression对信用卡欺诈检测进行分类 步骤以及一些需要注意的点 特征工程 样本不均衡问题的解决(降采样以及过采样两种方式) 下采样策略 交叉验证(充分利用数据,使模型更具说服力) 模型评估方法(分类准确率,精确率,召回率,F1值) 正则化惩罚(防止模型过拟合,引入L2正则化) 逻辑回归阈值对结果的影响(通过混淆矩阵的可视化以及召回率来体现) 过采样策略(SMOTE算法)
Kaggle TalkingData AdTracking欺诈检测挑战 第48解决方案,竞赛链接: : :笔记本电脑版本 :脚本版本,在私有LB上大约为0.9824 blending.ipynb:混合历史模型,这使我提高了约0.0002 FTRL.ipynb:由于时间有限,没有尝试过 在完整的训练数据上运行此代码需要96GB RAM和128G交换空间 一些解决方案作为参考 火车日志 请参阅
2022-06-03 04:40:17 23KB JupyterNotebook
1
talkingdata-adtracking欺诈检测 Kaggle比赛(前8%) 数据集的前景 我们的目标是预测用户点击广告后是否会下载该APP。 用户可能欺诈性地点击广告只是为了赚钱。 特征: IP:用户所在的地区或国家与他或她是否欺诈性地点击广告有关。 (一个)。 欺诈用户可以使用同一IP多次单击同一AD。 (b)。 但是,同一公司中的家庭或人可以共享同一IP,这意味着同一IP可以包含常规用户和欺诈用户。 按设备,操作系统,渠道等分组可以进一步区分。 APP :(可以按IP使用分组)用于营销的应用ID 设备:用户手机的设备类型ID(例如,iphone 6 plus,iphone 7,华为mate 7等) 操作系统:(可以按IP分组使用)用户手机的操作系统版本ID 频道:移动广告发布者的频道ID click_time: (一个)。 普通用户和欺诈用户在单击AD时会有
2022-06-03 04:31:20 68KB JupyterNotebook
1
精选的有关欺诈检测的数据挖掘论文清单。 真棒欺诈检测研究论文。 下列会议中有关欺诈检测的论文精选清单:网络科学ASONAM COMPLEX NETWORKS数据科学DSAA自然语言处理ACL数据挖掘KDD ICDM SIGIR SDM WWW CIKM人工智能AAAI AISTATS IJCAI UAI数据库VLDB关于图分类,分类/回归的相似集合树,梯度增强,蒙特卡洛树搜索以及带有im的社区检测文件
2022-05-21 15:31:44 176KB Python Deep Learning
1
Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。 本资源使用基于Sklearn实现逻辑回归算法,同时提供了用于模型训练的数据集(信用卡数据集合),实现对是否存在信用卡欺诈行为进行检测。资源包括以下内容: 1、jupyter notebook程序源码 2、用于模型训练的数据集(csv文件) 3、使用混淆矩阵对测试结果进行评估 LR实现简单高效易解释,计算速度快,易并行,在大规模数据情况下非常适用,更适合于应对数值型和标称型数据,主要适合解决线性可分的问题,但容易欠拟合,大多数情况下需要手动进行特征工程,构建组合特征,分类精度不高。 LR直接对分类可能性进行建模,无需事先假设数据分布,这样就避免了假设分布不准确所带来的问题 LR能以概率的形式输出,而非知识0,1判定,对许多利用概率辅助决策的任务很有用 对率函数任意阶可导,具有很好的数学性质,许多现有的数值优化算法都可以用来求最优解,训练速度快 适用情景:LR是很多分类算法的基础组件,它的好处是输出。
2022-05-07 10:05:28 66.15MB 机器学习 回归 人工智能 数据挖掘
一种基于无图的基于工具的欺诈检测工具箱 简介: UGFraud是一个无监督的基于图的欺诈检测工具箱,它集成了几种基于图的最新欺诈检测算法。 它可以应用于二部图(例如,用户-产品图),并且可以估计节点和边的可疑性。 可以在找到已实现的模型。 该工具箱结合了基于Markov随机场(MRF)的算法,基于密集块检测的算法和基于SVD的算法。 对于基于MRF的算法,用户仅需要图结构和节点的先前可疑分数作为输入。 对于其他算法,图结构是唯一的输入。 同时,我们有一个的,该实现了基于最新图神经网络的欺诈检测器。 我们欢迎您添加新的欺诈检测器并扩展工具箱的功能。 在中列出了一些计划的功能。 如果您在项目中使用工具箱,请引用以下和使用的: @inproceedings { dou2020robust , title = { Robust Spammer Detection by Nash R
1