使用机器学习识别欺诈(项目概述) 项目目标 在2000年,安然(Enron)是美国最大的公司之一。 到2002年,由于广泛的公司欺诈行为,该公司破产了。 在最终的联邦调查中,大量的通常是机密信息被输入到公共记录中,包括成千上万的电子邮件和高级管理人员的详细财务数据。 这些数据已与手工生成的欺诈案件中感兴趣的人的名单相结合,这意味着被起诉,与政府达成和解或辩诉交易或作证以换取起诉豁免权的个人。 这些数据为146名员工创建了21个要素的数据集。 该项目的范围是创建一种算法,该算法能够识别可能实施欺诈的安然员工。 为了实现此目标,部署了探索性数据分析和机器学习以从异常值中清除数据集,识别新参数并将
1
The Machine Learning Pipeline 10 Data 11 Tasks 11 Models 12 Features 13 2. Basic Feature Engineering for Text Data: Flatten and Filter. . . . . . . . . . . . . . . . . . . . . . . 15 Turning Natural Text into Flat Vectors 15 Bag-of-words 16 Implementing bag-of-words: parsing and tokenization 20 Bag-of-N-Grams 21 Collocation Extraction for Phrase Detection 23 Quick summary 26 Filtering for Cleaner Features 26 Stopwords 26 Frequency-based filtering 27 Stemming 30 Summary 31 3. The Effects of Feature Scaling: From Bag-of-Words to Tf-Idf. . . . . . . . . . . . . . . . . . . . . . . 33 Tf-Idf : A Simple Twist on Bag-of-Words 33 Feature Scaling 35 Min-max scaling 35 Standardization (variance scaling) 36 L2 normalization 37 iii www.it-ebooks.info Putting it to the Test 38 Creating a classification dataset 39 Implementing tf-idf and feature scaling 40 First try: plain logistic regression 42 Second try: logistic regression with regularization 43 Discussion of results 46 Deep Dive: What is Happening? 47
2021-11-18 10:03:35 3.63MB ML Feature data
1
Visual C++ 2008 Feature Pack(非安装包,安装后将目录打包)界面库,包含office,bcg等所有示例源代码。
2021-11-17 18:08:32 64.9MB 开发示例
1
目标检测论文解读1:(RCNN解读)Rich feature hierarchies for accurate object detection...-附件资源
2021-11-16 16:38:40 106B
1
DWT心电图处理 硕士学位论文-使用DWT进行ECG处理
2021-11-15 16:26:28 45KB Verilog
1
AutoBlur_CNN_Features 基于以下代码: : 脚本,用于提取具有不同ConvNet的CNN深度特征,然后将其用于具有线性核的SVM分类器的图像分类任务,涉及以下小型数据集:足球[1],飞鸟[2],17flowers [3],ImageNet-6Weapons [4]和ImageNet-7节肢动物[4]。 使用VGG16提取的功能或MobileNet进入SVM分类器。 允许比较使用完整图像或使用AutoBlur方法过滤之间的差异 随代码一起提供了Soccer数据集,因此可以轻松对其进行测试: 足球:原始图像 SoccerAutoBlurBB:应用AutoBlur过滤技术并使用相应的边界框裁剪后的原始图像 参考: [1]范德·韦耶尔(J. van de Weijer),施密德(C. Schmid),着色局部特征提取,Proc.Natl.Acad.Sci.USA。
1
描述: 用于以下基于MI的特征选择方法的代码(Matlab / C ++ Mex): - 最大相关性 (maxRel) - 最小冗余最大相关性(MRMR) - 最小冗余 (minRed) - 二次编程特征选择 (QPFS) - 互信息商(MIQ) - 最大相关最小总冗余 (MRMTR) 或扩展 MRMR (EMRMR) - 光谱松弛全局条件互信息 (SPEC_CMI) - 条件互信息最小化 (CMIM) - 条件 Infomax 特征提取 (CIFE) 参考: [1] Nguyen X. Vinh、Jeffrey Chan、Simone Romano 和 James Bailey,“基于互信息的特征选择的有效全局方法”。 2014 年 8 月 24 日至 27 日在纽约市举行的第 20 届 ACM SIGKDD 知识发现和数据挖掘会议 (KDD'14) 上发表。
2021-11-11 18:29:29 64KB matlab
1
脑电提取均值信号特征的matlab代码用于癫痫发作检测的脑电图特征工程 该 repo 记录了癫痫发作检测任务中最具挑战性的部分 EEG 特征工程的 MATLAB 代码。 这些 EEG 特征已被 Citation 中已发表的论文所使用。 脑电特征域 功能编号 特征域 描述 1-4 基本统计 平均振幅、标准振幅、过零次数、振幅范围 5-16 光谱分析 每个频段的功率比和绝对功率,alpha、beta、theta、delta、gamma 和 freq 质心,总功率 17-28 时频域 离散小波变换(DWT)在六个频段上系数的均值和标准差 29-31 非线性特征 ApEn、LZ 复杂度、Hurst 指数 32-43 时空域 六个频段和大脑区域的锁相值 44-47 同步测量(带频移/频移) 时域和频域中的动态扭曲 48-62 复杂网络特征 从时间和频率不变网络中提取的特征 功能 1-47 参考; 功能 48-62 对 . 基于这项工作的博士论文在 . 脑电特征提取首先,通过以下方式下载此 repo: git clone git@github.com:ieeeWang/EEG-feature-se
2021-11-11 16:28:44 2.21MB 系统开源
1
功能检测和匹配文档 可以在查看文档。
2021-11-10 20:59:37 29.1MB JupyterNotebook
1
这是我们为基于改进的二进制萤火虫算法 (BFFA) 进行特征选择而开发的 Matlab 工具箱,称为基于回报成本的二进制 FFA (Rc-BFA)。 该程序的详细信息可以在已提交给 INFORMATION SCIENCES 期刊的论文“A Return-Cost-based Binary Firefly Algorithm for Feature Selection”中找到。 在这个工具箱中,主函数被命名为“main”。 . 在此功能中,您可以通过更改“fly”的值来选择不同的数据集。
2021-11-08 10:57:44 579KB matlab
1