垃圾邮件分类---安然数据集 使用逻辑回归和计数向量化将Enron数据集的电子邮件分为垃圾邮件或火腿邮件。 注意:彻底评论了Jupyter / IPython笔记本,因此这里不需要广泛的自述文件。
2023-01-25 17:31:14 30.69MB
1
安然电子表格语料库 是在对前安然公司的调查中积累的大量电子邮件数据库。 原始语料库可作为一系列PST电子邮件存档使用。 电子邮件中包含数以万计的电子表格。 原始数据集包括个人身份信息,例如出生日期和社会保险号。 生成了更干净的数据集,并提供给社区。 该数据集中的电子表格采用原始格式,包括BIFF2,TSV,以分号分隔的值,SYLK和另存为XLSHTML文件。 为避免名称冲突,文件名遵循${PST_NAME}.${INDEX}.xls 。 方法 从干净的电子邮件集开始,每个PST文件都使用出色的 Node模块下载并处理。 提取每个可用的XLS附件(这些电子邮件早于2007年引入XLSX),然后根据MD5校验和对文件进行重复数据删除。 参考
2022-04-23 15:12:16 1.07GB
1
Udacity-机器学习入门 安然传奇 安然(Enron)丑闻是财务丑闻,最终导致安然公司(Enron Corporation)破产,该公司位于德克萨斯州休斯敦的美国能源公司,实际上是阿瑟·安徒生(Arthur Andersen)的解散,后者是美国五大审计和会计合伙企业之一世界。 除了是当时美国历史上最大的破产重组外,安然还被认为是最大的审计失败。 安然公司由肯尼思·莱(Kenneth Lay)于1985年合并休斯顿天然气公司和InterNorth公司后成立。 几年后,当杰弗里·斯基林(Jeffrey Skilling)被聘用时,他培养了一批高管人员,这些人员通过使用会计漏洞,特殊目的实体以及不良的财务报告,能够从失败的交易和项目中隐藏数十亿美元的债务。 首席财务官安德鲁·法斯托(Andrew Fastow)和其他高管不仅误导了安然公司董事会和审计委员会关于高风险会计的作法,而且还向亚瑟
2022-03-27 16:17:44 2.48MB JupyterNotebook
1
Enron Email Dataset 包括安然公司部分高管和中级管理人员150位员工500万封邮件消息,由美国联邦能源管理委员会进行调查期间发布。
2021-12-08 19:07:10 422.62MB 邮件数据
1
安然欺诈项目 休斯顿的安然综合体- 安然是美国最大的公司之一。 由于公司欺诈,它破产了。 由于联邦调查的结果,大量的安然数据(电子邮件和财务数据)已进入公共记录。 该项目旨在建立一个分类器,该分类器可以基于公共的安然财务和电子邮件数据集来预测安然员工涉及欺诈的情况。 有关安然丑闻的更多详细信息,请参见 。 工作流程 该项目分为3个主要阶段: 功能选择和工程 算法选择 选型 特征选择与工程 首先,清理数据; 由于我们对个人数据感兴趣,因此删除了与“总计”和“公园旅行社”相对应的数据。 另外,“ LOCKHART EUGENE E”数据全为零,并且也被删除。 一些功能也被删除。 由于“ to
2021-11-21 19:00:23 2.77MB python machine-learning random-forest scikit-learn
1
安然搜索 我想稍微玩一下ElasticSearch的Java绑定,在这个过程中我做了一点有趣的应用。 EnronSearch是CMU Enron语料库中500,000封电子邮件的ElasticSearch索引。 安然搜索: 提供用于下载和索引安然电子邮件的命令行工具。 提供了一个基于Spark的小型Web应用程序,用于与索引语料库进行交互。 包括一些用于执行预输入搜索的漂亮JavaScript。 它在起作用: 正在安装 您需要启动并运行ElasticSearch服务器才能使用EnronSearch。 设置与该服务器相对应的ES_PORT和ES_HOST环境变量。 完成此操作后: 安装EnronSearch的相关程序包。 mvn package 下载Enron电子邮件语料库: java -cp target/classes:target/dependency/ * :.
2021-11-21 09:20:03 118KB JavaScript
1
Enron Email Dataset 包括安然公司部分高管和中级管理人员150位员工500万封邮件消息,由美国联邦能源管理委员会进行调查期间发布。
2021-11-19 10:51:49 422.62MB 邮件数据
1
安然电子邮件搜索 有关数据集的信息。 先决条件 节点> 4.0 下载的安然电子邮件数据集 怎么跑 克隆存储库,运行 npm install 下载并提取公共Enron电子邮件数据集。 使用以下方法解析数据集: node parser.js /Users/admin/Downloads/maildir/ 这将在export文件夹中创建一堆.json文件。 然后,确保Elasticsearch在localhost:9200上运行(默认情况下)并运行 node import.js 现在,所有json文件都以弹性方式导入。 要运行搜索界面,请运行 npm start #OR node server.js 并在网络浏览器中导航到localhost:3000 。 享受!
2021-11-18 18:04:11 7KB JavaScript
1
安然 注意:如果您在打开“ ENRON-Exploratory Data Analysis.ipynb”笔记本时遇到问题,请使用“ ENRON-Exploratory Data Analysis.html”文件。 安然电子邮件分析 该分析项目包括以下文件 eda.py-探索性数据分析界面 features.py-包含浅层和深层特征创建g构造函数 text_transformation.py-执行文本转换任务的实用程序类 cleanning.py-基本的清洁任务。 数据文件夹包含原始文件以及使用“浅”和“深”功能创建的feature_file。 Jupyter Notebook-“ ENRON-探索性数据分析.ipynb”,其中包括以下分析 读取数据并创建浅层和深层特征以进行分析 1.1)从数据框创建浅层特征 1.2)从数据框创建深度特征 2.0)数据分析 2.1)可视化多年来的电子邮
2021-10-26 20:03:23 5.23MB HTML
1
文档文本数据集,可用于分词、检索、索引构建等等,内含1000文档。
2021-04-14 16:00:16 422.72MB 数据集 mail enron 检索
1