安然电子表格语料库
是在对前安然公司的调查中积累的大量电子邮件数据库。 原始语料库可作为一系列PST电子邮件存档使用。 电子邮件中包含数以万计的电子表格。
原始数据集包括个人身份信息,例如出生日期和社会保险号。 生成了更干净的数据集,并提供给社区。
该数据集中的电子表格采用原始格式,包括BIFF2,TSV,以分号分隔的值,SYLK和另存为XLSHTML文件。 为避免名称冲突,文件名遵循${PST_NAME}.${INDEX}.xls 。
方法
从干净的电子邮件集开始,每个PST文件都使用出色的 Node模块下载并处理。
提取每个可用的XLS附件(这些电子邮件早于2007年引入XLSX),然后根据MD5校验和对文件进行重复数据删除。
参考
2022-04-23 15:12:16
1.07GB
1