一个包含网络钓鱼邮件数据的集合。网络钓鱼邮件是一种欺诈性的电子邮件,通常伪装成合法的通信,目的是诱骗收件人透露敏感信息,如用户名、密码、信用卡信息等。这个数据集可能被用于研究、开发和测试反钓鱼技术,帮助识别和防范网络钓鱼攻击。是一个综合性的网络钓鱼邮件数据集,由研究人员整理而成,旨在帮助研究者分析网络钓鱼邮件的特征并改进检测方法。该数据集整合了多个来源的电子邮件数据,包括Enron、Ling、CEAS、Nazario、尼日利亚诈骗和SpamAssassin等数据集,涵盖了邮件的正文、主题、发件人和收件人信息等内容。
最终的数据集包含约82,500封邮件,其中42,891封为钓鱼邮件,39,595封为合法邮件。这些数据可用于训练和测试机器学习模型,以提高对网络钓鱼邮件的识别能力。数据集的结构清晰,每封邮件都有明确的标签,方便研究人员进行分类和分析。此外,该数据集还被用于开发基于BERT的自然语言处理模型,以实现高效的网络钓鱼邮件检测。
2025-03-25 20:39:39
77.12MB
机器学习
1