Kaggle-SMS-Spam-Collection-Dataset-:使用NLTK和Scikit-learn分类为垃圾邮件或火腿邮件
1
Scikit学习 Scikit-learn:是用于Python编程语言的免费软件机器学习库。 它具有各种分类,回归和聚类算法,包括支持向量机,随机森林,梯度提升,k均值和DBSCAN,并且旨在与Python数值和科学库NumPy和SciPy互操作。 机器学习中任何项目的步骤: 数据文件并附加数据 数据清理,并从功能之间的关联中学习。 功能选择 数据缩放 数据分割 选择最佳算法(回归分类-SVM-KMeans-KNN .....)。
2023-01-09 13:48:09 8.98MB JupyterNotebook
1
天真贝叶斯垃圾邮件检测器 使用Scikit学习机器学习库将电子邮件分类为垃圾邮件或非垃圾邮件的Python程序。 先决条件 该程序是用Python 3编写的,并使用了Numpy,Pandas和Scikit-learn库。 数据集 该程序利用以csv格式存储的两个数据集。 主要数据集“垃圾邮件或非垃圾邮件”。 该集合是文件'20030228easyham.tar.bz2'和'20030228_spam.tar.bz2'的组合。 这组包含2500个火腿电子邮件示例和500个垃圾电子邮件示例。 该集合包含两列:电子邮件和标签。 电子邮件列中的元素是带有数字值和url的文本字符串,分别用单词“ NUMBER”和“ URL”替换。 标签列中的元素可以具有两个可能的值:如果电子邮件是非垃圾邮件,则为0;如果电子邮件是垃圾邮件,则为1。 辅助数据集包含伪造数据。 此集合遵循主要集合的样式; 两列用于
2023-01-02 22:17:54 1.15MB
1
scikit-learn,简称sklearn,一个强大的Python机器学习库,本代码的“加州房价预测”实验是一个线性回归模型,包含已经运行过的jupyter notebook的.ipynb文件和数据集.csv文件,放到jupyter notebook根目录下即可打开或者运行。
1
预测航空公司延误 使用Hadoop通过2007年和2008年的数据预测奥黑尔机场的航班延误。使用Pig脚本,构建了一个特征矩阵,通过该矩阵我们可以训练和预测航空公司的延误,准确度约为80% 项目详情 建立了一个预测航空公司延误的模型,准确度约为80% 将航空公司数据集与UCI Repo的740万飞行记录一起使用 利用Pydoop实现MapReduce以构建特征矩阵 使用Pig脚本生成功能 使用Python,Scikit-Learn,Pig,Hadoop,HDFS,AWS EMR,IPython构建 技术指标 Python 2.7 Hadoop 2.7.3 Scikit学习 大熊猫 线性回
2022-12-29 17:10:00 6KB python hadoop random-forest scikit-learn
1
信用风险建模:使用Python和ML进行信用风险分析
2022-12-29 02:06:15 7.75MB python machine-learning numpy scikit-learn
1
ner_crf ner_crf是Jupyter笔记本,它使用 / 实现,使用条件随机字段(CRF)描述了命名实体识别(NER)。 依存关系 ner_crf用编写,因此在使用python3之前应下载最新版本的python3 。 可以从找到python的下载(建议使用3.5.1版)。 您还需要能够运行Jupyter Notebook(请参阅 )。 还需要以下python库来运行ner_crf笔记本:
2022-12-12 20:26:51 961KB python nlp machine-learning crf
1
贷款违约数据集含有 年龄、教育、工龄、地址、收入、负债率、信用卡负债、其他负债以及违约情况的字段。通过各特征来判断用户的违约情况。用到的技术模型如下 逻辑回归 面对一个回归或者分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。 k近邻法(k-nearest neighbor,k-NN) 一种基本的分类和回归方法,是监督学习方法里的一种常用方法。k近邻算法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练实例类别,通过多数表决等方式进行预测。 决策树 一种基于树结构来进行决策的分类算法,我们希望从给定的训练数据集学得一个模型(即决策树),用该模型对新样本分类。决策树可以非常直观展现分类的过程和结果,一旦模型构建成功,对新样本的分类效率也相当高。 SVM(Support Vector Machine) 中文名为支持向量机,是常见的一种判别方法。在机器学习领域,是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析。 模型评估 可以根据混淆矩阵。得到其Accuracy准确率以及F1 score
2022-12-06 15:52:04 8KB scikit-learn 机器学习 分类模型 Python
1
使用机器学习进行疾病诊断 医疗保健领域的机器学习模型。 乳腺癌检测-使用KNN和SVM 糖尿病发作检测-使用神经网络和网格搜索 角膜动脉疾病(心脏病)诊断-使用神经网络 自闭症谱系障碍(神经发育障碍)诊断-使用简单的神经网络 数据集从UCI机器学习存储库获得。
1
前言第一部分 机器学习的基础知识第1章 机器学习概览1.1 什么是机器学习1.2 为什么使用机器学习1.3 机器学习的应用示例1.4 机器学习系统的类型1.5
2022-11-20 19:40:25 35.44MB
1