多得分手 允许在scikit的cross_val_score使用多个度量功能的cross_val_score 。 正如已经讨论过的那样,Python的SciKit包含了用于计算估计量评估指标的强大功能(使用cross_val_score ),但在为同一分类器计算多个指标而不进行再次训练时,它似乎失败了。 由于仅接受单个度量标准名称或单个可调用名称的函数的scoring参数而出现问题。 此存储库的模块multiscorer是一种在cross_val_score中使用任意数量的指标的解决方法。 安装 要“安装”模块,只需下载源代码并将其放置在项目的目录中即可。 (或者,下载multiscor
1
信用卡欺诈检测 使用Logstic Regression对信用卡欺诈检测进行分类 步骤以及一些需要注意的点 特征工程 样本不均衡问题的解决(降采样以及过采样两种方式) 下采样策略 交叉验证(充分利用数据,使模型可以说服力) 模型评估方法(分类准确率,精确率,召回率,F1值) 正则化惩罚(防止模型过拟合,日期L2正则化) 逻辑回归阈值对结果的影响(通过重复矩阵​​的可视化以及召回率来体现) 过采样策略(SMOTE算法) 如何运行? 信用卡数据集为“ creditcard.csv”,地址为: ://myblogs-photos-1256941622.cos.ap-chengdu.myqcloud
1
使用CNN的作者身份归属 给定某些作者提供的一组文档,请使用CNN正确标识其作者。 项目概况 我将使用卷积神经网络(CNN)进行文本分类。 我的项目的主要思想是对博客进行分类,因为某些作者正确地对博客进行了分类。 我还将把它与最先进的机器学习方法进行作者归因。 问题正在调查中 我要在此项目中解决的问题是作者身份归属。 出资归属是指给定一组作者提供的一组文档,然后创建一个系统,该系统在给定新的看不见的文档的情况下能够告诉该文档的原始作者。 这些系统如今已变得非常流行。 使用此类系统的一项重要技术是识别有争议的文件。 当两个或两个以上的人要求特定文件的作者身份时,就会出现此问题。 另一个讽刺意味是
1
PCR出口 使用scikit-learn库构建主成分回归模型的Python包。 该软件包遵循与scikit-learn API相同的原理,并公开了类似的fit和predict方法。 在PyPI上查看它: ://pypi.org/project/PCRegression/ 安装 该工具是使用python3构建的。 使用pip从PyPI安装。 # If Python3 is your default python, use $ pip3 install PCRegression # If Python 3.x is not your primary version of python, th
1
决策树癌症预测 使用现有数据通过决策树进行学习来预测乳腺癌的示例(scikit-learn / python) 加工 收集的数据样本已分为测试样本和训练样本。 使用scikit的决策树生成器和转换集,可用于基于ID3生成树。 然后可以将测试数据用于交叉验证生成的树的准确性。 这个小程序还生成pdf,以可视化生成的树。 注意 该程序仅用于演示/实验目的。 以下是依赖项 python numpy scipy scikit-学习pydotplus graphviz 使用说明 安装python版本2.7 要安装上述软件包,请遵循以下命令 点安装numpy 点安装scipy 点安装scikit学
1
手写数学表达识别 该项目旨在识别,划分,分类和解析手写数学表达式。 *项目的第一阶段,即单个数学符号的分类以及垃圾拒绝已于2018年3月5日完成。 *项目的第二阶段,即将表达式分割成单个符号并传递给分类器引擎,已于2018年4月8日完成。 第三阶段,项目的最后阶段已经完成。 此阶段构建了一个解析器,该解析器采用分类的符号并将它们编织成逻辑上正确的数学表达式。 为了进行训练,使用了CROHME数据集: ://www.isical.ac.in/~crohme/CROHME_data.html 请在项目中找到README.txt文件,以获取提取特征和运行模型的说明。 有关功能和模型的更多
1