添加正则化项,是指在损失函数上添加正则化项,而正则化项可分为两种:一种是L1正则化项,另一种是L2正则化.我们把带有L2正则化项的回归模型称为岭回归,带有L1正则化项的回归称为Lasso回归.1.岭回归引用百度百科定义.岭回归(英文名:ridgeregression,Tikhonovregularization)是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。通过定义可以看出,岭回归是改良后的最小二乘法,是有偏估计的回归方法,即
1
这是V1版本,后续版本迁移到ApacheCN组织的kaggle项目里。这个repo就停止更新了。 目录 简介 kaggle入门题目,训练数据已经处理成向量并与标签一一对应,判断测试数据对应的标签。 项目基本思路 在solutions中存储不同的解法,在所有解法单独实现完成之后,最终结果采用所有解法的结果来做交叉验证之后的答案,即对于某个向量的预测,采用所有解法中出现次数最多的作为结果。 main.py作为项目的入口,所有程序的调用都采用 python main.py -* * 的形式来调用,主要是为了统一log等的设置 得分进展 2018-03-12 score=0.99285 keras-原始数据0.5倍缩放之后,采用keras深度学习 2018-03-11 score=0.98542 svm-将原始数据0.5倍缩放之后,采用pca降维,再使用svm分类 2018-03-08 scor
2021-12-22 18:30:32 14.83MB Python
1
包含《COVID-19》,《英国在线零售业务》,《电商行业用户行为分析数据集》,《电商婴儿用户》,《亚马逊手机》等17个数据集,用于数据分析挖掘,kaggle比赛练习
2021-12-22 15:12:25 191KB 数据挖掘分析 kaggle比赛
有毒评论分类挑战笔记本 在其上查看该比赛的详细信息 要求 数据可以从下载一些笔记本使用GloVe预先训练的单词向量。 可以在下载(请注意版本)。 到目前为止,Kaggle得分 RCNN-0.9721 字符级深RCNN-0.9750 Logistic回归+朴素贝叶斯SVM-0.9797 RCNN v2-0.9799 合并的RCNN-0.9837 LG NB-SVM +合并RCNN集成-0.9850 LG NB-SVM + RCNNv3 + CharRCNN集成-0.9855
2021-12-21 16:03:56 338KB JupyterNotebook
1
作者: Ivan Bongiorni ,数据科学家。 卷积递归Seq2seq GAN用于时间序列数据中缺失值的插补 描述 该项目的目标是为时间序列数据的插补实现递归卷积Seq2seq神经网络的多种配置。 提供了三种实现: 循环卷积seq2seq模型。 基于上述相同体系结构的GAN (生成对抗网络),其中训练了Imputer来欺骗试图区分真实和假(推算)时间序列的对抗网络。 一种部分对抗的模型,其中先前模型的两种损失结构都组合在一个模型中:Imputer模型必须减少真实的错误损失,同时尝试欺骗鉴别器。 模型在TensorFlow 2中实现,并在数据集中进行了训练。 档案文件 config.yaml :用于数据预处理,培训和测试的配置参数。 管道: main_processing.py :启动数据预处理管道。 其结果是将准备好训练的数据集以.npy( numpy )格式保存在/da
2021-12-19 16:26:05 3.01MB python machine-learning tensorflow cnn
1
关于Criteo数据的FFM 尝试使用以下现场感知分解机(FFM)的实施方式来复制的结果: 数据 下载完整的数据集并将其转换为CSV格式: ./data.sh ln -s train.csv tr.csv ln -s test.csv te.csv 或者,使用微小的数据: ln -s train.tiny.csv tr.csv ln -s test.tiny.csv te.csv 用法 建立LIBFFM并预处理数据,就像: make 移至或并按照说明进行操作。 参考
2021-12-18 15:10:28 370KB hive kaggle factorization-machines ctr-prediction
1
train = pd.read_csv('../input/titanic/train.csv') test = pd.read_csv('../input/titanic/test.csv') train.head() 原创文章 2获赞 1访问量 145 关注 私信 展开阅读全文 作者:KeithVV
2021-12-17 18:57:10 33KB le 泰坦尼克号
1
给大家分享一套课程——Kaggle十大案例精讲课程,附课件+代码+数据。希望对大家学习有帮助。
2021-12-17 17:04:26 808B kaggle
1
黑色星期五销售 简介:该项目将分析黑色星期五的销售数据,并获得更多见解,以回答以下关键业务问题。 什么是最大售出产品 哪个产品类别的销售额最高 查找购买者的年龄段和他们的intreset乘积 寻找买家的婚姻状况 分析在销售中具有较高兴趣的性别群体 我从挑选了数据集。 目录 安装 文件类型 结果 安装 使用下面的git命令随意克隆/分叉reporsity使用克隆github仓库 $ git clone https://github.com/mathubhalan/Black-Friday-Sales.git #文件类型 代码文件“ SalesAnalysis.ipynb”是该项目代码的jupyter笔记本格式。 数据文件夹包含从Kaggle下载的数据集“ BlackFriday.csv”。 许可证文件包含该项目的通用GNU许可证。 SalesAnalysis.html是笔记本文件
2021-12-16 18:26:14 5.46MB HTML
1
信用卡模糊检测kaggle--数据集 背景信息信用卡公司必须能够识别欺诈性的信用卡交易,以免向客户收取未购买商品的费用,这一点很重要。 内容数据集包含欧洲持卡人在2013年9月使用信用卡进行的交易。 该数据集显示了两天内发生的交易,在284,807笔交易中,我们有492起欺诈。 数据集高度不平衡,阳性类别(欺诈)占所有交易的0.172%。 它仅包含数字输入变量,它们是PCA转换的结果。 遗憾的是,由于机密性问题,我们无法提供有关数据的原始功能和更多背景信息。 功能部件V1,V2,...,V28是PCA获得的主要组件,尚未通过PCA转换的唯一功能部件是“时间”和“量”。 功能“时间”包含数据集中每个事务和第一个事务之间经过的秒数。 功能“金额”是交易金额,此功能可用于与示例相关的成本敏感型学习。 特征“类别”是响应变量,在发生欺诈时其值为1,否则为0。 启示识别欺诈性的信用卡交易。
2021-12-15 11:58:49 216KB JupyterNotebook
1