可直接运行, 1、内容概要:本资源主要基于XGBoost与LightGBM实现文本分类,适用于初学者学习文本分类使用。 2、数据集为电商真实商品评论数据,主要包括训练集data_train,测试集data_test ,经过预处理的训练集clean_data_train,训练好的word2vec词向量模型w2v_model.pkl和中文停用词表stopwords.txt,可用于模型训练和测试,详细数据集介绍见商品评论情感数据说明文档。 3、源代码:word2vec_analysis.py 是基于Word2Vec进行词向量的生成,采用向量平均求得句向量,然后分别构建RandomForest和GBDT分类模型进行文本分类。 4、源代码:xgboost_model.py是基于xgboost模型对文本进行分类。 5、源代码:lightGBM_model.py是基于lightGBM模型对文本进行分类。
2024-04-10 20:39:49 37.99MB 数据集
1
利用nerfstudio 构建自己的nerf模型,数据集poster
2024-04-10 20:24:09 714.97MB 数据集 Nerf 三维重建 计算机视觉
1
COCO 2017 完整数据集百度网盘链接,国内下载会更快,可用于2D 目标检测训练和验证。
2024-04-10 17:11:26 130B 数据集
1
python数据分析,因为股票价格的影响因素太多,通过k线数据预测未来的价格变化基本不可行,只有当天之内的数据还有一定的关联,故feature与target都选择的是当天的数据。 加载数据 为了加快数据的处理速度,提前将mariadb数据库中的数据查询出来,保存成feather格式的数据,以提高加载数据的速度。 经过处理,不同股票的数据保存在了不同的文件中,列名还保持着数据库中的字段名。我选择了股票代码为sh600010的这只股票作为数据分析的数据来源。预测出来的结果与真实值变化趋势相近,说明线性回归模型在一定程度上能够解释收盘价与选取的feature之间的关系
2024-04-10 10:35:59 342KB python 机器学习 数据集 股票预测
1
竹签标注(xml格式)数据集(210张)
2024-04-10 09:21:24 439.7MB 数据集
1
均已标注好,划分为训练集验证集测试集,可直接用于训练 12356张训练集,1266张验证集,654张测试集
2024-04-09 19:22:44 265.79MB 目标检测 数据集
1
苹果分级的图片数据集,已经抠图,白底,
2024-04-09 17:08:19 10.05MB 数据集
1
数据量在四位数左右,可供于机器学习使用,深度学习可能不太够。 不同开源数据库的数据标签格式不统一,可能要手动处理或者做一个多模态。 同时也包括一部分嘴唇的图象数据 仅供交流学习使用 侵删 本人也在做相关实验,欢迎各位在评论区交流经验和算法知识
2024-04-09 16:10:02 873.76MB 数据集 paddlepaddle paddlepaddle 阿里云
1
内含3个子文件夹,未进行训练集与测试集的分类。分别包含了Annotations文件夹,xml文件的文档,ImageSets文件夹,还有最主要的JPEGImages文件夹,里面是我们本次训练所必须的图片数据集。拿到这个压缩包后,我们还需要对其进行一个大致的训练集与测试集的分类,以此来方便之后的每一次训练。 另外需要注意的是,该压缩包里的Annotations文件夹里的xml文件,需要转换为txt文本文件。 感谢下载。
2024-04-09 15:39:38 316.14MB 计算机视觉 数据集
1
CCTSDB数据集---完整版 yolov5直接使用 文件过大,提供网盘链接下载。 train:16247张 val :3572 张 test :1429 张
2024-04-09 15:22:00 190B 数据集
1