类别变量(categorical variable):只有有限个值得变量,如性别就是一个类别变量,类似于这种。 如果不对这些变量做预处理,训练出来的模型可能是错误的。 主要有三种方法来处理这个变量。 如何从数据中找到类别变量? 我们可以对每一列检查它的数据类型,某列的数据类型为”object”,表明该列有文本(也可能是其他的,但对我们的目标来说不重要),某列是数据是文本,则该列表示类别变量。 代码如下: # 获得类别变量的列名,存放在列表中 s = (X_train.dtypes == 'object') object_cols = list(s[s].index) 1.直接删除类别变量。
2023-02-20 14:28:36 63KB ab al ar
1
电力系统负荷(电力需求量,即有功功率)预测是指充分考虑历史的系统负 荷、经济状况、气象条件和社会事件等因素的影响,对未来一段时间的系统负荷 做出预测。负荷预测是电力系统规划与调度的一项重要内容。短期(两周以内) 预测是电网内部机组启停、调度和运营计划制定的基础;中期(未来数月)预测 可为保障企业生产和社会生活用电,合理安排电网的运营与检修决策提供支持; 长期(未来数年)预测可为电网改造、扩建等计划的制定提供参考,以提高电力 系统的经济效益和社会效益。 复杂多变的气象条件和社会事件等不确定因素都会对电力系统负荷造成一 定的影响,使得传统负荷预测模型的应用存在一定的局限性。同时,随着电力系 统负荷结构的多元化,也使得模型应用的效果有所降低,因此电力系统负荷预测 问题亟待进一步研究。
2023-01-28 20:43:53 1.13MB python 机器学习 数据挖掘 统计分析
1
ExploratoryDataProject1 说明该作业使用来自UC Irvine机器学习存储库的数据,该存储库是机器学习数据集的流行存储库。 特别是,我们将使用我在课程网站上提供的“个人家庭用电量数据集”:数据集:电力消耗[20Mb]说明:测量一个家庭中一个家庭的电力消耗的方法-在近4年内的分钟采样率。 提供不同的电量和一些子计量值。 数据集中9个变量的以下描述来自UCI网站:日期:以dd / mm / yyyy格式表示的时间时间:以hh:mm:ss格式表示的时间Global_active_power:家庭全球分钟平均有功功率(以千瓦为单位) )Global_reactive_power:家庭全球平均每分钟平均无功功率(以千瓦为单位)电压:每分钟平均平均电压(以伏特为单位)Global_intensity:家庭全球每分钟的平均平均电流强度(以安培为单位)Sub_metering_1:
2023-01-17 00:28:39 22KB 系统开源
1
Cicflowmeter工具,加拿大实验室用来产生以太网数据标签,解压即可使用。 使用方法:         1.进入bin         2.点击CICFlowMeter.bat         3.选择需要解析的.pcap文件,进行解析 用了都说好。 CICFlowMeter是一个开源工具,它从pcap文件生成Biflow,并从这些流中提取特征。 CICFlowMeter是一个网络流量生成器,可从这里获得。它可用于生成双向流,其中第一个数据包确定前进(源到目的地)和后向(目的地到源)方向,因此可以在向前和向后方向上分别计算与统计时间相关的特征。其他功能包括从现有功能列表中选择功能、添加新功能以及控制流超时的持续时间。 注意:TCP 流通常在连接断开时终止(通过 FIN 数据包),而 UDP 流则因流超时而终止。流超时值可以由单个方案任意分配,例如,TCP 和 UDP 的 600 秒。
2023-01-09 17:32:44 15.59MB 网络安全 机器学习 数据生成 入侵检测
1
这是 ShowMeAI 持续分享的速查表系列!本速查表是《数据科学家知识要点图》。数据科学、机器学习、大数据分析……如果我们想成为一名数据科学家,应该如何开始呢?需要了解哪些工具和技术? 这份速查表用“地铁图”的可视化方式,描绘了成为数据科学家的学习路径。每个领域表示为一条“地铁线”,内容主题按照序号标示为一个个车站。你可以选择一条线路,搭乘地铁并穿过所有车站(主题),最终到达目的地或者中途切换到下一条线路。
1
机器学习森林分类的原始数据,分为训练数据和测试数据两部分
2022-12-25 19:02:49 29KB ForestTypes 森林类型
1
这一份Code可以帮助你了解很多可视化、机器学习的内容,包含内容有: 1、数据集(Wine分类数据集、Boston房价回归数据集); 2、数据可视化Code(直方图、折线图、气泡图、小提琴图等); 3、相关性分析Code(Pearson、Spearman等); 4、各种机器学习算法应用案例、调参与效果可视化(K-Means、SVM、随机森林、XGBoost、神经网络等)。
2022-12-25 18:26:14 1.37MB 机器学习 数据可视化
1
机器学习数据大全机器学习数据大全
2022-12-23 12:25:29 4.22MB 机器学习
机器学习数据
2022-12-12 19:46:18 89KB 机器学习 数据集
1
家禽(鸡)疾病诊断机器学习数据集(一共8068张图片),使用手机上的开放数据工具包(ODK)应用程序拍摄的。分类是“球虫病”,“健康”,“新城病”,“沙门氏菌”。图像的大小被调整为224px 224px。
2022-12-12 11:28:39 265.88MB 数据集 家禽 深度学习