TMDB电影数据集分析 目录 关于该项目 数据集:选择了TMDB Kaggle数据集进行分析。 该数据集应有助于回答一些有关电影的有趣问题。 对于数据集中的每个电影(行),我们都有21个特征(列)来描述它; 例如预算,收入,用户评分和其他功能。 该项目是为Udacity Data Analyst纳米学位计划而构建的。 关键问题 电影预算与它们产生的收入之间有什么关系? 更高的预算会转化为更高的收入吗? 电影的预算与其受欢迎程度之间有什么关系? 电影的播放时间与平均投票之间有什么关系? 较长的电影收视率较低吗? 但是,在意识到缺少预算和收入数据之后,提出了一系列新问题。 缺少收入和预算的数据标记为0.0而不是NaN,并且在运行df.isnan()或df.info()时未在早期数据检查中显示。 运行df.describe()时,超过50%的数据为0.0,这引起了人们对缺失值的注意。
2022-03-06 16:28:56 3.26MB JupyterNotebook
1
从零开始使用CNN进行性别识别 我们使用CNN来预测30位说话者(15位男性和15位女性)中的性别,我们从头开始设计CNN,而无需使用任何tensorflow或keras库,并且在对模型从未听过的说话者性别进行分类时获得了93.47%的准确性。 问题是学习如何处理音频数据并建立模型以对声音进行分类。 我们做了很多研究,以了解如何解决该问题以及许多人如何解决该问题。 在这种方法中,我们将音频片段转换为图片(梅尔频谱图),并使用这些图片来训练卷积神经网络模型(CNN)。
2022-03-06 12:21:17 137KB JupyterNotebook
1
计算机视觉与机器学习 SRU:Places Recognizer项目 Mahya Mahdian和Mohammad Hassan Sattarian 该项目旨在训练一种能够识别我们大学(SRU)六个不同地方的模型。 选择的地方(模型类): 电脑校园 建筑校园 场地 自助餐 自己 文化馆 快速开始 连接到服务器波纹管并拍照或从图库中选择以进行预测: http://http://95.211.250.100:8080/predict 或者 克隆存储库,打开一个终端并输入: cd " Usage Sample " python predict.py [ImagesAddress] 结构 模型是一种基于微调实现是(显然)是经过VGS16网络预先训练而成的Places图像,更具体地说是place365数据集,它仅使用基本模型的卷积层进行了解冻,并经过了最后的5个卷积层的训练,并连接到了具
2022-03-06 11:08:38 145.41MB JupyterNotebook
1
关于这个项目 模拟退火算法的实现可最大化数学方程式的结果。 运行项目 您可以使用jupyter Notebook或google colab来运行。
2022-03-05 21:18:57 33KB JupyterNotebook
1
MachineLearning_Project 通过操纵神经网络的各种参数,已经开发出用于人类活动识别的CNN体​​系结构。 培训和测试在公共数据集MHEALTH上进行,用于将人类活动分为与各种活动相对应的12类。 通过由2个卷积,2个最大池和2个线性层组成的体系结构,我们实现了96%的精度和90.52%的F1得分,优于在同一数据集上训练的几个最新模型。
2022-03-05 19:23:14 98KB JupyterNotebook
1
DSGRecruitmentTask_DryBeanDataset Himank Sehgal EE第二年19115062 目录: 项目概况 资料说明 使用的图书馆 方法的结构 结论 项目概况: 我们获得了一个包含“狗和猫”图像的数据集。 我们的目标是开发一种将获取输入图像的算法,并基于该算法学习的参数,它将预测给定的输入测试图像是猫还是狗 资料说明: 对于这个项目,我将使用Kaggle竞赛中名为 v。Cats的数据。 它收集了各种各样的.jpg文件,这些文件已由我整理到单独的培训和测试文件夹中,并将图像进一步分为CAT和DOG子文件夹,这有助于在编写代码时轻松跟踪文件。数据文件已清理并删除了几个出现错误的文件。 数据集中的图像总数:24994 火车中的图像数量:18743 测试集中的图像数量:6251 使用的库: 脾气暴躁的 大熊猫 Matplotlib 火炬 火炬视觉 斯克
2022-03-05 15:37:34 7.32MB JupyterNotebook
1
背景 epitopepredict提供了用于执行多种表位预测方法的标准化程序界面和命令行工具。 当前,这主要由几个MHC结合预测的接口组成,然后可以以一致的方式处理和可视化其结果。 有一种用于MHC I类预测的内置方法,并且提供了TEPITOPEPan方法作为针对MHC II类的“内置”方法。 IEDB工具和netMHCpan,netMHCIIpan和MHCFlurry也受支持。 这些工具可免费用于学术用途,但必须单独安装。 该软件可在大多数linux系统上运行。 文档位于 安装 当前的版本: pip install epitopepredict 或github上的最新版本: pip install -e git+https://github.com/dmnfarrell/epitopepredict.git#egg=epitopepredict
1
102类鲜花数据集的分类 这是我们在完成课程过程中所做的一个小组项目 数据集 该数据集包含102个类别。 每个类别有40到258张图像。 图像有不同的变化。 数据集可在下载。 结果 该部分的代码可以在找到。 我们对此数据集尝试了不同的方法。 所有方法的比较如下所示: 根据表1的比较,我们决定将较小的模型作为最终模型,并运行更长的时间。 我们以提前停止条件运行了50个时期的模型。 条件是,如果在5个时期内验证准确性没有提高0.0001。 我们的训练在23个纪元后停止,训练准确性为100%,训练损失为9.8343e-04,验证准确性和损失分别为53%和3.54。 平均测试准确度为47%,所有类别特定准确度的平均值为44%,平均准确度为0.49。 混淆矩阵和每个精度数的类数如下所示: 各个类别的准确性和精确度如下图所示。 交叉验证结果 该部分的代码可以在找到。 我们尝试了10折交叉验
2022-03-04 16:50:14 1.59MB JupyterNotebook
1
主题模型教程 此存储库包含简短教程“使用 Scikit-learn 进行主题建模”的笔记本、幻灯片和数据,该教程于 2017 年 9 月在发布。 内容 涵盖摘要教程。 有三个关联的 IPython 笔记本: :提供使用scitkit-learn预处理文档的基本介绍。 :涵盖了通过scitkit-learn提供的 NMF 实现对主题模型的应用和解释。 :关于使用主题一致性为 NMF 选择主题数量的更高级材料。 为了演示主题建模技术,一个示例数据集。 这包括 2016 年从收集的 4,551 篇新闻文章,存储在单个文本文件 (25MB) 中,每行一篇文章。 依赖关系 此代码已使用 Python 3.6-3.8 进行了测试。 核心包要求是: scikit 学习 麻木的 matplotlib 模型选择代码也依赖gensim包构建Word2Vec模型(用v4.0.1测试)。 示例数据集的
2022-03-04 13:05:11 13.91MB JupyterNotebook
1
Quantium数据分析虚拟实习 背景资料 过去几年,Quantium与一家大型超市品牌建立了数据合作伙伴关系,后者提供交易和客户数据。 您是Quantium分析团队的分析师,负责提供高价值的数据分析和见解,以帮助企业制定战略决策。 超市将定期更改其商店布局,产品选择,价格和促销。 这是为了满足客户不断变化的需求和喜好,跟上市场竞争的加剧或利用新的机会。 Quantium分析团队参与了这些过程,以评估和分析变更的性能并建议变更是否成功。 在此程序中,您将学习关键的分析技能,例如: 数据争吵数据可视化编程技巧统计数据批判性思考商业思维 任务1:数据准备和客户分析 对客户的交易数据集进行分析,并确定客户的购买行为以产生见解并提供商业建议。
2022-03-04 11:15:37 238KB JupyterNotebook
1