COM6012可扩展机器学习-谢菲尔德大学 2021年Spring,(1-5)和(6-10) 在,我们将学习如何使用大规模的机器学习。 我们将使用我们大学的。 您必须使用连接到HPC。 该版本使用的 (2020年9月2日),并且在下面进行了10节。 您可以参考以获取更多信息,例如时间表和评估信息。 第一场:Spark和HPC简介 第2节:RDD,DataFrame,ML管道和并行化 专题三:可扩展的矩阵分解,用于推荐系统中的协同过滤 第四节:可扩展的k-means聚类和Spark配置 主题5:可伸缩的PCA,用于降维和Spark数据类型 第六节:高级决策树 第七讲:可扩展的逻辑回归 第八讲:可扩展的广义线性模型 主题9:可伸缩神经网络 第十部分:云中的Apache Spark( 客座演讲 您也可以下载以供预览或参考。 致谢 这些材料是参考以下资源构建的: 官方的。 注意:最新信息
2021-11-17 03:28:08 47.68MB machine-learning scalable-data-analysis Python
1
使用Python负责任的机器学习 训练可解释机器学习(ML)模型,解释ML模型以及调试ML模型的准确性,辨别力和安全性的技术示例。 概述 随着越来越多的经济体接受自动化和数据驱动的决策,使用人工智能(AI)和ML模型可能会变得越来越普遍。 尽管这些预测系统可能非常准确,但它们常常是难以理解且不受欢迎的黑匣子,它们仅产生数字预测,而没有附带的解释。 不幸的是,最近的研究和最近的事件引起了人们对脆弱的AI和ML系统中数学和社会学缺陷的关注,但是从业人员通常没有正确的工具来撬开ML模型并对其进行调试。 本系列笔记本介绍了几种方法,这些方法可以提高ML模型的透明度,责任感和可信赖性。 如果您是数据科学家或分析师,并且想要训练准确,可解释的ML模型,向您的客户或经理解释ML模型,测试这些模型的安全漏洞或社会歧视,或者您担心文档,验证或法规方面的问题要求,那么本系列Jupyter笔记本非常适合您! (
2021-11-16 23:21:24 10.74MB python data-science machine-learning data-mining
1
ATM机 使用python的ATM机器项目设计GUI Tkinter。
2021-11-16 20:04:30 38KB Python
1
假新闻检测器 欢迎分类为假新闻。 目标 端到端的机器学习管道将: 提取原始文本数据。 将原始文本数据处理为段落向量 将受过训练的有监督学习分类器应用于段落向量,以将原始文本标记为fake或not_fake fake 知识 比较当今使用的词嵌入应用程序的不同方法 在两者上都使用像Gensim这样的神经嵌入实现 词向量化和 段落矢量化 超调谐神经嵌入算法作为端到端流水线的一部分 使用标准的行业分类器,并将其与端到端管道集成 对多阶段机器学习管道进行故障排除 结构 (第一阶段)假新闻分类: 分类器应用程序伪造新闻文本。 嵌入代码是为学生事先准备的,因此他们可以专注于应用分类器基础知识。 将关注度量(精度,召回率,F1)和模型选择 (第2阶段)文本嵌入技术: 什么是Word2Vec,什么是Paragraph2vec 回顾历史策略以及word2vec为什么效果更好 TF IDF(历史简
2021-11-16 18:44:41 215.26MB machine-learning pipeline word2vec classification
1
- 笔记这是将该应用程序投入生产的示例,您应该使用celery或aws lambda。
2021-11-16 17:23:32 15.13MB machine-learning django keras image-classification
1
matlab预测电池寿命程序代码循环寿命预测使用机器学习 这项研究基于斯坦福大学学生的工作,题为“容量退化前电池循环寿命的数据驱动预测”。 他们创建了一个数据集,这是同类中最大的开源,并使用机器学习来预测锂离子电池寿命。 我研究的目的是首先重新创建他们的数据,然后最终创建我自己的模型,以与使用相同数据集的该项目的准确性相媲美。 本研究中使用的数据集可在 . results_recreation.m 目的:在matlab上加载三批数据并组合成一个大数据集。 改变循环寿命的一些不正确的值。 然后,代码提取并处理相关数据以创建运行弹性网络模型所需的 csv 文件。 需要:Matlab,三个数据集 典型的运行时间是几分钟 方差_数据.csv 目的:包含所有 124 个电池的循环寿命的方差数据的 csv 文件。 该文件通过为每列提供标题而略有改动。 运行python程序时需要这样做。 要求:无 Data_recreation.ipynb 目的:为方差、循环寿命数据集生成弹性网络。 此代码将 csvfile 调用到数据集中,并准备要放入 Elastic net 的数据。 数据按照与斯坦福论文相同的
2021-11-16 14:46:39 28KB 系统开源
1
乳房X光造影质量分类 客观的 该项目使用不同的机器学习算法(包括支持向量机,逻辑回归,决策树,朴素贝叶斯,人工神经网络等)将乳腺肿块分类为良性或恶性。 为每条曲线绘制ROC曲线,以识别问题的最佳分类算法。 问题 乳房X线照相术是当今可用的最有效的乳腺癌筛查方法。 然而,由于乳房X线照片解释导致的乳房活检的低阳性预测价值导致大约70%的不必要的活检具有良性结果。 为了减少不必要的乳房活检的数量,最近几年提出了几种计算机辅助诊断(CAD)系统,这些系统可以帮助医生决定对乳房X光检查中发现的可疑病变进行乳房活检或进行而是进行短期随访检查。 数据集 已使用UCI储存库中的“乳腺摄影质量”公共数据集。 (来源: : )该数据集可用于根据BI-RADS属性和患者的年龄。 属性数量:6(1个目标字段:严重性,1个非预测性:BI-RADS,4个预测性属性) 属性信息: BI-RADS评估:1到5
1
与Wayback Machine API交互的Python软件包和CLI工具 安装 使用 : pip install waybackpy 直接从GitHub安装: pip install git+https://github.com/akamhy/waybackpy.git 支持的功能 存档网页 检索网页/域的所有档案 检索接近日期或时间戳的存档 检索所有具有特定前缀的档案 轻松获取档案的源代码 CDX API支持 用法 作为Python包 >> > import waybackpy >> > url = "https://en.wikipedia.org/wiki/Multivariable_calculus" >> > user_agent = "Mozilla/5.0 (Windows NT 5.1; rv:40.0) Gecko/20100101 Firefox/40.0"
1
决策树 对新患者进行分类的乳腺癌数据集的决策树。 训练数据 该模型是使用699例乳腺癌患者的数据集构建的。 数据集经过归一化和清洗,最终使500名患者接受了培训和测试的最终数据集。 共有500例患者,其中262例(52.4%)患有良性肿瘤,238例(47.6%)患有恶性肿瘤。 为了进行训练,使用了80%的数据,其中40%是良性肿瘤,40%是恶性肿瘤,其余20%用于测试。 在这20%中,12.4%来自良性肿瘤,而7.6%来自恶性肿瘤。 怎么跑 克隆存储库 启动你的服务器 现在,您可以从“决策树”中访问预测结果。 要查看命中率,请inspecionar并检查console 。 注释 src目录中的decision-tree.js文件已从以下存储库中删除,该存储库允许使用和修改: :
1
DeepAR:自回归递归网络的概率预测 描述 这是的实现。 这是什么实现不包含 尽管实现起来很微不足道,但是目前遗漏了两个重要的部分。 用于项目分类的联合嵌入学习 对高斯分布的支持,适用于预测实际价值时间序列。 如果您决定实施高斯分布,请注意重新分配分布参数。 请参阅本文。 结果 由于该论文没有提供定量结果,因此我们使用了Amazon Sagemaker上的carparts数据集进行了测试。 所有预处理和训练/有效拆分均完全按照本文中所述进行。 SageMaker的输出(单个时期) [07/01/2018 14:22:34 INFO 139862447138624] #test_score (algo-1, wQuantileLoss[0.5]): 1.12679 [07/01/2018 14:22:34 INFO 139862447138624] #test_score (algo
1