决策树分类器 使用Python的决策树分类器sklearn。
2022-02-18 18:35:56 13KB JupyterNotebook
1
心电图分类 使用LSTM对几种不同心脏病中的ECG信号进行分类。 来自PTB诊断数据库的数据。
2022-02-18 16:55:16 44KB JupyterNotebook
1
Forest_Type_Cover_Prediction
2022-02-18 14:45:17 1.18MB JupyterNotebook
1
YSDA自然语言处理课程 这是2020年版本。 有关上一年的课程资料,请转到 每周的讲座和研讨会资料位于./week*文件夹中,有关资料和说明,请参阅README.md YSDA作业的最后期限将在Anytask中列出()。 任何技术问题,想法,课程材料中的错误,贡献想法-添加 安装库和故障排除:。 教学大纲 词嵌入 讲座:单词嵌入。 分布语义。 基于计数的(神经前)方法。 Word2Vec:学习向量。 GloVe:先数一数然后学习。 评价:内在性与外在性。 分析和可解释性。 研讨会:玩单词和句子的嵌入 作业:基于嵌入的机器翻译系统 文字分类 讲座:文本分类:简介和数据集。 通用框架:特征提取器+分类器。 经典方法:朴素贝叶斯,MaxEnt(逻辑回归),SVM。 神经网络:通用视图,卷积模型,递归模型。 实用技巧:数据增强。 分析和可解释性。 研讨会:使用卷积神经网络进行文本分类。
2022-02-17 14:04:06 374.91MB JupyterNotebook
1
乳腺癌 该代码用于通过诸如团块厚度,细胞大小,核有丝分裂等变量来预测患者是否患有乳腺癌 我进行探索性数据分析,创建相关图,构建训练和测试数据集 试验多种机器学习模型,例如逻辑回归,LGBM和随机森林
2022-02-16 00:01:38 95KB JupyterNotebook
1
Tianyancha 天眼查爬虫API,一行代码将目标企业的工商信息分门别类地保存为Excel文件。 运行环境 ,建议使用下载安装运行环境。 使用方法 下载仓库到本地 打开Tianyancha.ipynb 输入查询公司的名称并运行所有代码块 程序开始运行,对分类信息开始依次爬取,输出结果范例为中信.xlsx 改进方向 非阻塞方法:代理池,引用,Headers的设置 性能提升 API化:类似get_company_info(keyword)
2022-02-15 20:25:47 34KB JupyterNotebook
1
订购信息 Artech House出版商 国际标准书号(ISBN):9781630815974 版权:2019 Python:registered: Python工具是使用3.6.4版本开发的,而GUI是使用Qt 5.10.0开发的。 该工具套件利用了包括SciPy,NumPy和Matplotlib在内的软件包。 要安装Python和必要的软件包,请先导航至并下载适用于所选操作系统的安装程序。 启动Python安装程序,然后按照屏幕上的说明进行操作。 安装完成后,请在命令提示符处键入以下命令,以确保安装了以下软件包: > pip install numpy > pip install scipy > pip install matplotlib > pip install pyqt5 > pip install -e mypath/pyradar 其中mypath是文件夹“ pyradar”的路径。 M
2022-02-14 11:11:54 9.51MB JupyterNotebook
1
销售预测项目 该项目分析了在各个商店出售的食品的销售预测。 目的是帮助零售商了解在增加销售中起关键作用的产品和商店的属性。 目标: 探索性数据分析 数据清理 数据可视化 建立机器学习模型 随机森林 提供建议 数据清理 我使用python加载了数据集并导入了库,Pandas和Numpy,以开始探索数据。 前几个步骤需要验证数据类型并检查语法错误。 尽管所有数据类型都是一致的,但两列中缺少值。 在继续之前,Item_Fat_Content列中的语法存在一些需要更改的不一致之处。 例如,字符串是“ LF”,“ reg”,“ low fat”,需要将其映射到“ Low Fat”或“ Regular”下的字典中。 现在我们可以继续处理遗漏的值。 “ Outlet_Size”和“ Outlet_Type”中缺少值。 在填写缺失值之前,我创建了一个No Flag列,以防万一我想检查输入的值如何影响
2022-02-13 23:17:28 11.98MB JupyterNotebook
1
BDC2019-排名24 中国高校计算机大赛-大数据挑战赛,Rank24解决方案 赛题描述: 我对业务的简单理解:就是就是搜索引擎,你搜一个“我是蔡”,即一个查询对应可能的搜索结果(即标题):①我是蔡虚鲲②我是菜徐坤③我是会员的接班人这时候你很可能就会去点我是蔡徐坤这就是这个比赛的任务,给你一个query-title对,让你预测这个query-title对被点击的概率,即可看做一个二分类问题,标签为0或1。 方案细节: lgb两千万数据分数abang 0.590 nn替换纯文本输入,6个nn进行stacking之后分数a榜接近0.58。 nn stacking + lgb a榜605 b榜618。 方案耗时: 6个nn训练时间:共计24小时。特征生成时间(在1亿数据上):普通特征1小时,w2v距离特征8小时,tsvd特征1小时。共计10小时。 赛题解决方案: 通过分析可知, ①que
2022-02-13 11:03:48 199KB JupyterNotebook
1
使用神经网络和其他分类器进行环境声音分类ESC 使用音频数据集进行音频特征提取和分类 包含ECS-10音频数据。 它包含10类不同的环境声音(海浪,孩子们玩耍等) 主要目标是比较6个经过测试的分类器的分类准确性。 依存关系 带有Python 2.7的Anaconda 2。 (尚未测试Python 3.6) Librosa(音频加载,音频可视化和特征提取) 科学工具学习 Keras(Theano后端) Numpy,Matplotlib 熊猫(数据可视化) Jupyter笔记本 添加了Jupyter Notebook(Python 2.7内核)以说明工作流程。 用于特征提取和分类的脚本已作为.py文件添加,并随后全部加载到Jupyter Notebook中。 运行feature_extraction.py label.npy创建一个numpy数组( feature.npy ),
2022-02-13 09:14:39 39.76MB JupyterNotebook
1