RNN-垃圾邮件分类
2022-11-23 10:30:14 35KB JupyterNotebook
1
pa004_health_insurance_cross_sell 该存储库包含脚本,这些脚本实现了保险公司中交叉销售的分类器模型
2022-11-23 07:09:21 690KB JupyterNotebook
1
情绪分析多任务框架 我对研究论文的实施- 动机 情感和情感分析可应用于各种现实问题,例如股票市场预测,灾难管理系统,健康管理系统,组织或个人用户做出明智决策的反馈系统。 在任何企业中,重要的是要了解客户对您的服务和产品的真实感受,因为那才是真正的区别。 销售数据,调查,社交媒体帖子,评级可能有助于我们大致了解客户的观点,但不能提供关于未所说内容的更细粒度的见解。 这是进行情绪和情感分析的方便之处。 情绪分类和情绪强度预测是单独的但密切相关的任务。 多任务学习框架旨在通过利用多个问题/任务的相互关联性来实现通用化。我研究了研究论文中提出的框架-“多合一:使用多任务进行情绪,情感和强度预测集成框架”。 我重建了模型,以检查和比较多任务框架和单任务框架在情感分类和情感强度预测任务上的性能。 多任务框架 多任务学习是归纳传递的一种方法,它通过将相关任务的训练信号中包含的域信息用作归纳偏差来提高泛
2022-11-22 16:12:13 1.39MB JupyterNotebook
1
来自社会媒体数据的实时洞察-数据科学案例研究 这是来自社交媒体数据的实时洞察-简单数据科学案例研究 此数据科学案例研究遵循以下步骤: 本地和全球思维模式 美化输出 寻找共同的趋势 探索热门趋势 深层发掘 频率分析 围绕趋势活动 千言万语的人民 分析使用的语言和各种推文来源 中等文章链接: :
2022-11-21 20:15:25 209KB JupyterNotebook
1
hms:使用tkinter的医院管理系统
2022-11-21 17:29:31 2KB JupyterNotebook
1
使用简单功能可视化梯度优化器 目的 梯度下降是我们用于机器学习的优化的基本原理之一。 但是,希望了解更多有关该领域的初学者会遇到通用图或仅与抽象意义相关的等高线图。 像这样的图形可以初步了解什么是梯度下降及其作用,但是比有趣的图片还缺乏深度。 大多数机器学习模型的高维性使得初学者很难形象化。 本笔记本的目的是提供一个更具体的示例,以使人们对梯度优化器的工作方式以及每个行为都具有更强的直觉。 希望用户可以从此笔记本中获得更多的见解。 使用笔记本 运行整个笔记本会生成上面GIF中显示的图,用户可以与之交互以更改迭代步骤的数量,可以使用优化程序进行切换并更改3D图形上的角度。 笔记本中包含从带有噪声的线性函数生成的数据。 优化的目标是最小化与从两个可训练参数(斜率和截距)绘制的回归线相关的均方误差。 已实施并测试了梯度下降,SGD,Minibatch GD,动量,RMSProp和Adam。 成
2022-11-21 12:24:42 4.59MB JupyterNotebook
1
垃圾邮件分类项目 理想情况下,模型的估计性能可以告诉我们它在看不见的数据上的表现如何。 对未来数据进行预测通常是我们要解决的主要问题。 选择度量标准之前了解上下文非常重要,因为每种机器学习模型都会尝试使用不同的数据集来解决具有不同目标的问题。 Logistic回归没有改变,因为它的参数已经是最好的了。 即使SVC取得了很大的进步,但它的速度仍然很慢,但仍然不是最好的。 朴素贝叶斯(Naive Bayes)成功预测了4945个实际垃圾邮件中的4894个。 但是,Logistic回归和朴素贝叶斯彼此接近,不准确的足球我还是选择NaïveBayes模型作为数据集的最佳垃圾邮件分类器,因为朴素贝叶斯比Logistic回归要快。 与更复杂的方法相比,朴素贝叶斯学习者和分类器可以快速得到实现。 类条件特征分布的解耦意味着可以将每个分布独立地估计为一维分布。 反过来,这有助于减轻因维数的诅咒而产生的问题
2022-11-21 11:37:43 223KB JupyterNotebook
1
扬声器编码器 该存储库包含存储库的Speaker Encoder模型,没有用于语音嵌入的易于使用的计算的附加模块。 脚步 克隆存储库 从此处下载预训练的扬声器编码器模型: : 首选:@ mueller91的Speaker-Encoder 将文件config.json和best_model.pth.tar复制到文件夹pretrained_model 通过指定wav文件的路径来运行python compute_embedding.py --input_type "single_file" --input_path "WAV_PATH" --output_name "out.pkl" 它会打印嵌入向量,并使用default键将其保存在一个pickle文件中 **要计算文件夹内wav文件的嵌入向量,请检查bash脚本./scripts/batch_folder.sh
2022-11-21 10:47:20 31KB JupyterNotebook
1
Boston_Airbnb_EDA 项目动机 对于本演示,我使用了由Inside Airbnb于2020年6月10日汇编的开放数据源,通过基于以下三个标准执行EDA分析了波士顿Airbnb数据集-a)位置-您在哪些区域有更多选择或可能会停留在哪些区域波士顿爱彼迎(Boston Airbnb)? b)房间类型-哪种类型的房间最受欢迎? c)价格-影响价格的重要特征是什么? 您能预测波士顿Airbnb的价格吗? 波士顿Airbnb数据集 由波士顿25个社区中的3440个列表和Airbnb的16个功能组成。 EDA 审查九个数字特征之间的配对关系 纬度:从南部42.25到北部42.40,列表的数量正在增加。 经度:从西部-71.15到东部-71.00,波士顿Airbnb的房源数量增加。 Number_of_Reviews和Reviews_Per_Month是正相关的。 查看Spearman相
2022-11-20 22:24:45 2.38MB JupyterNotebook
1
SarsCov2-PPI网络 SARS-COV 2网络图的初步数据分析
2022-11-19 16:13:25 34.49MB JupyterNotebook
1