textClusteringDBSCAN:使用基于密度的空间聚类(DBSCAN)使用TF-IDF,FastText,GloVe字向量对文本进行聚类 这是一个库,用于根据数据中的文本字段执行不受监督的语言功能。 API也将发布以进行实时推理。 这只是项目实施的一小部分,项目实施是一个开放源代码语言库,旨在轻松集成到应用程序中。 特征探索和可视化 文字特征可视化 功能工程: 根据基于变压器的模型添加功能。 (超大) 将基于tf-idf的特征添加为软特征,并与基于预训练词向量的特征结合。 (监督下) 比较不同的功能。 用法 基本使用说明。 由于代码正在开发中,因此可能不稳定。 到2020年12月31日将添加更多详细信息,以正确使用该库。 读取数据 from textclustering import utilities as ut from textclustering impor
2021-11-28 22:00:49 7.55MB JupyterNotebook
1
LinearAlgebraProject 线性代数在神经网络中的应用和优势 我们的主要研究是在将线性代数用于神经网络时将神经网络的概念应用于线性代数,对此进行调查非常重要,这对于我们证明线性代数用于神经网络非常重要,为此,我们将项目分为两个部分主要部分。 一部分说明在神经网络中使用线性代数的合理性,第二部分将神经网络的概念应用于线性代数以提供更好的解决方案。 这可以通过使用平稳迭代方法求解线性方程组来完成。 固定迭代方法基本上有四种主要方法, 雅可比迭代法 高斯-赛德尔迭代法 连续过松弛(SOR) 对称连续超松弛(SSOR) 但是我们专注于 雅可比迭代法 高斯-赛德尔迭代法
2021-11-28 18:22:03 57KB JupyterNotebook
1
说唱发生器 RNN用于生成Darius Fuller的说唱歌词 背景 我是一个热爱音乐的人。 我最喜欢听的音乐类型之一是嘻哈/说唱,因为在大多数情况下,他们都注重抒情。 近年来,随着分类为“”的歌曲的流行,在这方面的关注已经减少,导致一些“真正的嘻哈”音乐迷看不起目前受到关注的音乐家。 对现代说唱音乐的部分批评通常集中在歌词和歌曲由于其简单性而令人难以忘怀。 在学习递归神经网络(RNN)时,我看到了劳伦斯·莫洛尼(Laurence Moroney)的一段,该解释了在训练一批爱尔兰诗集之后如何使用AI生成诗歌。 这激发了一个尝试与现代说唱歌词相同的想法。 我之所以特别决定选择这种类型,是因为我很熟悉这种类型,并认为这些歌曲可能比较罗word,因为艺术家经常不唱歌。 要增加一种变化,在这种情况下,我想以有偏见的方式进行数据收集,以便结果可以尽可能地模仿原始资料。 但是,我将尝试在生成的文
2021-11-28 17:08:53 19.24MB JupyterNotebook
1
抽水数据挖掘水表 目标是为数据集中的每个记录预测水位的运行状况。 为您提供了以下有关水位的信息: amount_tsh-总静水头(可用于水位的水量) date_recorded-输入行的日期 出资者-谁为井提供了资金 gps_height-井的高度 安装程序-安装井的组织 经度-GPS坐标 纬度-GPS坐标 wpt_name-水位的名称(如果有的话) num_private- 盆地-地理水盆 子村-地理位置 地区-地理位置 region_code-地理位置(编码) district_code-地理位置(编码) lga-地理位置 病房-地理位置 人口-井周围的人口 public_meeting-对/错 recorded_by-输入此行数据的组 scheme_management-谁经营水位 scheme_name-谁操作水位 允许-如果允许水位 construction_year
2021-11-28 14:20:31 5.05MB JupyterNotebook
1
抽水数据挖掘水表 推动数据竞争的动力:数据挖掘地下水位。目的是为数据集中的每个记录预测水位的运行状况 进行中的工作将会更新!
2021-11-28 13:06:20 13.15MB JupyterNotebook
1
NILMTK-贡献 该存储库包含使用 NILMTK 的快速实验 API 实现的能量分解任务的所有最先进算法。 你可以在找到这篇论文。 所有曾经使用过的笔记本都可以在找到。 使用 NILMTK-contrib,您可以使用以下算法: 加性因子隐马尔可夫模型 具有信号聚合约束的加法隐马尔可夫模型 判别稀疏编码 RNN 去噪自动编码器 序列2点 序列2序列 窗口GRU 上述最先进的算法已添加到此存储库中。 您可以使用新的 NILMTK 的快速实验 API 执行以下操作: 跨多个设备的培训和测试 跨多个数据集的训练和测试(迁移学习) 跨多个建筑物的培训和测试 使用人工骨料进行训练和测试 不同采样频率的训练和测试 请参阅此以了解有关 API 用法的更多信息。 引文 如果你发现这个 repo 对你的研究有用,请考虑引用我们的论文: @inproceedings { 10.1145/33
2021-11-28 12:11:52 119KB JupyterNotebook
1
英飞凌
2021-11-28 10:51:49 6.66MB JupyterNotebook
1
数据挑战:2021年 在本届年度PHME数据挑战赛中,邀请参与者演示最新算法和模型的应用,以对制造生产线进行故障检测,分类和根本原因识别。 与瑞士电子和微技术中心(CSEM)合作,为此次比赛提供了对真实工业测试台生成的丰富数据集的专有访问权。 有关数据挑战及其注册的更多信息,请访问网页。 在这里,我们将发布数据集和基本的jupyter笔记本。 由于训练和验证数据集的大小,我们将实验分为两个不同的文件夹。 要获取访问实验的密码,请通过注册数据挑战。 新增:现在可以下载用于验证主要任务的数据质询性能的管道! TestPerformance.ipynb提供了运行完整管道的Python代码。 团队必须用他们的代码替换TestClassification原型内的当前代码。 团队必须保持输入和输出以及TestClassification函数的名称不变。 Data /包含一个输入文件作为示例,
2021-11-27 21:31:03 516KB JupyterNotebook
1
数据挖掘项目 商家有时会在特定日期进行大促销(例如折扣或现金券),例如“黑色星期五”或“双十一(11月11日)”,以吸引潜在的新买家。不幸的是,这些买家中有许多是一次性交易猎人,这些促销活动可能对将来的销售产生长期影响,为缓解这一问题,商家需要确定谁可以转化为重复购买者。 以下是数据文件的一些说明。 资料栏位 定义 用户身份 购物者的唯一ID。 年龄范围 用户年龄范围: = 50时为7和8; 0和NULL(未知)。 性别 用户的性别:女性0,男性1,2,未知则为NULL。 商人编号 商家的唯一ID。 标签 {0,1,-1,NULL}中的值。 “ 1”表示“ user_id”是“商人ID”的重复购买者,而“ 0”则相反。 '-1'表示'user_id
2021-11-27 19:11:13 572KB JupyterNotebook
1
MNIST_MLP 此仓库包含一个Python项目,用于对手写数字进行分类。 流行的MNIST数据集用于训练和测试MLP模型。 培训和测试数据是从两个单独的CSV文件导入的。 从训练数据中,将10%用于验证划分。
2021-11-27 17:25:06 4KB JupyterNotebook
1