通用汽车 Pyspark 中的高斯混合模型实现 GMM 算法将整个数据集建模为高斯分布的有限混合,每个分布由均值向量、协方差矩阵和混合权重进行参数化。 这里每个点属于每个集群的概率与集群统计信息一起计算。 pyspark 中 GMM 的这种分布式实现使用期望最大化算法估计参数,并且只考虑每个分量的对角协方差矩阵。 如何跑步 有两种方法可以运行此代码。 在您的 Python 程序中使用该库。 您可以通过调用函数 GMMModel.trainGMM(data,k,n_iter,ct) 来训练 GMM 模型,其中 data is an RDD(of dense or Sparse Vector), k is the number of components/clusters, n_iter is the number of iteration
2021-07-10 12:03:45 11KB Python
1
spark-streaming-kafka-0-8-assembly_2.11-2.4.0.jar
2021-07-08 09:01:57 12.77MB pyspark
1
使用方式参见: https://season.blog.csdn.net/article/details/118196915
2021-06-25 14:03:32 5.72MB xgboost pyspark
1
pyspark常用操作梳理 基于spark.sql进行操作 创建临时表 创建临时视图 基于dataframe进行操作 了解表结构 查看数据 查看列名 持久化 列操作 列名称重命名 条件筛选 利用when做条件判断 利用between做多条件判断 in数据判断 数据去重 分组统计 生成索引 数据整形 列转行 行转列 数理统计 描述性统计 统计频数 统计四分位数 分组统计 统计相关系数 统计协方差 随机抽样 自定义统计 udf操作 数据关联 横向拼接 左连接 多字段连接 通过pandas dataframe进行转换 利用pandas取差集、交集和并集
2021-06-21 13:04:31 474KB pyspark python dataframe
1
pyspark里连接kafka数据源所需的jar文件,放到python所在的site-package下属于pyspark的jars目录下
2021-05-26 09:33:42 12.77MB spark python kafka pyspark
1
MySQL、Teradata和PySpark代码互转表,方便在不同的关系数据库和大数据仓库之间转换代码逻辑,另有数据转换操作的PySpark和Hive代码。
2021-05-22 13:05:39 119KB mysql teradata pyspark 数据仓库
1
使用python spark的图graph,需要用到graphdataframes相关的文件
2021-05-16 15:05:53 689KB pyspark graphdataframes
1
pyspark.docx
2021-05-10 12:01:21 757KB pyspark spark hadoop
1
hadoop spark scala
2021-05-09 12:01:32 545.01MB 大数据 spark hadoop
1
关系提取 卷积神经网络的关系分类 该代码是使用tensorflow的论文的实现。 ##算法 我几乎遵循了上面提到的论文中使用的技术,只调整了一些参数,例如字向量的尺寸,位置向量,优化函数等。 基本体系结构是卷积层,最大池和最终softamx层。 我们总是可以在输入层和最终的softmax层之间添加/删除conv和max-pool层的数目。 我只使用了1个转换和1个最大池。 ##文件 text_cnn.py-这是一个实现模型体系结构的类。 因此,它接受输入,包含所有层,例如conv2d (卷积层), max_pool等,这些层处理输入向量,最后根据每个类的预测给出输出。 data_hel
2021-05-08 22:19:07 1.27MB nlp spark tensorflow pyspark
1