文档主要介绍了环境搭建和配置使用 1. 什么是Spark SQL Spark SQL的一个用途是执行使用基本SQL语法或HiveQL编写的SQL查询。Spark SQL还可以用于从现有的Hive安装中读取数据。有关如何配置此功能的更多信息,请参考Hive表格部分。当从另一种编程语言中运行SQL时,结果将作为DataFrame返回。您还可以使用命令行或jdbc/odbc来与SQL接口进行交互。 2. 什么是DataFrame 一个以命名列组织的分布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据结构,但DataFrame有丰富的优化。在Spark 1.3之前,核心的新类型为RDD-schemaRDD,现改为DataFrame。spark 通过DataFrame操作大量的数据源,包括外部文件(如 json、avro、parquet、sequencefile 等等)、Hive、关系数据库、cassandra等
2021-11-11 16:08:14 908KB 大数据 spark DateFrame
1
pandas是python环境下最有名的数据统计包,而DataFrame翻译为数据框,是一种数据组织方式,这篇文章主要给大家介绍了python中pandas.DataFrame对行与列求和及添加新行与列的方法,文中给出了详细的示例代码,需要的朋友可以参考借鉴,下面来一起看看吧。
2021-11-05 07:04:57 36KB pandas dataframe pandas合并dataframe pandas
1
Dataframe数据得各种操作
2021-11-02 21:02:39 6KB python DataFrame
起初的数据是这样的 想将page_no这一列拆分成多个列,然后将其中的值都作为列名。 想要做成的结果如下图(也就是统计每个id下各个page_no出现的次数) 实现的思路是先对page_no这一列进行one-hot编码,将一列变为多列,然后再用cishu列与之相乘,最后进行groupby之后加和,就得到了最终结果。 代码如下: df = pd.get_dummies(TestA_beh[‘page_no’]) TestA_beh = pd.concat([TestA_beh,df],axis=1) col_page = [‘AAO’, ‘BWA’, ‘BWE’, ‘CQA’, ‘CQB’,
2021-11-01 18:14:34 223KB data dataframe frame
1
摘要 在进行数据分析时,我们经常需要把DataFrame的一列拆成多列或者根据某列把一行拆成多行,这篇文章主要讲解这两个目标的实现。 1.读取数据 2.将City列转成多列(以‘|’为分隔符) 这里使用匿名函数lambda来讲City列拆成两列。 3.将DataFrame一行拆成多行(以‘|’为分隔符) 方法一:在刚刚得到的DataFrame基础上操作,如下图所以,可以明显看到我们按照City列将DataFrame拆成了多行。主要是先将DataFrame拆成多列,然后拆成多个DataFrame再使用concat组合。但是这种方法碰到City列切割不均匀的时候可能会麻烦一点,因此,
2021-11-01 18:11:53 171KB dataframe python ram
1
本文是对pandas官方网站上《10Minutes to pandas》的一个简单的翻译,原文在这里。这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook 。习惯上,我们会按下面格式引入所需要的包: 一、创建对象 可以通过Data Structure Intro Setion 来查看有关该节内容的详细信息。 1、可以通过传递一个list对象来创建一个Series,pandas会默认创建整型索引: 2、通过传递一个numpyarray,时间索引以及列标签来创建一个DataFrame: 3、通过传递一个能够被转换成类似序列结构的字典对象来创建一个DataFrame
2021-10-31 16:03:32 1.07MB AND AS dataframe
1
java版本pandas
2021-10-28 14:12:50 7.19MB joinery java dataframe
1
先简单的了解下日期和时间数据类型及工具 python标准库包含于日期(date)和时间(time)数据的数据类型,datetime、time以及calendar模块会被经常用到。 datetime以毫秒形式存储日期和时间,datetime.timedelta表示两个datetime对象之间的时间差。 给datetime对象加上或减去一个或多个timedelta,会产生一个新的对象 from datetime import datetime from datetime import timedelta now = datetime.now() now datetime.datetime(201
2021-10-24 10:37:11 63KB AND AS dataframe
1
原始数据: import pandas as pd import numpy as np data = {'a': [4, 6, 5, 7, 8], 'b': ['w', 't', 'y', 'x', 'z'], 'c': [1, 0, 6, -5, 3], 'd': [3, 4, 7, 10, 8], } df = pd.DataFrame(data, index=['one', 'two', 'three', 'four', 'five']) print(df) # a b c d # one 4
2021-10-22 21:53:04 43KB dataframe ram
1
使用python中的pandas库函数对dataframe的相关数据进行处理,是一个入门数据分析的好文档
2021-10-19 16:34:23 4.54MB python pandas dataframe 数据分析
1