PySpark vs Pandas DataFrame 常用方法一览

705 views

TODO 汇总一下 PySpark vs Pandas DataFrame 的常用方法对比

方法	Pandas	PySpark
获取某列的去重元素个数	df[col_name].unique().shape	df[[col_name]].distinct.count()
统计某列各元素出现次数	df[col_name].value_counts()	df[[col_name]].groubpy(col_name).count()
为某列设置默认值	df['spark_user'] = True	df.select(lit(5).alias('height')).withColumn('spark_user', lit(True)).take(1)

FurtherGazer