PySpark vs Pandas DataFrame 常用方法一览


TODO 汇总一下 PySpark vs Pandas DataFrame 的常用方法对比

方法 Pandas PySpark
获取某列的去重元素个数 df[col_name].unique().shape df[[col_name]].distinct.count()
统计某列各元素出现次数 df[col_name].value_counts() df[[col_name]].groubpy(col_name).count()
为某列设置默认值 df['spark_user'] = True df.select(lit(5).alias('height')).withColumn('spark_user', lit(True)).take(1)