TODO 汇总一下 PySpark vs Pandas DataFrame 的常用方法对比
方法 | Pandas | PySpark |
---|---|---|
获取某列的去重元素个数 | df[col_name].unique().shape | df[[col_name]].distinct.count() |
统计某列各元素出现次数 | df[col_name].value_counts() | df[[col_name]].groubpy(col_name).count() |
为某列设置默认值 | df['spark_user'] = True | df.select(lit(5).alias('height')).withColumn('spark_user', lit(True)).take(1) |