FurtherGazer

在使用 PySpark 的时候，经常会遇到如下场景：

Spark 采用了 DAG 的计算流，直到一个实际的 Action 时才会真的发生运算，这在实际生产

方法	Pandas	PySpark
获取某列的去重元素个数	df[col_name].unique().shape	df[[col_name]].distinct.count()
统计某列各元

FurtherGazer's blog