需要使用缓存的场景
在使用 PySpark 的时候,经常会遇到如下场景:
- 存在一个经过复杂计算得到的 DataFrame,这个 DF 会在后续多次计算&使用,每次都会耗费我们的大量时间。
Spark 采用了 DAG 的计算流,直到一个实际的 Action 时才会真的发生运算,这在实际生产
分类标签归档:DataFrame
在使用 PySpark 的时候,经常会遇到如下场景:
Spark 采用了 DAG 的计算流,直到一个实际的 Action 时才会真的发生运算,这在实际生产
TODO 汇总一下 PySpark vs Pandas DataFrame 的常用方法对比
方法 | Pandas | PySpark |
---|---|---|
获取某列的去重元素个数 | df[col_name].unique().shape | df[[col_name]].distinct.count() |
统计某列各元 |