分类标签归档:DataFrame

Spark 缓存与持久化


需要使用缓存的场景

在使用 PySpark 的时候,经常会遇到如下场景:

  • 存在一个经过复杂计算得到的 DataFrame,这个 DF 会在后续多次计算&使用,每次都会耗费我们的大量时间。

Spark 采用了 DAG 的计算流,直到一个实际的 Action 时才会真的发生运算,这在实际生产

Read more