需要使用缓存的场景
在使用 PySpark 的时候,经常会遇到如下场景:
- 存在一个经过复杂计算得到的 DataFrame,这个 DF 会在后续多次计算&使用,每次都会耗费我们的大量时间。
Spark 采用了 DAG 的计算流,直到一个实际的 Action 时才会真的发生运算,这在实际生产
分类目录归档:Spark
在使用 PySpark 的时候,经常会遇到如下场景:
Spark 采用了 DAG 的计算流,直到一个实际的 Action 时才会真的发生运算,这在实际生产
from pyspark.sql.functions import array
test = df.select(array('col1', 'col2').alias('array_cols'))