分类标签归档:PySpark

Data Engineer on Google Cloud Platform Cheat Sheet


数据工程师是什么?

数据工程通过收集、转换和可视化数据来实现数据驱动的决策。数据工程师设计、构建、维护数据处理系统,并对其进行故障排除,特别关注这些系统的安全性、可靠性、容错性、可伸缩性、保真度(fidelity)和效率。

数据工程师还通过分析数据来洞察业务结果,建立统计模型来支持决策制定,并创建机

Read more

Spark 缓存与持久化


需要使用缓存的场景

在使用 PySpark 的时候,经常会遇到如下场景:

  • 存在一个经过复杂计算得到的 DataFrame,这个 DF 会在后续多次计算&使用,每次都会耗费我们的大量时间。

Spark 采用了 DAG 的计算流,直到一个实际的 Action 时才会真的发生运算,这在实际生产

Read more