数据工程师是什么?
数据工程通过收集、转换和可视化数据来实现数据驱动的决策。数据工程师设计、构建、维护数据处理系统,并对其进行故障排除,特别关注这些系统的安全性、可靠性、容错性、可伸缩性、保真度(fidelity)和效率。
数据工程师还通过分析数据来洞察业务结果,建立统计模型来支持决策制定,并创建机
分类标签归档:PySpark
数据工程通过收集、转换和可视化数据来实现数据驱动的决策。数据工程师设计、构建、维护数据处理系统,并对其进行故障排除,特别关注这些系统的安全性、可靠性、容错性、可伸缩性、保真度(fidelity)和效率。
数据工程师还通过分析数据来洞察业务结果,建立统计模型来支持决策制定,并创建机
在使用 PySpark 的时候,经常会遇到如下场景:
Spark 采用了 DAG 的计算流,直到一个实际的 Action 时才会真的发生运算,这在实际生产
from pyspark.sql.functions import array
test = df.select(array('col1', 'col2').alias('array_cols'))
TODO 汇总一下 PySpark vs Pandas DataFrame 的常用方法对比
方法 | Pandas | PySpark |
---|---|---|
获取某列的去重元素个数 | df[col_name].unique().shape | df[[col_name]].distinct.count() |
统计某列各元 |