GCP Pub/Sub


适用于事件驱动型系统和流式分析的消息传递和事件提取服务。 Pub/Sub 是一种异步消息传递服务,可将产生事件的服务与处理事件的服务分离开。 可以将 Pub/Sub 用作消息传递的中间件,或是用在流式分析流水线上提取和传送事件。 Pub/Sub 能够长时间存储消息,并能够大规模实时传送消息,而且可用

Read more

BQ 流式插入


流式插入的配额限制

  • 如果没有填写 insertId 字段:
    • 每秒的字节数上限:1 GB
  • 如果填写了 insertId 字段:
    • 每秒最大行数:10 万 (项目级(整个项目所有数据集公用) - quotaExceeded 报错(如果超出上限的话))
    • 每秒最大字节数:100 MB (项目级 - q

Read more

BQ 分区表&聚簇表


分区表

分区表实际就是将一张大表,基于例如,提取时间、时间戳、整数范围等,拆分为多个小表,以达到更高效管理&查询数据的目的。

举例来说,如果我对为分区的一个大表,根据 gen_data 这个字段筛选 == '2020-08-14' 的数据,未分区的表,需要完全读取这个字段数据,查询数据 1T

Read more

Cloud Storage VS. filestore


两者功能描述上相似,但是实际使用上有所区别。

最大的区别点在于,Google Filestore 针对的是高可用,在云上也能有本地类似的高性能的场景(类似本地的 NAS 服务)。

补充说明:

  • Cloud Storage 和 Google drive(云端硬盘) 最大区别在于,drive 是针对个人

Read more

Apace Beam 入门


官方文档

Apache Beam 的编程模型

Apache Beam 是一种统一的开源模型,用于定义批量数据和流式数据的并行处理流水线。 借助一种 Apache Beam SDK,您可以构建一个程序来定义流水线。然后,Apache Beam 支持的一种分布式处理后端(如 Dataflow)会执行该流

Read more

GCP DataFlow


无服务器、快速且经济高效的统一流式数据处理和批量数据处理。 比对 Apache Beam

使用场景

流式分析

组合:

  • Pub/Sub
  • Dataflow
  • BigQuery

流式分析架构图

案例

使用 Dataflow SQL 连接流式数据

官方文档

  1. 启用相关 API Cloud Dataflow、Compu

Read more

GCP FireStore 核心知识点


最佳实践

  1. 数据库位置:选择距离您的用户最近的数据库位置和计算资源。

  2. 文档ID

    • 不要使用 . 和 .. 作为文档 ID。
    • 避免在文档 ID 中使用正斜杠 /。
    • 不要使用单调递增的文档 ID,例如:
      Customer1, Customer2, Customer3, ...
      Product 1, Pr

Read more

GCP 数据库选择


数据库类型 常见用途 GCP产品 其他说明
关系型 兼容性、事务、复杂的查询、联接 Cloud SQL (重要)适用于 MySQL、PostgreSQL、SQL Server,全托管式
Cloud Spanner (重要)谷歌专有、更先进,可拓缩,能够跨地区乃至跨州支持事务、高度

Read more

Data Engineer on Google Cloud Platform Cheat Sheet


数据工程师是什么?

数据工程通过收集、转换和可视化数据来实现数据驱动的决策。数据工程师设计、构建、维护数据处理系统,并对其进行故障排除,特别关注这些系统的安全性、可靠性、容错性、可伸缩性、保真度(fidelity)和效率。

数据工程师还通过分析数据来洞察业务结果,建立统计模型来支持决策制定,并创建机

Read more