适用于事件驱动型系统和流式分析的消息传递和事件提取服务。 Pub/Sub 是一种异步消息传递服务,可将产生事件的服务与处理事件的服务分离开。 可以将 Pub/Sub 用作消息传递的中间件,或是用在流式分析流水线上提取和传送事件。 Pub/Sub 能够长时间存储消息,并能够大规模实时传送消息,而且可用
发表评论
1193 views
BQ 流式插入
发表评论
1244 views
流式插入的配额限制
- 如果没有填写 insertId 字段:
- 每秒的字节数上限:1 GB
- 如果填写了 insertId 字段:
- 每秒最大行数:10 万 (项目级(整个项目所有数据集公用) - quotaExceeded 报错(如果超出上限的话))
- 每秒最大字节数:100 MB (项目级 - q
BQ 分区表&聚簇表
发表评论
2026 views
分区表
分区表实际就是将一张大表,基于例如,提取时间、时间戳、整数范围等,拆分为多个小表,以达到更高效管理&查询数据的目的。
举例来说,如果我对为分区的一个大表,根据 gen_data 这个字段筛选 == '2020-08-14'
的数据,未分区的表,需要完全读取这个字段数据,查询数据 1T
Cloud Storage VS. filestore
发表评论
2692 views
两者功能描述上相似,但是实际使用上有所区别。
最大的区别点在于,Google Filestore 针对的是高可用,在云上也能有本地类似的高性能的场景(类似本地的 NAS 服务)。
补充说明:
- Cloud Storage 和 Google drive(云端硬盘) 最大区别在于,drive 是针对个人
Apace Beam 入门
发表评论
1207 views
GCP DataFlow
发表评论
2043 views
GCP FireStore 核心知识点
发表评论
678 views
最佳实践
数据库位置:选择距离您的用户最近的数据库位置和计算资源。
文档ID
- 不要使用 . 和 .. 作为文档 ID。
- 避免在文档 ID 中使用正斜杠 /。
- 不要使用单调递增的文档 ID,例如:
Customer1, Customer2, Customer3, ... Product 1, Pr
GCP FireStore 项目创建&写、读数据
发表评论
839 views
GCP 数据库选择
发表评论
964 views
数据库类型 | 常见用途 | GCP产品 | 其他说明 |
---|---|---|---|
关系型 | 兼容性、事务、复杂的查询、联接 | Cloud SQL | (重要)适用于 MySQL、PostgreSQL、SQL Server,全托管式 |
Cloud Spanner | (重要)谷歌专有、更先进,可拓缩,能够跨地区乃至跨州支持事务、高度 |
Data Engineer on Google Cloud Platform Cheat Sheet
发表评论
867 views
数据工程师是什么?
数据工程通过收集、转换和可视化数据来实现数据驱动的决策。数据工程师设计、构建、维护数据处理系统,并对其进行故障排除,特别关注这些系统的安全性、可靠性、容错性、可伸缩性、保真度(fidelity)和效率。
数据工程师还通过分析数据来洞察业务结果,建立统计模型来支持决策制定,并创建机