作者文章归档:zws

Cloud Storage VS. filestore


两者功能描述上相似,但是实际使用上有所区别。

最大的区别点在于,Google Filestore 针对的是高可用,在云上也能有本地类似的高性能的场景(类似本地的 NAS 服务)。

补充说明:

  • Cloud Storage 和 Google drive(云端硬盘) 最大区别在于,drive 是针对个人

Read more

Apace Beam 入门


官方文档

Apache Beam 的编程模型

Apache Beam 是一种统一的开源模型,用于定义批量数据和流式数据的并行处理流水线。 借助一种 Apache Beam SDK,您可以构建一个程序来定义流水线。然后,Apache Beam 支持的一种分布式处理后端(如 Dataflow)会执行该流

Read more

GCP DataFlow


无服务器、快速且经济高效的统一流式数据处理和批量数据处理。 比对 Apache Beam

使用场景

流式分析

组合:

  • Pub/Sub
  • Dataflow
  • BigQuery

流式分析架构图

案例

使用 Dataflow SQL 连接流式数据

官方文档

  1. 启用相关 API Cloud Dataflow、Compu

Read more

GCP FireStore 核心知识点


最佳实践

  1. 数据库位置:选择距离您的用户最近的数据库位置和计算资源。

  2. 文档ID

    • 不要使用 . 和 .. 作为文档 ID。
    • 避免在文档 ID 中使用正斜杠 /。
    • 不要使用单调递增的文档 ID,例如:
      Customer1, Customer2, Customer3, ...
      Product 1, Pr

Read more

GCP 数据库选择


数据库类型 常见用途 GCP产品 其他说明
关系型 兼容性、事务、复杂的查询、联接 Cloud SQL (重要)适用于 MySQL、PostgreSQL、SQL Server,全托管式
Cloud Spanner (重要)谷歌专有、更先进,可拓缩,能够跨地区乃至跨州支持事务、高度

Read more

Data Engineer on Google Cloud Platform Cheat Sheet


数据工程师是什么?

数据工程通过收集、转换和可视化数据来实现数据驱动的决策。数据工程师设计、构建、维护数据处理系统,并对其进行故障排除,特别关注这些系统的安全性、可靠性、容错性、可伸缩性、保真度(fidelity)和效率。

数据工程师还通过分析数据来洞察业务结果,建立统计模型来支持决策制定,并创建机

Read more

BigQuery 随机抽样


以下罗列了部分 BQ 中进行随机抽样的方法:

1. RAND() 函数

RANK 函数生成 0,1 范围内的 FLOAT64 类型的随机值,使用 RANK() 生成随机值,然后使用 ORDER 进行排序,并取前 n 行,即可完成完全随机抽样。

#standardSQL
SELECT
RAND() a

Read more

BigQuery ML


BQ ML 这款直白来说,就是让你在 BQ(BigQuery) 中,通过 SQL 语句来完成一些简单的机器学习任务。

其最大的特点就在于: 1)使用 SQL 2)内置了部分经典算法(甚至可以使用 Tensorflow) 3)BQ 速度很快 4)其他

你说这个有没有用呢,其实也有点,你要说多有用,其实

Read more

今天我必须吹一下 vultr


实话实说,vultr 真是太方便了,你可以建一个机场,搭好之后存一个快照,然后用,不用了,删除实例,不花钱了。 但是下次你需要用的时候,只需要在创建实例的时候,选择用快照创建,就可以快速复原之前的机场,密码、IP都不变,贼方便。

方便又便宜!

Read more