无服务器、快速且经济高效的统一流式数据处理和批量数据处理。 比对 Apache Beam
使用场景
流式分析
组合:
- Pub/Sub
- Dataflow
- BigQuery
案例
使用 Dataflow SQL 连接流式数据
启用相关 API Cloud Dataflow、Compute Engine、Stackdriver Logging、Cloud Storage、Cloud Storage JSON、BigQuery、Cloud Pub/Sub、Cloud Datastore 和 Cloud Resource Manager API。
创建服务账号,并设置环境变量 示例:
gcloud iam service-accounts create dataflow-test gcloud projects add-iam-policy-binding zws-gcp --member "serviceAccount:dataflow-test@zws-gcp.iam.gserviceaccount.com" --role "roles/owner" gcloud iam service-accounts keys create serives.json --iam-account dataflow-test@zws-gcp.iam.gserviceaccount.com export GOOGLE_APPLICATION_CREDENTIALS="./serives.json"
注意,上面的
dataflow-test@zws-gcp.iam.gserviceaccount.com
&zws-gcp
需要根据实际服务账号名称 & 项目ID 进行更新,此处给出的是示例。设置 BQ 查询引擎 -> Cloud Dataflow Engine
(待续)