GCP DataFlow


无服务器、快速且经济高效的统一流式数据处理和批量数据处理。 比对 Apache Beam

使用场景

流式分析

组合:

  • Pub/Sub
  • Dataflow
  • BigQuery

流式分析架构图

案例

使用 Dataflow SQL 连接流式数据

官方文档

  1. 启用相关 API Cloud Dataflow、Compute Engine、Stackdriver Logging、Cloud Storage、Cloud Storage JSON、BigQuery、Cloud Pub/Sub、Cloud Datastore 和 Cloud Resource Manager API。

  2. 创建服务账号,并设置环境变量 示例:

    gcloud iam service-accounts create dataflow-test
     gcloud projects add-iam-policy-binding zws-gcp --member "serviceAccount:dataflow-test@zws-gcp.iam.gserviceaccount.com" --role "roles/owner"
     gcloud iam service-accounts keys create serives.json --iam-account dataflow-test@zws-gcp.iam.gserviceaccount.com
     export GOOGLE_APPLICATION_CREDENTIALS="./serives.json"
    

    注意,上面的 dataflow-test@zws-gcp.iam.gserviceaccount.com & zws-gcp 需要根据实际服务账号名称 & 项目ID 进行更新,此处给出的是示例。

  3. 设置 BQ 查询引擎 -> Cloud Dataflow Engine

  4. (待续)