WITH races AS (
SELECT "800M" AS race,
[STRUCT("Rudisha" as name, [23.4, 26.3, 26.4, 26.1] as splits),
STRUCT("Mak
分类标签归档:BigQuery
BQ 流式插入
流式插入的配额限制
- 如果没有填写 insertId 字段:
- 每秒的字节数上限:1 GB
- 如果填写了 insertId 字段:
- 每秒最大行数:10 万 (项目级(整个项目所有数据集公用) - quotaExceeded 报错(如果超出上限的话))
- 每秒最大字节数:100 MB (项目级 - q
BQ 分区表&聚簇表
分区表
分区表实际就是将一张大表,基于例如,提取时间、时间戳、整数范围等,拆分为多个小表,以达到更高效管理&查询数据的目的。
举例来说,如果我对为分区的一个大表,根据 gen_data 这个字段筛选 == '2020-08-14'
的数据,未分区的表,需要完全读取这个字段数据,查询数据 1T
Data Engineer on Google Cloud Platform Cheat Sheet
数据工程师是什么?
数据工程通过收集、转换和可视化数据来实现数据驱动的决策。数据工程师设计、构建、维护数据处理系统,并对其进行故障排除,特别关注这些系统的安全性、可靠性、容错性、可伸缩性、保真度(fidelity)和效率。
数据工程师还通过分析数据来洞察业务结果,建立统计模型来支持决策制定,并创建机
BigQuery 随机抽样
以下罗列了部分 BQ 中进行随机抽样的方法:
1. RAND() 函数
RANK 函数生成 0,1 范围内的 FLOAT64 类型的随机值,使用 RANK() 生成随机值,然后使用 ORDER 进行排序,并取前 n 行,即可完成完全随机抽样。
#standardSQL
SELECT
RAND() a
BigQuery ML
BQ ML 这款直白来说,就是让你在 BQ(BigQuery) 中,通过 SQL 语句来完成一些简单的机器学习任务。
其最大的特点就在于: 1)使用 SQL 2)内置了部分经典算法(甚至可以使用 Tensorflow) 3)BQ 速度很快 4)其他
你说这个有没有用呢,其实也有点,你要说多有用,其实
ECharts 实现 GA 行为流图
拿一个官网的效果图做示意:
STEP1 从 BigQuery 中获取行为流数据
以下为 SQL 语句:
WITH `all_data` AS ( -- 原始数据集
SELECT `source`,
`target`,
`level`,
`value`,
`
BigQuery 中的窗口函数
BigQuery 的窗口函数,官方称呼为 “分析函数”(官方文档链接)
语法上和常规 SQL 语法基本没有太大差异,如下所示:
analytic_function_name ( [ argument_list ] )
OVER { window_name | ( [ window_specifi
BQ 标准 SQL 用户定义函数
BQ 标准 SQL 用户定义函数
参考链接
https://cloud.google.com/bigquery/docs/reference/standard-sql/user-defined-functions
UDF 语法
UDF - user defined function 通过 UDF 可
BQ 常用 SQL 语句
- 时间戳转可读指标
SELECT
TIMESTAMP_SECONDS(g.visitStartTime) as tt
FROM
`bq-test-xxx.xxxxxx.ga_sessions_*` g