分类目录归档:BigQuery

BQ 流式插入


流式插入的配额限制

  • 如果没有填写 insertId 字段:
    • 每秒的字节数上限:1 GB
  • 如果填写了 insertId 字段:
    • 每秒最大行数:10 万 (项目级(整个项目所有数据集公用) - quotaExceeded 报错(如果超出上限的话))
    • 每秒最大字节数:100 MB (项目级 - q

Read more

BQ 分区表&聚簇表


分区表

分区表实际就是将一张大表,基于例如,提取时间、时间戳、整数范围等,拆分为多个小表,以达到更高效管理&查询数据的目的。

举例来说,如果我对为分区的一个大表,根据 gen_data 这个字段筛选 == '2020-08-14' 的数据,未分区的表,需要完全读取这个字段数据,查询数据 1T

Read more

BigQuery 随机抽样


以下罗列了部分 BQ 中进行随机抽样的方法:

1. RAND() 函数

RANK 函数生成 0,1 范围内的 FLOAT64 类型的随机值,使用 RANK() 生成随机值,然后使用 ORDER 进行排序,并取前 n 行,即可完成完全随机抽样。

#standardSQL
SELECT
RAND() a

Read more

BigQuery ML


BQ ML 这款直白来说,就是让你在 BQ(BigQuery) 中,通过 SQL 语句来完成一些简单的机器学习任务。

其最大的特点就在于: 1)使用 SQL 2)内置了部分经典算法(甚至可以使用 Tensorflow) 3)BQ 速度很快 4)其他

你说这个有没有用呢,其实也有点,你要说多有用,其实

Read more