BigQuery 随机抽样


以下罗列了部分 BQ 中进行随机抽样的方法:

1. RAND() 函数

RANK 函数生成 0,1 范围内的 FLOAT64 类型的随机值,使用 RANK() 生成随机值,然后使用 ORDER 进行排序,并取前 n 行,即可完成完全随机抽样。

#standardSQL
SELECT
RAND() a

Read more

BigQuery ML


BQ ML 这款直白来说,就是让你在 BQ(BigQuery) 中,通过 SQL 语句来完成一些简单的机器学习任务。

其最大的特点就在于: 1)使用 SQL 2)内置了部分经典算法(甚至可以使用 Tensorflow) 3)BQ 速度很快 4)其他

你说这个有没有用呢,其实也有点,你要说多有用,其实

Read more

今天我必须吹一下 vultr


实话实说,vultr 真是太方便了,你可以建一个机场,搭好之后存一个快照,然后用,不用了,删除实例,不花钱了。 但是下次你需要用的时候,只需要在创建实例的时候,选择用快照创建,就可以快速复原之前的机场,密码、IP都不变,贼方便。

方便又便宜!

Read more

Spark 缓存与持久化


需要使用缓存的场景

在使用 PySpark 的时候,经常会遇到如下场景:

  • 存在一个经过复杂计算得到的 DataFrame,这个 DF 会在后续多次计算&使用,每次都会耗费我们的大量时间。

Spark 采用了 DAG 的计算流,直到一个实际的 Action 时才会真的发生运算,这在实际生产

Read more

GCP 项目凭据,如何下载 JSON 格式的服务密钥


最近发现 GCP 凭据 服务账号 JSON 密钥的下载方式,有所更新,此处记录一下。

现在下载服务账号 JSON 密钥的方式如下:

  1. 点击服务账号,进入服务账号详情页

  2. 在服务账号详情页中,点击 密钥 - 添加密钥

  3. 创建新的密钥,此时会自动下载 JSON 格式密钥文件

  4. 完成保存即可。

Read more

MySQL 8.0 窗口函数(Window Functions)


MySQL 8.0 版本以后,终于支持了窗口函数,以下为在 MySQL 中使用窗口函数的相关笔记。

更多请参考:官方文档

窗口表现记录的集合,窗口函数也就是满足某种条件的记录集合上执行的特殊函数,对于每条记录都要在此窗口内执行函数,有的函数,随着记录不同,窗口大小是固定的,这种属于静态窗口,有的函数

Read more