分类目录归档:BigData&ML

在 MySQL 中使用 JSON 格式数据,并利用 Python 调用


最近考虑使用在 MySQL 中存储配置文件,首选的方案是针对每个配置项设置字段,但是产生的问题在于,配置项过多,且设置很灵活,采用固定的字段存储,使用起来很麻烦,仅创建就让人觉得很头疼。

而如果直接存储配置文件,则还需要对配置文件进行解析,且在前端进行修改时,无法对配置项的修改正确与否做出简单的判断

Read more

Spark 缓存与持久化


需要使用缓存的场景

在使用 PySpark 的时候,经常会遇到如下场景:

  • 存在一个经过复杂计算得到的 DataFrame,这个 DF 会在后续多次计算&使用,每次都会耗费我们的大量时间。

Spark 采用了 DAG 的计算流,直到一个实际的 Action 时才会真的发生运算,这在实际生产

Read more

MySQL 8.0 窗口函数(Window Functions)


MySQL 8.0 版本以后,终于支持了窗口函数,以下为在 MySQL 中使用窗口函数的相关笔记。

更多请参考:官方文档

窗口表现记录的集合,窗口函数也就是满足某种条件的记录集合上执行的特殊函数,对于每条记录都要在此窗口内执行函数,有的函数,随着记录不同,窗口大小是固定的,这种属于静态窗口,有的函数

Read more

用竖行显示 HIVE Query 结果


实际使用当中,有时候需要用竖行的形式显示 HIVE 的输出结果(比如查看列数过多的数据时),这时如果还是用 row by row 的形式,查看起来就会很不方便。

通过以下方式,可以是 HIVE 的结果以列的形式呈现。

  1. 输入

    beeline --outputformat=vertical
    
  2. 进入

Read more

Hive 数据迁移


相关命令

导出表结构:

show create table <表名>

通过 shell 命令批量导出全部库表结构

#!/bin/bash
rm -rf databases.txt
hive -e " show databases; exit ;" > data

Read more