Hive 数据迁移


相关命令

导出表结构:

show create table <表名>

通过 shell 命令批量导出全部库表结构

#!/bin/bash
rm -rf databases.txt
hive -e " show databases; exit ;" > data

Read more

数据领域值得关注的人&媒体


以下排名不分先后,纯手工罗列,予以记录。

Avinash Kaushik

个人博客

桑文锋 SensorsData.cn 神策数据创始人&CEO

知乎账号 个人专栏 - 瓦利哥的机器岁月

曹政 曾任百度商业分析部经理,现知名IT自媒体博主

知乎账号 微信公众号 - caozsay

宋天龙

Read more

SimilarWeb 一款市场竞争分析工具


当进行网站运营数据分析时,常见的一个问题是,“相对于竞品网站,我们的数据表现如何?”

经同事介绍,发现了这么一款工具,用起来很方便,做一下记录。

国内官网地址:https://cn.similarweb.com/

谷歌拓展商店地址:https://chrome.google.com/webstore

Read more

使用 TF-IDF + TruncatedSVD+ LabelEncoder + LinearSVC 进行多分类文本预测


概述

最近在做一个基于小规模、样本不均衡的文本数据,预测多分类标签的小型项目,最终输出结果虽然不能说是非常让人满意,但考虑到先天条件,已经可以说是大致上过得去,故简单总结一下整体项目的技术路线。

相关模型

1. TF-IDF

参考文档 Sklearn text-feature-extraction

Read more