发表评论
579 views
Hive 数据迁移
发表评论
744 views
相关命令
导出表结构:
show create table <表名>
通过 shell 命令批量导出全部库表结构
#!/bin/bash
rm -rf databases.txt
hive -e " show databases; exit ;" > data
数据监测、分析类产品
发表评论
1815 views
数据领域值得关注的人&媒体
发表评论
636 views
SimilarWeb 一款市场竞争分析工具
发表评论
1029 views
当进行网站运营数据分析时,常见的一个问题是,“相对于竞品网站,我们的数据表现如何?”
经同事介绍,发现了这么一款工具,用起来很方便,做一下记录。
国内官网地址:https://cn.similarweb.com/
谷歌拓展商店地址:https://chrome.google.com/webstore
Google Analytics 数据隐私与安全政策汇总
发表评论
729 views
使用 TF-IDF + TruncatedSVD+ LabelEncoder + LinearSVC 进行多分类文本预测
发表评论
1655 views
概述
最近在做一个基于小规模、样本不均衡的文本数据,预测多分类标签的小型项目,最终输出结果虽然不能说是非常让人满意,但考虑到先天条件,已经可以说是大致上过得去,故简单总结一下整体项目的技术路线。
相关模型
1. TF-IDF
数据分析相关工具官方文档汇集
发表评论
844 views
pandas.DataFrame.reset_index 和 groupby 的绝妙搭配
发表评论
814 views
当使用 pandas 的 groupby 功能时,如果不设置 as_index 为 False, 那么 groupby 默认会把做 groupby 的 col 作为 index 来使用。 如果存在多个 col,则形成的是 multiIndex。
如果这个时候需要把此时作为 index 的数据提取出来
Pandas Groupby
发表评论
583 views
pandas.DataFrame.groupby
Pandas Groupby 的一些小特性
- 在执行 Groupby 是,其会默认的对key执行排序。(如果是数值型的Key就会看得非常明显。)
- df.groupby('A') 实际等同于 df.groupby(df['A']),上述的写法是 Pan