概述
最近在做一个基于小规模、样本不均衡的文本数据,预测多分类标签的小型项目,最终输出结果虽然不能说是非常让人满意,但考虑到先天条件,已经可以说是大致上过得去,故简单总结一下整体项目的技术路线。
分类目录归档:BigData&ML
最近在做一个基于小规模、样本不均衡的文本数据,预测多分类标签的小型项目,最终输出结果虽然不能说是非常让人满意,但考虑到先天条件,已经可以说是大致上过得去,故简单总结一下整体项目的技术路线。
TODO 汇总一下 PySpark vs Pandas DataFrame 的常用方法对比
方法 | Pandas | PySpark |
---|---|---|
获取某列的去重元素个数 | df[col_name].unique().shape | df[[col_name]].distinct.count() |
统计某列各元 |
yarn node -list -all -showDetails
示例结果:
1.compute.internal/xx.xx.xx.xx:xxxx
Total Nodes:3
Node-Id Node-State Node-Http-Address
Django 默认使用 SQLite 数据库,但是显然在实际生产环境中,我们需要更强健的数据库作为支撑。
Django 支持的数据库包括:
通常情况下,我们会采用 MySQL 作为数据库,本文将介绍 Django 使用
TODO
相关代码示例:
# all_df_joind = all_df.apply(lambda x: list(x))
# all_df_joind = all_df.apply(np.append)
# all_df_joind = all_df_gb.appl