提升数据质量
在数据收集完成后,数据可能还存在大量的噪声、或者模型难以使用,需要我们进一步处理提高数据质量
- 数据噪声较多(脏数据过多) - 数据清洗
- 数据格式与模型要求输入不符 - 数据变换
- 数据难学习 - 特征工程
数据清洗
针对数据噪声较多的问题,通过数据清洗改善数据质量,常见的Data Error由
- Outliers(离群值) 某些数据值远远偏离数据整体分布
- Rule violations(违反约束) 例如某些非空字段为空
- Pattern violation(语义语法冲突)单位是美元,数据给rmb;数据项目标类型是float,实际类型是string
离群检测(Outlier Detection)
基于规则检测(Rule-based Detection)
基于模式检测(Pattern-based Detection)
总结
数据变换(Data Transformation)
实值规范化(Normalization)
- 归一化
- Z-score
- 十进制放缩
- log放缩
图片转换(减少图片的空间占用)
- 下采样、裁切
- 图像白化处理(Whitening) 减少像素量
视频转换 (预处理以平衡 存储,质量和加载速度 三者之间的关系)
- 通常使用 短视频裁切(<10sec),每个切片内包含单个时间
文本转换
- Stemming and lemmatization 还原词形
- Tokenization 切词
特征工程
如何表示特征值?
直接使用数值表示 或者 桶划分
类别特征可采用独热向量(one-hot)
日期 按照复合特征处理,划分为子特征
将几个单独特征组合形成新特征
文本数据 特征表示
one hot 或者 word embedding
预训练模型做特征提取(上下文语义嵌入 context embedding)
图片/视频 特征表示
- 传统的手工特征抽取,例如SIFT
- 深度神经网络特征提取(ResNet),类似于提取文本特征的预训练网络