0%

实用ML_3.提升数据质量

提升数据质量

在数据收集完成后,数据可能还存在大量的噪声、或者模型难以使用,需要我们进一步处理提高数据质量

  1. 数据噪声较多(脏数据过多) - 数据清洗
  2. 数据格式与模型要求输入不符 - 数据变换
  3. 数据难学习 - 特征工程

数据清洗

针对数据噪声较多的问题,通过数据清洗改善数据质量,常见的Data Error由

  1. Outliers(离群值) 某些数据值远远偏离数据整体分布
  2. Rule violations(违反约束) 例如某些非空字段为空
  3. Pattern violation(语义语法冲突)单位是美元,数据给rmb;数据项目标类型是float,实际类型是string

离群检测(Outlier Detection)

基于规则检测(Rule-based Detection)

基于模式检测(Pattern-based Detection)

总结

数据变换(Data Transformation)

实值规范化(Normalization)

  1. 归一化
  2. Z-score
  3. 十进制放缩
  4. log放缩

图片转换(减少图片的空间占用)

  1. 下采样、裁切
  2. 图像白化处理(Whitening) 减少像素量

视频转换 (预处理以平衡 存储,质量和加载速度 三者之间的关系)

  • 通常使用 短视频裁切(<10sec),每个切片内包含单个时间

文本转换

  1. Stemming and lemmatization 还原词形
  2. Tokenization 切词

特征工程

如何表示特征值?

  1. 直接使用数值表示 或者 桶划分

  2. 类别特征可采用独热向量(one-hot)

  3. 日期 按照复合特征处理,划分为子特征

  4. 将几个单独特征组合形成新特征

文本数据 特征表示

  1. one hot 或者 word embedding

  2. 预训练模型做特征提取(上下文语义嵌入 context embedding)

图片/视频 特征表示

  1. 传统的手工特征抽取,例如SIFT
  2. 深度神经网络特征提取(ResNet),类似于提取文本特征的预训练网络

总结