样本

2021-04-05

字数：824字 | 预计阅读时长：2分钟

正样本稀疏
- 欠采样、过采样
- 集成
  - 负例样本（类别中的大量样本集）随机分为100份（当然也可以分更多），每份100条数据
    然后每次形成训练集时使用所有的正样本（100条）和随机抽取的负样本（100条）形成新的数据集。如此反复可以得到100个训练集和对应的训练模型。
  - 这种解决问题的思路类似于随机森林
- 权重
  - 不同样本数量的类别分别赋予不同的权重
- 一分类
  - 把它看做一分类（one class learning）或异常检测问题，这类方法的重点不在于捕捉类间的差别，而是为其中一类进行建模，比较有代表性的是 one-class-SVM。
  - 符合这些图像特征的就属于人脸，反之则不是。对比二分类，显著的区别就是，二分类不但能的出来这个图片不是人脸，他还能告诉你这个图片是猪脸。
推荐之样本
- 避免高度活跃用户对loss的影响
  - 训练集中对每个用户提取相同数量的训练样本
- 根据用户最后一次点击行为的位置，过滤掉最后一次点击之后的展示，可以人为认为用户没有看到。
- 一个用户对同一个内容点击与不点击并存的情况，如果多次曝光的间隙非常短，考虑只使用其中的一次曝光数据。
- 考虑去除只有曝光但没有点击操作的用户的样本（也就是说有的用户只有负样本，没有正样本），不过去除的话，那模型就只能够学习到活跃用户或者有意向用户的行为习惯
- 要求当线上模型在预测时，需要将喂给模型的特征做一次落地，比如传到kafka，后续再由相应程序进行解析生成之后的的训练样本。
- 同一个request中，如果收到某样本后面样本的展示或者点击事件，5min后还没有收到该样本的点击事件，则作为负样本进行训练；如果在作为负样本训练之后，在一段时间之后又收到该样本的正例行为，则需要作出补偿。
- 专家样本
- 坏样本
  - 样本偏差、模型敏感、无法代表全体、
- 在信用卡欺诈模型中，对于召回率的要求比较高（不希望漏掉一个欺诈用户），并且预测出来的数据还会经过人工审核，相对的对于准确率要求就低一些
- 但是在我们的原始数据中，正样本的比例本身就占比非常小了，或者正样本本身就是正太分布部分，但是在预测的时候，连长尾分布的部分也不能放过，（尽量的把所有欺诈用户召回），比如信用卡欺诈里有的超级用户虽然数量小，但是一次违约就是几十万，比几百个普通用户还严重，这种时候是否要用权值设置或者复制正样本的方式，来做识别增强。

本文作者： yuqing wang
本文链接： https://satyrswang.github.io/2021/04/05/样本/
版权声明： 本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。转载请注明出处！