正样本稀疏
- 欠采样、过采样
- 集成
- 负例样本(类别中的大量样本集)随机分为100份(当然也可以分更多),每份100条数据
然后每次形成训练集时使用所有的正样本(100条)和随机抽取的负样本(100条)形成新的数据集。如此反复可以得到100个训练集和对应的训练模型。 - 这种解决问题的思路类似于随机森林
- 负例样本(类别中的大量样本集)随机分为100份(当然也可以分更多),每份100条数据
- 权重
- 不同样本数量的类别分别赋予不同的权重
- 一分类
- 把它看做一分类(one class learning) 或异常检测问题,这类方法的重点不在于捕捉类间的差别,而是为其中一类进行建模,比较有代表性的是 one-class-SVM。
- 符合这些图像特征的就属于人脸,反之则不是。对比二分类,显著的区别就是,二分类不但能的出来这个图片不是人脸,他还能告诉你这个图片是猪脸。
推荐之样本
避免高度活跃用户对loss的影响
- 训练集中对每个用户提取相同数量的训练样本
根据用户最后一次点击行为的位置,过滤掉最后一次点击之后的展示,可以人为认为用户没有看到。
一个用户对同一个内容点击与不点击并存的情况,如果多次曝光的间隙非常短,考虑只使用其中的一次曝光数据。
考虑去除只有曝光但没有点击操作的用户的样本(也就是说有的用户只有负样本,没有正样本),不过去除的话,那模型就只能够学习到活跃用户或者有意向用户的行为习惯
要求当线上模型在预测时,需要将喂给模型的特征做一次落地,比如传到kafka,后续再由相应程序进行解析生成之后的的训练样本。
同一个request中,如果收到某样本后面样本的展示或者点击事件,5min后还没有收到该样本的点击事件,则作为负样本进行训练;如果在作为负样本训练之后,在一段时间之后又收到该样本的正例行为,则需要作出补偿。
专家样本
坏样本
- 样本偏差、模型敏感、无法代表全体、
在信用卡欺诈模型中,对于召回率的要求比较高(不希望漏掉一个欺诈用户),并且预测出来的数据还会经过人工审核,相对的对于准确率要求就低一些
但是在我们的原始数据中,正样本的比例本身就占比非常小了,或者正样本本身就是正太分布部分,但是在预测的时候,连长尾分布的部分也不能放过,(尽量的把所有欺诈用户召回),比如信用卡欺诈里有的超级用户虽然数量小,但是一次违约就是几十万,比几百个普通用户还严重,这种时候是否要用权值设置或者复制正样本的方式,来做识别增强。
本文链接: https://satyrswang.github.io/2021/04/05/样本/
版权声明: 本作品采用 知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议 进行许可。转载请注明出处!