2023-05-23
2)Borderline-SMOTE
原始SMOTE算法的对所有少数类样本都是一视同仁的,我们希望新合成的少数类样本能处于两个类别的边界附近,因为在实际建模过程中那些处于边界位置的样本更容易被错分,因此利用边界位置的样本信息产生新样本可以给模型带来更大的体征,能提供足够的信息用以分类,即Borderline SMOTE算法做的事情。判断边界的一个简单的规则为:如果K近邻中有一半以上是多数类样本,则这部分少数类为边界样本。简单来讲就是只为那些周围大部分是多数类样本的少数类样本生成新样本。
假设a为少数类中的一个样本,此时少数类的样本分为三类(依据为k_neighbors),如下图所示:
(i) 噪音样本(noise), 该少数类的所有最近邻样本都来自于不同于样本a的其他类别:
(ii) 危险样本(in danger), 至少一半的最近邻样本来自于同一类(不同于a的类别);
(iii) 安全样本(safe), 所有的最近邻样本都来自于同一个类。
然后对危险样本(即边界样本)使用SMOTE算法得到一系列新样本。具体来讲,Borderline-SMOTE1和Borderline-SMOTE2,Borderline-SMOTE1在对边界样本点生成新样本时,是在m近邻(m_neighbors)随机选择少数类样本(与SMOTE相同),Borderline-SMOTE2则是在m近邻(m_neighbors)中的任意一个样本(不关注样本类别)
3)ADASYN(自适应综合过采样)
ADASYN方法的主要思想是根据数据分布情况,为不同的少数类样本生成不同数量的新样本。首先根据最终的平衡程度设定总共需要生成的新少数类样本数量 ,然后为每个少数类样本x计算分布比例。具体过程如下:
计算不平衡度:记少数类样本为ms,多数类为ml,则不平衡度为 d = ms / ml,则d∈(0,1);
计算需要合成的样本数量:G = (ml - ms)* b,b∈[0,1],当b = 1时,即G等于少数类和多数类的差值,此时,合成数据后的多数类个数和少数类数据正好平衡;
对每个属于少数类的样本用欧式距离计算k个邻居,△为k个邻居中属于多数类的样本数目,记比例为r,r = △ / k,r∈[0,1];
根据上一步过程,得到每一个少数类样本的 ri(k个邻居中,多数类样本所占的比利) ,用计算每个少数类样本的周围多数类的情况
计算每个少数类样本需要合成的样本数目;
在每个待合成的少数类样本周围k个邻居中选择1个少数类样本,根据等式进行合成;
重复上一步的过程,直到完成每个少数类样本所需合成的数目为止。
(3)欠采样的改进方法
1)EasyEnsemble
从多数类中有放回的随机采样n次,每次选取与少数类数目近似的样本量,那么,可以得到n 个样本集合记作{ },然后其中的每一份与少数类样本结合组成n个训练样本{},然后在每一个训练集上得到一个模型,最后取这n 个模型的均值作为结果。
2)BalanceCascade
先通过一次下采样产生训练集,训练一个分类器,对于那些分类正确的多数类样本不放回,然后对这个更小的多数类样本下采样产生训练集,训练第二个分类器,以此类推,最终组合所有分类器的结果得到最终结果。
3)NearMiss
NearMiss方法是利用距离远近剔除多数类样本的一类方法,实际操作中也是借助kNN,总结起来有以下几类:
NearMiss-1:在多数类样本中选择与最近的3个少数类样本的平均距离最小的样本。
NearMiss-2:在多数类样本中选择与最远的3个少数类样本的平均距离最小的样本。
NearMiss-3:对于每个少数类样本,选择离它最近的给定数量的多数类样本。
NearMiss-1和NearMiss-2方法的描述仅有一字之差,但其含义是完全不同的:NearMiss-1考虑的是与最近的3个少数类样本的平均距离,是局部的;NearMiss-2考虑的是与最远的3个少数类样本的平均距离,是全局的。
NearMiss-1方法得到的多数类样本分布也是“不均衡”的,它倾向于在比较集中的少数类附近找到更多的多数类样本,而在孤立的(或者说是离群的)少数类附近找到更少的多数类样本,原因是NearMiss-1方法考虑的局部性质和平均距离。
NearMiss-3方法则会使得每一个少数类样本附近都有足够多的多数类样本,显然这会使得模型的精确度高、召回率低。
论文中有对这几种方法的比较,得到的结论是NearMiss-2的效果最好,不过这也是需要综合考虑数据集和采样比例的不同造成的影响。
参考链接:
https://blog.csdn.net/weixin_40118768/article/details/80226423
https://www.cnblogs.com/kamekin/p/9824294.html
https://blog.csdn.net/bigbigship/article/details/51348768
http://t.zoukankan.com/zcjcsl-p-10472771.html
完 谢谢观看
上一篇: 一文读懂企业数字化转型能力框架 下一篇: 数据分析师战略定位是什么
CDA认证
关于CDA考试 最新考试安排 考试报名入口 CDA证书查询CDA合作
CDA教育 CDMS Pearson CVA协会关注CDA
关于我们 Email:exam@cdaglobal.com 电 话:010-68454276 微 信:15311595173