新用户注册
备考刷题,请到
CDA认证小程序
面对类别过多的分类型特征(高基数特征),直接独热编码会导致维度灾难。分类型特征的概化处理(Generalization)是指将细粒度的类别映射到更粗粒度的类别(如将具体城市映射为城市等级),既能降低维度,又能结合业务逻辑提升模型效果。