正确答案是:B: model training data
专业分析:
在机器学习中,模型训练数据的质量和分布对模型的性能有着至关重要的影响。如果模型训练数据存在人口不平衡(即某些类别的数据量比其他类别的数据量多得多),这可能会导致模型在分类新数据时出现偏差和错误分类的情况。这种现象被称为类别不平衡问题(Class Imbalance Problem)。
具体来说,当模型训练数据中某一类别的数据量远多于其他类别时,模型可能会倾向于更好地识别和分类该类数据,而对其他类别的数据识别和分类能力较差。这会导致模型在处理实际应用中的数据时,尤其是那些不平衡类别的数据,表现不佳。
为了解决这一问题,常见的方法包括:
1. **重采样(Resampling)**:包括过采样(Oversampling)少数类数据或欠采样(Undersampling)多数类数据。
2. **使用合成数据**:如SMOTE(Synthetic Minority Over-sampling Technique)算法,通过生成合成数据来平衡类别分布。
3. **调整模型评估指标**:使用如F1-score、ROC-AUC等更适合不平衡数据集的评估指标,而不是简单的准确率。
4. **使用集成方法**:如集成多个模型,通过投票机制减少偏差。
因此,B: model training data 是正确答案,因为模型训练数据中的人口不平衡会直接影响模型的分类能力。