交叉数据是指如果两个表中的数据需要频繁连接,可以使用连接标准将数据物理交叉到相同的物理存储结构。交叉数据可以看作是一种特殊形式的集群,不属于“脏数据”,因此本题选C
正确答案是 C: 交叉数据。
专业分析:
在数据处理中,“脏数据”是指那些不符合预期格式或包含错误、遗漏、重复等问题的数据。以下是对各选项的分析:
A: 重复数据 - 这是指数据集中存在相同的记录,会导致数据冗余,影响数据分析的准确性,属于脏数据。
B: 错误数据 - 这是指数据中的数值、格式或内容存在错误,如输入错误、逻辑错误等,显然是脏数据。
C: 交叉数据 - 这个术语在数据清洗中并不常见,通常不被认为是脏数据。交叉数据可能指的是不同数据集之间的交叉引用或关联,不属于脏数据的范畴。
D: 缺失数据 - 这是指数据集中某些记录缺少必要的信息,导致数据不完整,属于脏数据。
因此,C: 交叉数据 不属于“脏数据”。