许多数据质量问题涉及这样的情况,即表示类似概念的数据值发生变化时会导致歧义。重新提取和排列分离的组件(通常称为“标记”,即“Tokens”),可以使其转换为标准的表达,从而创建一个有效的模式。当无效模式被识别出来时,应用程序可以尝试将无效值转换为符合规则的值,或者将数据从某个源模式映射到相应的目标表述来实现标准化。
人类识别熟悉模式的能力有助于描述属于同一抽象值类的不同数据值;人们识别不同类型的电话号码,因为它们符合常用模式。分析人员描述所有表示数据对象的格式模式,如人名、产品描述等。数据质量工具符合这些模式的任何数据值,然后将其转换为单一的标准化形式,从而简化评估、相似性分析和补救过程。基于模式的可以自动识别,并促成有意义的值组件的标准化。
正确答案是 C: Similarity(相似性)。
专业分析:
在数据处理中,当多个数据实例实际上引用同一个现实世界实体时,通常需要进行数据去重或实体解析。这时,使用相似性分析是最为合适的。相似性分析可以帮助识别和匹配那些看似不同但实际上表示同一实体的数据实例。通过计算数据实例之间的相似度,能够有效地将重复的或相似的记录识别出来,从而进行合并或去重。
其他选项的分析:
A: 标准化(Standardization)通常用于将数据格式统一,以便于后续的处理和分析,但它并不能直接解决识别同一实体的问题。
B: 剖析(Profiling)主要用于了解数据的性质和质量,如数据分布、缺失值等,并不直接用于识别同一实体。
D: 解析(Parsing)主要用于将复杂的数据结构解析成更易处理的形式,通常用于文本数据处理,并不直接用于识别同一实体。
因此,针对实际引用同一个现实世界实体的多个数据实例,应该使用相似性分析来识别和处理这些数据实例。