7.3 非结构化数据的数据质量管理
非结构化数据由于格式和内容的多样性,一般不会直接用于分析,即单个非结构化数据难以产生价值。只有将非结构化数据的相关元数据(或标签)、主要内容抽取出来,并以类似结构化数据存储后,才能发挥价值。因此,非结构化数据的质量管理主要在于提升数据可用度,一般通过对数据的清洗、映射、关联等机制,把繁杂的大数据变成能应对的、有效的“小数据”,构建干净、完备的数据集,从而提高数据质量。
1)通过清洗规则库识别并标识出非结构数据的可疑或无效信息,必要时可结合数据生命周期管理策略及时清理。
2)通过与相关的数据标准进行映射,将非结构化数据的“基本属性”转换为商业银行的标准信息进行存储(如将“建行” “建设银行” “中国建设银行”等转换成标准代码JGOO01),并作为结构化数据存储在系统中。
3)通过关键信息与商业银行其他结构化数据进行关联(如通过客户姓名、手机号等辨识其是否为本行客户),提高非结构化数据入库质量和数据价值。