数据处理的一些心得

数据工程师需要悲观的心态去处理数据,对上游数据无条件的信任往往会让自己负责的数据变的不可信任。

你永远不知道上游表数据质量如何,即使在文档中写的主键也会产生重复。

数据处理之前对上游数据可以做一些Data Quality Rule检测,及时抛出异常情况并反馈上游。

例如拉链表的一些数据质量检查:时间段重叠,消失,重复。

明细表的主键检查,指标检查。

对于自己输出的表,也同样需要做数据质量检测,为自己的数据质量负责。