数据质量监控

数据质量监控,在企业中实际的作用更多的是面对开发人员,例如计算出的结果值出现了明显的异常,一个日常用品的店铺,单个订单金额突破了10万,很明显是异常的订单,虽然有可能真有这样的顾客,但是需要提前预警,以提醒开发人员,这里的数据相比以往变化较大需要核实。否则等业务人员问起来了,一问三不知,很可能要被业务投诉。

1)单表数据量监控。
一张表的记录数在-一个已知的范围内,或者上下浮动不会超过某个阈值。

  • SQL 结果:var 数据量 = count(”昨天”(如果设置了时间字段的话)满足“过滤条件”的记录)。
  • 数值检测:如果数据量不在[数值下限,数值上限],则触发报警。
  • 同比增加:如果((今 天的数据量-上周的数据量)/上周的数据量*100)不在[比例下线,比例上限],则触发报警。
  • 环比增加:如果((今天的数据量 - 昨天的数据量)/昨天的数据量*100)不在[比例下线,比例上限],则触发报警。
  • “阈值配置”的六个数值当中,至少配置-一个阈值.对于没有配置的阈值,不做监控。

2)单表空值检测
某个字段为空的记录数在-一个范围内,或者占总量的百分比在某个阈值范围内

  • 目标字段:选择要监控的字段,不能选“无”;
  • SQL结果:var 异常数据量 = count(”目标字段”为空的记录);
  • 单次检测:如果(异常数据量)不在[数值下限,数值上限],则触发报警

3)单表重复值检测。
一个或多个字段是否满足某些规则。

  • 目标字段:选择要监控的字段,group by这里的字段列表后,没有重复;
  • 单次检测:如果(异常数据量)不在[数值下限,数值上限],则触发报警。

4)单表值域检测。
一个或多个字段没有重复记录。

  • 目标字段:选择要监控的字段,支持多选。
  • 检测规则:填写”目标字段”要满足的条件。其中$1表示第一个目标字段,$2 表示第二个目标字段,以此类推。
  • 阈值配置与”空值检测”相同。

6)跨表主外键对比

  • 监控字段和关联字段:需要符合外键约束的两个字段;
  • 阈值配置与”空值检测”相同。