数据质量监控
数据质量监控,在企业中实际的作用更多的是面对开发人员,例如计算出的结果值出现了明显的异常,一个日常用品的店铺,单个订单金额突破了10万,很明显是异常的订单,虽然有可能真有这样的顾客,但是需要提前预警,以提醒开发人员,这里的数据相比以往变化较大需要核实。否则等业务人员问起来了,一问三不知,很可能要被业务投诉。
1)单表数据量监控。
一张表的记录数在-一个已知的范围内,或者上下浮动不会超过某个阈值。
- SQL 结果:var 数据量 = count(”昨天”(如果设置了时间字段的话)满足“过滤条件”的记录)。
- 数值检测:如果数据量不在[数值下限,数值上限],则触发报警。
- 同比增加:如果((今 天的数据量-上周的数据量)/上周的数据量*100)不在[比例下线,比例上限],则触发报警。
- 环比增加:如果((今天的数据量 - 昨天的数据量)/昨天的数据量*100)不在[比例下线,比例上限],则触发报警。
- “阈值配置”的六个数值当中,至少配置-一个阈值.对于没有配置的阈值,不做监控。
2)单表空值检测
某个字段为空的记录数在-一个范围内,或者占总量的百分比在某个阈值范围内
- 目标字段:选择要监控的字段,不能选“无”;
- SQL结果:var 异常数据量 = count(”目标字段”为空的记录);
- 单次检测:如果(异常数据量)不在[数值下限,数值上限],则触发报警
3)单表重复值检测。
一个或多个字段是否满足某些规则。
- 目标字段:选择要监控的字段,group by这里的字段列表后,没有重复;
- 单次检测:如果(异常数据量)不在[数值下限,数值上限],则触发报警。
4)单表值域检测。
一个或多个字段没有重复记录。
- 目标字段:选择要监控的字段,支持多选。
- 检测规则:填写”目标字段”要满足的条件。其中$1表示第一个目标字段,$2 表示第二个目标字段,以此类推。
- 阈值配置与”空值检测”相同。
6)跨表主外键对比
- 监控字段和关联字段:需要符合外键约束的两个字段;
- 阈值配置与”空值检测”相同。