
微信

飞书
选择您喜欢的方式加入群聊

扫码添加咨询专家
数据分析师行业有一句经典的话:
Garbage in, garbage out. 垃圾进,垃圾出。
如果输入的数据有问题,不管分析方法多先进、模型多复杂,输出的结果一定不可靠。
但你有没有遇到过这些情况:
这些问题的共同点是:数据有问题,但在分析完成前没被发现。
AskTable 的数据质量检测技能,做的就是在分析之前和之中,主动检查数据质量,确保分析结果可信。
表现:数据缺失、空值、断点
示例:
- 某门店 3 月 15-18 日的销售数据为空
- 用户画像中 40% 的"年龄"字段为空
- 时间序列中出现 3 天的断点
影响:
- 趋势分析出现人为的"断崖"
- 汇总数据偏低
- 预测模型因历史数据不足而失真
表现:同一指标在不同系统中的数值不一致
示例:
- CRM 系统显示本月销售额 500 万,ERP 显示 480 万
- 原因是:CRM 按下单时间统计,ERP 按发货时间统计
- 统计口径不同,导致两个"真相"
影响:
- 决策者看到矛盾的数据,不知道该信哪个
- 跨系统分析结果不可靠
表现:数据值明显不合逻辑
示例:
- 某用户年龄显示为 200 岁
- 某订单金额为负数
- 某门店日销售额 1 亿元(实际是小门店)
影响:
- 平均值被极端值拉偏
- 汇总结果严重失真
表现:同一记录被多次记录
示例:
- 某个订单因为系统故障被记录了两次
- 用户提交表单时网络抖动,产生重复提交
影响:
- 汇总数据虚高
- 转化率等比率指标失真
表现:数据延迟到达或过时
示例:
- 今天看的数据只更新到 3 天前
- 数据源变更后,旧口径数据继续流入
影响:
- 基于过时数据的决策可能已经失效
- 趋势分析出现人为的拐点
AskTable 在每次分析前,会自动执行以下数据质量检查:
graph LR
A[数据接入] --> B[完整性检查]
B --> C[一致性检查]
C --> D[准确性检查]
D --> E[重复性检查]
E --> F[时效性检查]
F --> G[生成质量报告]
检测项:
- 空值比例:某字段中空值的占比
- 缺失数据块:连续缺失的时间段或记录
- 覆盖率:实际数据量 vs 预期数据量
示例:
"过去 30 天的销售数据:
- 28 天有数据,2 天缺失(3月15-16日)
- 数据覆盖率 93.3%
- 缺失天数占比 6.7%,低于 10% 的阈值 ✅"
检测项:
- 跨系统指标对比:同一指标在不同来源的值
- 口径变更记录:统计口径是否发生变化
- 勾稽关系校验:相关指标之间的逻辑关系
示例:
"销售额对比:
- 数据源 A(POS 系统):520 万
- 数据源 B(ERP 系统):515 万
- 差异 5 万(0.97%),在可接受范围内 ✅
但注意:
- 数据源 A 按下单时间,数据源 B 按支付时间
- 差异主要来自跨日订单(23:00-24:00 下单,次日支付)"
检测项:
- 范围校验:数值是否在合理范围内
- 极值检测:是否存在异常高/异常低的值
- 逻辑校验:相关字段之间的逻辑关系
示例:
"数据准确性检查:
- 年龄字段:发现 3 条记录年龄 > 120 ⚠️
- 订单金额:发现 1 条负值记录(退货)⚠️
- 销售额/订单数 = 客单价,校验通过 ✅"
AskTable 会给出一个综合的数据质量评分(0-100 分):
📊 数据质量报告
整体评分:82/100 ✅ 良好
┌────────────┬──────┬────────┐
│ 检测维度 │ 得分 │ 状态 │
├────────────┼──────┼────────┤
│ 完整性 │ 88 │ ✅ │
│ 一致性 │ 90 │ ✅ │
│ 准确性 │ 75 │ ⚠️ │
│ 重复性 │ 95 │ ✅ │
│ 时效性 │ 65 │ ⚠️ │
└────────────┴──────┴────────┘
发现的问题:
1. ⚠️ 准确性:3 条记录年龄 > 120,建议清理
2. ⚠️ 时效性:数据延迟 3 天,最新数据为 3 天前
对分析的影响评估:
- 当前数据质量足以支持趋势分析
- 但精确到个位数的汇总可能存在偏差
- 建议修复时效性问题后再做精确预测
AskTable 不只是告诉你"数据有问题",还会给出修复建议:
| 问题 | 修复建议 |
|---|---|
| 空值 | "可以使用前后均值填充(推荐)或直接排除缺失日" |
| 极值 | "建议排除年龄 > 120 的 3 条记录" |
| 重复 | "检测到 5 条重复订单,建议去重后重新计算" |
| 口径不一致 | "建议统一使用下单时间口径,或在报告中注明差异来源" |
| 数据延迟 | "建议检查数据同步任务,当前延迟 3 天" |
用户提问:"这个数据可靠吗?"
📊 数据质量体检报告
数据源:销售数据库(2026年1-3月)
记录数:90 天 × 3 = 270 天门店数据
整体评分:82/100 ✅ 良好
【完整性】88/100
- 2 天数据缺失(3月15-16日,系统维护)
- 覆盖率 99.3%
【一致性】90/100
- 跨系统差异 < 1%,正常
【准确性】75/100 ⚠️
- 3 条异常记录(年龄 > 120)
- 1 条负金额记录(退货,正常业务)
【时效性】65/100 ⚠️
- 数据延迟 3 天
- 最新可用数据:4月3日
【结论】
数据质量良好,可用于趋势分析和对比分析。
但如需精确到日的预测,建议先修复数据延迟问题。
用户提问:"最近的数据有没有问题?"
📊 本周数据质量巡检
巡检范围:过去 7 天(3月31日 - 4月6日)
巡检结果:2 个关注项
1. ⚠️ 4月2日数据缺失
- 原因:POS 系统升级,数据同步中断
- 影响:当日销售数据无法获取
- 建议:使用前后均值填充或联系 IT 恢复
2. ⚠️ 用户数据重复率上升至 2.5%
- 正常范围:< 1%
- 可能原因:注册系统升级导致重复提交
- 建议:执行去重脚本,检查注册系统
其他维度正常。
📊 数据质量趋势(过去 4 周)
| 周 | 整体评分 | 主要问题 |
|----|----------|----------|
| W1 | 78 | 数据延迟 5 天 |
| W2 | 80 | 延迟修复,但出现空值 |
| W3 | 82 | 空值修复,出现重复记录 |
| W4 | 85 | 重复记录清理中 |
趋势:✅ 持续改善
预计下周可达 90 分以上
"这个数据可靠吗?"
"最近的数据有没有问题?"
"帮我检查一下数据质量"
"分析之前先帮我看看数据有没有问题"
"帮我做一个全面的数据质量检查"
"检查最近一周的数据质量"
"对比一下两个数据源的差异"
当启用"数据质量守护者"智能体时,AskTable 会定期自动检测数据质量,发现问题主动推送告警。
数据质量检测(前提:数据可靠吗?)
↓
异常检测(发现问题:数据有异常吗?)
↓
下钻/归因(诊断问题:为什么异常?)
↓
指标解读(翻译:意味着什么?)
↓
编排报告(输出:完整的分析报告)
数据质量检测是所有分析技能的前提。如果数据质量评分低于 70 分,AskTable 会先提醒用户修复数据,而不是继续分析。
痛点:管理层对数据报告缺乏信任,因为曾经出现过两次数据口径不一致导致的决策失误。每次看报告都要问"这个数据准不准"。
方案:启用数据质量检测技能,每份分析报告自动附带数据质量评分。
效果:
"以前每次看报告都要打个问号,现在看到数据质量评分 90+,心里就有底了。这不是技术问题,是信任问题。" —— 某金融公司 数据负责人
数据质量检测技能的核心价值,不在于"发现数据有问题",而在于:
好的数据分析,不是从分析开始的,而是从确认数据可靠开始的。