数据质量检测技能：垃圾进，垃圾出——确保分析从可靠的数据开始

数据分析师行业有一句经典的话：

Garbage in, garbage out. 垃圾进，垃圾出。

如果输入的数据有问题，不管分析方法多先进、模型多复杂，输出的结果一定不可靠。

但你有没有遇到过这些情况：

•分析报告做完了，才发现有 15% 的数据缺失
•两个系统导出的"销售额"对不上，因为统计口径不同
•数据中有明显的重复记录，影响了汇总结果
•用了上个月的数据做趋势分析，但上月的数据采集出了故障

这些问题的共同点是：数据有问题，但在分析完成前没被发现。

AskTable 的数据质量检测技能，做的就是在分析之前和之中，主动检查数据质量，确保分析结果可信。

一、数据质量问题的五种类型

1.1 完整性问题

表现：数据缺失、空值、断点

示例：
- 某门店 3 月 15-18 日的销售数据为空
- 用户画像中 40% 的"年龄"字段为空
- 时间序列中出现 3 天的断点

影响：
- 趋势分析出现人为的"断崖"
- 汇总数据偏低
- 预测模型因历史数据不足而失真

1.2 一致性问题

表现：同一指标在不同系统中的数值不一致

示例：
- CRM 系统显示本月销售额 500 万，ERP 显示 480 万
- 原因是：CRM 按下单时间统计，ERP 按发货时间统计
- 统计口径不同，导致两个"真相"

影响：
- 决策者看到矛盾的数据，不知道该信哪个
- 跨系统分析结果不可靠

1.3 准确性问题

表现：数据值明显不合逻辑

示例：
- 某用户年龄显示为 200 岁
- 某订单金额为负数
- 某门店日销售额 1 亿元（实际是小门店）

影响：
- 平均值被极端值拉偏
- 汇总结果严重失真

1.4 重复性问题

表现：同一记录被多次记录

示例：
- 某个订单因为系统故障被记录了两次
- 用户提交表单时网络抖动，产生重复提交

影响：
- 汇总数据虚高
- 转化率等比率指标失真

1.5 时效性问题

表现：数据延迟到达或过时

示例：
- 今天看的数据只更新到 3 天前
- 数据源变更后，旧口径数据继续流入

影响：
- 基于过时数据的决策可能已经失效
- 趋势分析出现人为的拐点

二、数据质量检测技能的工作原理

2.1 自动检测流程

AskTable 在每次分析前，会自动执行以下数据质量检查：

graph LR
    A[数据接入] --> B[完整性检查]
    B --> C[一致性检查]
    C --> D[准确性检查]
    D --> E[重复性检查]
    E --> F[时效性检查]
    F --> G[生成质量报告]

完整性检查

检测项：
- 空值比例：某字段中空值的占比
- 缺失数据块：连续缺失的时间段或记录
- 覆盖率：实际数据量 vs 预期数据量

示例：
"过去 30 天的销售数据：
- 28 天有数据，2 天缺失（3月15-16日）
- 数据覆盖率 93.3%
- 缺失天数占比 6.7%，低于 10% 的阈值 ✅"

一致性检查

检测项：
- 跨系统指标对比：同一指标在不同来源的值
- 口径变更记录：统计口径是否发生变化
- 勾稽关系校验：相关指标之间的逻辑关系

示例：
"销售额对比：
- 数据源 A（POS 系统）：520 万
- 数据源 B（ERP 系统）：515 万
- 差异 5 万（0.97%），在可接受范围内 ✅

但注意：
- 数据源 A 按下单时间，数据源 B 按支付时间
- 差异主要来自跨日订单（23:00-24:00 下单，次日支付）"

准确性检查

检测项：
- 范围校验：数值是否在合理范围内
- 极值检测：是否存在异常高/异常低的值
- 逻辑校验：相关字段之间的逻辑关系

示例：
"数据准确性检查：
- 年龄字段：发现 3 条记录年龄 > 120 ⚠️
- 订单金额：发现 1 条负值记录（退货）⚠️
- 销售额/订单数 = 客单价，校验通过 ✅"

2.2 数据质量评分

AskTable 会给出一个综合的数据质量评分（0-100 分）：

📊 数据质量报告

整体评分：82/100 ✅ 良好

┌────────────┬──────┬────────┐
│ 检测维度   │ 得分 │ 状态   │
├────────────┼──────┼────────┤
│ 完整性     │ 88   │ ✅     │
│ 一致性     │ 90   │ ✅     │
│ 准确性     │ 75   │ ⚠️    │
│ 重复性     │ 95   │ ✅     │
│ 时效性     │ 65   │ ⚠️    │
└────────────┴──────┴────────┘

发现的问题：
1. ⚠️ 准确性：3 条记录年龄 > 120，建议清理
2. ⚠️ 时效性：数据延迟 3 天，最新数据为 3 天前

对分析的影响评估：
- 当前数据质量足以支持趋势分析
- 但精确到个位数的汇总可能存在偏差
- 建议修复时效性问题后再做精确预测

2.3 修复建议

AskTable 不只是告诉你"数据有问题"，还会给出修复建议：

问题	修复建议
空值	"可以使用前后均值填充（推荐）或直接排除缺失日"
极值	"建议排除年龄 > 120 的 3 条记录"
重复	"检测到 5 条重复订单，建议去重后重新计算"
口径不一致	"建议统一使用下单时间口径，或在报告中注明差异来源"
数据延迟	"建议检查数据同步任务，当前延迟 3 天"

三、典型应用场景

场景一：分析前的数据体检

用户提问："这个数据可靠吗？"

📊 数据质量体检报告

数据源：销售数据库（2026年1-3月）
记录数：90 天 × 3 = 270 天门店数据

整体评分：82/100 ✅ 良好

【完整性】88/100
- 2 天数据缺失（3月15-16日，系统维护）
- 覆盖率 99.3%

【一致性】90/100
- 跨系统差异 < 1%，正常

【准确性】75/100 ⚠️
- 3 条异常记录（年龄 > 120）
- 1 条负金额记录（退货，正常业务）

【时效性】65/100 ⚠️
- 数据延迟 3 天
- 最新可用数据：4月3日

【结论】
数据质量良好，可用于趋势分析和对比分析。
但如需精确到日的预测，建议先修复数据延迟问题。

场景二：定期数据质量巡检

用户提问："最近的数据有没有问题？"

📊 本周数据质量巡检

巡检范围：过去 7 天（3月31日 - 4月6日）
巡检结果：2 个关注项

1. ⚠️ 4月2日数据缺失
   - 原因：POS 系统升级，数据同步中断
   - 影响：当日销售数据无法获取
   - 建议：使用前后均值填充或联系 IT 恢复

2. ⚠️ 用户数据重复率上升至 2.5%
   - 正常范围：< 1%
   - 可能原因：注册系统升级导致重复提交
   - 建议：执行去重脚本，检查注册系统

其他维度正常。

场景三：数据质量趋势追踪

📊 数据质量趋势（过去 4 周）

| 周 | 整体评分 | 主要问题 |
|----|----------|----------|
| W1 | 78 | 数据延迟 5 天 |
| W2 | 80 | 延迟修复，但出现空值 |
| W3 | 82 | 空值修复，出现重复记录 |
| W4 | 85 | 重复记录清理中 |

趋势：✅ 持续改善
预计下周可达 90 分以上

四、实战：如何使用数据质量检测技能

4.1 自然语言触发

"这个数据可靠吗？"
"最近的数据有没有问题？"
"帮我检查一下数据质量"
"分析之前先帮我看看数据有没有问题"

4.2 深度检测

"帮我做一个全面的数据质量检查"
"检查最近一周的数据质量"
"对比一下两个数据源的差异"

4.3 自动检测

当启用"数据质量守护者"智能体时，AskTable 会定期自动检测数据质量，发现问题主动推送告警。

五、数据质量检测与其他技能的联动

数据质量检测（前提：数据可靠吗？）
    ↓
异常检测（发现问题：数据有异常吗？）
    ↓
下钻/归因（诊断问题：为什么异常？）
    ↓
指标解读（翻译：意味着什么？）
    ↓
编排报告（输出：完整的分析报告）

数据质量检测是所有分析技能的前提。如果数据质量评分低于 70 分，AskTable 会先提醒用户修复数据，而不是继续分析。

六、客户案例

某金融公司：从"数据不信任"到"数据驱动决策"

痛点：管理层对数据报告缺乏信任，因为曾经出现过两次数据口径不一致导致的决策失误。每次看报告都要问"这个数据准不准"。

方案：启用数据质量检测技能，每份分析报告自动附带数据质量评分。

效果：

•数据质量评分从 68 分提升至 92 分（经过 2 个月的持续修复）
•管理层对数据报告的信任度从 45% 提升至 90%
•累计发现并修复 47 个数据质量问题
•因数据问题导致的决策失误从每季度 2-3 次降至 0 次

"以前每次看报告都要打个问号，现在看到数据质量评分 90+，心里就有底了。这不是技术问题，是信任问题。" —— 某金融公司数据负责人

总结

数据质量检测技能的核心价值，不在于"发现数据有问题"，而在于：

•主动检测：不等用户发现问题，在分析前就检查数据质量
•全面覆盖：完整性、一致性、准确性、重复性、时效性五大维度
•量化评分：给出 0-100 分的综合评分，让质量可衡量、可追踪
•修复建议：不只告诉你"有问题"，更告诉你"怎么修"

好的数据分析，不是从分析开始的，而是从确认数据可靠开始的。

准备好让数据分析更简单了吗？

无需编程，用自然语言提问，AI 自动生成 SQL 查询和可视化图表。
立即免费试用 AskTable，体验 AI 驱动的数据分析。

免费开始使用查看定价

无需信用卡

2 分钟快速上手

支持 33 种数据库

加入 AskTable 社群

咨询我们