提高数据质量:建立数据指标的关键
更新: 7/18/2025 字数: 0 字 时长: 0 分钟
建立数据指标的关键,不在于建立指标的人有多么高深的思维,而在于数据质量。数据质量是由数据采集、数据清洗、数据存储、数据管理规范等工作组成的。这些工作除了负责数据开发的工程师可以看明白,普通人既看不懂也不理解,但它们确实是商业分析成败的关键。
比如,一个普通的小超市,老板站在柜台旁边收钱,可能有3种收钱方式。
- 方式一:客户直接付现金,老板把现金放在抽屉里。
- 方式二:老板用 POS机扫商品条码,之后再扫客户的微信付款码。
- 方式三:老板让客户报会员卡号,在POS机输入会员卡号,再扫商品条码。
这样会留下3种完全不同的数据记录结果(见下图)。
这3种方式记录的数据质量是完全不同的。
如果只是简单地把钱放在抽屉里,那么这种数据记录完全无质量可言。根本分不清楚抽里的钱是卖哪些商品得来的,是上个月剩下的钱还是这个月新赚的钱。至于老板临时从抽屉里拿走多少钱,也一无所知。
如果有POS机记录,那么至少能区分出来哪些商品被买走了。这样可以对商品销售情况进行分析,在盘点商品的时候也有一份记录数据可以对照。如果有微信记录,则至少能区分出来哪些是营业收入,哪些是自己私人的零用钱,但仍无法对谁购买了商品进行分析。
如果有客户的手机号,就有了一个ID对客户进行识别,就能分析谁买了哪件商品,就能做很多其他的工作了。
- 复购:客户买了一袋米,按时间推算,应该差不多食用完了,可以问客户需不需要再购买。
- 交叉销售:客户买了拖把、扫帚,推测客户在大扫除,推荐客户买清洁剂。
- 增量销售:客户买了5瓶啤酒,提醒客户,买6送1。
- 增值服务:客户买了5瓶啤酒,提醒客户,一次买1箱可以直接送货上门。
- 新品推荐:客户之前常买的护手霜出新品了,很好用还有赠品。
大部分营销策略都是基于这些数据分析成果而设计的,越精细的策略,越需要精细的数据记录与深入的数据分析。
然而,现实中很少有老板能做到这一点,可以拜访一下自己家门口楼下的小卖部。老板们都是一边看着电视、一边玩着游戏、一边漫不经心地收钱。除非特别熟的客户,老板会搭讪几句,否则根本不知道向客户推销什么。
更糟糕的是,在现实中,老板很有可能是3种收款方式并用!客户愿意给现金就给现金,愿意使用微信就使用微信,愿意使用支付宝就使用支付宝,这导致数据记录本身就是一塌糊涂的。实际上,90%的小超市/便利店老板根本连自己花了多少钱或挣了多少钱都算不清楚一他们只会看一眼抽屉,看看里边还有没有现金。
那么,大型连锁超市是否就更好一些呢?完全不是!读者可以回忆一下自己去大商场或连锁店购物时的经历。店员们会要求客户出示会员卡或手机号,可真正出示的客户能有多少?根据一些BI企业对交易数据的统计,大概只有10%的订单能关联到一个会员ID,剩下90%的订单都是收银员随手略过的。更不用说,很多小型超市/门店根本没有可以记录会员ID的POS机,记录数据更无从说起(见下图)。可以说,数据采集问题,不分企业大小,都是非常让人“头疼”的问题。 这种现状导致的结果:即使是简单的一个“销售收入”指标,都很难进行准确的统计,更不用说以下数据了。
- 客户的性别、年龄等这些隐私数据。
- 客户对商品的喜好、关注点这种态度数据。
- 客户来了多少次、看了哪些商品、没看哪些商品等这种行为数据。
同理,一个看似简单的“开店成本”指标,也很难进行准确的统计。因为成本不像收入,能立刻记录下来(比如用POS机扫一下商品条码,“滴”一声,数据就被记录下来了)。
- 资金成本:常常表现为每月周转资金的贷款成本,计算方法复杂。
- 进货成本:经常受赊销、分期付款、上游厂商优惠等影响,还有下游商家“窜货”等行为,发生时间不固定,计算方法复杂。
- 库存成本:仓库并非时时盘点,经常会发生库存损耗、商品过期也不知道的情况。
因此,成本会比收入更难精确到每天进行统计。
大型企业可以用一些技术手段来提高数据的准确性,但仍然无法做到完全精确。比如,对于一个电商平台,用户的交易完全在平台上进行。此时,可以为每一个用户建立一个ID,记录用户在平台上的浏览过程,记录交易结果和交易订单情况(类似超市的购物小票)。这样看起来有较完备的记录,如下图所示。 但这些记录也只是“较为完备”而已,仍然有大量问题。
- 用户/商家不提供真实性别、年龄等基本信息。
- 商家为了提升店铺权重,故意刷单,人为制造好评。
- 用户为了套取平台优惠,用好几个手机号注册,领新人福利。
- 浏览行为需要埋点采集,为了赶上线进度,埋点出问题/压根没做。
即使数据采集回来,也会有各种问题导致数据无法使用,
- 比如商品信息表/活动信息表缺乏维护,里边混杂了各种错误、混乱的信息。
- 大公司各个部门之间数据不互通,根本不知道其他部门在做什么。
- 公司缺少统一的数据规范,同一个指标,不同部门的计算方法不一样。
这些问题在越大的公司里显得越普遍。
- 发展迅速的公司往往认为先保增长,挣到钱再说,数据建设先缓缓吧。
- 发展稳定的公司往往安于现状,不愿意为数据建设投资。
- 发展不佳的公司往往在挣扎求生,对于数据建设这种不能挣钱的事要求先放一放。
所以,只有完全不懂数据的外行,才会觉得“大公司有很多很准确的大数据”。数据采集筛选、管理本身是一个艰苦的工作,并且对业务而言没有直接的影响,所以很容易被忽视,在各行各业这是普遍的情况。因此,在真正做商业分析时,不能寄希望于“我们的程序员很强大,我们的数据完全精准,我们的数据很全面"。做商业分析,始终都要遵守有限理性原则,接受数据可能存在的缺失、偏差、错误,尽可能用手头有限的数据解决问题。这就要求在建立数据指标时做到以下几点。
- 尽量不采用系统无法记录的指标。
- 尽量不发明稀奇古怪的指标。
- 尽量和其他部门指标对齐。
- 按规范流程操作,不走捷径。
- 关注数据采集流程与原始数据格式。
- 关注数据质量与数据规范。
- 尽可能从简单、明确、重要的指标入手。
- 在有条件的情况下,尽可能推动数据质量改善。
总之,不能脱离数据采集、数据质量大谈特谈数据指标。因此,本文章会首先从投入/产出两个简单、重要且相对准确的指标,开始商业分析基本思路的讲解。理解了基本思路以后,再逐步深入,这样可以帮助读者改掉眼高手低的坏习惯。在商业分析领域,有相当多的人喜欢高谈阔论,可一碰到具体数据问题就只能“纸上谈兵”了。