1、面试你的数据招聘人才为企业服务,面试通常是不可或缺的一环。通过收集数据,分析数据来辅助管理决策, “面试”你的数据,也同样重要。 招聘时看过了简历,之所以还要面试,是因为简历中的信息往往不能够全面地反映求职者的能力及其与招聘岗位的契合度。同样的,仅仅依赖对数据的简单统计描述,数据分析师和数据驱动的决策也往往会错失一些重要的信息。所以,有经验的数据专家通常会在进行深入分析前先“面试”一下数据,即对原始数据有一个亲身的感知。用数据分析师的行话来说,就是看一下“数据到底长得什么样” 。在大数据时代,把原始数据都看一遍当然是不现实的也是不必要的。所以真正的数据面试通常是用一种人机配合的做法,即通过分析
2、师对原始数据的查看与数据软件处理的交互来实现。 数据面试一般可分为两个步骤。第一步是随机抽取一定量的原始数据(比如数百名顾客的纪录)来浏览一下。这一步不仅可以让数据分析者对数据有个直接的感知,而且可能发现一些数据录入、数据格式上的明显错误;更重要的是,这一做法往往能帮助分析者看到一些之前不曾想到的数据规律,并在之后的进一步数据分析中对这些规律进行假设验证。不久前,笔者曾经对某网上银行移动端用户行为进行过一些研究。通过浏览数百名用户的原始交易记录,笔者发现,用户使用移动端的一般规律是,从简单账户查询过渡到小额支付,再过渡到大额的转账汇款等交易。当然这一规律是否真的有普适性还需要用大数据做严格意义
3、上的统计假设检验。尽管一个经常接触用户的客户服务经理可能会觉得这样的移动端行为演变模式是显而易见的,然而不通过对原始数据的这般面试,专业的数据分析师或许很难想到这种潜在的用户行为规律。这是因为数据分析师与一线业务经理对客户行为的熟悉程度存在差异。而企业中广泛存在的各部门间的交流瓶颈,特别是一线业务人员与后台数据分析师之间的沟通不畅,使得分析师或其他数据使用者对原始数据的面试显得尤为重要,因为这种面试能让数据分析人员得以对数据背后的业务和用户行为有更好更多的了解。 数据面试的第二步则是看一下数据中每个变量的分布直方图(histogram) 。如果是随时间变化的变量,还应该作图看一下它随时间波动的
4、情况。一般的统计软件都提供这些功能,但是我常常发现连一些颇有经验的数据分析师也经常会忽略这一步,而只是看一下均值方差等常见的简单统计量。其实分布直方图包含的信息要比均值方差多得多。它不但让我们能一目了然地看到是否有极端值的存在,还往往能带给我们市场细分的新启示。我曾经分析过一家电商的销量分布直方图,发现其月销售额是由大量千元左右的中低值定单和近百个超大定单(数十万元以上)构成的。据此进一步追溯原因,才了解到原来这家 B2C 网站的用户中还存在一些商业用户。而这些商业用户作为一个重要的细分市场,当然也需要与一般终端用户在营销上区别对待了。 在实践中要真正了解分布直方图所展示信息的背后成因,往往需
5、要回到原始数据中去查看一番。因此数据面试的两个步骤通常是交替使用,密切结合的。曾经有过这样的一个例子。分析师利用某信用卡公司的数据研究持卡人用该公司信用卡加油的情况,其中一个变量是持卡人两次用该卡的加油时间间隔。通过查看这一变量的分布直方图,他们发现有相当多持卡人的这一间隔分布在一天之内和数月之后的这两个极端。原因会是什么呢?分析师接着回到原始数据中去查看这些持卡人的消费纪录明细,发现这些持卡人平时几乎不用该卡,却喜欢在自驾游时带上这张卡,并用于加油餐饮等。管理层获知这一分析结果,很快根据多年的行业经验做出了自己的判断:这些持卡人很可能有多张信用卡并常用竞争对手的信用卡,然而那些卡的额度可能不
6、够高,日常消费使得可用额度不足了;所以出门旅游就用平时不常用的那张卡。有了这一洞察,下一步针对这类持卡人的精准营销策划就能积极展开了。 当然,随着数据的不断增加,数据中的变量数目可能会多到连查看每个变量的分布直方图也变得不现实。这时我们就只能有选择地挑选一些变量进行查看,就如同因为面试时间有限,只能挑一些重要的问题来问一样。那么我们应该如何来挑选出需要特别查看的变量呢?一个好的做法是从业务和统计两方面着手。从业务角度出发,我们可以挑选出与业务最相关的那些变量。这里数据分析师自身对业务的熟悉度以及分析师与业务人员之间的沟通起着重要作用。从统计角度出发,我们可以用分析软件找出不符合正态分布的那些变
7、量,着重于查看那些偏离正态分布最多的变量。通俗地讲,这些变量是“长”得最怪的,因而更有可能带给我们意想不到的洞察。另一个好的做法是用分析软件找出每个变量可能存在的异常值(outlier) ,然后对这些异常值进行“面试” 。异常值往往是最富含信息量的,它们或许反映了数据收集中的差错,或许折射出企业运营中的失误,或许能成为重大发现的引子(比如历史上许多药品的发现) 。 在大数据时代,数据资源正成为和人力资源一样重要的企业竞争优势的来源。因此,管理者应具备如重视人才一样重视数据的意识。有了这一意识,企业上下,从管理者到数据分析师,每个围绕数据的利益共同体成员,才能够尽快形成做好数据“面试”的好习惯。