知乎日报

每日提供高质量新闻资讯

头图

准备好这 7 个方面,离成为数据分析师又近了一步

OTA Photos / CC BY-SA

互联网公司在面试数据分析师的工作时具体会被问什么样的问题?

董昊天

我是金融科班出身,本科一毕业就去 BAT 做了数据分析师,目前也是面试官之一。

我被面试,和面试别人的时候,主要关注 7 个方面。

1. 基本工具

包括规定动作和自选动作两类。目前我所在的组不需要关心数据来源和结构化的问题,有专门的工程师团队写爬虫、做清洗、维护计算集群和数据库。所以主要考察点在于查询和衍生指标的计算方面。

1.1 规定动作

SQL 查询:JOIN ON、DISTINCT、GROUP BY、ORDER BY 等等。从数据库中提取数据是数据分析的第一步。另外我们的数据规模是 TB 级的,所以还要能使用 SQL 让集群做一些简单的计算,不然都下载到本地的话运算资源是肯定不够的。可能还会问一些非常基础的问题,比如 PRIMARY KEY、int、str、double 之类。

Excel数据透视表、VLOOKUP、COUNTIFS、SUMIFS、VAR.P、条件格式等等,可能会涉及到诸如 VLOOKUP 中的 TRUE 和 FALSE 参数有什么区别,VAR.P 和 VAR.S 有什么区别等细节问题。

1.2 自选动作

根据简历来问,简历上写什么就问什么,会问得比较深入。Python、Stata、R、SPSS、SAS、EViews 都算比较常见的数据分析工具。顺便奉劝各位不要作死,毕竟不作死都有可能会死。比如简历上写“精通 Python”,虽然我知道简历注水是常态,但既然都“精通”了,那我问到 pandas,regular expression,DataFrame.iterrows() 返回的是 Series 还是 dictionary 还是 list of tuples,tuple 和 list 的区别的时候好歹都得答出来吧……

2. 逻辑思维

主要分为两方面,对业务逻辑的理解能力和行文的逻辑水平。

2.1 业务逻辑

虽然一个业务看似流程简单清晰,但产生数据的复杂程度往往超过大多数人的想象。对业务逻辑的考察主要通过相关项目经历。如果是典型的学校项目,我会比较关心指标设计选取、代理变量选择、误差分析、因果性解释等。

这里再次奉劝各位不要作死,写在简历上的项目经历起码自己要非常熟悉,对答如流。如果我听你介绍 15 秒项目后提出的问题(如“你为什么说 北京经济适用房建筑面积与房屋建造年份的乘积 是一个非常重要且有实际意义的解释变量?”)就能把你难住的话,那你也会把我难住的——尼玛面试评价表怎么写啊摔!

以我为例,我每天接触的是 700 多张表,每张表的字段往往超过 200 个。这些表和字段往往还有关联。面对这么多业务指标,能否迅速理解它们之间的联系?面对新的数据需求,能否逻辑清晰地将它拆分成指标、二级指标并进行各种计算?面对复杂的局部最优化和全局最优化需求,能否“抓大放小”,能否迅速找到关键控制点、关键影响因素并加以优化?我每天通常只有不到 1 小时的时间用来出一份要发给 CEO 等大佬的,关于业务数据分析和后续指导意见的报告。思维不敏捷,逻辑不清晰的话,是很难做好这份工作的。

2.2 行文逻辑

毕竟最终产出是一份份报告,可能是 HTML 邮件也能是 PDF。文章结构还是很重要的。这里不展开说了,不过关键的几点是先说结论,先写摘要。

3. 理论储备

也分为规定动作和可选动作。

3.1 规定动作

主要是基础的统计学理论,如方差、协方差、算数平均数、几何平均数、中位数、众数、分位值、双峰数据、长尾数据、假设检验、期望迭代法则、贝叶斯原理等。

3.2 自选动作

根据简历来问,简历上写什么我一定会问什么。第三次奉劝各位不要作死,写的检验也好机器学习算法也好,好歹自己要知道原理、适用条件、局限性。不然我跟你聊起 Pearson distance、K-means cluster 的随机性问题的时候你接不上来也是很尴尬的。

4. 对细节的敏感度

作为数据分析师,每天要关注大量数据指标。对细节的敏感度是非常必要的。这主要分为两方面,对统计口径的敏感度和对数据的敏感度。

4.1 统计口径

统计口径一致是确保数据可比性的基础,这非常考验数据分析师的敏感度和行业经验。比如转化率,是点击算转化还是注册算转化还是购买算转化?配送时间,是从用户下单开始计时还是从订单确认开始计时还是从商品出库开始计时?客单价包不包括配送费、打包费、代金券形式的折扣优惠?

4.2 数据

我非常关心候选人对数据异常波动、离群值、平均数没有代表意义等情况的迅速识别能力。比如已知然寿司套餐单价 1,500,酒水单价 300,平均客单价 2,500,能不能马上想到这可能是双峰数据或者长尾数据,抑或既双峰又长尾的数据?

5. 学习能力

互联网行业瞬息万变,光数据的存储就有 Oracle、MySQL、Hadoop、Spark、Hive、Impala 等一大堆奇奇怪怪的东西。互联网行业的从业者经常要面对新需求、新工具、新方法。能否迅速掌握新知识,解决新问题是候选人必须证明给我看的。

主要考察的方式是了解过往项目经历,或者我出作业题(比如 Sci-Hub)。

6. 排版和简单 UI 设计

我认为数据分析报告必须简洁、清晰、重点突出。主要考察方式是出作业题让候选人限时交一份 slides(就是 PPT 啦)出来。能掌握标准的 Microsoft Design Language 是大大的加分项。

7. 价值观

主要看工作热情、态度、道德水平等等,这方面我问的问题比较随机,没什么规律可循,甚至问过机械键盘、人体工程学设计等方面的问题。