如何判断Instagram多个账户来自同一个user

Data Scientist求职,很多人都会被问到analytics面试题目(经常也被称为 case studies)。题目往往open ended,没有固定的答案,考察的是你分析问题的思路是否靠谱。

有位同学elroyxiao近期分享了Facebook Data Scientist Summer Intern的电面面经:

楼主是美本数学专业毕业,现在在fordham data analytics研究生一年级在读,由于本科同学比较厉害,很容易要到了FB DS的refer,… HR轮没什么好说的,… HR当天给了回复安排首轮电面,… 面试官是一个白人小哥… 首先也是双方自我介绍,然后要我描述了一个data project,这个部分算是驾轻就熟了,感觉ok然后就进入了case的考核

来,看看她被面了什么

如果你来面,

会怎么回答?

第一个问题可以说是非常细节并且问的是instagram,可以说是新题了,题目如下:

  • Instagram为了使用户方便launch了可以迅速切换账号的button,以前想要切换必须退出当前账号再登陆,现在简化了这个步骤,点屏幕右下方就可直接切换,请问如何判断这些账户来自同一个user?

我的回答有:device number,ip address,geographic data,demographic data,很快就被面试官抓住了漏洞,他就问我怎么用demographic 区分,我想了一想发现不好区分,因为使用这个功能的用户往往想获取不同的内容,大概率想在另一个账户上be anonymous,我直接表达了我的意思,他接着问

有没有人不想be anonmous的?

(楼主这个时候已经是抓耳挠腮了,原本以为这个面试更偏向考logic,没想到问的这么细节)

对于这个follow-up我给的回答是:有一些人会为了给某个post点赞去创建很多账号,这样他们的目的就并不是获取内容,而是做popularity contest了。。

接下来又有follow-up:

你怎么判断哪些账户属于该类?

我:可以根据点赞的时间间隔,往往这种点赞的时间间隔会更加evenly distributed,因为用户想一次性点完所有赞就会连续的切换账号。

(说完这个我就陷入了沉思,好在面试官给了一个提示,说我们有user name,follower,following的data)

然后我就上道了,说我们可以通过following和follower的intersection来判断这些账户可能来自于同一个账户,还可以通过取user_name 的pattern

接下来又有follow-up:

follower会有什么intersection?

我:因为是水军账户所以follower不会有什么real people,可能就是一些广告,推销或者色情的账户

(这part就过了,又问了下一个问题,下一个问题还在预料之中,是一个counter-metric的问题)

*我们做完了test后,发布了这个feature,但是只看到了用户增长,没看到time spent的增长,为什么?

我:data是否correct?test有没有错,有没有population selection bias?

(很快被打断了,他说test啥的都没问题,直接说原因)

我:novelty effect,在一个可能这个数据是短期的,我们可以等一等,看看以后time spent会不会因为network effect增长。(他好像没大听懂我说的network effect,不过我也没有过多解释了,直接就下一个问题了)

  • 不做test直接就roll out 给所有用户好不好?

我:不好,太risky,可能有用户会抵制,从而导致用户流失。

接着follow-up:

哪些用户会抵制?哪些用户会不喜欢这个feature?

我:(叹了口气,感觉完全被自己带进沟里了,然后面试官也笑了,想了很久)就说了父母会抵制,会在生活中制止刷子女花很多时间刷ins

(接着就是陷入沉思,想想还有没有别的可能,想了很久没想到,这里欢迎大家补充)

我:(反问面试官)你觉得还有谁不喜欢?

他:people who don’t like changes。。。

(我都想掀桌了,这么显而易见的答案我居然没有先说出来)

接着最后一个问题:

如何判断time spent的增长不是因为这个new feature?

我:cohort analysis去filter out用这个feature的用户,然后dive further to see what’s going on.

接下来还有SQL题目

在最后的提问环节

我就问了FB DS最大的challenge是什么,他说new perspective,然后我就明白了为什么case部分要问的那么细节,所以地理的朋友们准备的时候一定要多想想面对某一个问题,导致这个问题的可能的所有原因,越细越好,越creative越好,最好是不是别人能想到的。

其实我感觉整个过程还比较chill,沟通也很smooth,但是能不能过只能看天了,能走到这步我已经很知足了。。

插话:elroyxiao同学刚读研,尽管回答不算完美,但是这场面试表现也算是挺好的了。在他这个阶段的很多同学,看到题目毫无思路,面完了可能都不记得问了啥、自己回答了啥。

相关链接