不得不说谷歌家的DS职位其实面试设计还是挺科学的,四轮面试,一轮coding,一轮概率,一轮假设检验,一轮open problem modeling…而且其实地里DS面经不少,其实遇到别人面过的重复题目几率比面SDE还是高不少的。。。
第一轮,一个硕士学校的校友ABC, 简短寒暄。之后开始问题:
1)假如X, Y, Z三个变量 分别都服从正态分布,如何检验X, Y, Z jointly 服从正态分布?
2)假设一个data generator 不停generate range [0,1]的数。有人声称这个generator生成数据是随机生成的。。如何检验是不是随机的?
3)老题,第二拍卖定价。假设A和B竞拍。A和B竞价高者获得物品,但是是按价格较低者的报价获得物品。对于A来说,每次知道自己的报价,但是只有赢得物品拍卖时候,才能观测到对手的报价。如果报价低于对方的时候,是不知道的。。。假设作为Player A, 知道Player B的竞拍价钱服从一个exponential distribution with parameter lambda… 然后A和B假设竞拍了100次,作为A,你能观测到的就是这100次你每次的出价,每次是否获胜。以及获胜时,所需付出的价格(即Player B的出价)。如何通过这些data和Player B的 竞拍策略服从exponential distribution来 估计Player B的参数lambda…
第二轮,一个中国大哥 主要面概率
有1到N N个数,从中随机抽取第1个数,第2个数无放回。如果第2个数小于1第1个数,就停止。如果第2个数大于第1个数,就可以继续抽取,直到抽出的数x(n) 小于上一轮抽到的数x(n-1). 假设这个随机生成数列为X,求X的长度的期望。
第二题,OLS的基本假设条件,如果data所有点都多了一份拷贝,那么估计参数,估计参数方差会如何变化?
第三题, 辛普森悖论是什么,为什么会出现这个问题?
第三轮,被韩国大哥坑。因为这一轮突然换成video面试,然后出现了技术问题,导致只面了25分钟。这轮本来是一个coding题目。但是我实在看不懂这个题目。。说假设从一个大data population里面做subsampling, 然后我可以生成一个关于subsample的confidence intervals. 做100次subsample可以生成100个confidence intervals…假设现在我能观测到这100个confidence intervals, 如何估计整个data population的confidence interval。。。20分钟太短,题目又太晦涩难懂,导致这轮做的非常的不舒服。。。
第四轮,一个open business problem…机器学习题目。如何设计Google在第三方网站投放网页。应该展示什么广告,类似于做一个广告推荐系统。。
欢迎大家讨论。。