年底谷歌数据科学家昂赛

不得不说谷歌家的DS职位其实面试设计还是挺科学的,四轮面试,一轮coding,一轮概率,一轮假设检验,一轮open problem modeling…而且其实地里DS面经不少,其实遇到别人面过的重复题目几率比面SDE还是高不少的。。。

第一轮,一个硕士学校的校友ABC, 简短寒暄。之后开始问题:
1)假如X, Y, Z三个变量 分别都服从正态分布,如何检验X, Y, Z jointly 服从正态分布?
2)假设一个data generator 不停generate range [0,1]的数。有人声称这个generator生成数据是随机生成的。。如何检验是不是随机的?
3)老题,第二拍卖定价。假设A和B竞拍。A和B竞价高者获得物品,但是是按价格较低者的报价获得物品。对于A来说,每次知道自己的报价,但是只有赢得物品拍卖时候,才能观测到对手的报价。如果报价低于对方的时候,是不知道的。。。假设作为Player A, 知道Player B的竞拍价钱服从一个exponential distribution with parameter lambda… 然后A和B假设竞拍了100次,作为A,你能观测到的就是这100次你每次的出价,每次是否获胜。以及获胜时,所需付出的价格(即Player B的出价)。如何通过这些data和Player B的 竞拍策略服从exponential distribution来 估计Player B的参数lambda…

第二轮,一个中国大哥 主要面概率
有1到N N个数,从中随机抽取第1个数,第2个数无放回。如果第2个数小于1第1个数,就停止。如果第2个数大于第1个数,就可以继续抽取,直到抽出的数x(n) 小于上一轮抽到的数x(n-1). 假设这个随机生成数列为X,求X的长度的期望。
第二题,OLS的基本假设条件,如果data所有点都多了一份拷贝,那么估计参数,估计参数方差会如何变化?
第三题, 辛普森悖论是什么,为什么会出现这个问题?

第三轮,被韩国大哥坑。因为这一轮突然换成video面试,然后出现了技术问题,导致只面了25分钟。这轮本来是一个coding题目。但是我实在看不懂这个题目。。说假设从一个大data population里面做subsampling, 然后我可以生成一个关于subsample的confidence intervals. 做100次subsample可以生成100个confidence intervals…假设现在我能观测到这100个confidence intervals, 如何估计整个data population的confidence interval。。。20分钟太短,题目又太晦涩难懂,导致这轮做的非常的不舒服。。。

第四轮,一个open business problem…机器学习题目。如何设计Google在第三方网站投放网页。应该展示什么广告,类似于做一个广告推荐系统。。

欢迎大家讨论。。

3 Likes

对第三题的一些思考:假设A和B的bidding分别为x,y。当A > B时,density for B: lambda * exp(- lambda y)。当A < B时,probability for B: exp(-lambda x)。然后likelihood is their product and find the lambda that maximizes the likelihood.

有个疑问是这里的概率密度和概率可以直接相乘然后找最优解吗?如果全是概率密度或者全是概率相乘可以理解,但是如何证明两者混在一起也是对的呢?