年底谷歌数据科学家昂赛

Silbak · 2 January 2020 00:45

不得不说谷歌家的DS职位其实面试设计还是挺科学的，四轮面试，一轮coding，一轮概率，一轮假设检验，一轮open problem modeling…而且其实地里DS面经不少，其实遇到别人面过的重复题目几率比面SDE还是高不少的。。。

第一轮，一个硕士学校的校友ABC, 简短寒暄。之后开始问题：
1）假如X, Y, Z三个变量分别都服从正态分布，如何检验X, Y, Z jointly 服从正态分布？
2）假设一个data generator 不停generate range [0,1]的数。有人声称这个generator生成数据是随机生成的。。如何检验是不是随机的？
3）老题，第二拍卖定价。假设A和B竞拍。A和B竞价高者获得物品，但是是按价格较低者的报价获得物品。对于A来说，每次知道自己的报价，但是只有赢得物品拍卖时候，才能观测到对手的报价。如果报价低于对方的时候，是不知道的。。。假设作为Player A, 知道Player B的竞拍价钱服从一个exponential distribution with parameter lambda… 然后A和B假设竞拍了100次，作为A，你能观测到的就是这100次你每次的出价，每次是否获胜。以及获胜时，所需付出的价格（即Player B的出价）。如何通过这些data和Player B的竞拍策略服从exponential distribution来估计Player B的参数lambda…

第二轮，一个中国大哥主要面概率
有1到N N个数，从中随机抽取第1个数，第2个数无放回。如果第2个数小于1第1个数，就停止。如果第2个数大于第1个数，就可以继续抽取，直到抽出的数x(n) 小于上一轮抽到的数x(n-1). 假设这个随机生成数列为X，求X的长度的期望。
第二题，OLS的基本假设条件，如果data所有点都多了一份拷贝，那么估计参数，估计参数方差会如何变化？
第三题，辛普森悖论是什么，为什么会出现这个问题?

第三轮，被韩国大哥坑。因为这一轮突然换成video面试，然后出现了技术问题，导致只面了25分钟。这轮本来是一个coding题目。但是我实在看不懂这个题目。。说假设从一个大data population里面做subsampling, 然后我可以生成一个关于subsample的confidence intervals. 做100次subsample可以生成100个confidence intervals…假设现在我能观测到这100个confidence intervals, 如何估计整个data population的confidence interval。。。20分钟太短，题目又太晦涩难懂，导致这轮做的非常的不舒服。。。

第四轮，一个open business problem…机器学习题目。如何设计Google在第三方网站投放网页。应该展示什么广告，类似于做一个广告推荐系统。。

欢迎大家讨论。。

Gary_Zhang · 3 January 2020 18:44

对第三题的一些思考：假设A和B的bidding分别为x，y。当A > B时，density for B: lambda * exp(- lambda y)。当A < B时，probability for B: exp(-lambda x)。然后likelihood is their product and find the lambda that maximizes the likelihood.

有个疑问是这里的概率密度和概率可以直接相乘然后找最优解吗？如果全是概率密度或者全是概率相乘可以理解，但是如何证明两者混在一起也是对的呢？