谷歌DS店面过经

上周五面的狗家DS engineering店面,今天recruiter打电话通知过了

  1. a) 给出x1, … xn sample, 怎么estimate population mean的standard error
    b) 如果要估计population median, 怎么计算,这里要把boostrap步骤,公式都写出来
  2. 地里的老题变种:
    a) y = x1 + x2 linear regression, 如果 x3 = x1+x2, x4=x1-x2, new regression y = x3 + x4, prediction一样吗?
    b) 如果加了complex regularization ,prediction还一样吗? x1, x2 highly dependent or independent?
  3. 地里老题:
    a) 1000个人跑步, top100 and bottom100再跑步第二地会怎么样:clarify问题他们的成绩都是iid的,那么就是regression to mean
    b) 如果现在有一种energy drink,假设可以提高跑步成绩,问怎么测试
  4. coding: sqrt(1), sqrt(2) … sqrt(99), 求odd and even entries分别的sum: python只需要写三行。

谢谢lz分享
想请教两个问题
第一个bootstrap的公式,这里的公式是具体指什么呢?code还是怎么用bootstrap的结果算sd?
另外那个高频的regression题,加了regulation的情况下,是从matrix的角度来回答吗?谢谢!

对,就是用bootstrap的结果算sd, 让我在google share doc上写出来,写清楚。
关于regularization的问题,我的回答是结果不一样,因为不是面经题,我回答的时候心里很虚,我就想了极限情况,就是x1 and x2 highly correlated, 那么lasso, ridge肯定会让结果不一样,至于一般情况,我当时的回答是minimize loss function不再是一个linear problem,所以结果不一样,后来面完以后用python试了一下,确实不一样了,具体怎么回答到最好我也不知道。

恭喜楼主,我也上周五面得,没收到电话估计凉凉了,第三题我也碰到了,让我从causal effect的角度说,这是老题么,我怎么从来没见过,应该咋答啊。。

这题我看过第一问,第二问我是最后一刻才想到答案的,difference in difference, energy drink要给top100, 因为regression to mean,top100第二次比会平均成绩变差,bottom100第二次会平均成绩变好

第二题 我觉得加L2 penalty一样,因为都是在eigen vector旋转过的方向上加penalty。L1会不一样

我在python里做过ridge regression的实验, 预测结果也是不一样的,我也想过图像旋转的问题,但没有想通

这个跑步的题目没听明白再说什么,可以帮忙具体说一下吗?或者给一个出处的链接?感谢!