谷歌DS店面过经

noun · 6 November 2019 08:00

上周五面的狗家DS engineering店面，今天recruiter打电话通知过了

a) 给出x1, … xn sample, 怎么estimate population mean的standard error
b) 如果要估计population median, 怎么计算，这里要把boostrap步骤，公式都写出来
地里的老题变种：
a) y = x1 + x2 linear regression, 如果 x3 = x1+x2, x4=x1-x2, new regression y = x3 + x4, prediction一样吗？
b) 如果加了complex regularization ,prediction还一样吗？ x1, x2 highly dependent or independent?
地里老题：
a) 1000个人跑步， top100 and bottom100再跑步第二地会怎么样：clarify问题他们的成绩都是iid的，那么就是regression to mean
b) 如果现在有一种energy drink，假设可以提高跑步成绩，问怎么测试
coding: sqrt(1), sqrt(2) … sqrt(99), 求odd and even entries分别的sum: python只需要写三行。

noun · 6 November 2019 08:00

谢谢lz分享
想请教两个问题
第一个bootstrap的公式，这里的公式是具体指什么呢？code还是怎么用bootstrap的结果算sd？
另外那个高频的regression题，加了regulation的情况下，是从matrix的角度来回答吗？谢谢！

对，就是用bootstrap的结果算sd, 让我在google share doc上写出来，写清楚。
关于regularization的问题，我的回答是结果不一样，因为不是面经题，我回答的时候心里很虚，我就想了极限情况，就是x1 and x2 highly correlated, 那么lasso, ridge肯定会让结果不一样，至于一般情况，我当时的回答是minimize loss function不再是一个linear problem,所以结果不一样，后来面完以后用python试了一下，确实不一样了，具体怎么回答到最好我也不知道。

noun · 6 November 2019 08:01

恭喜楼主，我也上周五面得，没收到电话估计凉凉了，第三题我也碰到了，让我从causal effect的角度说，这是老题么，我怎么从来没见过，应该咋答啊。。

这题我看过第一问，第二问我是最后一刻才想到答案的，difference in difference, energy drink要给top100, 因为regression to mean，top100第二次比会平均成绩变差，bottom100第二次会平均成绩变好

noun · 6 November 2019 08:01

第二题我觉得加L2 penalty一样，因为都是在eigen vector旋转过的方向上加penalty。L1会不一样

我在python里做过ridge regression的实验，预测结果也是不一样的，我也想过图像旋转的问题，但没有想通

Jianan_Song · 12 January 2020 23:34

这个跑步的题目没听明白再说什么，可以帮忙具体说一下吗？或者给一个出处的链接？感谢！