谷歌DS电面分享

面完google DS 电面。分享面经

  1. 如果有个software engineer 跑一个model,本来预期significant 的 一个feature 结果显示不显著。是什么原因,怎么解释
  2. follow-up, 如何选择feature
  3. 一个dataset, with two columns. 第一列是click, 0 或者1, 第二列是cost, 是连续值。 average cost per click = sum of cost / sum of click. 问如何给出average cost per click 的置信区间 (hint:没有公式可算)
  4. 问了好多遍, 我后来理解下来是这样,不清楚对不对:100 bundle of purchases, 有三种models of cars. 知道每个bundle 的total price, 和每种车的数量,问如何估计price for each model.

Taylor expansion is an alternative: http://www.stat.cmu.edu/~hseltman/files/ratio.pdf

我觉得第一题是colinearity。第二题方法应该比较多,不过肯定最后都是cross validation 检验。第三题我说的bootstrapping, 他说如果数据量很大的话bootstrapping 计算量比较大,有没有alternative

以下是我能想到的思路,不知道对不对

  1. training data 太少,或者model overfitting
  2. cross validation
  3. bootstraping 取随机样本
  4. 没看懂…

谢谢楼主分享。我是刚面完,攒人品

请问下lz第三题是怎么一个思路啊?

希望你有好消息!

Is the cost of no click 0? If no you can just bootstrap those w/ click = 1, matched with 0s (only contribute to denominator as a rate ) to speed up.

Mark 一下 多谢分享

感谢楼主分享!Mark下来

第三题是不是也可以用average cost per click = average of cost / average of click,之后average of cost 和average of click 都是normal,可以算average cost per click 的variance