谷歌DS电面分享

lsx9981 · 18 November 2018 23:06

面完google DS 电面。分享面经

如果有个software engineer 跑一个model，本来预期significant 的一个feature 结果显示不显著。是什么原因，怎么解释
follow-up, 如何选择feature
一个dataset, with two columns. 第一列是click, 0 或者1，第二列是cost, 是连续值。 average cost per click = sum of cost / sum of click. 问如何给出average cost per click 的置信区间（hint：没有公式可算）
问了好多遍, 我后来理解下来是这样，不清楚对不对：100 bundle of purchases, 有三种models of cars. 知道每个bundle 的total price, 和每种车的数量，问如何估计price for each model.

DMGY · 18 November 2018 23:07

Taylor expansion is an alternative: http://www.stat.cmu.edu/~hseltman/files/ratio.pdf

lsx9981 · 18 November 2018 23:08

我觉得第一题是colinearity。第二题方法应该比较多，不过肯定最后都是cross validation 检验。第三题我说的bootstrapping, 他说如果数据量很大的话bootstrapping 计算量比较大，有没有alternative

ft77886 · 18 November 2018 23:09

以下是我能想到的思路，不知道对不对

training data 太少，或者model overfitting
cross validation
bootstraping 取随机样本
没看懂…

cq999999 · 18 November 2018 23:09

谢谢楼主分享。我是刚面完，攒人品

hero · 18 November 2018 23:10

请问下lz第三题是怎么一个思路啊？

lsx9981 · 18 November 2018 23:11

希望你有好消息！

byd6540 · 18 November 2018 23:12

Is the cost of no click 0? If no you can just bootstrap those w/ click = 1, matched with 0s (only contribute to denominator as a rate ) to speed up.

bm18369 · 18 November 2018 23:13

Mark 一下多谢分享

0572C · 18 November 2018 23:13

感谢楼主分享！Mark下来

cute_penguin · 18 November 2018 23:14

第三题是不是也可以用average cost per click = average of cost / average of click，之后average of cost 和average of click 都是normal，可以算average cost per click 的variance