A/B test遇到的问题及解决方法—读IT公司对A/B test最新paper

lsx9981 · 19 June 2019 21:25

A/B test是data scientist面试当中一个重要的考察方向。虽然原理简单，但实际应用当中会有不少问题。13家科技公司多名工作人员就这一问题发表了最新paper。
下面让我来试着总结一下。

关于metric的制定需要一个OEC(OVERALL EVALUATION CRITERION) METRIC。制定统计量本来就不是个容易的事。
比如 search vs. browsing 的评价标准就不一样，比如不同teams product goals 不一样，比如变化了标准怎么来检验，要不要用machine learning来制定，制定了怎么解释？
HTE(HETEROGENIETY IN TREATMENT EFFECTS)
E[\tau | X] treatment effect与实验当中的其他变量并不独立，这样得出了在不同X上效果截然相反的情况。虽然现实当中不一定相反，但已经直接影响了实验的可靠性。这时我们可以对X的不同值做分别解析。例如根据 market/country, user activity level, device & platform, time and day of week, and product specific 划分。
这里面会遇到 computation scale, low SNR, multiple testing, interpretable and memorable等等问题。可以用on-demand or scheduled, sparse modeling, and merge segments等方法来解决。
Long term effect
通常实验不会超过两周，但遇到需要长期运行的实验怎么办呢?
遇到的问题有： short develpment cycles, incurs engineering cost, non-persistent user tracking and interactions 等。可以找proxies, model user learning, 找 surrogates。本质上就是把长期效果用其他相关变量来代替。
network interaction
这里面主要通过各公司的案例来解释了，主要有
Producer and Consumer Model, Known Influence Network Model, One-to-One Communication, Market Effects, Multiple Identities for the Same Person
大家可以具体阅读。
interaction b/w experiments
很多时候都是100个实验在同时跑，那怎么避免互相干扰呢？主要是把数据划分为不同的 numberlines or layers。这样不同的实验在不同数据上跑。

文中还提到了一些其他如怎么培养公司有experiment design文化，怎么培训人员等问题，不太适合我们现阶段考虑，就不在这里展开了。
文章的链接请戳这里。感兴趣的话读一读。

cherry-nancy · 4 October 2019 20:04

非常感谢分享！

DavidYo · 22 February 2020 11:38

谢谢分享！