A/B test遇到的问题及解决方法—读IT公司对A/B test最新paper

A/B test是data scientist面试当中一个重要的考察方向。虽然原理简单,但实际应用当中会有不少问题。13家科技公司多名工作人员就这一问题发表了最新paper。
下面让我来试着总结一下。

  1. 关于metric的制定需要一个OEC(OVERALL EVALUATION CRITERION) METRIC。制定统计量本来就不是个容易的事。
    比如 search vs. browsing 的评价标准就不一样,比如不同teams product goals 不一样, 比如变化了标准怎么来检验,要不要用machine learning来制定,制定了怎么解释?

  2. HTE(HETEROGENIETY IN TREATMENT EFFECTS)
    E[\tau | X] treatment effect与实验当中的其他变量并不独立,这样得出了在不同X上效果截然相反的情况。虽然现实当中不一定相反,但已经直接影响了实验的可靠性。这时我们可以对X的不同值做分别解析。例如根据 market/country, user activity level, device & platform, time and day of week, and product specific 划分。
    这里面会遇到 computation scale, low SNR, multiple testing, interpretable and memorable等等问题。可以用on-demand or scheduled, sparse modeling, and merge segments等方法来解决。

  3. Long term effect
    通常实验不会超过两周,但遇到需要长期运行的实验怎么办呢?
    遇到的问题有: short develpment cycles, incurs engineering cost, non-persistent user tracking and interactions 等。 可以找proxies, model user learning, 找 surrogates。本质上就是把长期效果用其他相关变量来代替。

  4. network interaction
    这里面主要通过各公司的案例来解释了,主要有
    Producer and Consumer Model, Known Influence Network Model, One-to-One Communication, Market Effects, Multiple Identities for the Same Person
    大家可以具体阅读。

  5. interaction b/w experiments
    很多时候都是100个实验在同时跑,那怎么避免互相干扰呢?主要是把数据划分为不同的 numberlines or layers。 这样不同的实验在不同数据上跑。

文中还提到了一些其他如怎么培养公司有experiment design文化,怎么培训人员等问题,不太适合我们现阶段考虑,就不在这里展开了。
文章的链接请戳这里。感兴趣的话读一读。

3 Likes

非常感谢分享!

谢谢分享!