数据科学DS面试准备经验总结

楼主从去年10月份开始系统复习准备DS analytics方向的面试,在准备过程中在地里学习了很多前人的面试经验,也被推荐了很多很有效的资源,非常喜欢这个论坛的气氛。现在找工结束,想发一些自己准备面试以及面试的经验(心得和反思都有)来回报地里。因为签了NDA,不太方便透露具体的面试题还请大家见谅,但是会举一些自己在面试中遇到的问题和自己的思考,欢迎大家一起探讨。

先报一下自己最近这波找工作的情况,因为比较忙所以没有海投,不然连猎头电话都打不过来了:

简历拒:uber,pinterest,snapchat,dropbox,glassdoor

店面挂:linkedin(技术二面)

onsite挂:quora,microsoft

onsite加面挂:facebook(对不起我热心内推积 极提建议的舍友啊TAT)

offer:thumbtack(PA),google(BA和PA两个ladder),airbnb (DS Analytics)

和很多小伙伴一样,我这次主要的方向是analytics track,准备的方面也是依据这个track的要求进行的,分为以下几个方面:

(1)Product Sense:

被很多人推荐的cracking the PM interview里关于behavior的章节我看了三遍,estimation,product和case三个章节我看了至少五遍吧,最开始的时候几乎每面一个公司的每一轮面试前都会看一遍,听上去看了挺多遍的其实看到后几遍就很快,看到一个标题大致就知道这个部分说的是什么了,主要的目的是过一遍思路,让自己的思维在面试前活起来。我觉得其实很多产品题面试的时候卡壳但是面试后多花时间想一想就有解了,产品题之所以难,在我看来部分原因是思路容易受面试时紧张心态的限制发散不开,面试前过一遍,确定自己脑子里有什么武器至少对我来说还是很有用的。

其他推荐的材料我自己看过的还有case in point,这个因为case太多了我只看了两遍,但其实这本书在解决case study(不是product question)上比cracking 我觉得要简单好用,里面的体系很有说服力,例子又多,不只能让你知道what is working,也能告诉你what is not working。

除此之外,每面试一家公司之前,推荐一定要上地里看面经,一定要在纸上多写几道产品题的答案。我当时面fb的时候在纸上写了25道产品题的自己的答案,面linkedin的时候也准备了15道,虽然最后这两家都g了,但是对我如何把资料和课程里的东西内化起了不可替代的作用, 后期面狗家和空气床的时候其实是没有什么面经的,面试的时候也没有面经题,但是前期F和L的准备沉淀下来了,被问到的题自己没见过也没有很虚。

(2)SQL:

这个比较简单粗暴,Leetcode的sql我刷过至少5遍,hankerank我刷过3遍,基本上就没问题了。需要提醒大家的是如果你有一阵子没刷了,一定要再刷一下,手会生的。

(3)Python manipulation & cleaning:

在这波面试前,我其实是不太会用python做数据处理和可视化的,如果小伙伴中有跟我一样的人,我觉得我用的这些资源真的都非常好,后来面试的时候甚至又不止一次要我现场用电脑处理数据做可视化提建议,用过以下资源表示完全不虚:

(3.1) udemy python for Data Science and machine learning bootcamp:

https://www.udemy.com/pythonfordatascienceandmachinelearningbootcamp/learn/v4/t/lecture/5733448?start=0

这个资源我只看了前半部分关于数据处理和可视化的但是看了两遍(第二遍是快进式刷的),非常系统地教了pandas和seaborn

(3.2)datacamp:

里面有关于pandas,matplotlib和seaborn从入门到精通所有相关的课程,我都上了,和udemy相互印证以后,基本上就有了一个比较清楚的概念了。

(4)ABTesting:

udacity上的那门AB testing的课是入门的利器,第一次上那门课的时候仿佛打开了一扇新世界的大门。但是其实那门课很多细节是没有讲清楚的(至少我自己没听明白),比如没有涉及t test,没有讲清楚variability, bootstrap, AA test的意义,怎么在实验设计阶段应对learning effect, network effect,和其他一些corner case。 所以我觉得这门课入门很好,但是绝对是不够的。

(5)统计:

我17年初面过一次FB,那个时候自己还挺菜的店面就gg了。但是当时FB的面试准备资料里share的那个练习网站真的是神器,https://brilliant.org/ 网址是这个,面过FB的小伙伴应该都知道。我当时一度迷上这个网站了,在里面做题做了好久,遇到自己不会的题或者一些比较经典的题就在纸上记录下来,前前后后做了多少道肯定记不清了,但是笔记上有大概50道。除此之外我也会看地里的统计部分的面经,遇到自己不会的知识点就上网找,一遍都能有答案,然后会吧问题和答案也记在同一个地方。之前提到的Datacamp也是一个很重要的资源,里面有一些关于统计分布,experimentation方面的课程,我是从那些课程里第一次系统地学习并练习了了泊松分布,指数部分,permutation和bootstrap的。

最后提一个courseera上的课,也是地里的小伙伴分享的,我觉得能很清楚地帮我们理解一些看似很基础但其实很重要而大多数人不清楚的统计概念,比如random sampling和random assignment,violate each对结果的影响是什么。https://www.coursera.org/learn/probabilityintro/home/welcome

(6)Machine Learning:

这个部分地里的推荐都挺好的,我自己只上过Andrew Ng的courseera和sebastian的udacity。除此之外还上了datacamp里关于xgboost的专题讲解。我觉得Analytics Track的面试,有这些应该就够用了。

(7)Algorithm:

我没在这个部分上花太多的时间,只刷了leetcode上最高频的50道easy和medium level的题三遍,没想到居然又不止一次在面试中遇到过,也是走运。这波找工完了之后我接下来应该会找时间系统地学习一下数据结构和算法然后好好刷刷题,以后希望能做个growth engineer。

准备的材料就是这些了 ,接下来想说一说我实际在面试中发现自己做的好的地方以及暴露出来的一些问题,这里会涉及三个方面:behavior,product & case question以及take home challenge

  1. Behavior:

这个部分是一个容易被忽视的部分,但是如果你连自己都聊不清楚,其实会让面试官,尤其是hiring manger对敢不敢用你挺犹豫的。我在这

块绝大多数时候表现的是非常不错的,方法就是找几个大的topic,每个topic下面准备好故事,把故事写出来,不断地思考细节,不断地思考

怎么少说废话,不断地思考怎么条理清楚。我准备的大topic有以下几个:

(1) Leadership and how to influence others

(2) A hard challenge faced and How to solve it

(3) A true failure and how to turn it around

(4) A proud success made with team together

这里重中之重的关键是少说废话,有一个behavior 很好的模板叫S(Situation).T(Task).A(Action).R(Result)可以用来frame几乎所有的behaviroral 和culture fit的素材。在准备的时候一定要强调你做了什么,如果你能够量化结果的花那就更优秀了。

  1. Product & Case Question

讲这个话题前要先吹一波Facebook,他家对define product & case question的定义和分类让我觉得非常make sense。在我看来IT界(不是咨询界)所有的product和case question到最后都可以被归纳到fb的两轮product 面试之下: Product Interpretation和Applied Data。

第一个内容的最终落脚点一般都是find a metrics to evaluate XXX。这个要求我们明白产品的用户,用户的问题,产品如何帮助用户解决问题,进而明确用户的goal,公司的goal,最后作为DS,我们的任务是找到metrics去quantify这些goal。 每一个公司,因为业务模式不同,最后都会一个独特但唯一的north star metrics。在面试之前,想清楚这个metrics是什么和为什么是这个在我看来是很重要的。在面试之中,当我们clarify了scope和ambiguous term之后,也应该按照步骤一步一步地和面试官讨论,把问题,产品的solution,goal这些东西都一步一步地聊出来。有的人建议先confirm goal,但是我觉得goal是在你和面试官都align了问题和产品后才能聊得出来的东西,这个大家如果有不同意见欢迎讨论。但是总结来说,这个部分的产品题,需要我们花时间去了解产品,然后一步步地去聊出面试官问你的问题的context。

在选择metrcis的时候,一定要清楚地描述分子分母,你的unit of diversion是什么,你aggregate 的time frame是什么。另外要注意的是,metrics分为三种,short term metrics, long term metrics 和 counter metrics。第一种的特点是见效快但是描述的记过不够核心,第二个的特点就正好反过来了,比如FB的CTR就是ST, retention rate 就是LT。 counter metrics是为了描述一些你不愿意看到的负向变化的。比如在FB feed里放更多的视频,你的time spend可能长了,但是你的engagement可能就会下降,因为视频是passive consume的产品,你很喜欢未必会点赞或者评论。

关于appiled data,楼主自己其实也做得不太好,fb得onsite加面的就是这一轮。这里主要就说说自己的理解和遇到的问题。 这一大类的问法都是what data would you use to XXX (我在后面会沿用同样的格式),让你brainstrom用什么data去解决问题,也就是考察在实际工作中 operationalize data的能力。这里可以考察的点有很多,我争取每一个自己能想到的点都举一个我自己面试的一个实例出来供大家讨论:

(1) what data would you use to 描述impact?

e.g 某平台上突然在某一个时间点上有人说出现了 很多的fake news,现在让我很短的时间出一个给VP level的报告用来描述该事件的影响。

楼主在被问到这个题的第一反应是VP level的人想要care什么impact,然后就会去想这个平台care什么impact,就去套top line metrics 比如说engagement和retention。后来面试完才发现这里漏了一个点:事件本身的影响范围究竟有多大? 这个平台上有多少fake news 在被产生?有多少个view是fake news? 有多少用户看到了fake news? 后来得到的结论是,当面对影响类的问题时,在你描述它引发的问题之前,你的第一责任应该是描述问题的scope,或者引用UX Designer经常会问的一个问题:先要搞清楚这是不是一个问题。

(2)what data would you use to signal something/find something?
e.g 某平台希望你找出business travller
回答这一类问题,我觉得先要做一些功课:想想这个产品有什么类型的第一方数据,每一个类型的数据下面有可能有什么数据,比如这个例子里,我觉得我们能获得的有用户数据,用户关系数据,用户产品使用数据,以及在使用产品时留下的源数据(metadata:e.g device,ip,gps etc)。然后有时间的话,我会再想想我能怎么吧某个数据汇总,或者吧多个数据联系起来产生某种信息,这样就多了一些derivative data points。遇到类似问题的时候就可以了调用你的信息库了。还有一个比较有用的思路是我们除了找 ‘肯定能证实的信息’,也可以找 ‘肯定能证伪的信息’。

说回这个具体的问题,首先因为是business traveller,当然就要有job。 然后关于travel,我当时选择的是先找出用户的根据地,这个可以用用户信息中的地址和用户访问源数据的最经常访问的gps和ip来结合定位。然后用gps和ip确定用户在距离足够长的地方登陆的频率,根据percentile的threshold来判断。面试完发现,这个答案是有问题的。首先,我们对相当一部分用户收集不到他们的gps和ip信息,其次我们判断的方式完全没有validation,最后我们利用的信息太少了。所以我个人的结论是:对于这类问题,不要只用analytics的方式去解决,应该要有ML, 应该要花时间去validate并人工label一些数据,然后invovle更多的feature。

(3)what data would you use to find the reason behind a increase & decrease of a certain metrics?

e.g 某手机应用商店发现某日的应用下载量下降了,怎么找原因?

这个问题在cracking the pm interview 里有,地里的小伙伴也总结过不止一次。今天我想基于我看到的所有对这类问题的解法给一个自己认为比较全面的解:

  1. 在解决这类问题前要 先明白,数据在这里能提供的帮助大概率不是提供最后能用来和你的同事&面试官讨论的结论,而且提供让你们找到结论的context

  2. 我们需要了解以下 几个方面的“context”:

    2.1
    trend:sudden change or gradual c hange?
    seasonality?if so, maybe its normal
    any special event happened internally or externally?(new PR, new launch,system outage, new marketing campaign from competitors)

    2.2 breakdown the target metrics:
    这个问题里面,download是一个 funnel的结果,在download之前,有访问,点击,下载,下载完成这几个步骤,每一个步骤都有绝对的量和转化率两个数字需要关注。还有一个metrics本身就是ratio,那么就要从分子分母两个方面做类似于funnel的拆解。

    2.3 analyze segments:
    by country, by OS, by OSV, by desktop/mobile/ , etc.
    每分析一个segment,需要关注的点有两个,一个是这个变 化是发生在一个segment option上的,还是全options都在变化。另一个是不同segment之间的比例有没有变化,这里涉及的就是confounding和simpton paradox的问题了。

  3. 很多人做完2就结束了,我觉得当我们获得了足够的context之后,应该要和面试官再聊一下基于这些context,我们应该去找谁validate什么assumption。

  4. Data Challenge

关于这个部分,我觉得下面这个帖子已经说得非常到位了


博士 全职@Facebook 猎头 其他 | Pass/Offer | 在职跳槽

先说一下自己的情况,本人主要面Data Science analytics职位,做过的题目基本都是简单的模型+如何做AB test+如何做产品改善推荐这种类型的题目。不是machine learning相关的职位。做过湾区多家热门独角兽公司的data challenge,之前每战必败,现在通过率100%。做多了发现都是套路,所以希望自己的经验可以帮助在寻找data方面工作的战友们

好了废话完了,马上进入正题。这种take home data challenge的难点在于问题比较开放性+时间限制。短则3-4个小时,长的最多一周。下面我来说一下前期准备工作,以及拿到题目后如何短时间内把握住要领,写出面试官满意的报告来。

下面先说一下前期准备:

  1. 代码熟练:不管是sql,或者r, python,随便你选,但是一定要选你用的比较熟练的。因为你要短时间内完成数据分析+写报告,如果代码不熟练的话可能做不完。建议可以先准备一些模版,比如画图的,做模型的,做ab test的。我用的python,所以画图都是seaborn + matplotlib, 需要建模一律用random forest from h2O package。这里强烈推荐h2O random forest,自带auto bin的功能,解决了 categorical level多的问题。不需要将 categorical variable 转化成numerical(对于python同学来说), 不需要impute missing value。至于我为什么只用random forest, 下面会讲到

  2. 预习一些题目:这里推荐买这本书 “A Collection of Data Science TakeHome Challenges”。我以前买的时候可以单独买这本书,50块,现在好像得买整个package,有些小贵。这本书主要是给了几个例子,以及用r来做的详细解答。非常好的参考例子,我就是看了这个书以后才开窍的

下面言归正传,题目拿到手以后改咋办:

  1. 明确产品的目标: 一般都会给你描述一个产品,比如某社交网络公司想提高 rentention rate , 某电商公司想提高conversion rate。你下面的所有的分析一定要围绕这个目标来做。这个说起来容易,但是很多同学题目拿到手,都会脑补很多东西,想的太多了,反倒无从下手。建议就从跟产品目标最直观的开始分析

  2. 定义metrics:在清楚了产品的目标以后,哪些metrics可以用来衡量产品的成功与否呢。对于互联网产品,基本都是从user acquisition, retention, engagement. monetization 相关的这些目标来定义metrics的。多了解用户使用产品的漏斗模型 (AAARRR)。然后定义metrics的时候思考产品特点以及目标,往漏斗模型上面靠,每一层应该用什么metrics来衡量。可以看这篇科普的:
    http://startitup.co/guides/374/aarrrstartupmetrics

  3. 数据清理:也就是所谓的data cleaning。基本就是看看哪些变量的missing value太多了,或者某个变量只有一个level。这种情况下可以去掉那些没什么用的数据。另外如果你用h2O random forest建模,不用去impute missing value。

  4. 提取跟产品目标相关的变量:比如uber想提高driver rentention rate,你拿到数据后,看一下每个变量都什么意思,想想哪些变量有可能跟目标相关。下面说一下我遇到的比较普遍的需要做一些data munipulation的相关变量
    a. 时间变量:可以提取day of week, month, time of the day这种变量。还有一些time difference, 比如user sign up date,first time use this product,这里面的时间差也就是用户登记后多久开始使用产品,这也会是一个很重要的变量。
    b. 需要求平均值,次数求和这种变量:比如一周内使用了多少次产品,平均每次花了多少钱
    c. 去掉跟结果直接相关的变量:比如某个变量跟结果是显而易见的相关,虽然加入这个变量你的模型预测准确度达到99.9999%,但是对于你后面做的产品推荐没有任何意义。比如某电商想看看用户的哪些行为能够促使最后花钱买产品,有个变量是是否到了check out页面。很显然用户到了check out 页面,购买的意向就已经很高了。在建模的时候要去掉这个变量,因为不用分析就知道这个变量重要。

  5. 如何鉴别重要的变量:一般的问题都是让你鉴别哪些变量对结果影响最大。选3-4个重要变量即可,千万不要把所有的都分析了,因为你没有时间!下面说两种我常用的方法
    a. 看分布:比如你觉得time difference是个很重要的变量,可以画个box plot,或者histogram,分别对retain and churn的人做图
    b. 直接用模型:根据模型结果看feature importance。我只用random forest。因为第一我建模的目的只是为了看哪个变量重要,并不需要很精确的预测;第二用h2O的random forest基本不用调试,结果就很不错了;第三我觉得random forest在鉴别feature importance比别的模型要好,因为它每次是取所有变量的一个子集来建立决策树,所以每个决策树选的变量都不太一样。最后平均下来看哪个feature最重要。感觉这种算法更可靠一些。不过哪种模型不重要,关键你把重要的变量选出来就好。这里提示一点:千万不要花时间去把模型调的很精确,只要模型结果可以接受就行。因为你是在做分析,你的重点是在做后面的产品改进推荐

  6. 产品改进推荐:也是最最最重要的一点!很多同学做模型啊,分析啊做的天花乱坠,然后都挂在这步了。一定要记住一点,你的模型是为了产品推荐用的,不是为了production用的。比如你发现用户登记以后越快使用你的产品,他们的rentention越高,那么就要想办法如何让用户尽快使用你的产品。你不能只说让用户尽快使用产品,要给出更具体的建议。比如给登记的用户发promotion,第一次购买可以便宜一些。有的职位偏重AB test,会问你接下来如何设计实验来测量你的推荐的有效性

  7. 实验设计:必看资料是udacity上面的AB test by Google https://www.udacity.com/course/abtestingud257. 一般做题目常用的无非就是test mean difference or proportional difference ( t and z test), 上面都讲的很清楚应该如何做,如何选sample size。下面简要说一下如何分析结果
    a. 影响有多大:也就是what is the opportunity sizing. 这一点很重要,如果你的产品推荐只会对很少一部分人有影响,比如小于5%,那么你这个推荐是没有用的。但是有一个特例就是如果你那5%的人可以带来好几个million的收入增加,那么还是值得做的。
    b. 分析比较结果:比较爱问的问题有
    (1) Is this amount of lift enough? 比如做实验后发现有2% lift,这个结果好不好?这种题目一般就要看2% lift带来的实际影响,比如2%带来了几个million的收入的增加,那么就是好的。
    (2) Metric A going up, Metric B going down, should we still launch this product? 一般看哪个是最重要的metric,另外就是有些metric需要时间长一些才能看出来。比如某个社交网络的用户参与度增加了但是用户增长变慢了,假设这个产品改善后是希望增加用户的参与度。这种情况就要考虑network effect,随着用户的参与度的增加,用户的connection也会受到影响,久而久之他们也会变成日活或者月活的用户。

分析做完了,写报告应该注意啥:

  1. 思路清晰,言简意赅:看似是废话,但是很多同学,包括我以前,都恨不得做个特别复杂完美的图跟表格,然后展示给面试官我的技术有多牛掰。其实他们更看重的是你的分析是不是通俗易懂,非technical的人能不能一看你的图或者分析就知道怎么回事了。

  2. 图文并茂:这里强烈推荐大家都鄙视的excel作图功能,个人觉得比seaborn, ggplot, matplotlib都好用多了。也许是因为我代码能力不强,改个图得debug半天,还经常弄不出自己想要的效果,但是用excel简直是神器,轻松做出非常专业的图来,改起来也很方便。我一般简单的图,比如boxplot, heatmap,用seaborn这种直接出,但是要做一些复杂的cohort analysis,就上excel了。

  3. 不要写的太长:很多同学把data challenge当成论文来写,弄个几十页的报告,把能分析的都分析了一遍,结果还挂了。因为人家面试官根本没有时间看你的论文报告。确保他们花10-15分钟时间能把你的分析跟结论看懂。

我现在能想到的就这么多。最后总结一下主要步骤: 明确产品目标, 定义相关metrics,建模去预测关键指标,模型结果对产品改进有啥建议。希望这篇总结能对正在战斗或者打算战斗的战友们有点帮助。


楼主在这里就只是加一点个人的经验总结,希望对大家有帮助。如果让我用一句话总结,analytics的Data Challenge该怎么做的话,应该是:

Do as much as analysis as you can,but only showcase the most valuable findings in a framed way。

这里有三个层面的意思:

(1) 天马行空地去brainstrom,从最直接能想到的点去分析,到开始尝试一些需要思考才能想到的点,想到什么就分析什么,看看数据会不会带给你惊喜。

(2) 判卷子的人最在乎的是你这一通分析对别人的价值,不太在乎你做的多辛苦,所以不要吧自己熬了几个晚上做的所有东西都写进报告里。报告里的东西越少越好,但你要在你的分析中找出那些是对解决问题最后价值的,按次序有选择地showcase你的deliverable。

(3) 如何frame solution? 我的看法是:describe图表 --> 总结出insights --> 给 recommendation。describution,insight,recommendation是一个完整的逻辑闭环,它能帮助批卷子的人很快地明白了发现了什么,总结出了什么,并且依据你的总结准备建议出什么。

4 Likes

非常感谢。我自己的一些Product Question的套路。

  1. 大化小。很多类型的题都会涉及到。比如第一个fake news的题,就是大化小的问题。因为有辛普森paradox的存在,所以大很难看到问题所在,只有化小才能看到问题在哪里。比如第三题找下载量下降原因,也可以大化小,找到哪个segment出了问题再对症下药。有点像医生给人看病的意思。还有一种大化小就是长期的变短期的。把一个长期的Goal Metrics给他找一个有高关联度的短期Proxy,可以用Machine Learning的方式找,也可以用AB,User Research等。

  2. 分子分母。任何的rate相关metrics的都会有分子和分母,metrics跌了可以是两部分原因,分母变大或者分母变小。然后各自原因可以展开,用大化小的思路继续找症结所在,在看内部问题还是外部问题。还有一个就是当metrics下降的时候,也可能是因为前一天的metrics很高,今天只是回归正常,可以通过看历史数据,看最近的trend判断。

  3. 内部问题和外部问题。几乎所有的东西都可以分内在和外在,都可以靠这两个角度去找问题,找解决方案等等。fake news 本身就可以按这个思路答,内部就是大化小和下面的一些metrics,外加一个可能的bug,外部就是市场,对手,大事件和时间因素,外加可以user research直接问用户。第三题也可以用到。

  4. AARRR Metrics + Journal Map。就是对于metrics的很好的思考方法。Metrics本身要Precise, 比如不能只看click,要precise到click per person per day酱紫,要scale好。所有需要metrics的地方都可以用AARRR + 用户是怎么在产品上过funnel的,就基本不会漏掉什么。

  5. Features。这块就是对数据的感觉,每个公司都有自己的数据,这里受楼主很大启发,明天我也brainstorm整理一下即将面的公司的feature。一个通用的formula就是,从用户数据的几个类型出发。Demographic,Browsing behavior(device, IP, browser…), Engagement on the site(用户所有的操作),Membership/LTV(会员,注册时间,重度用户),怎么进来的(Channel, Search keyword, Ads, Link, Referral),Network属性(朋友圈,朋友圈直接的关联度,community属性)。结合AARRR就基本都能搞定。

  6. Machine Learning。毕竟还是DS,不用白不用,ML真的有很多牛逼的功能可以用到。有了上面这么多的Metrics当Features,还有各种角度找到的feature,只要定义好问题,ML非常好用。

  • Supervised就可以用来建立各种可以找到tag类模型,或者通过建模找到Feature Imprtance看谁的影响力大。比如第二题,可以靠survey tag,或者人工label,像楼主说的那样。第一题也可以,把fake news 和其他metrics链接,看fake news 对我们goal metrics 的历史影响,或者历史上什么feature 影响fake news,可以帮助我们得到更多信息,跟直接分析相比,ML是预测长期影响的。第三题也可以用ML,找到下载量和其他feature的关系,在看模型的结果和实际数据,偏差不大说明模型的重要feature在发挥作用,可以直接去看,偏差大说明是个outlier,继续走outlier相关的分析(SVM,LOF,Clustering)。
  • Unsupervised可以各种clustering,outlier detection,embedding。Fake news可以用到,把fake news特征cluster出来,再去看他的相关特征是什么引起的。第二题也可以靠cluster,在看哪个cluster business traveller密集。第三题可以cluster 我们的用户,看哪类用户不好好下载东西,对症下药。
  • NLP太好使了。不得不说最近NLP大火是有原因的,可以做很多附加分的东西。找到用户谈论最多的topic,找到sentiment激烈的点,看用户整体的满意度,看看哪里有bug。算是额外的feature可以用在各种分析或者模型里。第一题可以用NLP找fake news,看人们的反应,有没有因为fake news骂公司的,在看他们有没有真的不玩了。第二题直接找Topic 关键字,跟business travel有关的,也可以帮我们tag 用户缩小范围。第三题下载量问题,可以用NLP看最近的review,或者看bug区有没有反应下载不了之类的问题。
  1. AB testing and Other。AB testing 也是和ML一样无比强大的Tool。强推Udacity的AB testing课。在有什么hypothesis提出之后,往往都要做ab testing确认一下比较好。除了AB testing就是user research,包括要feedback,focus group,suervey。这是可以通过准确的target或者分层采样之后获得用户反馈的很省钱的方法。比如Churn analysis,用户不玩了,就去问问问题在哪里。

非常感谢楼主分享。写这么多主要是自己练一下,整理一下思路。多谢

1 Like

一般遇到题我是这么使用自己的Tool的:

先搞清楚产品是什么,用户是什么,产品和用户的关系(Painkiller? Vitamin? Me Too?)

  1. Goal & metrics是什么。公司的Goal往往是grow。看AARRR找Goal Metrics。
  2. 分子分母问题/大化小问题
  3. 内部问题:
    • 看能不能用上Journal Map,分析好每个funnel可能出的问题
    • 所有Feature分析一通,所有metrics玩一玩
    • ML能用就用
  4. 外部问题:
    • 看市场,对手,时间因素
  5. 下一步:如何验证咱做的对。AB testing,user research。